GSP123

Visão geral
Com o Cloud Dataproc, um serviço Spark e Hadoop gerenciado, você pode usar ferramentas de dados de código aberto para processamento em lote, consultas, streaming e machine learning. A automação do Cloud Dataproc facilita a criação e o gerenciamento de clusters. Ela também gera economia porque permite desativar os clusters que não estão em uso. Com menos tempo e dinheiro gastos com administração, você pode focar nos jobs e dados.
Este laboratório é uma adaptação do guia Criar um cluster do Dataproc usando o console do Google Cloud.
O que você vai aprender
- Como criar um cluster gerenciado do Cloud Dataproc com o Apache Spark pré-instalado.
- Como enviar um job do Spark
- Como encerrar o cluster
Configuração e requisitos
Antes de clicar no botão Começar o Laboratório
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
- Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento.
No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
-
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
-
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
-
Clique em Próxima.
-
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
-
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud.
Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
-
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.
Permissão para a conta de serviço
Para atribuir a permissão de armazenamento à conta de serviço, o que é necessário para criar um cluster, faça o seguinte:
-
Acesse Menu de navegação > IAM e administrador > IAM.
-
Clique no ícone de lápis da conta de serviço compute@developer.gserviceaccount.com.
-
Clique no botão + ADICIONAR OUTRO PAPEL e selecione Administrador de armazenamento.
Depois disso, clique em Salvar.
Tarefa 1: criar um cluster do Cloud Dataproc
- No console, abra o Menu de navegação (
) > Ver todos os produtos. Na seção Análise, clique em Dataproc.

- Para criar um novo cluster, clique em Clusters > Criar cluster. Na caixa de diálogo, selecione Criar em Cluster no Compute Engine.

- Você pode configurar muitos parâmetros ao criar um cluster. Defina os valores dos parâmetros listados abaixo e deixe as configurações padrão para os outros parâmetros:
| Parâmetro |
Valor |
| Nome |
|
| Região |
|
| Zona |
|
| Clique em "Configurar nós", para "Nó do administrador": tipo de disco principal |
Disco permanente padrão |
| Nó do administrador: série |
E2 |
| Nó do administrador: tipo de máquina |
|
| Nó de trabalho: tamanho do disco principal |
100 |
| Nó de trabalho: tipo de disco principal |
Disco permanente padrão |
| Nó de trabalho: série |
E2 |
| Nó de trabalho: tipo de máquina |
|
| Clique em "Personalizar cluster", para "Apenas IP interno" |
Desmarque a opção Configure todas as instâncias para que tenham apenas endereços IP internos
|
- Clique em Criar para criar o novo cluster. O status vai mudar de "Provisionamento" para "Em execução". Quando a saída for semelhante a esta, você poderá passar para a próxima etapa:

Testar a tarefa concluída
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa, vai receber uma pontuação de avaliação.
Criar um cluster do Cloud Dataproc.
Tarefa 2: enviar um job do Spark para o cluster
- Selecione Jobs e mude para a visualização de jobs do Dataproc:

- Clique em Enviar job:

- Defina os valores dos parâmetros listados abaixo e deixe as configurações padrão para os outros parâmetros:
| Parâmetro |
Valor |
| Região |
|
| Cluster |
|
| Tipo de job |
|
| Classe principal ou jar |
|
| Arquivos jar |
|
| Argumentos |
|
- Clique em Enviar.
Seu job é exibido na lista "Jobs", que mostra os jobs do projeto com os respectivos clusters, tipos e status atuais. O novo job aparece como "Em execução". Continue quando o status mudar para "Concluído".
Testar a tarefa concluída
Clique em Verificar meu progresso para conferir a tarefa realizada. Se você concluiu a tarefa, receberá uma pontuação de avaliação.
Enviar um job do Spark para o cluster.
- Para ver a saída do job concluído, clique no ID do dele na lista Jobs:

- Para evitar a rolagem, selecione Quebra de linha e defina como ATIVADO:

Você verá que o seu job calculou um valor aproximado para pi com sucesso.
Tarefa 3: encerrar o cluster
- Você pode encerrar um cluster na página "Clusters":

- Marque a caixa de seleção ao lado do cluster qlab e clique em Excluir:

- Clique em CONFIRMAR para excluir.
Tarefa 4: testar seus conhecimentos
Responda às perguntas de múltipla escolha a seguir para reforçar sua compreensão dos conceitos abordados neste laboratório. Use tudo o que você aprendeu até aqui.
Parabéns!
Você aprendeu a criar um cluster do Dataproc, enviar um job do Spark e encerrar o cluster.
Próximas etapas / Saiba mais
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 7 de abril de 2025
Laboratório testado em 7 de abril de 2025
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.