Neste laboratório, você vai aprender a criar uma instância do Data Fusion e implantar um pipeline de amostra fornecido.
O pipeline lê um arquivo JSON contendo dados de best-sellers do NYT do Cloud Storage. O pipeline executa transformações no arquivo para analisar e limpar os dados. Por fim, carrega um subconjunto dos registros no BigQuery.
Objetivos
Neste laboratório, você vai aprender a:
Criar uma instância do Data Fusion
Implantar um pipeline de amostra que executa algumas transformações em um arquivo JSON e filtra os resultados correspondentes no BigQuery
Configuração
Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.
Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.
Fazer login no console do Google Cloud
Na guia ou janela do navegador desta sessão de laboratório, copie o arquivo Nome de usuário do painel Detalhes da conexão e clique no botão Abrir console do Cloud.
Observação: se precisar escolher uma conta, clique em Usar outra conta.
Cole o nome de usuário e a senha quando solicitado.
Clique em Próxima.
Aceite os Termos e Condições.
Como a conta é temporária, ela só dura até o final deste laboratório:
não adicione opções de recuperação;
não se inscreva em avaliações gratuitas.
Assim que o console abrir, clique no menu de navegação () no canto superior esquerdo para acessar a lista de serviços.
Ativar o Cloud Shell
O Cloud Shell é uma máquina virtual que contém ferramentas para desenvolvedores. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece aos seus recursos do Google Cloud acesso às linhas de comando. A gcloud é a ferramenta ideal para esse tipo de operação no Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.
No painel de navegação do Console do Google Cloud, clique em Ativar o Cloud Shell ().
Clique em Continuar.
O provisionamento e a conexão do ambiente podem demorar um pouco. Quando esses processos forem concluídos, você já vai ter uma autenticação, e o projeto estará definido com seu PROJECT_ID. Por exemplo:
Antes de começar a trabalhar no Google Cloud, confira se o projeto tem as permissões corretas no Identity and Access Management (IAM).
No Console do Google Cloud, acesse o menu de navegação () e clique em IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com está na lista e recebeu o papel de editor. O prefixo da conta é o número do projeto, que pode ser encontrado em Menu de navegação > Visão geral do Cloud.
Se a conta não estiver no IAM ou não tiver o papel de editor, siga as etapas abaixo.
No Menu de navegação do console do Google Cloud, clique em Visão geral do Cloud.
No card Informações do projeto, copie o Número do projeto.
No Menu de navegação, clique em IAM e administrador > IAM.
Na parte superior da página IAM, clique em Adicionar.
Substitua {project-number} pelo número do seu projeto.
Em Selecionar um papel, selecione Básico (ou Projeto) > Editor.
Clique em Salvar.
Tarefa 1: ativar a API Cloud Data Fusion
No console do Cloud, no Menu de navegação, selecione APIs e serviços > Biblioteca.
Na caixa de pesquisa, digite Data Fusion para encontrar a API Cloud Data Fusion e clique no hiperlink.
A API já está ativada. Clique em Gerenciar e depois em Desativar API. Confirme Desativar.
Depois que a API for desativada, clique em Ativar para reativá-la.
Tarefa 2: criar uma instância do Cloud Data Fusion
No console do Cloud, no Menu de navegação, clique em Ver todos os produtos. Em Análise, selecione Data Fusion.
Clique no link Criar uma instância na parte de cima da seção para criar uma instância do Cloud Data Fusion.
Na página Criar instância do Data Fusion que é carregada:
a. Insira um nome para a instância (como cdf-lab-instance). Em região, selecione us-central1.
b. Em Edição, selecione Basic
c. Clique em Conceder permissão, se necessário.
d. Clique no ícone de menu suspenso ao lado de Opções avançadas, em Monitoramento e geração de registros avançados, marque a caixa de seleção Geração de registros do Cloud Dataproc.
e. Deixe os outros campos como estão e clique em Criar.
Clique em Verificar meu progresso para conferir o objetivo.
Criar uma instância do Cloud Data Fusion
Observação: a criação da instância leva cerca de 10 minutos. Enquanto espera, assista esta apresentação sobre o Cloud Data Fusion do Next '19, começando no minuto 15:31. Volte e confira sua instância de vez em quando. Você pode terminar de assistir ao vídeo depois que o laboratório for concluído.
Observação : este laboratório tem um limite de tempo, e você vai perder seu trabalho quando o tempo acabar.
Em seguida, conceda permissões à conta de serviço associada à instância, de acordo com as etapas a seguir.
Clique no nome da instância. Na página "Detalhes da instância", copie a Conta de serviço do Dataproc para a área de transferência.
No console do Cloud, acesse IAM e admin > IAM.
Na página de permissões do IAM, clique em +Conceder acesso.
No campo "Novos principais", cole a conta de serviço.
Clique no campo "Selecionar um papel" e digite Agente de serviço da API Cloud Data Fusion, e selecione essa opção.
Clique em Salvar.
Clique em Verificar meu progresso para conferir o objetivo.
Adicionar um papel de agente de serviço da API Cloud Data Fusion à conta de serviço
Tarefa 3: navegar pela interface do Cloud Data Fusion
Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a interface separada do Cloud Data Fusion.
No console do Cloud, é possível criar e excluir instâncias do Cloud Data Fusion e visualizar os detalhes da instância do Cloud Data Fusion.
Na interface da web do Cloud Data Fusion, é possível usar as várias páginas, como o Pipeline Studio ou o Wrangler, para acessar a funcionalidade do Cloud Data Fusion.
Para navegar na interface do Cloud Data Fusion, siga estas etapas:
No console do Cloud, retorne para o Menu de navegação > Data Fusion.
Clique no link Exibir instância próximo da instância do Data Fusion. Selecione suas credenciais do laboratório para fazer login e, se necessário, marque a caixa de seleção ao lado de Gerenciar seus dados do Google Service Control. Clique em Continuar.
Se o serviço oferecer um tour, clique em Agora não. Você agora deve estar usando a interface do Cloud Data Fusion.
A interface da web do Cloud Data Fusion tem o próprio painel de navegação à esquerda para navegar até a página necessária.
Tarefa 4: implantar um pipeline de amostra
Os canais de amostra estão disponíveis usando o Hub do Cloud Data Fusion, que permite compartilhar soluções, plug-ins e pipelines reutilizáveis do Cloud Data Fusion.
Na interface da web do Cloud Data Fusion, clique em HUB no canto superior direito.
No painel esquerdo, clique em Pipelines.
Clique no pipeline do Guia de início rápido do Cloud Data Fusion e depois em Criar no pop-up que aparece.
No painel de configuração do Guia de início rápido do Cloud Data Fusion, clique em Concluir.
Clique em Personalizar pipeline. Uma representação visual do pipeline é exibida no Pipeline Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis estão listados à esquerda, e o pipeline é exibido na área da tela. Para explorar o pipeline, mantenha o ponteiro sobre cada nó do pipeline e clique no botão Propriedades exibido. O menu de propriedades de cada nó permite visualizar os objetos e as operações associadas ao nó.
Observação : um nó em um pipeline é um objeto conectado em uma sequência para produzir um gráfico acíclico dirigido. Por exemplo, origem, coletor, transformação, ação etc.
No menu superior direito, clique em Implantar. Isso envia o pipeline para o Cloud Data Fusion. Você vai executar o pipeline na próxima seção.
Tarefa 5: visualizar o pipeline
O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:
Visualizar a estrutura e configuração do pipeline.
Executar o pipeline manualmente ou configurar uma programação ou um gatilho.
Ver um resumo das execuções históricas do pipeline, incluindo ambientes de execução, registros e métricas.
Tarefa 6: executar o pipeline
Na visualização de detalhes do pipeline, clique em Executar na parte superior central para executar o pipeline.
Observação: quando você executar um pipeline, o Cloud Data Fusion provisiona um cluster temporário do Dataproc, executa o pipeline no cluster usando o Apache Hadoop MapReduce ou Apache Spark e exclui o cluster. Quando o pipeline muda para o estado Em execução, é possível monitorar a criação e a exclusão do cluster do Dataproc. Esse cluster existe apenas enquanto o pipeline durar.
Observação: se o status do pipeline falhar, execute-o novamente.
Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.
Clique em Verificar meu progresso para conferir o objetivo.
Implantar e executar um pipeline de amostra
Tarefa 7: conferir os resultados
O pipeline grava a saída em uma tabela do BigQuery. Você pode verificar isso seguindo estas etapas.
No painel à esquerda, clique no ID do projeto (que começa com qwiklabs).
No conjunto de dados GCPQuickstart do projeto, clique na tabela top_rated_inexpensive e execute uma consulta simples, como:
SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10
Clique em Verificar meu progresso para conferir o objetivo.
Conferir o resultado
Parabéns!
Neste laboratório, você aprendeu a criar uma instância do Data Fusion e implantar um pipeline de amostra que lê um arquivo de entrada do Cloud Storage, transforma e filtra os dados para gerar um subconjunto dos dados no BigQuery.
Finalize o laboratório
Após terminar seu laboratório, clique em End Lab. O Qwiklabs removerá os recursos usados e limpará a conta para você.
Você poderá avaliar sua experiência neste laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Submit.
O número de estrelas indica o seguinte:
1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito
Feche a caixa de diálogo se não quiser enviar feedback.
Para enviar seu feedback, fazer sugestões ou correções, use a guia Support.
Manual atualizado em 3 de março de 2025
Laboratório testado em 3 de março de 2025
Copyright 2020 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.
Os laboratórios criam um projeto e recursos do Google Cloud por um período fixo
Os laboratórios têm um limite de tempo e não têm o recurso de pausa. Se você encerrar o laboratório, vai precisar recomeçar do início.
No canto superior esquerdo da tela, clique em Começar o laboratório
Usar a navegação anônima
Copie o nome de usuário e a senha fornecidos para o laboratório
Clique em Abrir console no modo anônimo
Fazer login no console
Faça login usando suas credenciais do laboratório. Usar outras credenciais pode causar erros ou gerar cobranças.
Aceite os termos e pule a página de recursos de recuperação
Não clique em Terminar o laboratório a menos que você tenha concluído ou queira recomeçar, porque isso vai apagar seu trabalho e remover o projeto
Este conteúdo não está disponível no momento
Você vai receber uma notificação por e-mail quando ele estiver disponível
Ótimo!
Vamos entrar em contato por e-mail se ele ficar disponível
Um laboratório por vez
Confirme para encerrar todos os laboratórios atuais e iniciar este
Use a navegação anônima para executar o laboratório
Para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
Neste laboratório, você vai aprender a criar uma instância do Data Fusion e implantar um pipeline de amostra
Duração:
Configuração: 1 minutos
·
Tempo de acesso: 90 minutos
·
Tempo para conclusão: 90 minutos