Instruções e requisitos de configuração do laboratório

Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Introdução ao Cloud Data Fusion

Laboratório 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Introdutório

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

Visão geral
Configuração
Tarefa 1: ativar a API Cloud Data Fusion
Tarefa 2: criar uma instância do Cloud Data Fusion
Tarefa 3: navegar pela interface do Cloud Data Fusion
Tarefa 4: implantar um pipeline de amostra
Tarefa 5: visualizar o pipeline
Tarefa 6: executar o pipeline
Tarefa 7: conferir os resultados
Parabéns!
Finalize o laboratório

Este conteúdo ainda não foi otimizado para dispositivos móveis.

Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

Logotipo dos laboratórios autoguiados do Google Cloud

Visão geral

Neste laboratório, você vai aprender a criar uma instância do Data Fusion e implantar um pipeline de amostra fornecido. O pipeline lê um arquivo JSON contendo dados de best-sellers do NYT do Cloud Storage. O pipeline executa transformações no arquivo para analisar e limpar os dados. Por fim, carrega um subconjunto dos registros no BigQuery.

Objetivos

Neste laboratório, você vai aprender a:

Criar uma instância do Data Fusion
Implantar um pipeline de amostra que executa algumas transformações em um arquivo JSON e filtra os resultados correspondentes no BigQuery

Configuração

Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.

Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.

Fazer login no console do Google Cloud

Na guia ou janela do navegador desta sessão de laboratório, copie o arquivo Nome de usuário do painel Detalhes da conexão e clique no botão Abrir console do Cloud.

Observação: se precisar escolher uma conta, clique em Usar outra conta.

Cole o nome de usuário e a senha quando solicitado.
Clique em Próxima.
Aceite os Termos e Condições.

Como a conta é temporária, ela só dura até o final deste laboratório:

não adicione opções de recuperação;
não se inscreva em avaliações gratuitas.

Assim que o console abrir, clique no menu de navegação () no canto superior esquerdo para acessar a lista de serviços.

Menu de navegação

Ativar o Cloud Shell

O Cloud Shell é uma máquina virtual que contém ferramentas para desenvolvedores. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud. O Cloud Shell oferece aos seus recursos do Google Cloud acesso às linhas de comando. A gcloud é a ferramenta ideal para esse tipo de operação no Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

No painel de navegação do Console do Google Cloud, clique em Ativar o Cloud Shell ().
Clique em Continuar.
O provisionamento e a conexão do ambiente podem demorar um pouco. Quando esses processos forem concluídos, você já vai ter uma autenticação, e o projeto estará definido com seu PROJECT_ID. Por exemplo:

Terminal do Cloud Shell

Exemplo de comandos

Liste o nome da conta ativa:

gcloud auth list

(Saída)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(Exemplo de saída)

Credentialed accounts: - google1623327_student@qwiklabs.net

Liste o ID do projeto:

gcloud config list project

(Saída)

[core] project = <project_ID>

(Exemplo de saída)

[core] project = qwiklabs-gcp-44776a13dea667a6

Para ver a documentação completa do gcloud, consulte a visão geral da ferramenta de linha de comando gcloud.

Verifique as permissões do projeto

Antes de começar a trabalhar no Google Cloud, confira se o projeto tem as permissões corretas no Identity and Access Management (IAM).

No Console do Google Cloud, acesse o menu de navegação () e clique em IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com está na lista e recebeu o papel de editor. O prefixo da conta é o número do projeto, que pode ser encontrado em Menu de navegação > Visão geral do Cloud.

Conta de serviço padrão do Compute

Se a conta não estiver no IAM ou não tiver o papel de editor, siga as etapas abaixo.

No Menu de navegação do console do Google Cloud, clique em Visão geral do Cloud.
No card Informações do projeto, copie o Número do projeto.
No Menu de navegação, clique em IAM e administrador > IAM.
Na parte superior da página IAM, clique em Adicionar.
Para Novos principais, digite:

{project-number}-compute@developer.gserviceaccount.com

Substitua {project-number} pelo número do seu projeto.

Em Selecionar um papel, selecione Básico (ou Projeto) > Editor.
Clique em Salvar.

Tarefa 1: ativar a API Cloud Data Fusion

No console do Cloud, no Menu de navegação, selecione APIs e serviços > Biblioteca.
Na caixa de pesquisa, digite Data Fusion para encontrar a API Cloud Data Fusion e clique no hiperlink.
A API já está ativada. Clique em Gerenciar e depois em Desativar API. Confirme Desativar.
Depois que a API for desativada, clique em Ativar para reativá-la.

Tarefa 2: criar uma instância do Cloud Data Fusion

No console do Cloud, no Menu de navegação, clique em Ver todos os produtos. Em Análise, selecione Data Fusion.
Clique no link Criar uma instância na parte de cima da seção para criar uma instância do Cloud Data Fusion.
Na página Criar instância do Data Fusion que é carregada:

a. Insira um nome para a instância (como cdf-lab-instance). Em região, selecione us-central1.

b. Em Edição, selecione Basic

c. Clique em Conceder permissão, se necessário.

d. Clique no ícone de menu suspenso ao lado de Opções avançadas, em Monitoramento e geração de registros avançados, marque a caixa de seleção Geração de registros do Cloud Dataproc.

e. Deixe os outros campos como estão e clique em Criar.

Clique em Verificar meu progresso para conferir o objetivo. Criar uma instância do Cloud Data Fusion

Observação: a criação da instância leva cerca de 10 minutos. Enquanto espera, assista esta apresentação sobre o Cloud Data Fusion do Next '19, começando no minuto 15:31. Volte e confira sua instância de vez em quando. Você pode terminar de assistir ao vídeo depois que o laboratório for concluído.

Observação : este laboratório tem um limite de tempo, e você vai perder seu trabalho quando o tempo acabar.

Em seguida, conceda permissões à conta de serviço associada à instância, de acordo com as etapas a seguir.

Clique no nome da instância. Na página "Detalhes da instância", copie a Conta de serviço do Dataproc para a área de transferência.

Conta de serviço destacada na página "Detalhes da instância"

No console do Cloud, acesse IAM e admin > IAM.
Na página de permissões do IAM, clique em +Conceder acesso.
No campo "Novos principais", cole a conta de serviço.
Clique no campo "Selecionar um papel" e digite Agente de serviço da API Cloud Data Fusion, e selecione essa opção.
Clique em Salvar.

Clique em Verificar meu progresso para conferir o objetivo. Adicionar um papel de agente de serviço da API Cloud Data Fusion à conta de serviço

Tarefa 3: navegar pela interface do Cloud Data Fusion

Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a interface separada do Cloud Data Fusion.

No console do Cloud, é possível criar e excluir instâncias do Cloud Data Fusion e visualizar os detalhes da instância do Cloud Data Fusion.
Na interface da web do Cloud Data Fusion, é possível usar as várias páginas, como o Pipeline Studio ou o Wrangler, para acessar a funcionalidade do Cloud Data Fusion.

Para navegar na interface do Cloud Data Fusion, siga estas etapas:

No console do Cloud, retorne para o Menu de navegação > Data Fusion.
Clique no link Exibir instância próximo da instância do Data Fusion. Selecione suas credenciais do laboratório para fazer login e, se necessário, marque a caixa de seleção ao lado de Gerenciar seus dados do Google Service Control. Clique em Continuar.

Link "Exibir instância" destacado

Se o serviço oferecer um tour, clique em Agora não. Você agora deve estar usando a interface do Cloud Data Fusion.
A interface da web do Cloud Data Fusion tem o próprio painel de navegação à esquerda para navegar até a página necessária.

Tarefa 4: implantar um pipeline de amostra

Os canais de amostra estão disponíveis usando o Hub do Cloud Data Fusion, que permite compartilhar soluções, plug-ins e pipelines reutilizáveis do Cloud Data Fusion.

Na interface da web do Cloud Data Fusion, clique em HUB no canto superior direito.

Link do HUB destacado

No painel esquerdo, clique em Pipelines.
Clique no pipeline do Guia de início rápido do Cloud Data Fusion e depois em Criar no pop-up que aparece.

Bloco do Guia de início rápido do Cloud Data Fusion destacado na página "Pipelines"

No painel de configuração do Guia de início rápido do Cloud Data Fusion, clique em Concluir.
Clique em Personalizar pipeline. Uma representação visual do pipeline é exibida no Pipeline Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis estão listados à esquerda, e o pipeline é exibido na área da tela. Para explorar o pipeline, mantenha o ponteiro sobre cada nó do pipeline e clique no botão Propriedades exibido. O menu de propriedades de cada nó permite visualizar os objetos e as operações associadas ao nó.

Observação : um nó em um pipeline é um objeto conectado em uma sequência para produzir um gráfico acíclico dirigido. Por exemplo, origem, coletor, transformação, ação etc.

Pipeline Studio mostrando uma representação visual do pipeline

No menu superior direito, clique em Implantar. Isso envia o pipeline para o Cloud Data Fusion. Você vai executar o pipeline na próxima seção.

ícone da implantação

Tarefa 5: visualizar o pipeline

O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:

Visualizar a estrutura e configuração do pipeline.
Executar o pipeline manualmente ou configurar uma programação ou um gatilho.
Ver um resumo das execuções históricas do pipeline, incluindo ambientes de execução, registros e métricas.

Visualização de detalhes do pipeline

Tarefa 6: executar o pipeline

Na visualização de detalhes do pipeline, clique em Executar na parte superior central para executar o pipeline.

Observação: quando você executar um pipeline, o Cloud Data Fusion provisiona um cluster temporário do Dataproc, executa o pipeline no cluster usando o Apache Hadoop MapReduce ou Apache Spark e exclui o cluster. Quando o pipeline muda para o estado Em execução, é possível monitorar a criação e a exclusão do cluster do Dataproc. Esse cluster existe apenas enquanto o pipeline durar.

Observação: se o status do pipeline falhar, execute-o novamente.

Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.

Pipeline concluído com status de sucesso e número de registros processados por cada nó

Clique em Verificar meu progresso para conferir o objetivo. Implantar e executar um pipeline de amostra

Tarefa 7: conferir os resultados

O pipeline grava a saída em uma tabela do BigQuery. Você pode verificar isso seguindo estas etapas.

Clique para abrir este link para a interface do BigQuery no console do Cloud ou clique com o botão direito do mouse na guia do console, selecione Duplicar e use o Menu de navegação para selecionar o BigQuery.
No painel à esquerda, clique no ID do projeto (que começa com qwiklabs).
No conjunto de dados GCPQuickstart do projeto, clique na tabela top_rated_inexpensive e execute uma consulta simples, como:

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10

Resultados da consulta

Clique em Verificar meu progresso para conferir o objetivo. Conferir o resultado

Parabéns!

Neste laboratório, você aprendeu a criar uma instância do Data Fusion e implantar um pipeline de amostra que lê um arquivo de entrada do Cloud Storage, transforma e filtra os dados para gerar um subconjunto dos dados no BigQuery.

Finalize o laboratório

Após terminar seu laboratório, clique em End Lab. O Qwiklabs removerá os recursos usados e limpará a conta para você.

Você poderá avaliar sua experiência neste laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Submit.

O número de estrelas indica o seguinte:

1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito

Feche a caixa de diálogo se não quiser enviar feedback.

Para enviar seu feedback, fazer sugestões ou correções, use a guia Support.

Manual atualizado em 3 de março de 2025

Laboratório testado em 3 de março de 2025

Copyright 2020 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Introdução ao Cloud Data Fusion

Visão geral

Objetivos

Configuração

Fazer login no console do Google Cloud

Ativar o Cloud Shell

Exemplo de comandos

Verifique as permissões do projeto

Tarefa 1: ativar a API Cloud Data Fusion

Tarefa 2: criar uma instância do Cloud Data Fusion

Tarefa 3: navegar pela interface do Cloud Data Fusion

Tarefa 4: implantar um pipeline de amostra

Tarefa 5: visualizar o pipeline

Tarefa 6: executar o pipeline

Tarefa 7: conferir os resultados

Parabéns!

Finalize o laboratório

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório