Instruções e requisitos de configuração do laboratório

Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Análise de dados sem servidor com o Dataflow: entradas secundárias (Python)

Laboratório 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Avançado

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

Visão geral
Objetivo
Configuração
Tarefa 1: preparar
Tarefa 2: usar a consulta do BigQuery
Tarefa 3: explorar o código do pipeline
Tarefa 4: executar o pipeline
Finalize o laboratório

Este conteúdo ainda não foi otimizado para dispositivos móveis.

Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

Visão geral

Neste laboratório, você aprenderá a carregar dados no BigQuery e a executar consultas complexas. Em seguida, você vai executar um pipeline do Dataflow que processa as operações Map e Reduce, usa entradas secundárias e transmite para o BigQuery.

Objetivo

Neste laboratório, você vai aprender a usar o BigQuery como uma fonte de dados no Dataflow e os resultados de um pipeline como uma entrada secundária para um outro pipeline.

Ler dados do BigQuery no Dataflow
Usar a saída de um pipeline como entrada secundária para outro pipeline

Configuração

Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.

Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.

Verifique as permissões do projeto

Antes de começar a trabalhar no Google Cloud, veja se o projeto tem as permissões corretas no Identity and Access Management (IAM).

No console do Google Cloud, em Menu de navegação (), selecione IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com está na lista e recebeu o papel de editor. O prefixo da conta é o número do projeto, que está no Menu de navegação > Visão geral do Cloud > Painel.

Nome da conta de serviço padrão e status do editor do Compute Engine destacados na página com a guia "Permissões"

Observação: se a conta não estiver no IAM ou não tiver o papel de editor, siga as etapas abaixo.

No console do Google Cloud, em Menu de navegação, clique em Visão geral do Cloud > Painel.
Copie o número do projeto, por exemplo, 729328892908.
Em Menu de navegação, clique em IAM e administrador > IAM.
Clique em Permitir acesso, logo abaixo de Visualizar por principais na parte de cima da tabela de papéis.
Em Novos principais, digite:

{número-do-projeto}-compute@developer.gserviceaccount.com

Substitua {project-number} pelo número do seu projeto.
Em Papel, selecione Projeto (ou Básico) > Editor.
Clique em Save.

Tarefa 1: preparar

Atribua o papel de desenvolvedor do Dataflow

Se a conta não tiver o papel de Desenvolvedor de Dataflow, siga estas instruções para conceder a função necessária:

Em Menu de navegação, clique em IAM e administrador > IAM.
Selecione a conta de serviço padrão do Compute Engine {project-number}-compute@developer.gserviceaccount.com.
Clique na opção Editar (ícone de lápis no lado direito).
Clique em Adicionar outro papel.
Clique na área demarcada para Selecionar um papel. Na opção Digite para filtrar, insira e selecione Desenvolvedor de Dataflow.
Clique em Salvar.

Página "Editar permissões"

Verifique se a API Dataflow está ativada

Na barra de título do Console do Google Cloud, clique em Ativar o Cloud Shell. Se for solicitado, clique em Continuar.
Execute os seguintes comandos para garantir que a API Dataflow seja ativada corretamente no projeto. Se for solicitado, clique em Autorizar:

gcloud services disable dataflow.googleapis.com

gcloud services enable dataflow.googleapis.com

Abra o terminal SSH e acesse a VM de treinamento

Você vai executar todos os códigos usando uma VM de treinamento selecionada.

No console, acesse o menu de navegação () e clique em Compute Engine > Instâncias de VM.
Encontre a linha com a instância training-vm.
À direita, na coluna Conectar, clique em SSH para abrir uma janela do terminal. Se for solicitado, clique em Autorizar.
Neste laboratório, você vai adicionar comandos da CLI em training-vm.

Faça o download do repositório do código

Agora você vai fazer o download de um repositório de código para usar neste laboratório. No terminal SSH training-vm, insira o código a seguir:

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Crie um bucket do Cloud Storage

Siga estas instruções para criar um bucket.

No console, acesse o Menu de navegação e clique em Cloud Storage > Buckets.
Clique em Criar.
Especifique os valores abaixo e não mude as outras configurações padrão:

Propriedade	Valor (digite o valor ou selecione a opção conforme especificado)
Nome
Tipo de local > Região

Clique em Criar.
Se você receber o prompt O acesso público será bloqueado, selecione Aplicar a prevenção do acesso público neste bucket e clique em Confirmar.
No terminal SSH training-vm, insira o seguinte para criar três variáveis de ambiente: uma chamada "BUCKET", outra chamada "PROJECT" e a última chamada "REGION". Confira se as três existem usando o comando "echo":

BUCKET="{{{project_0.project_id|project_place_holder_text}}}" echo $BUCKET

PROJECT="{{{project_0.project_id|project_place_holder_text}}}" echo $PROJECT

REGION="{{{project_0.startup_script.gcp_region|region_place_holder_text}}}" echo $REGION

Tarefa 2: usar a consulta do BigQuery

No Console, acesse o Menu de navegação () e clique em BigQuery.
Se for solicitado, clique em Concluído.
Selecione + (consulta SQL) e digite a seguinte consulta:

SELECT content FROM `cloud-training-demos.github_repos.contents_java` LIMIT 10

Clique em Executar.

O que foi retornado?

A tabela cloud-training-demos.github_repos.contents_java do BigQuery possui o conteúdo (e alguns metadados) de todos os arquivos Java presentes no GitHub em 2016.

Para descobrir quantos arquivos Java essa tabela contém, insira a seguinte consulta e clique em Executar:

SELECT COUNT(*) FROM `cloud-training-demos.github_repos.contents_java`

Quantos arquivos existem nesse conjunto de dados?

Você quer processar esse conjunto de dados localmente ou na nuvem?

Tarefa 3: explorar o código do pipeline

Volte ao terminal SSH training-vm, acesse o diretório /training-data-analyst/courses/data_analysis/lab2/python e visualize o arquivo JavaProjectsThatNeedHelp.py.

Abra o arquivo com o Nano e não faça alterações no código. Para sair do Nano, pressione Ctrl+X.

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano JavaProjectsThatNeedHelp.py

Consulte o diagrama abaixo ao ler o código. O pipeline tem esta aparência:

Diagrama do pipeline

Responda às seguintes perguntas:

Analisando a documentação da classe na parte superior, qual é a finalidade desse pipeline?
De onde vem o conteúdo?
O que o lado esquerdo do pipeline faz?
O que o lado direito do pipeline faz?
O que o ToLines faz? Dica: examine o campo de conteúdo do resultado do BigQuery.
Por que o resultado de ReadFromBQ é armazenado em uma classe PCollection nomeada em vez de ser transmitido diretamente para outra etapa?
Quais são as duas ações realizadas na PCollection gerada por ReadFromBQ?
Se o arquivo tem 3 FIXMEs e 2 TODOs (em linhas diferentes) no próprio conteúdo, quantas chamadas de ajuda estão associadas a ele?
Se um arquivo está no pacote com.google.devtools.build, quais são os pacotes associados a ele?
popular_packages e help_packages são PCollections nomeadas e elas são usadas na etapa "Scores" (entradas secundárias) do pipeline. Qual delas é a entrada principal e qual é a entrada secundária?
Qual é o método usado na etapa "Scores"?
A entrada secundária será convertida em qual tipo de dados Python na etapa "Scores"?

Observação: a versão Java desse programa é um pouco diferente da versão Python. O SDK para Java aceita AsMap e o SDK para Python não, mas aceita AsDict. No Java, a PCollection é convertida em "View" como uma etapa preparatória antes de ser usada. No Python, a conversão da PCollection ocorre na etapa em que ela é usada.

Tarefa 4: executar o pipeline

No programa, especifique os valores de "BUCKET" e "PROJECT" e "REGION" e se você quer executar o pipeline localmente, usando --DirectRunner, ou na nuvem, usando --DataFlowRunner.
Execute o pipeline localmente inserindo o seguinte no terminal SSH training-vm:

python3 JavaProjectsThatNeedHelp.py --bucket $BUCKET --project $PROJECT --region $REGION --DirectRunner

Observação: se algum aviso como 'BeamDeprecationWarning' for mostrado, ignore e continue.

Depois que a execução do pipeline terminar, no Menu de navegação (), clique em Cloud Storage > Buckets e selecione seu bucket. Você vai encontrar os resultados na pasta javahelp. Clique no objeto Result para ver a saída.
Execute o pipeline na nuvem inserindo o seguinte no terminal SSH training-vm:

python3 JavaProjectsThatNeedHelp.py --bucket $BUCKET --project $PROJECT --region $REGION --DataFlowRunner

Observação: se algum aviso como 'BeamDeprecationWarning' for mostrado, ignore e continue.

Volte para a guia do console no navegador. No Menu de navegação (), clique em Mostrar todos os produtos e selecione Dataflow na seção "Análise".
Clique no job para monitorar o progresso.
Depois que a execução do pipeline terminar, no Menu de navegação (), clique em Cloud Storage > Buckets e selecione seu bucket. Você vai encontrar os resultados na pasta javahelp. Clique no objeto Result para ver a saída. O nome do arquivo é o mesmo, mas a hora de criação dele é mais recente.

Clique em Verificar meu progresso para ver o objetivo. Execute o pipeline

Finalize o laboratório

Clique em Terminar o laboratório após a conclusão. O Google Cloud Ensina remove os recursos usados e limpa a conta por você.

Você vai poder avaliar sua experiência no laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Enviar.

O número de estrelas indica o seguinte:

1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito

Feche a caixa de diálogo se não quiser enviar feedback.

Para enviar seu feedback, fazer sugestões ou correções, use a guia Suporte.

Copyright 2026 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.

Análise de dados sem servidor com o Dataflow: entradas secundárias (Python)

Visão geral

Objetivo

Configuração

Verifique as permissões do projeto

Tarefa 1: preparar

Atribua o papel de desenvolvedor do Dataflow

Verifique se a API Dataflow está ativada

Abra o terminal SSH e acesse a VM de treinamento

Faça o download do repositório do código

Crie um bucket do Cloud Storage

Tarefa 2: usar a consulta do BigQuery

Tarefa 3: explorar o código do pipeline

Tarefa 4: executar o pipeline

Finalize o laboratório

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório