Instruções e requisitos de configuração do laboratório

Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Análise de dados sem servidor com o Dataflow: um pipeline simples do Dataflow (Python)

Laboratório 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Avançado

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

Visão geral
Objetivo
Configuração
Tarefa 1: verifique se a API Dataflow está ativada
Tarefa 2: preparação
Tarefa 3: filtragem do pipeline
Tarefa 4: execute o pipeline localmente
Tarefa 5: execute o pipeline na nuvem
Finalize o laboratório

Este conteúdo ainda não foi otimizado para dispositivos móveis.

Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

Visão geral

Neste laboratório, você vai abrir um projeto do Dataflow, usar a filtragem do pipeline e executar o pipeline localmente e na nuvem.

Abra o projeto do Dataflow
Filtragem do pipeline
Execute o pipeline localmente e na nuvem

Objetivo

Neste laboratório, você aprenderá a gravar um pipeline simples do Dataflow e a executá-lo localmente e na nuvem.

Configurar um projeto do Dataflow em Python usando o Apache Beam
Criar um pipeline simples no Python
Executar a consulta na máquina local
Executar a consulta na nuvem

Configuração

Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.

Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.

Verifique as permissões do projeto

Antes de começar a trabalhar no Google Cloud, veja se o projeto tem as permissões corretas no Identity and Access Management (IAM).

No console do Google Cloud, em Menu de navegação (), selecione IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com está na lista e recebeu o papel de editor. O prefixo da conta é o número do projeto, que está no Menu de navegação > Visão geral do Cloud > Painel.

Nome da conta de serviço padrão e status do editor do Compute Engine destacados na página com a guia "Permissões"

Observação: se a conta não estiver no IAM ou não tiver o papel de editor, siga as etapas abaixo.

No console do Google Cloud, em Menu de navegação, clique em Visão geral do Cloud > Painel.
Copie o número do projeto, por exemplo, 729328892908.
Em Menu de navegação, clique em IAM e administrador > IAM.
Clique em Permitir acesso, logo abaixo de Visualizar por principais na parte de cima da tabela de papéis.
Em Novos principais, digite:

{número-do-projeto}-compute@developer.gserviceaccount.com

Substitua {project-number} pelo número do seu projeto.
Em Papel, selecione Projeto (ou Básico) > Editor.
Clique em Save.

Tarefa 1: verifique se a API Dataflow está ativada

Para ter acesso à API Dataflow, reinicie a conexão.

No Console do Cloud, insira API Dataflow na barra de pesquisa da parte de cima.
Clique no resultado para API Dataflow.
Selecione Gerenciar.
Clique em Desativar API.
Se for necessário confirmar, clique em Desativar.
Selecione Ativar.

Tarefa 2: preparação

Abra o terminal SSH e acesse a VM de treinamento

Você vai executar todos os códigos usando uma VM de treinamento selecionada.

No console, acesse o Menu de navegação () e clique em Compute Engine > Instâncias de VM.
Encontre a linha com a instância training-vm.
À direita, na coluna Conectar, clique em SSH para abrir uma janela de terminal.
Neste laboratório, você vai adicionar comandos da CLI ao training-vm.

Faça o download do repositório do código

Agora você vai fazer o download de um repositório de código para usar neste laboratório. No terminal SSH training-vm, insira o código a seguir:

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Crie um bucket do Cloud Storage

Siga estas instruções para criar um bucket.

No Console, acesse o Menu de navegação e clique em Página inicial.
Selecione e copie o ID do projeto.

Para simplificar, use o ID do projeto do Qwiklabs como o nome do bucket, afinal ele já é exclusivo globalmente.

No Console, acesse o Menu de navegação e clique em Cloud Storage > Navegador.
Selecione Criar bucket.
Especifique os valores a seguir e não altere as configurações restantes:

Propriedade	Valor (digite o valor ou selecione a opção conforme especificado)
Nome	`<nome do seu bucket exclusivo (ID do projeto)>`
Tipo de local	`Multi-region`
Local	`<Your location>`

Clique em Criar.

Grave o nome do bucket. Ele vai ser necessário nas próximas tarefas.

No terminal SSH training-vm, insira o comando a seguir para criar uma variável de ambiente chamada "BUCKET" e verifique se ela existe usando o comando "echo":

BUCKET="<your unique bucket name (Project ID)>" echo $BUCKET

É possível usar $BUCKET nos comandos do terminal. Se for necessário inserir o nome do bucket <your-bucket> em um campo de texto do console, encontre rapidamente o nome usando echo $BUCKET.

Tarefa 3: filtragem do pipeline

O objetivo deste laboratório é você conhecer a estrutura de um projeto do Dataflow e aprender a executar um pipeline do Dataflow.

Volte ao terminal SSH training-vm, acesse o diretório /training-data-analyst/courses/data_analysis/lab2/python e visualize o arquivo grep.py.

Abra o arquivo com o Nano e não faça alterações no código. Para sair do Nano, pressione Ctrl+X.

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

Você sabe responder às perguntas sobre o arquivo grep.py abaixo?

Quais arquivos estão sendo lidos?
Qual é o termo de pesquisa?
Para onde vai a resposta?

Há três transformações no pipeline:

O que a transformação faz?
O que a segunda transformação faz?
De onde vem a entrada dela?
O que ela faz com essa entrada?
O que ela escreve na resposta?
Para onde é enviada a resposta?
O que a terceira transformação faz?

Tarefa 4: execute o pipeline localmente

No terminal SSH training-vm, execute grep.py localmente.

python3 grep.py

O arquivo de saída vai ser output.txt. Se a resposta for muito grande, ela será fragmentada em partes separadas com nomes como: output-00000-of-00001.

Localize o arquivo correto examinando a hora em que ele foi criado.

ls -al /tmp

Analise os arquivos de saída.
Substitua "-*" abaixo pelo sufixo apropriado.

cat /tmp/output-*

A saída parece lógica?

Tarefa 5: execute o pipeline na nuvem

Copie alguns arquivos Java para a nuvem. No terminal SSH training-vm, insira este código:

gsutil cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

Clique em Verificar meu progresso para verificar o objetivo.

Copie arquivos Java para a Nuvem

Edite o pipeline do Dataflow em grepc.py usando o Nano.

nano grepc.py

Substitua "PROJECT" e "BUCKET" pelo ID do projeto e nome do bucket.

Strings de exemplo antes da edição:

PROJECT='cloud-training-demos' BUCKET='cloud-training-demos'

Strings de exemplo após a edição (use seus valores):

PROJECT='qwiklabs-gcp-your-value' BUCKET='qwiklabs-gcp-your-value'

Pressione Ctrl+X para salvar o arquivo e fechar o Nano, depois aperte Y e Enter.

Envie o job do Dataflow para a nuvem:

python3 grepc.py

Observação: você pode ignorar a mensagem WARNING:root:Confira se a imagem do Docker do SDK do Python criada localmente tem o interpretador do Python 3.7. Seu job do Dataflow vai ser iniciado normalmente.

Por ser um job pequeno, a execução na nuvem demora bem mais do que a execução local (de 7 a 10 minutos).

Volte para a guia do Console no navegador.
No Menu de navegação, clique em Dataflow e depois no seu job para monitorar o progresso dele.

Exemplo:

Detalhes do job do Dataflow

Clique em Verificar meu progresso para verificar o objetivo.

Envie o job do Dataflow para a Nuvem

Espere o status do job mudar para Concluído.
Examine a saída no bucket do Cloud Storage.
No Menu de navegação, clique em Cloud Storage > Navegador e depois no seu bucket.
Selecione o diretório javahelp.

Esse job gera o arquivo output.txt, e, se ele for muito grande, vai ser fragmentado em várias partes com nomes como: output-0000x-of-000y. Identifique o arquivo mais recente pelo nome ou pelo campo Última modificação.

Clique no arquivo que você quer visualizar.

Como alternativa, é possível fazer o download e abrir o arquivo usando o terminal SSH training-vm:

gsutil cp gs://$BUCKET/javahelp/output* . cat output*

Finalize o laboratório

Clique em Terminar o laboratório após a conclusão. O Google Cloud Ensina remove os recursos usados e limpa a conta por você.

Você vai poder avaliar sua experiência no laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Enviar.

O número de estrelas indica o seguinte:

1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito

Feche a caixa de diálogo se não quiser enviar feedback.

Para enviar seu feedback, fazer sugestões ou correções, use a guia Suporte.

Copyright 2026 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.

Análise de dados sem servidor com o Dataflow: um pipeline simples do Dataflow (Python)

Visão geral

Objetivo

Configuração

Verifique as permissões do projeto

Tarefa 1: verifique se a API Dataflow está ativada

Tarefa 2: preparação

Abra o terminal SSH e acesse a VM de treinamento

Faça o download do repositório do código

Crie um bucket do Cloud Storage

Tarefa 3: filtragem do pipeline

Tarefa 4: execute o pipeline localmente

Tarefa 5: execute o pipeline na nuvem

Finalize o laboratório

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório