Instruções e requisitos de configuração do laboratório

Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Um pipeline simples do Dataflow (Python) 2.5

Laboratório 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Introdutório

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

Visão geral
Objetivo
Configuração
Tarefa 1: Ative a API Dataflow
Tarefa 2: preparação
Tarefa 3: filtragem do pipeline
Tarefa 4: execute o pipeline localmente
Tarefa 5: execute o pipeline na nuvem
Finalize o laboratório

Este conteúdo ainda não foi otimizado para dispositivos móveis.

Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

Visão geral

Neste laboratório, você vai abrir um projeto do Dataflow, usar a filtragem do pipeline e executar o pipeline localmente e na nuvem.

Abra o projeto do Dataflow
Filtragem do pipeline
Execute o pipeline localmente e na nuvem

Objetivo

Neste laboratório, você aprenderá a gravar um pipeline simples do Dataflow e a executá-lo localmente e na nuvem.

Configurar um projeto do Dataflow em Python usando o Apache Beam
Criar um pipeline simples no Python
Executar a consulta na máquina local
Executar a consulta na nuvem

Configuração

Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.

Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.

Ative o Google Cloud Shell

O Google Cloud Shell é uma máquina virtual com ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud.

O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

No console do Cloud, clique no botão "Abrir o Cloud Shell" na barra de ferramentas superior direita.
Clique em Continuar.

O provisionamento e a conexão do ambiente podem demorar um pouco. Quando você estiver conectado, já estará autenticado, e o projeto estará definido com seu PROJECT_ID. Exemplo:

ID do projeto em destaque no terminal do Cloud Shell

A gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

Para listar o nome da conta ativa, use este comando:

gcloud auth list

Saída:

Credentialed accounts: - @.com (active)

Exemplo de saída:

Credentialed accounts: - google1623327_student@qwiklabs.net

Para listar o ID do projeto, use este comando:

gcloud config list project

Saída:

[core] project =

Exemplo de saída:

[core] project = qwiklabs-gcp-44776a13dea667a6

Observação: a documentação completa da gcloud está disponível no guia com informações gerais sobre a gcloud CLI .

Verifique as permissões do projeto

Antes de começar a trabalhar no Google Cloud, veja se o projeto tem as permissões corretas no Identity and Access Management (IAM).

No console do Google Cloud, em Menu de navegação (), selecione IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com está na lista e recebeu o papel de editor. O prefixo da conta é o número do projeto, que está no Menu de navegação > Visão geral do Cloud > Painel.

Nome da conta de serviço padrão e status do editor do Compute Engine destacados na página com a guia "Permissões"

Observação: se a conta não estiver no IAM ou não tiver o papel de editor, siga as etapas abaixo.

No console do Google Cloud, em Menu de navegação, clique em Visão geral do Cloud > Painel.
Copie o número do projeto, por exemplo, 729328892908.
Em Menu de navegação, clique em IAM e administrador > IAM.
Clique em Permitir acesso, logo abaixo de Visualizar por principais na parte de cima da tabela de papéis.
Em Novos principais, digite:

{número-do-projeto}-compute@developer.gserviceaccount.com

Substitua {project-number} pelo número do seu projeto.
Em Papel, selecione Projeto (ou Básico) > Editor.
Clique em Save.

Tarefa 1: Ative a API Dataflow

Execute este bloco de código no Cloud Shell:

gcloud services disable dataflow.googleapis.com --force gcloud services enable dataflow.googleapis.com

Tarefa 2: preparação

Abra o terminal SSH e acesse a VM de treinamento

Você vai executar todos os códigos usando uma VM de treinamento selecionada.

No console, acesse o Menu de navegação () e clique em Compute Engine > Instâncias de VM.
Encontre a linha com a instância training-vm.
À direita, na coluna Conectar, clique em SSH para abrir uma janela de terminal.
Neste laboratório, você adicionará comandos da CLI em training-vm.

Faça o download do repositório de código

Faça o download de um repositório de código para usar neste laboratório. No terminal SSH training-vm, insira o código a seguir:

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Crie um bucket do Cloud Storage

Siga estas instruções para criar um bucket.

No console, acesse o Menu de navegação e clique em Cloud Storage > Buckets.
Clique em Criar.
Especifique os valores abaixo e não mude as outras configurações padrão:

Propriedade	Valor (digite o valor ou selecione a opção conforme especificado)
Nome
Tipo de local	Multirregional

Clique em Criar.
Se você receber o prompt Public access will be prevented selecione Enforce public access prevention on this bucket e clique em Confirmar.

Grave o nome do bucket. Ele vai ser usado nas próximas tarefas.

No terminal SSH training-vm, insira o comando abaixo para criar uma variável de ambiente chamada "BUCKET" e verifique se ela existe usando o comando "echo":

BUCKET="{{{project_0.project_id|project_place_holder_text}}}" echo $BUCKET

É possível usar $BUCKET nos comandos do terminal. Se for necessário inserir o nome do bucket <your-bucket> em um campo de texto do console, encontre rapidamente o nome usando echo $BUCKET.

Tarefa 3: filtragem do pipeline

O objetivo deste laboratório é você conhecer a estrutura de um projeto do Dataflow e aprender a executar um pipeline do Dataflow.

Volte ao terminal SSH training-vm, acesse o diretório /training-data-analyst/courses/data_analysis/lab2/python e visualize o arquivo grep.py.
Abra o arquivo com o Nano. Não faça alterações no código:

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

Para sair do Nano, pressione Ctrl+X.

Você sabe responder às perguntas sobre o arquivo grep.py abaixo?

Quais arquivos estão sendo lidos?
Qual é o termo de pesquisa?
Para onde vai a resposta?

Há três transformações no pipeline:

O que a transformação faz?
O que a segunda transformação faz?
De onde vem a entrada dela?
O que ela faz com essa entrada?
O que ela escreve na resposta?
Para onde vai a resposta?
O que a terceira transformação faz?

Tarefa 4: execute o pipeline localmente

No terminal SSH training-vm, execute grep.py localmente:

python3 grep.py

Observação: se algum aviso for mostrado, ignore.

O arquivo de saída vai ser output.txt. Se a resposta for muito grande, ela será fragmentada em partes separadas com nomes como: output-00000-of-00001.

Localize o arquivo correto examinando a hora em que ele foi criado:

ls -al /tmp

Analise os arquivos de saída.
Substitua "-*" abaixo pelo sufixo apropriado:

cat /tmp/output-*

A saída parece lógica?

Tarefa 5: execute o pipeline na nuvem

Copie alguns arquivos Java para a nuvem. No terminal SSH training-vm, insira este código:

gcloud storage cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

Edite o pipeline do Dataflow em grepc.py usando o Nano.

nano grepc.py

Substitua PROJECT, BUCKET e REGION pelos valores listados abaixo. Mantenha as aspas simples externas.

PROJECT='{{{project_0.project_id|project_place_holder_text}}}'

BUCKET='{{{project_0.project_id|project_place_holder_text}}}'

REGION='{{{project_0.startup_script.gcp_region|region_place_holder_text}}}'

Salve o arquivo e feche o Nano pressionando CTRL+X, depois Y e Enter.

Envie o job do Dataflow para a nuvem:

python3 grepc.py

Por ser um job pequeno, a execução na nuvem demora bem mais do que a execução local (de 7 a 10 minutos).

Volte para a guia do console no navegador.
No Menu de navegação, clique em Dataflow e depois no seu job para monitorar o progresso dele.
Espere até que o status do Job mude para Concluído.
Examine a saída no bucket do Cloud Storage.
No Menu de navegação, clique em Cloud Storage > Navegador e depois no seu bucket.
Selecione o diretório javahelp.

Esse job gera o arquivo output.txt, e, se ele for muito grande, vai ser fragmentado em várias partes com nomes como: output-0000x-of-000y. Identifique o arquivo mais recente pelo nome ou pelo campo Última modificação.

Clique no arquivo que você quer visualizar.

Como alternativa, é possível fazer o download e abrir o arquivo usando o terminal SSH training-vm:

gcloud storage cp gs://$BUCKET/javahelp/output* . cat output*

Finalize o laboratório

Clique em Terminar o laboratório após a conclusão. O Google Cloud Ensina remove os recursos usados e limpa a conta por você.

Você vai poder avaliar sua experiência no laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Enviar.

O número de estrelas indica o seguinte:

1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito

Feche a caixa de diálogo se não quiser enviar feedback.

Para enviar seu feedback, fazer sugestões ou correções, use a guia Suporte.

Copyright 2026 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.

Um pipeline simples do Dataflow (Python) 2.5

Visão geral

Objetivo

Configuração

Ative o Google Cloud Shell

Verifique as permissões do projeto

Tarefa 1: Ative a API Dataflow

Tarefa 2: preparação

Abra o terminal SSH e acesse a VM de treinamento

Faça o download do repositório de código

Crie um bucket do Cloud Storage

Tarefa 3: filtragem do pipeline

Tarefa 4: execute o pipeline localmente

Tarefa 5: execute o pipeline na nuvem

Finalize o laboratório

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório