Instruções e requisitos de configuração do laboratório

Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Academia do Dataflow (Java) - Laboratório 2: Pipelines com ramificações e modelos Flex personalizados do Dataflow

Laboratório 2 horas universal_currency_alt 1 crédito show_chart Avançado

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

Visão geral
Configuração e requisitos
Parte 1 do laboratório: como escrever pipelines com ramificações
Parte 2 do laboratório: modelos personalizados do Dataflow
Finalize o laboratório

Este conteúdo ainda não foi otimizado para dispositivos móveis.

Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

Visão geral

Neste laboratório, você vai:

implementar um pipeline com ramificações;
filtrar os dados antes da gravação;
processar dados como um objeto <Row>;
adicionar parâmetros de linha de comando personalizados a um pipeline;
converter um pipeline personalizado em um modelo Flex personalizado do Dataflow;
executar um modelo Flex do Dataflow.

Pré-requisitos:

Ter noções básicas sobre o Java

No laboratório anterior, você criou um pipeline básico sequencial de extração, transformação e carga, e usou um modelo equivalente do Dataflow para ingerir o armazenamento de dados em lote no Google Cloud Storage. Esse pipeline se baseia em uma sequência de transformações:

alt_text

No entanto, muitos pipelines não vão exibir uma estrutura tão simples. Neste laboratório, você vai criar um pipeline mais sofisticado e não sequencial.

O caso de uso aqui é otimizar o consumo de recursos. Os produtos variam de acordo com a maneira que consomem recursos. Além disso, nem todos os dados são usados do mesmo modo em uma empresa. Algumas informações serão consultadas regularmente, por exemplo, em cargas de trabalho analíticas, e outras serão usadas apenas para recuperação. Neste laboratório, você vai otimizar o pipeline do primeiro laboratório para o consumo de recursos ao armazenar apenas dados que os analistas usarão no BigQuery e, ao mesmo tempo, arquivar outros dados em um serviço de armazenamento altamente durável e de baixo custo, o Coldline Storage do Google Cloud Storage.

Configuração e requisitos

Configuração do Qwiklabs

Para cada laboratório, você recebe um novo projeto do Google Cloud e um conjunto de recursos por um determinado período e sem custos financeiros.

Faça login no Qwiklabs em uma janela anônima.
Confira o tempo de acesso do laboratório (por exemplo, 1:15:00) e finalize todas as atividades nesse prazo.
Não é possível pausar o laboratório. Você pode reiniciar o desafio, mas vai precisar refazer todas as etapas.
Quando tudo estiver pronto, clique em Começar o laboratório.
Anote as credenciais (Nome de usuário e Senha). É com elas que você vai fazer login no Console do Google Cloud.
Clique em Abrir Console do Google.
Clique em Usar outra conta, depois copie e cole as credenciais deste laboratório nos locais indicados.
Se você usar outras credenciais, vai receber mensagens de erro ou cobranças.
Aceite os termos e pule a página de recursos de recuperação.

Ative o Google Cloud Shell

O Google Cloud Shell é uma máquina virtual com ferramentas de desenvolvimento. Ele tem um diretório principal permanente de 5 GB e é executado no Google Cloud.

O Cloud Shell oferece acesso de linha de comando aos recursos do Google Cloud.

No console do Cloud, clique no botão "Abrir o Cloud Shell" na barra de ferramentas superior direita.
Clique em Continuar.

O provisionamento e a conexão do ambiente podem demorar um pouco. Quando você estiver conectado, já estará autenticado, e o projeto estará definido com seu PROJECT_ID. Exemplo:

ID do projeto em destaque no terminal do Cloud Shell

A gcloud é a ferramenta de linha de comando do Google Cloud. Ela vem pré-instalada no Cloud Shell e aceita preenchimento com tabulação.

Para listar o nome da conta ativa, use este comando:

gcloud auth list

Saída:

Credentialed accounts: - @.com (active)

Exemplo de saída:

Credentialed accounts: - google1623327_student@qwiklabs.net

Para listar o ID do projeto, use este comando:

gcloud config list project

Saída:

[core] project =

Exemplo de saída:

[core] project = qwiklabs-gcp-44776a13dea667a6

Observação: a documentação completa da gcloud está disponível no guia com informações gerais sobre a gcloud CLI .

Verifique as permissões do projeto

Antes de começar a trabalhar no Google Cloud, veja se o projeto tem as permissões corretas no Identity and Access Management (IAM).

No console do Google Cloud, em Menu de navegação (), selecione IAM e administrador > IAM.
Confira se a conta de serviço padrão do Compute {project-number}-compute@developer.gserviceaccount.com está na lista e recebeu o papel de editor. O prefixo da conta é o número do projeto, que está no Menu de navegação > Visão geral do Cloud > Painel.

Nome da conta de serviço padrão e status do editor do Compute Engine destacados na página com a guia "Permissões"

Observação: se a conta não estiver no IAM ou não tiver o papel de editor, siga as etapas abaixo.

No console do Google Cloud, em Menu de navegação, clique em Visão geral do Cloud > Painel.
Copie o número do projeto, por exemplo, 729328892908.
Em Menu de navegação, clique em IAM e administrador > IAM.
Clique em Permitir acesso, logo abaixo de Visualizar por principais na parte de cima da tabela de papéis.
Em Novos principais, digite:

{número-do-projeto}-compute@developer.gserviceaccount.com

Substitua {project-number} pelo número do seu projeto.
Em Papel, selecione Projeto (ou Básico) > Editor.
Clique em Save.

Como configurar o ambiente de desenvolvimento integrado

Neste laboratório, você vai usar principalmente a versão do ambiente de desenvolvimento integrado Theia para Web. Ela é hospedada no Google Compute Engine e contém o repositório do laboratório pré-clonado. Além disso, o Theia oferece suporte de servidor à linguagem Java e um terminal para acesso programático às APIs do Google Cloud com a ferramenta de linha de comando gcloud, similar ao Cloud Shell.

Para acessar o ambiente de desenvolvimento integrado Theia, copie e cole o link mostrado no Google Cloud Ensina em uma nova guia.

Observação: mesmo depois que o URL aparecer, talvez você precise esperar de 3 a 5 minutos para o ambiente ser totalmente provisionado. Até isso acontecer, você verá uma mensagem de erro no navegador.

Painel de credenciais mostrando o ide_url

O repositório do laboratório foi clonado para seu ambiente. Cada laboratório é dividido em uma pasta labs com códigos que você vai concluir e uma pasta solution com um exemplo totalmente funcional para consulta, caso você tenha dificuldades.

Clique no botão File Explorer para conferir:

Menu do Explorador de Arquivos expandido com a pasta Labs destacada

Também é possível criar vários terminais nesse ambiente, como você faria com o Cloud Shell:

Opção de novo terminal destacada no menu Terminal

Outra forma de visualizar é executando gcloud auth list no terminal em que você fez login com uma conta de serviço fornecida. Ela tem as mesmas permissões que a sua conta de usuário do laboratório:

Terminal mostrando o comando gcloud auth list

Se em algum momento o ambiente parar de funcionar, redefina a VM que hospeda o ambiente de desenvolvimento integrado no Console do GCE, conforme este exemplo:

Botão Redefinir e o nome da instância de VM destacados na página Instâncias de VM

Parte 1 do laboratório: como escrever pipelines com ramificações

Nesta etapa do laboratório, você vai escrever um pipeline com ramificações que grava dados no Google Cloud Storage e no BigQuery.

Várias transformações processam a mesma PCollection

Uma maneira de escrever um pipeline com ramificações é aplicar duas transformações diferentes à mesma PCollection, resultando em duas PCollections diferentes.

[PCollection1] = [Initial Input PCollection].apply([A Transform]) [PCollection2] = [Initial Input PCollection].apply([A Different Transform])

Como implementar um pipeline com ramificações

Se você tiver dúvidas nesta seção ou nas próximas, consulte a solução aqui (em inglês).

Tarefa 1: adicionar uma ramificação para fazer gravações no Cloud Storage

Para concluir esta tarefa, modifique um pipeline atual adicionando uma ramificação que faça gravações no Cloud Storage.

alt_text

Abrir o laboratório correto

Crie outro terminal no ambiente de desenvolvimento integrado, caso ainda não tenha feito isso, e copie e cole este comando:

# Change directory into the lab cd 2_Branching_Pipelines/labs # Download dependencies mvn clean dependency:resolve export BASE_DIR=$(pwd)

Configurar o ambiente de dados

# Create GCS buckets and BQ dataset cd $BASE_DIR/../.. source create_batch_sinks.sh # Generate event dataflow source generate_batch_events.sh # Change to the directory containing the practice version of the code cd $BASE_DIR

Clique em Verificar meu progresso para ver o objetivo. Configurar o ambiente de dados

Abra MyPipeline.java no seu ambiente de desenvolvimento integrado, que pode ser encontrado em 2_Branching_Pipelines/labs/src/main/java/com/mypackage/pipeline. Role para baixo até o método "run()", em que o corpo do pipeline está definido. Atualmente, o formato se parece com este:

pipeline.apply("ReadFromGCS", TextIO.read().from(input)) .apply("ParseJson", ParDo.of(new JsonToCommonLog())) .apply("WriteToBQ", BigQueryIO.<CommonLog>write().to(output).useBeamSchema() .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_TRUNCATE) .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_IF_NEEDED));

Modifique esse código adicionando uma nova transformação de ramificação que grava no Cloud Storage. Para isso, use TextIO.write() antes de cada elemento ser convertido do json para <CommonLog>.

Se você tiver dúvidas nesta seção ou nas próximas, consulte a solução aqui (em inglês).

Primeiro, por que usar esquemas?

Os esquemas fornecem um sistema de tipos para os registros do Beam, seja lá qual for o tipo específico de linguagem de programação. É possível que haja várias classes Java com o mesmo esquema (por exemplo, uma classe de buffer de protocolo ou uma classe POJO), e o Beam permite a conversão entre esses tipos sem dificuldades. Os esquemas também oferecem uma maneira simples de entender os tipos em diferentes APIs de linguagem de programação.

Uma PCollection com um esquema não precisa ter um codificador especificado, já que o Beam sabe como codificar e decodificar linhas do esquema. O Beam usa um codificador especial para codificar tipos de esquema. Antes do surgimento da API Schema, o Beam teria que saber como codificar todos os objetos no pipeline.

Tarefa 2: filtrar dados por campo

No momento, o novo pipeline não consome menos recursos, já que todos os dados são armazenados duas vezes. Para começar a otimizar o consumo de recursos, precisamos reduzir a quantidade de informações duplicadas. O bucket do Google Cloud Storage funciona como um recurso de arquivamento e backup. Por isso, é importante que todos os dados sejam armazenados nele. No entanto, nem todas as informações precisam ser enviadas ao BigQuery.

Vamos supor que as pessoas responsáveis pela análise de dados geralmente analisam quais recursos os usuários acessam no site e como esses padrões de acesso diferem em função da região geográfica e do tempo. Apenas um subconjunto dos campos seria necessário.

É possível gravar uma DoFn que transforma cada objeto e retorna apenas um subconjunto dos campos. No entanto, o Apache Beam fornece uma grande variedade de transformações relacionais para PCollections que tenham um esquema. O fato de cada registro ser composto por campos nomeados permite agregações simples e legíveis que fazem referência aos campos por nome, semelhante às agregações em uma expressão SQL.

Select e DropFields são duas destas transformações:

PCollection<MyClass> pCollection = ...; pCollection.apply("SelectUserState", Select.fieldNames("state")));

PCollection<MyClass> pCollection = ...; pCollection.apply("DropPII", DropFields.fields("ssn", "state"));

OBSERVAÇÃO: cada um desses exemplos vai retornar o elemento PCollection<Row> em vez dePCollection<MyClass>. A classe Row pode suportar qualquer esquema e ser considerada um objeto esquematizado genérico. Qualquer PCollection com um esquema pode ser transmitida como uma PCollection de linhas. As duas transformações acima não vão retornar um objeto CommonLog completo, já que os campos estão sendo removidos. Além disso, a transformação vai reverter para retornar uma Row. É possível criar outro esquema nomeado ou registrar um esquema POJO intermediário, mas é mais fácil só usar a Row por enquanto.

Para concluir a tarefa, adicione as importações a seguir e altere o conjunto de campos salvos no BigQuery. Dessa maneira, apenas as análises a serem usadas serão enviadas ao adicionar uma destas transformações ao pipeline:

import org.apache.beam.sdk.values.Row; import org.apache.beam.sdk.schemas.transforms.Select; import org.apache.beam.sdk.schemas.transforms.DropFields;

OBSERVAÇÃO: se você já tiver o método BigQueryIO.<CommonLog> write() encadeado, vai precisar alterá-lo para <Row> devido ao novo tipo.

Tarefa 3: filtrar dados por elemento

Há muitas maneiras de filtrar no Apache Beam. A tarefa anterior demonstrou um método: o uso de uma transformação de esquema. Nesta implementação, você filtrou partes de cada elemento, e isso resultou em um novo objeto Row com um esquema e um subconjunto dos campos restantes. Também é possível usá-los para filtrar elementos inteiros, como no exemplo abaixo.

purchases.apply(Filter.<MyObject>create() .whereFieldName(“costCents”, (Long c) -> c > 100 * 20) .whereFieldName(“shippingAddress.country”, (String c) -> c.equals(“de”));

OBSERVAÇÃO: esta transformação de filtro, "org.apache.beam.sdk.schemas.transforms.Filter", não deve ser confundida com a função de filtro antiga e sem esquema, "org.apache.beam.sdk.transforms.Filter".

Para concluir esta tarefa, primeiro adicione as instruções de importação abaixo ao seu código e, em seguida, adicione uma transformação "Filter" ao pipeline. É possível filtrar usando o critério que preferir. Pode ser necessário adicionar dicas de tipo à função lambda, por exemplo: "(Integer c) -> c > 100".

import org.apache.beam.sdk.schemas.transforms.Filter;

Tarefa 4: adicionar parâmetros personalizados de linha de comando

No momento, o pipeline tem vários parâmetros codificados, incluindo o caminho para a entrada e o local da tabela no BigQuery. No entanto, o pipeline seria mais útil se pudesse ler qualquer arquivo json no Cloud Storage. A adição desse recurso exige a adição de um conjunto de parâmetros de linha de comando.

Atualmente, o pipeline usa o elemento PipelineOptionsFactory para gerar uma instância de uma classe personalizada chamada "Options", que não altera nada da classe PipelineOptions. Portanto, ela é efetivamente uma instância de PipelineOptions.

public interface Options extends PipelineOptions { } public static void main(String[] args) { Options options = PipelineOptionsFactory.fromArgs(args).withValidation().as(Options.class); run(options); }

A classe PipelineOptions interpreta argumentos de linha de comando que seguem este formato:

--<option>=<value>

No entanto, essa classe só pode ter um pequeno conjunto de parâmetros predefinidos. Veja as funções "get-" aqui (em inglês). Para adicionar um parâmetro personalizado, você precisa fazer duas coisas. Primeiro, adicione uma variável de estado para a classe "Options", como no exemplo abaixo.

public interface Options extends PipelineOptions { @Description("My custom command line argument.") @Default.String("DEFAULT") String getMyCustomOption(); void setMyCustomOption(String myCustomOption); }

Em seguida, registre sua interface com o elemento PipelineOptionsFactory no método "main()" e transmita a interface ao criar o objeto PipelineOptions. Quando você faz isso com PipelineOptionsFactory, o elemento "--help" consegue encontrar e adicionar a interface de opções personalizadas à saída do comando "--help". No PipelineOptionsFactory, a compatibilidade das opções personalizadas com todas as outras opções registradas também é validada.

No código a seguir, você tem um exemplo de como registrar a interface de opções personalizadas com o elemento PipelineOptionsFactory:

PipelineOptionsFactory.register(Options.class); Options options = PipelineOptionsFactory.fromArgs(args) .withValidation() .as(Options.class);

Para acessar um parâmetro de linha de comando no código, basta chamar a função "get" do parâmetro:

String myCustomOption = option.getMyCustomOption();

Para concluir esta tarefa, primeiro adicione as seguintes instruções de importação. Em seguida, adicione parâmetros de linha de comando para o caminho de entrada, para o caminho de saída do Google Cloud Storage e para o nome da tabela do BigQuery. Por fim, atualize o código do pipeline para acessar esses parâmetros em vez de constantes.

import org.apache.beam.sdk.options.Default; import org.apache.beam.sdk.options.Description;

Tarefa 5: adicionar campos NULLABLE ao pipeline

Talvez você tenha notado que a tabela do BigQuery criada no último laboratório tinha um esquema com todos os campos REQUIRED como este:

Esquema de registros do BigQuery

Talvez seja melhor criar um esquema do Apache Beam com campos NULLABLE em que os dados estejam ausentes, tanto para a execução do pipeline quanto para uma tabela resultante do BigQuery com um esquema que reflita isso.

As anotações "javax" podem ser adicionadas à definição da sua classe, que será incorporada ao esquema do Apache Beam da seguinte maneira:

@DefaultSchema(JavaFieldSchema.class) class MyClass { int field1; @javax.annotation.Nullable String field2; }

Para concluir esta tarefa, marque os campos lat e lon como anuláveis na definição da classe.

Tarefa 6: executar o pipeline na linha de comando

Para concluir esta tarefa, execute o pipeline na linha de comando e transmita os parâmetros adequados. Além disso, anote o esquema resultante do BigQuery para campos NULLABLE. O código vai ficar assim:

# Set up environment variables export PROJECT_ID=$(gcloud config get-value project) export REGION='us-central1' export BUCKET=gs://${PROJECT_ID} export COLDLINE_BUCKET=${BUCKET}-coldline export PIPELINE_FOLDER=${BUCKET} export MAIN_CLASS_NAME=com.mypackage.pipeline.MyPipeline export RUNNER=DataflowRunner export INPUT_PATH=${PIPELINE_FOLDER}/events.json export OUTPUT_PATH=${PIPELINE_FOLDER}-coldline export TABLE_NAME=${PROJECT_ID}:logs.logs_filtered cd $BASE_DIR mvn compile exec:java \ -Dexec.mainClass=${MAIN_CLASS_NAME} \ -Dexec.cleanupDaemonThreads=false \ -Dexec.args=" \ --project=${PROJECT_ID} \ --region=${REGION} \ --stagingLocation=${PIPELINE_FOLDER}/staging \ --tempLocation=${PIPELINE_FOLDER}/temp \ --runner=${RUNNER} \ --inputPath=${INPUT_PATH} \ --outputPath=${OUTPUT_PATH} \ --tableName=${TABLE_NAME}"

Se o pipeline estiver sendo criado sem problemas, mas houver muitos erros devido ao código ou à configuração incorreta no serviço do Dataflow, defina o RUNNER como "DirectRunner" para executá-lo localmente e receber feedback mais rápido. Nesse caso, essa abordagem funciona porque o conjunto de dados é pequeno e você não está usando recursos incompatíveis com o DirectRunner.

Clique em Verificar meu progresso para ver o objetivo. Execute o pipeline na linha de comando

Tarefa 7: verificar os resultados do pipeline

Acesse a página Jobs do Cloud Dataflow e veja o job enquanto ele está em execução. O gráfico será semelhante a este:

alt_text

Clique no nó que representa a função Filter, que na imagem acima é chamada de FilterFn. Ao olhar o painel do lado direito, você vai perceber que mais elementos foram adicionados como entradas do que gravados como saídas.

Agora clique no nó que representa a gravação no Cloud Storage. Como todos os elementos foram gravados, esse número precisa estar de acordo com o número de elementos na entrada para a função "Filter".

Quando o processo do pipeline terminar, examine os resultados no BigQuery consultando sua tabela. O número de registros na tabela precisa estar de acordo com o número de elementos gerados pela função "Filter".

Parte 2 do laboratório: modelos personalizados do Dataflow

Um pipeline que aceita parâmetros de linha de comando é muito mais útil do que um com esses parâmetros codificados. No entanto, executar esse tipo de pipeline exige a criação de um ambiente de desenvolvimento. Usar um modelo do Dataflow é uma opção ainda melhor para pipelines que serão executados novamente por vários usuários ou em contextos distintos.

Existem muitos modelos do Dataflow que já foram criados como parte do Google Cloud Platform. Para conferir, é só consultar este link. No entanto, nenhum deles executa a mesma função que o pipeline deste laboratório. Em vez disso, nesta etapa você vai converter o pipeline em um modelo Flex do Dataflow mais recente e personalizado, e não em um modelo tradicional personalizado.

Converter um pipeline em um modelo Flex e personalizado do Dataflow exige o uso de um Uber JAR para empacotar o código e as dependências, um Dockerfile para descrever qual código precisa ser criado, o Cloud Build para gerar o contêiner subjacente que será executado no ambiente de execução com o objetivo de criar o job e, por fim, um arquivo de metadados para descrever os parâmetros do job.

Tarefa 1: criar uma imagem de contêiner personalizada para o modelo Flex do Dataflow

Para concluir esta tarefa, primeiro adicione este plug-in ao seu arquivo pom.xml. Ele ativa a criação de um Uber JAR. Adicione o seguinte valor na tag de propriedades:

<maven-shade-plugin.version>3.2.3</maven-shade-plugin.version>

Em seguida, adicione este valor na tag dos plug-ins do build:

<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>${maven-shade-plugin.version}</version> <executions> <execution> <phase>package</phase> <goals> <goal>shade</goal> </goals> <configuration> <transformers> <transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/> </transformers> <filters> <filter> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> </excludes> </filter> </filters> </configuration> </execution> </executions> </plugin>

Agora é possível criar um arquivo Uber JAR usando este comando:

cd $BASE_DIR mvn clean package

Anote o tamanho. Esse arquivo Uber JAR tem todas as dependências incorporadas. É possível executá-lo como um aplicativo autônomo sem dependências externas em outras bibliotecas.

ls -lh target/*.jar

No mesmo diretório do arquivo pom.xml, crie um arquivo chamado Dockerfile com o texto abaixo. Defina FLEX_TEMPLATE_JAVA_MAIN_CLASS como o nome completo da classe e YOUR_JAR_HERE como o Uber JAR que você criou.

FROM gcr.io/dataflow-templates-base/java11-template-launcher-base:latest # Define the Java command options required by Dataflow Flex Templates. ENV FLEX_TEMPLATE_JAVA_MAIN_CLASS="YOUR-CLASS-HERE" ENV FLEX_TEMPLATE_JAVA_CLASSPATH="/template/pipeline.jar" # Make sure to package as an uber-jar including all dependencies. COPY target/YOUR-JAR-HERE.jar ${FLEX_TEMPLATE_JAVA_CLASSPATH}

Em seguida, você vai usar o Cloud Build para descarregar a criação desse contêiner em vez de criá-lo localmente. Primeiro, ative o armazenamento em cache para tornar os próximos builds mais ágeis:

gcloud config set builds/use_kaniko True

Em seguida, execute o build real. Isso vai adicionar todo o diretório a um arquivo tar, incluindo o Dockerfile com instruções sobre o que deve ser criado. Depois disso, o serviço vai receber o arquivo, e um contêiner será criado e enviado ao Google Container Registry no seu projeto para ser usado no futuro.

export TEMPLATE_IMAGE="gcr.io/$PROJECT_ID/my-pipeline:latest" gcloud builds submit --tag $TEMPLATE_IMAGE .

Também é possível monitorar o status do build na IU do Cloud Build. Além disso, você vai perceber que o contêiner resultante foi enviado para o Google Container Registry.

Clique em Verificar meu progresso para ver o objetivo. Crie uma imagem de contêiner para o modelo Flex personalizado do Dataflow

Tarefa 2: criar e organizar o modelo Flex

Para executar um modelo, é preciso criar um arquivo de especificação no Cloud Storage com todas as informações necessárias para executar o job, como metadados e informações do SDK.

Para concluir esta tarefa, crie um arquivo metadata.json no formato abaixo, que considera todos os parâmetros de entrada esperados pelo pipeline. Se precisar, consulte a solução aqui. Para isso, é necessário escrever seus próprios parâmetros de verificação de regex. Embora não seja uma prática recomendada, ".*" será uma correspondência em qualquer entrada.

{ "name": "Your pipeline name", "description": "Your pipeline description", "parameters": [ { "name": "inputSubscription", "label": "Pub/Sub input subscription.", "helpText": "Pub/Sub subscription to read from.", "regexes": [ "[-_.a-zA-Z0-9]+" ] }, { "name": "outputTable", "label": "BigQuery output table", "helpText": "BigQuery table spec to write to, in the form 'project:dataset.table'.", "is_optional": true, "regexes": [ "[^:]+:[^.]+[.].+" ] } ] }

Em seguida, crie e organize o modelo real:

export TEMPLATE_PATH="gs://${PROJECT_ID}/templates/mytemplate.json" # Will build and upload the template to GCS # You may need to opt-in to beta gcloud features gcloud beta dataflow flex-template build $TEMPLATE_PATH \ --image "$TEMPLATE_IMAGE" \ --sdk-language "JAVA" \ --metadata-file "metadata.json"

Verifique se o arquivo foi enviado para o local do modelo no Cloud Storage.

Clique em Verificar meu progresso para ver o objetivo. Crie e organize o modelo Flex

Tarefa 3: executar o modelo usando a IU

Para concluir a tarefa, siga as instruções abaixo.

Acesse a página do Cloud Dataflow no Console do GCP.
Clique em CRIAR JOB A PARTIR DO MODELO.
Digite um nome válido no campo Nome do job.
Selecione Modelo personalizado no menu suspenso Modelo do Cloud Dataflow.
Digite o caminho do Cloud Storage para o arquivo de modelo no campo de caminho do Cloud Storage referente ao modelo.
Insira os itens relevantes em Parâmetros obrigatórios.
Clique em Run Job.

OBSERVAÇÃO: não é preciso especificar um bucket de preparo. O DataFlow vai criar um bucket privado no seu projeto usando o número dele. Será algo como "gs://dataflow-staging-us-central1-/staging".

Analise o console do Compute Engine. Você verá uma VM inicializadora temporária que foi criada para executar o contêiner e iniciar o pipeline com os parâmetros fornecidos.

Tarefa 4: executar o modelo usando a gcloud

Um dos benefícios de usar modelos do Dataflow é a capacidade de executá-los em vários contextos diferentes do ambiente de desenvolvimento. Para demonstrar isso, use a gcloud para executar um modelo do Dataflow na linha de comando.

Para concluir esta tarefa, execute este comando no seu terminal, modificando os parâmetros conforme apropriado:

export PROJECT_ID=$(gcloud config get-value project) export REGION='us-central1' export JOB_NAME=mytemplate-$(date +%Y%m%H%M$S) export TEMPLATE_LOC=gs://${PROJECT_ID}/templates/mytemplate.json export INPUT_PATH=gs://${PROJECT_ID}/events.json export OUTPUT_PATH=gs://${PROJECT_ID}-coldline/ export BQ_TABLE=${PROJECT_ID}:logs.logs_filtered gcloud beta dataflow flex-template run ${JOB_NAME} \ --region=$REGION \ --template-file-gcs-location ${TEMPLATE_LOC} \ --parameters "inputPath=${INPUT_PATH},outputPath=${OUTPUT_PATH},tableName=${BQ_TABLE}"

Confirme se o pipeline foi concluído.

Clique em Verificar meu progresso para ver o objetivo. Execute o modelo pela IU e usando a gcloud

Finalize o laboratório

Clique em Terminar o laboratório após a conclusão. O Google Cloud Ensina remove os recursos usados e limpa a conta por você.

Você vai poder avaliar sua experiência no laboratório. Basta selecionar o número de estrelas, digitar um comentário e clicar em Enviar.

O número de estrelas indica o seguinte:

1 estrela = muito insatisfeito
2 estrelas = insatisfeito
3 estrelas = neutro
4 estrelas = satisfeito
5 estrelas = muito satisfeito

Feche a caixa de diálogo se não quiser enviar feedback.

Para enviar seu feedback, fazer sugestões ou correções, use a guia Suporte.

Copyright 2026 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.

Academia do Dataflow (Java) - Laboratório 2: Pipelines com ramificações e modelos Flex personalizados do Dataflow

Visão geral

Configuração e requisitos

Configuração do Qwiklabs

Ative o Google Cloud Shell

Verifique as permissões do projeto

Como configurar o ambiente de desenvolvimento integrado

Parte 1 do laboratório: como escrever pipelines com ramificações

Várias transformações processam a mesma PCollection

Como implementar um pipeline com ramificações

Tarefa 1: adicionar uma ramificação para fazer gravações no Cloud Storage

Abrir o laboratório correto

Configurar o ambiente de dados

Primeiro, por que usar esquemas?

Tarefa 2: filtrar dados por campo

Tarefa 3: filtrar dados por elemento

Tarefa 4: adicionar parâmetros personalizados de linha de comando

Tarefa 5: adicionar campos NULLABLE ao pipeline

Tarefa 6: executar o pipeline na linha de comando

Tarefa 7: verificar os resultados do pipeline

Parte 2 do laboratório: modelos personalizados do Dataflow

Tarefa 1: criar uma imagem de contêiner personalizada para o modelo Flex do Dataflow

Tarefa 2: criar e organizar o modelo Flex

Tarefa 3: executar o modelo usando a IU

Tarefa 4: executar o modelo usando a gcloud

Finalize o laboratório

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório