Instruções e requisitos de configuração do laboratório
Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Como consultar dados externos e tabelas Iceberg

Laboratório 30 minutos universal_currency_alt 5 créditos show_chart Introdutório
info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.
Este conteúdo ainda não foi otimizado para dispositivos móveis.
Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

Visão geral

Consultar tabelas do Iceberg no Cloud Storage com o BigQuery: neste laboratório, você vai descobrir como as tabelas BigLake do BigQuery podem consultar dados em formatos de código aberto diretamente no Cloud Storage. Você vai aprender a criar uma tabela do BigLake que aponta para uma tabela do Iceberg que já existe e será capaz de analisar os dados sem precisar movê-los ou criar cópias. Com esse recurso avançado, você mantém uma única fonte de verdade em um formato aberto e aproveita o mecanismo de análise de alta performance do BigQuery. Essa experiência prática é a base de um data lakehouse moderno, em que você pode unificar seus dados, seja qual for o formato ou o local.

Você vai começar criando uma conexão que permite ao BigQuery acessar dados no Cloud Storage de forma segura. Em seguida, você vai definir uma tabela do BigLake em uma amostra de tabela do Iceberg que contém dados brutos de registros da web. O Iceberg é um formato de tabela aberta projetado para conjuntos de dados analíticos enormes e é usado com frequência com mecanismos de processamento como o Apache Spark.

Por fim, você vai executar uma consulta que une perfeitamente os dados do Iceberg no Cloud Storage com uma tabela nativa do BigQuery que contém informações do cliente. Ao dominar essas técnicas, a Cymbal E-commerce pode responder a perguntas comerciais importantes que abrangem diferentes fontes de dados. Por exemplo: "Quais produtos são visualizados com mais frequência pelos nossos clientes de maior valor logo antes de finalizarem uma compra?"

Atividades deste laboratório

  • Criar uma tabela do Iceberg com base em um arquivo CSV no Cloud Storage usando o BigQuery e o BigLake.
  • Consultar a tabela do Iceberg para analisar os dados armazenados no Cloud Storage.
  • Mesclar a tabela do BigLake com uma tabela nativa do BigQuery para combinar conjuntos de dados.
  • Criar uma conexão de recursos do Cloud com o Cloud Storage.

Configuração e requisitos

Antes de clicar no botão "Começar o laboratório"

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

O que é necessário

Veja os requisitos para concluir o laboratório:

  • acesso a um navegador de Internet padrão (recomendamos o Chrome);
  • tempo disponível para concluir as atividades.
Observação: não use seu projeto ou conta pessoal do Google Cloud neste laboratório. Observação: se você estiver usando um Pixelbook, faça o laboratório em uma janela anônima.

Fazer login no console do Google Cloud

  1. Na guia ou janela do navegador desta sessão de laboratório, copie o Nome de usuário do painel Detalhes da conexão e clique no botão Abrir console do Google.
Observação: se precisar escolher uma conta, clique em Usar outra conta.
  1. Cole o nome de usuário e a senha quando solicitado.
  2. Clique em Próxima.
  3. Aceite os Termos e Condições.

Como a conta é temporária, ela só dura até o final deste laboratório:

  • não adicione opções de recuperação.
  • não se inscreva em testes.
  1. Assim que o console abrir, clique no menu de navegação (Ícone do menu de navegação) no canto superior esquerdo para acessar a lista de serviços.

Menu de navegação

Verificar ou ativar as APIs necessárias

  1. No console do Google Cloud, digite API BigLake na barra de pesquisa superior.

  2. Clique no resultado de API BigLake em Marketplace.

  3. Se a API ainda não estiver ativada, clique em Ativar.

Verificar as permissões do IAM

  1. No menu de navegação, selecione IAM e Admin e, no submenu, selecione IAM.

  2. Encontre sua entrada, que será semelhante a student-xx-xxxxxxxxxxxx@qwiklabs.net

  3. Verifique se você tem os papéis Admin de conexão do BigQuery e Usuário de conexão do BigQuery

Tarefa 1: criar uma conexão com o Cloud Storage

Nesta tarefa, você vai criar uma conexão com o Cloud Storage para o BigQuery usar na leitura dos dados em um arquivo CSV no Cloud Storage como uma tabela externa.

Criar a conexão

  1. No console do Google Cloud, no Menu de navegação (Menu de navegação), acesse BigQuery > Studio.

  2. No painel superior esquerdo, clique em Explorador e em + Adicionar dados.

  3. Em Tipo de fonte de dados, selecione Armazenamento/data lakes.

  4. Em Fontes de dados mais conhecidas, clique no card do Google Cloud Storage.

  5. Na seleção de cards resultante em Acessar dados externos no local, clique em Tabela externa ou do BigLake.

  6. Na tela Criar tabela, use os seguintes valores:

Propriedade Valor
Criar tabela de Google Cloud Storage
Selecione o arquivo do bucket do GCS ou use um padrão de URI cloud-training/OCBL462/cymbal_synthetic_weblog_data.csv
Formato do arquivo CSV
Particionamento de dados de origem Deixe desmarcada
Projeto {{{project_0.project_id | Project ID}}}
Conjunto de dados Clique em "Conjunto de dados" e, em "Conjuntos de dados carregados", selecione
cymbal_lake
Tabela web_log
Tipo de tabela Tabela externa
Criar uma tabela do BigLake usando uma conexão de recurso do Cloud Marque a caixa deste item
Clique no menu suspenso ID da conexão e selecione Criar uma conexão de recurso do Cloud
Tipo de conexão Modelos remotos da Vertex AI, funções remotas, BigLake e Spanner (recurso do Cloud)
Código da conexão gcs-bucket-{{{project_0.project_id | Project ID}}}_eds
Tipo de local Região
Região {{{project_0.default_region | Region}}}
Nome amigável (deixe em branco)
Descrição (deixe em branco)
Clique em Criar conexão.
Esquema, detecção automática Marque a caixa deste item
  1. Mantenha os outros valores padrão e clique em Criar tabela

Para verificar o objetivo, clique em Verificar meu progresso. Criar uma conexão com o Cloud Storage

Tarefa 2: criar e carregar a tabela do Iceberg no Cloud Storage com o BigQuery

Nesta tarefa, você vai ingerir os dados da tabela externa que acabou de criar e carregá-los no formato Iceberg em um bucket do Cloud Storage.

  1. No console do Google Cloud, no Menu de navegação (Menu de navegação), acesse BigQuery > Studio.

  2. Se ainda não estiver aberto, clique em Análises clássicas e expanda o projeto. Ele será semelhante a qwiklabs-gcp-xx-xxxxxxxxxxxx.

  3. Abra a entrada de cymbal_lake.

  4. Clique nos três pontos verticais à direita da entrada de web_log. Selecione Consulta no menu pop-up.

  5. Feche o painel de referência clicando no X no canto superior direito.

  6. Substitua a consulta SQL pelo seguinte código:

    CREATE TABLE cymbal_lake.iceberg_web_log WITH CONNECTION `projects/{{{project_0.project_id | Project ID}}}/locations/{{{project_0.default_region | Region}}}/connections/gcs-bucket-{{{project_0.project_id | Project ID}}}_eds` OPTIONS ( table_format = 'ICEBERG', storage_uri = 'gs://gcs-bucket-{{{project_0.project_id | Project ID}}}') AS SELECT * FROM `cymbal_lake.web_log`;
  7. Clique no botão Executar. Após o processamento, você receberá uma mensagem de erro. Não feche a guia, porque você vai precisar do ID da conta de serviço do BigQuery para definir a permissão adequada. A mensagem de erro será semelhante a este exemplo:

Access Denied: BigQuery BigQuery: Permission denied while writing data. bqcx-542604010272-n24h@gcp-sa-bigquery-condel.iam.gserviceaccount.com does not have storage.objects.create access to the Google Cloud Storage object. Permission 'storage.objects.create' denied on resource (or it may not exist). Please make sure gs://gcs-bucket-qwiklabs-gcp-00-333263c4c0ba/data/46d259a5-5da4-4e66-afa8-ae849d1bef50-17da16d07142b039-f-00000-of-00001.parquet is accessible via appropriate IAM roles, e.g. Storage Object Viewer or Storage Object Creator
  1. Copie o ID do usuário da mensagem de erro. Ele estará neste formato: bqcx-xxxxxxxxxxxx-xxxx@gcp-sa-bigquery-condel.iam.gserviceaccount.com.

  2. No Menu de navegação do console do Google Cloud Menu de navegação, acesse Cloud Storage > Buckets.

  3. Clique nos três pontos verticais na extremidade direita da linha com seu bucket gcs-bucket- e selecione Editar acesso.

  4. Na caixa Controle de acesso, clique no link Altere para uniforme.

  5. No pop-up, selecione Uniforme. Clique em Salvar.

  6. Clique em + Adicionar principal.

  7. Em Novo principal, cole o ID do usuário que você copiou da mensagem de erro do BigQuery.

  8. Clique em Selecionar papel *.

  9. Em Filtro, insira Usuário do objeto de armazenamento e selecione Usuário do objeto de armazenamento na lista que aparecer. Depois, clique em Salvar.

  10. Volte ao BigQuery e execute novamente a consulta de criação de tabela repetindo a etapa 6 da Tarefa 2.

Para verificar o objetivo, clique em Verificar meu progresso. Criar e carregar a tabela do Iceberg no Cloud Storage com o BigQuery

Tarefa 3: consultar a tabela do Iceberg no BigQuery

Agora você vai trabalhar com o BigQuery para acessar os dados na tabela do Iceberg que acabou de criar no Cloud Storage.

  1. No console do Google Cloud, no Menu de navegação (Menu de navegação), acesse BigQuery > Studio.

  2. Se ainda não estiver aberta, abra a entrada no Explorador do seu projeto. Ela vai aparecer como qwiklabs-gcp-xx-xxxxxxxxxxxx.

  3. Abra a entrada de cymbal_lake.

  4. Clique nos três pontos verticais à direita da entrada de iceberg_web_log. Selecione Consulta no menu pop-up.

  5. Feche o painel de referência clicando no X no canto superior direito.

  6. Substitua a consulta SQL pelo seguinte código:

    SELECT * FROM cymbal_lake.iceberg_web_log LIMIT 1000;
  7. Clique no botão Executar. Os dados retornados são da sua tabela do Iceberg no Cloud Storage.

  8. Substitua a consulta SQL pelo seguinte código:

    SELECT * FROM cymbal_lake.iceberg_web_log AS WL INNER JOIN customers.customer_details AS CD ON WL.customer_id = CD.id LIMIT 1000;
  9. Clique no botão Executar. Os dados retornados são da sua tabela do Iceberg no Cloud Storage, unidos aos dados do cliente em uma tabela nativa do BigQuery.

Para verificar o objetivo, clique em Verificar meu progresso. Consultar a tabela do Iceberg no BigQuery

Parabéns!

Você configurou uma tabela externa no BigQuery para acessar dados de um arquivo CSV no Cloud Storage. Em seguida, você criou uma tabela do Iceberg no Cloud Storage e a preencheu com dados do arquivo CSV usando o BigQuery. Por fim, você executou uma consulta combinando dados da tabela do Iceberg com dados de uma tabela nativa do BigQuery. Embora este seja um exemplo simples, ele demonstra a capacidade e a flexibilidade que o lakehouse do BigQuery e do BigLake da Cymbal oferece para transformar dados em uma ferramenta de negócios avançada.

Antes de começar

  1. Os laboratórios criam um projeto e recursos do Google Cloud por um período fixo
  2. Os laboratórios têm um limite de tempo e não têm o recurso de pausa. Se você encerrar o laboratório, vai precisar recomeçar do início.
  3. No canto superior esquerdo da tela, clique em Começar o laboratório

Usar a navegação anônima

  1. Copie o nome de usuário e a senha fornecidos para o laboratório
  2. Clique em Abrir console no modo anônimo

Fazer login no console

  1. Faça login usando suas credenciais do laboratório. Usar outras credenciais pode causar erros ou gerar cobranças.
  2. Aceite os termos e pule a página de recursos de recuperação
  3. Não clique em Terminar o laboratório a menos que você tenha concluído ou queira recomeçar, porque isso vai apagar seu trabalho e remover o projeto

Este conteúdo não está disponível no momento

Você vai receber uma notificação por e-mail quando ele estiver disponível

Ótimo!

Vamos entrar em contato por e-mail se ele ficar disponível

Um laboratório por vez

Confirme para encerrar todos os laboratórios atuais e iniciar este

Use a navegação anônima para executar o laboratório

A melhor maneira de executar este laboratório é usando uma janela de navegação anônima ou privada. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.