Instruções e requisitos de configuração do laboratório

Proteja sua conta e seu progresso. Sempre use uma janela anônima do navegador e suas credenciais para realizar este laboratório.

Multimodalidade com o Gemini

Laboratório 25 minutos universal_currency_alt 5 créditos show_chart Intermediário

info Este laboratório pode incorporar ferramentas de IA para ajudar no seu aprendizado.

GSP1210
Visão geral
Objetivos
Configuração e requisitos
Tarefa 1: abrir o notebook no Vertex AI Workbench
Tarefa 2: configurar o notebook
Tarefa 3: usar o modelo Gemini Flash
Parabéns!

Este conteúdo ainda não foi otimizado para dispositivos móveis.

Para aproveitar a melhor experiência, acesse nosso site em um computador desktop usando o link enviado a você por e-mail.

GSP1210

Logotipo dos laboratórios autoguiados do Google Cloud

Visão geral

Neste laboratório, você vai conhecer o Gemini, uma família de modelos multimodais de IA generativa desenvolvidos pelo Google. Você pode usar a API Gemini para saber como o Gemini Flash consegue compreender e gerar respostas baseadas em textos, imagens e vídeos.

Com os recursos multimodais do Gemini, é possível:

Analisar imagens: detectar objetos, entender interfaces do usuário, interpretar diagramas e comparar semelhanças e diferenças visuais.
Processar vídeos: extrair tags e destaques, gerar descrições e responder a perguntas sobre o conteúdo de vídeos.

Você vai testar esses recursos em tarefas práticas usando a API Gemini na Vertex AI.

Pré-requisitos

Antes de fazer este laboratório, você precisa saber os seguintes conceitos:

Noção básica de programação em Python.
Conceitos gerais sobre APIs.
Executar códigos Python em um notebook do Jupyter no Vertex AI Workbench.

Objetivos

Neste laboratório, você vai:

interagir com a API Gemini na Vertex AI;
usar o modelo Gemini Flash para analisar imagens e vídeos;
dar ao Gemini comandos de texto, imagem e vídeo para receber respostas informativas;
saber como os recursos multimodais do Gemini podem ser usados na prática.

Configuração e requisitos

Antes de clicar no botão Começar o Laboratório

Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

Acesso a um navegador de Internet padrão (recomendamos o Chrome).

Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.

Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.

Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.

Como iniciar seu laboratório e fazer login no console do Google Cloud

Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento. No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.

O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.

Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
Clique em Próxima.
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.

Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.

Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar. Ícone do menu de navegação e campo de pesquisa

Ícone do menu de navegação e campo de pesquisa

Tarefa 1: abrir o notebook no Vertex AI Workbench

No menu de navegação () do console do Google Cloud, clique em Vertex AI > Workbench.
Ache a instância e clique no botão Abrir o JupyterLab.

A interface do JupyterLab para sua instância do Workbench é aberta em uma nova guia do navegador.

Observação: se você não encontrar notebooks no JupyterLab, siga estas etapas para redefinir a instância:

1. Feche a guia do JupyterLab no navegador e volte à página inicial do Workbench.

2. Marque a caixa de seleção ao lado do nome da instância e clique em Redefinir.

3. Depois que o botão Abrir o JupyterLab for ativado novamente, aguarde um minuto e clique em Abrir o JupyterLab.

Tarefa 2: configurar o notebook

Abra o arquivo .
Na caixa de diálogo Selecionar Kernel, escolha Python 3 na lista de kernels disponíveis.
Leia a seção Vamos começar do notebook. O ID do projeto e o local já estão pré-configurados.

Observação: se você receber uma resposta 429 de uma das execuções de células do notebook, aguarde um minuto antes de executar a célula novamente para prosseguir.

Tarefa 3: usar o modelo Gemini Flash

O Gemini Flash é um modelo que aceita comandos multimodais. É possível incluir textos, imagens e vídeos nos comandos e receber respostas em texto ou código.

Nesta tarefa, confira as células especificadas do notebook para entender como usar o modelo Gemini Flash. Volte aqui para verificar seu progresso conforme for concluindo os objetivos.

Compreensão de imagens em várias imagens

O Gemini consegue avaliar várias imagens. Neste exemplo, você usa o Gemini para calcular o custo total de uma compra de mercado usando uma imagem de frutas e uma lista de preços.

Leia a seção Compreensão de imagens em várias imagens do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Compreensão de imagens em várias imagens

Geração de descrições de vídeos

O Gemini também pode extrair as tags de um vídeo e recuperar mais informações além do conteúdo dele. Neste exemplo, você usa o Gemini para extrair tags e recuperar informações extras de diferentes vídeos:

Leia a seção Geração de descrições de vídeos do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Geração de descrições de vídeos

Compreensão de áudio

O Gemini pode fazer o processamento direto de áudios para compreender contextos longos. Neste exemplo, você usa o Gemini para esse objetivo:

Leia a seção Compreensão de áudio do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Compreensão de áudio

Raciocínio em uma base de código

O Gemini pode fazer o processamento direto de áudios para compreender contextos longos. Neste exemplo, você usa o Gemini para esse objetivo:

Leia a seção Raciocínio em uma base de código do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Raciocínio em uma base de código

Compreensão de áudio e vídeo

Neste exemplo, você testa os recursos multimodais e de contexto longo nativos do Gemini na intercalação de vídeos com entradas de áudio:

Leia a seção Compreensão de áudio e vídeo do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Compreensão de áudio e vídeo

Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez

O Gemini é multimodal por padrão e permite a intercalação de dados de diferentes modalidades. Neste exemplo, você testa uma combinação de entradas visuais, de áudio, de texto e de código na mesma sequência.

Leia a seção Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez

Geração de recomendações com base nas imagens fornecidas

O Gemini consegue comparar imagens e oferecer recomendações. Isso é muito útil para empresas de varejo que querem recomendar produtos aos usuários com base na configuração atual dessas pessoas.

Leia a seção Geração de recomendações com base nas imagens fornecidas do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Geração de recomendações com base nas imagens fornecidas

Compreensão das relações de entidades em diagramas técnicos

Por ter recursos multimodais, o Gemini consegue compreender diagramas e tomar medidas práticas, como otimizar ou gerar códigos. Neste exemplo, você confere como o Gemini decifra um diagrama de relacionamento de entidades (ER, na sigla em inglês), entende as relações entre tabelas, identifica requisitos para otimização em um ambiente específico, como o BigQuery, e até mesmo gera o código correspondente.

Leia a seção Compreensão das relações de entidades em diagramas técnicos do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Compreensão das relações de entidades em diagramas técnicos

Comparação de imagens para encontrar semelhanças e diferenças

O Gemini pode comparar imagens e identificar semelhanças ou diferenças entre objetos. Neste exemplo, você usa o Gemini para comparar duas imagens do mesmo local e identificar as diferenças entre elas.

Leia a seção Comparação de imagens para encontrar semelhanças e diferenças do notebook.

Clique em Verificar meu progresso para conferir o objetivo. Comparação de imagens para encontrar semelhanças e diferenças

Parabéns!

Você concluiu o laboratório. Nele, você aprendeu a usar a API Gemini na Vertex AI para gerar textos usando comandos com textos e imagens.

Próximas etapas / Saiba mais

Confira os recursos a seguir para saber mais sobre o Gemini:

Visão geral do Gemini
IA generativa na documentação da Vertex AI
IA generativa no YouTube
Confira o manual da Vertex AI para acessar uma galeria selecionada e pesquisável de notebooks da IA generativa.
Conheça outros notebooks e exemplos no Repositório da IA generativa do Google Cloud (em inglês).

Treinamento e certificação do Google Cloud

Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.

Manual atualizado em 8 de outubro de 2025

Laboratório testado em 8 de outubro de 2025

Copyright 2026 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.

Multimodalidade com o Gemini

GSP1210

Visão geral

Pré-requisitos

Objetivos

Configuração e requisitos

Antes de clicar no botão Começar o Laboratório

Como iniciar seu laboratório e fazer login no console do Google Cloud

Tarefa 1: abrir o notebook no Vertex AI Workbench

Tarefa 2: configurar o notebook

Tarefa 3: usar o modelo Gemini Flash

Compreensão de imagens em várias imagens

Geração de descrições de vídeos

Compreensão de áudio

Raciocínio em uma base de código

Compreensão de áudio e vídeo

Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez

Geração de recomendações com base nas imagens fornecidas

Compreensão das relações de entidades em diagramas técnicos

Comparação de imagens para encontrar semelhanças e diferenças

Parabéns!

Próximas etapas / Saiba mais

Treinamento e certificação do Google Cloud

Antes de começar

Usar a navegação anônima

Fazer login no console

Use a navegação anônima para executar o laboratório