GSP1210
Visão geral
Neste laboratório, você vai conhecer o Gemini, uma família de modelos multimodais de IA generativa desenvolvidos pelo Google. Você pode usar a API Gemini para saber como o Gemini Flash consegue compreender e gerar respostas baseadas em textos, imagens e vídeos.
Com os recursos multimodais do Gemini, é possível:
-
Analisar imagens: detectar objetos, entender interfaces do usuário, interpretar diagramas e comparar semelhanças e diferenças visuais.
-
Processar vídeos: extrair tags e destaques, gerar descrições e responder a perguntas sobre o conteúdo de vídeos.
Você vai testar esses recursos em tarefas práticas usando a API Gemini na Vertex AI.
Pré-requisitos
Antes de fazer este laboratório, você precisa saber os seguintes conceitos:
- Noção básica de programação em Python.
- Conceitos gerais sobre APIs.
- Executar códigos Python em um notebook do Jupyter no Vertex AI Workbench.
Objetivos
Neste laboratório, você vai:
- interagir com a API Gemini na Vertex AI;
- usar o modelo Gemini Flash para analisar imagens e vídeos;
- dar ao Gemini comandos de texto, imagem e vídeo para receber respostas informativas;
- saber como os recursos multimodais do Gemini podem ser usados na prática.
Configuração e requisitos
Antes de clicar no botão Começar o Laboratório
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
- Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento.
No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
-
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
-
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
-
Clique em Próxima.
-
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
-
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud.
Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
-
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.
Tarefa 1: abrir o notebook no Vertex AI Workbench
-
No menu de navegação (
) do console do Google Cloud, clique em Vertex AI > Workbench.
-
Ache a instância e clique no botão Abrir o JupyterLab.
A interface do JupyterLab para sua instância do Workbench é aberta em uma nova guia do navegador.
Observação: se você não encontrar notebooks no JupyterLab, siga estas etapas para redefinir a instância:
1. Feche a guia do JupyterLab no navegador e volte à página inicial do Workbench.
2. Marque a caixa de seleção ao lado do nome da instância e clique em Redefinir.
3. Depois que o botão Abrir o JupyterLab for ativado novamente, aguarde um minuto e clique em Abrir o JupyterLab.
Tarefa 2: configurar o notebook
-
Abra o arquivo .
-
Na caixa de diálogo Selecionar Kernel, escolha Python 3 na lista de kernels disponíveis.
-
Leia a seção Vamos começar do notebook. O ID do projeto e o local já estão pré-configurados.
Observação: se você receber uma resposta 429 de uma das execuções de células do notebook, aguarde um minuto antes de executar a célula novamente para prosseguir.
Tarefa 3: usar o modelo Gemini Flash
O Gemini Flash é um modelo que aceita comandos multimodais. É possível incluir textos, imagens e vídeos nos comandos e receber respostas em texto ou código.
Nesta tarefa, confira as células especificadas do notebook para entender como usar o modelo Gemini Flash. Volte aqui para verificar seu progresso conforme for concluindo os objetivos.
Compreensão de imagens em várias imagens
O Gemini consegue avaliar várias imagens. Neste exemplo, você usa o Gemini para calcular o custo total de uma compra de mercado usando uma imagem de frutas e uma lista de preços.
Leia a seção Compreensão de imagens em várias imagens do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Compreensão de imagens em várias imagens
Geração de descrições de vídeos
O Gemini também pode extrair as tags de um vídeo e recuperar mais informações além do conteúdo dele. Neste exemplo, você usa o Gemini para extrair tags e recuperar informações extras de diferentes vídeos:
Leia a seção Geração de descrições de vídeos do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Geração de descrições de vídeos
Compreensão de áudio
O Gemini pode fazer o processamento direto de áudios para compreender contextos longos. Neste exemplo, você usa o Gemini para esse objetivo:
Leia a seção Compreensão de áudio do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Compreensão de áudio
Raciocínio em uma base de código
O Gemini pode fazer o processamento direto de áudios para compreender contextos longos. Neste exemplo, você usa o Gemini para esse objetivo:
Leia a seção Raciocínio em uma base de código do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Raciocínio em uma base de código
Compreensão de áudio e vídeo
Neste exemplo, você testa os recursos multimodais e de contexto longo nativos do Gemini na intercalação de vídeos com entradas de áudio:
Leia a seção Compreensão de áudio e vídeo do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Compreensão de áudio e vídeo
Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez
O Gemini é multimodal por padrão e permite a intercalação de dados de diferentes modalidades. Neste exemplo, você testa uma combinação de entradas visuais, de áudio, de texto e de código na mesma sequência.
Leia a seção Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Todas as modalidades (imagens, vídeos, áudio e texto) de uma só vez
Geração de recomendações com base nas imagens fornecidas
O Gemini consegue comparar imagens e oferecer recomendações. Isso é muito útil para empresas de varejo que querem recomendar produtos aos usuários com base na configuração atual dessas pessoas.
Leia a seção Geração de recomendações com base nas imagens fornecidas do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Geração de recomendações com base nas imagens fornecidas
Compreensão das relações de entidades em diagramas técnicos
Por ter recursos multimodais, o Gemini consegue compreender diagramas e tomar medidas práticas, como otimizar ou gerar códigos. Neste exemplo, você confere como o Gemini decifra um diagrama de relacionamento de entidades (ER, na sigla em inglês), entende as relações entre tabelas, identifica requisitos para otimização em um ambiente específico, como o BigQuery, e até mesmo gera o código correspondente.
Leia a seção Compreensão das relações de entidades em diagramas técnicos do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Compreensão das relações de entidades em diagramas técnicos
Comparação de imagens para encontrar semelhanças e diferenças
O Gemini pode comparar imagens e identificar semelhanças ou diferenças entre objetos. Neste exemplo, você usa o Gemini para comparar duas imagens do mesmo local e identificar as diferenças entre elas.
Leia a seção Comparação de imagens para encontrar semelhanças e diferenças do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Comparação de imagens para encontrar semelhanças e diferenças
Parabéns!
Você concluiu o laboratório. Nele, você aprendeu a usar a API Gemini na Vertex AI para gerar textos usando comandos com textos e imagens.
Próximas etapas / Saiba mais
Confira os recursos a seguir para saber mais sobre o Gemini:
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 8 de outubro de 2025
Laboratório testado em 8 de outubro de 2025
Copyright 2026 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.