GSP1290

Visão geral
Neste laboratório, apresentamos o Gemini 2.0 Flash, um novo modelo poderoso de IA multimodal do Google DeepMind, disponível pela API Gemini na Vertex AI. Você vai conhecer as melhorias significativas na velocidade, no desempenho e na qualidade do modelo, além de aprender a usar os recursos dele em tarefas como geração de texto e código, processamento de dados multimodais e chamada de função. O laboratório também aborda recursos avançados, como métodos assíncronos, instruções do sistema, geração controlada, configurações de segurança, embasamento com a Pesquisa Google e contagem de tokens.
Gemini
Gemini é uma família de modelos avançados de IA generativa desenvolvido pelo Google DeepMind. Ele é capaz de entender e gerar várias formas de conteúdo, como texto, código, imagens, áudio e vídeo.
API Gemini na Vertex AI
A API Gemini na Vertex AI oferece uma interface unificada de interação com os modelos do Gemini. Com isso, desenvolvedores podem integrar esses recursos avançados de IA aos aplicativos com facilidade. Para conferir os detalhes mais recentes e recursos específicos dos últimos lançamentos, consulte a documentação oficial do Gemini.
Modelos do Gemini
- O Gemini Pro foi projetado para tarefas de raciocínio complexo, incluindo:
- Análise e resumo de grandes quantidades de informações.
- Raciocínio multimodal avançado (em texto, código, imagens etc.).
- Solução eficaz de problemas em bases de código complexas.
- O Gemini Flash conta com velocidade e eficiência otimizadas, oferecendo:
- Tempos de resposta com menos de um segundo e alta capacidade de processamento.
- Alta qualidade com custos reduzidos para diversas tarefas.
- Recursos multimodais avançados, incluindo melhor compreensão espacial, novas modalidades de saída (texto, áudio, imagens) e o uso de ferramentas nativas (Pesquisa Google, execução de código e funções de terceiros).
Pré-requisitos
Antes de fazer este laboratório, você precisa saber os seguintes conceitos:
- Noção básica de programação em Python.
- Conceitos gerais sobre APIs.
- Executar códigos Python em um notebook do Jupyter no Vertex AI Workbench.
Objetivos
Neste laboratório, você vai aprender a usar o Gemini 2.0 Flash para:
-
Gerar texto e código: gerar várias formas de texto, incluindo saída de streaming, participar de conversas multiturno e escrever e executar códigos.
-
Configurar e controlar o comportamento do modelo: configurar parâmetros do modelo, definir instruções do sistema, aplicar filtros de segurança e usar técnicas de geração controlada para adaptar a saída do modelo.
-
Processar dados multimodais: processar diversos tipos de dados, incluindo texto, áudio, código, documentos, imagens e vídeo.
-
Interagir com o modelo de maneira flexível: adaptar-se a vários requisitos de aplicativos usando métodos de interação síncronos e assíncronos.
-
Embasar as respostas do modelo com a Pesquisa Google: melhorar a acurácia e a atualização das respostas do modelo com base em dados reais da Pesquisa Google.
-
Usar a chamada de função e gerenciar tokens: implementar a chamada de função (automática e manual) e aprender a contar tokens para monitorar o uso.
Configuração e requisitos
Antes de clicar no botão Começar o Laboratório
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
- Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.
Como iniciar seu laboratório e fazer login no console do Google Cloud
-
Clique no botão Começar o laboratório. Se for preciso pagar por ele, uma caixa de diálogo vai aparecer para você selecionar a forma de pagamento.
No painel Detalhes do Laboratório, à esquerda, você vai encontrar o seguinte:
- O botão Abrir Console do Google Cloud
- O tempo restante
- As credenciais temporárias que você vai usar neste laboratório
- Outras informações, se forem necessárias
-
Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima.
O laboratório ativa os recursos e depois abre a página Fazer Login em outra guia.
Dica: coloque as guias em janelas separadas lado a lado.
Observação: se aparecer a caixa de diálogo Escolher uma conta, clique em Usar outra conta.
-
Se necessário, copie o Nome de usuário abaixo e cole na caixa de diálogo Fazer login.
{{{user_0.username | "Username"}}}
Você também encontra o nome de usuário no painel Detalhes do Laboratório.
-
Clique em Próxima.
-
Copie a Senha abaixo e cole na caixa de diálogo de Olá.
{{{user_0.password | "Password"}}}
Você também encontra a senha no painel Detalhes do Laboratório.
-
Clique em Próxima.
Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud.
Observação: se você usar sua própria conta do Google Cloud neste laboratório, é possível que receba cobranças adicionais.
-
Acesse as próximas páginas:
- Aceite os Termos e Condições.
- Não adicione opções de recuperação nem autenticação de dois fatores (porque essa é uma conta temporária).
- Não se inscreva em testes gratuitos.
Depois de alguns instantes, o console do Google Cloud será aberto nesta guia.
Observação: para acessar os produtos e serviços do Google Cloud, clique no Menu de navegação ou digite o nome do serviço ou produto no campo Pesquisar.
Tarefa 1: abrir o notebook no Vertex AI Workbench
-
No menu de navegação (
) do console do Google Cloud, clique em Vertex AI > Workbench.
-
Ache a instância e clique no botão Abrir o JupyterLab.
A interface do JupyterLab para sua instância do Workbench é aberta em uma nova guia do navegador.
Tarefa 2: configurar o notebook
-
Abra o arquivo .
-
Na caixa de diálogo Selecionar Kernel, escolha Python 3 na lista de kernels disponíveis.
-
Execute as seções Vamos começar e Importar bibliotecas do notebook.
- Para ID do projeto, use , e em Local, use .
Observação: é possível pular as células do notebook que tenham a indicação Somente Colab. Se você receber uma resposta 429 de uma das execuções de células do notebook, aguarde 1 minuto antes de executar a célula novamente para prosseguir.
Clique em Verificar meu progresso para conferir o objetivo.
Configurar o notebook.
Tarefa 3: gerar texto com base em comandos de texto
Nesta tarefa, você vai usar o modelo Gemini 2.0 Flash para gerar texto com base em comandos.
- Execute a seção Carregar o modelo Gemini 2.0 Flash do notebook.
- Execute a seção Gerar texto com base em comandos de texto do notebook. Teste alguns dos exemplos de comandos para conferir as respostas do modelo.
Gerar stream de conteúdo
Por padrão, o modelo retorna uma resposta depois de concluir todo o processo de geração. Também é possível usar o método generate_content_stream
para transmitir a resposta conforme ela é gerada. O modelo retorna os blocos da resposta assim que estiverem prontos.
- Execute a seção Gerar stream de conteúdo do notebook.
Iniciar um chat multiturno
A API Gemini é compatível com conversas multiturno de formato livre com interações de troca.
O contexto da conversa é preservado entre as mensagens.
- Execute a seção Iniciar um chat multiturno do notebook.
Enviar solicitações assíncronas
client.aio
expõe todos os métodos assíncronos análogos disponíveis em client
.
Por exemplo, client.aio.models.generate_content
é a versão assíncrona de client.models.generate_content
.
- Execute a seção Enviar solicitações assíncronas do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Gerar texto com base em comandos de texto.
Tarefa 4: configurar parâmetros do modelo
Nesta tarefa, você vai aprender a configurar os parâmetros do modelo para ajustar a saída dele. Ao ajustar esses parâmetros, você controla aspectos como a criatividade, o comprimento e a segurança do texto gerado.
É possível incluir valores de parâmetros em cada chamada enviada a um modelo para controlar como ele gera uma resposta. O modelo pode gerar diferentes resultados para valores de parâmetros distintos. Teste vários parâmetros para conferir como os resultados mudam.
- Execute a seção Configurar parâmetros do modelo do notebook.
Definir instruções do sistema
As instruções do sistema permitem orientar o comportamento do modelo. Ao definir a instrução do sistema, o modelo tem mais contexto para entender a tarefa, gerar respostas mais personalizadas e aderir a diretrizes sobre a interação do usuário.
- Execute a seção Definir instruções do sistema do notebook.
Filtros de segurança
É possível ajustar os filtros de segurança da API Gemini em diferentes categorias para restringir ou permitir determinados tipos de conteúdo. Use esses filtros para ajustar o que for necessário conforme seu caso de uso. Consulte a página Configurar filtros de segurança para saber mais.
Quando você envia uma solicitação ao Gemini, o conteúdo é analisado e recebe uma classificação de segurança. Para verificar as classificações de segurança do conteúdo gerado, basta imprimir as respostas do modelo. As configurações de segurança estão OFF
por padrão, e os limites de bloqueio padrão são BLOCK_NONE
.
Use safety_settings
para ajustar as configurações de segurança de cada solicitação feita à API. O exemplo mostra como definir o limite de bloqueio para BLOCK_LOW_AND_ABOVE
em todas as categorias:
- Execute a seção Filtros de segurança do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Configurar parâmetros do modelo.
Tarefa 5: enviar comandos multimodais
O Gemini é um modelo multimodal compatível com comandos multimodais.
É possível incluir qualquer um dos tipos de dados de várias fontes abaixo. Confira a tabela HTML atualizada com os tipos MIME detalhados na seção "Áudio":
Tipo de dado |
Fonte(s) |
Tipo(s) MIME |
Texto |
Inline, Arquivo local, URL geral, Google Cloud Storage |
text/plain |
Código |
Inline, Arquivo local, URL geral, Google Cloud Storage |
text/plain |
Documento |
Arquivo local, URL geral, Google Cloud Storage |
application/pdf |
Imagem |
Arquivo local, URL geral, Google Cloud Storage |
image/jpeg image/png image/webp
|
Áudio |
Arquivo local, URL geral, Google Cloud Storage |
audio/aac audio/flac audio/mp3
audio/m4a audio/mpeg audio/mpga
audio/mp4 audio/opus audio/pcm
audio/wav audio/webm
|
Vídeo |
Arquivo local, URL geral, Google Cloud Storage, YouTube |
video/mp4 video/mpeg video/x-flv
video/quicktime video/mpegps video/mpg
video/webm video/wmv video/3gpp
|
Nesta tarefa, você vai enviar diferentes tipos de comandos multimodais ao modelo, combinando texto com outros tipos de dados, como imagens, áudio e vídeo.
- Execute a seção Enviar imagem local do notebook.
- Execute a seção Enviar documento do Google Cloud Storage do notebook.
- Execute a seção Enviar áudio do URL geral do notebook.
- Execute a seção Enviar vídeo do URL do YouTube do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Enviar comandos multimodais.
Tarefa 6: controlar a saída gerada e gerenciar tokens
A geração controlada permite definir um esquema de resposta para especificar a estrutura da saída de um modelo, os nomes dos campos e o tipo de dados esperado para cada campo. O esquema de resposta é especificado no parâmetro response_schema
, em config
, e a saída do modelo segue exatamente esse esquema.
Defina os esquemas como modelos Pydantic ou uma string JSON (links em inglês). O modelo vai responder como JSON ou um tipo enumerado, dependendo do valor definido em response_mime_type
. Nesta tarefa, você vai conhecer técnicas para controlar a saída do modelo e gerenciar o uso de tokens.
Seguindo a tarefa anterior, em que você aprendeu a configurar parâmetros, esta tarefa mostra como definir um esquema de resposta para ter maior controle sobre o formato de saída do modelo.
- Execute a seção Controlar a saída gerada do notebook.
Contar e calcular tokens
Use o método count_tokens()
para calcular o número de tokens de entrada antes de enviar uma solicitação à API Gemini. Para mais informações, consulte Listar e contar tokens.
- Execute a seção Contar e calcular tokens do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Controlar a saída gerada e gerenciar tokens.
Tarefa 7: usar a Pesquisa Google como ferramenta (embasamento)
O embasamento permite conectar dados reais ao modelo Gemini.
Ao embasar as respostas do modelo nos resultados da Pesquisa Google, ele tem acesso a informações no ambiente de execução que vão além dos dados de treinamento, o que pode gerar respostas mais precisas, atualizadas e relevantes.
Usando o recurso de Embasamento com a Pesquisa Google, é possível melhorar a acurácia e a atualização das respostas do modelo. A partir do Gemini 2.0, a Pesquisa Google está disponível como ferramenta. Isso significa que o modelo pode decidir quando usar a Pesquisa Google.
Pesquisa Google
Adicione o argumento de palavra-chave tools
com uma Tool
que inclua GoogleSearch
para instruir o Gemini a realizar uma Pesquisa Google com o comando e criar uma resposta com base nos resultados da pesquisa na Web.
A recuperação dinâmica permite definir um limite de quando usar o embasamento nas respostas do modelo. Isso é útil quando o comando não exige uma resposta com embasamento na Pesquisa Google e os modelos compatíveis podem gerar uma resposta com base no conhecimento sem embasamento. Isso ajuda a gerenciar a latência, a qualidade e o custo com mais eficiência.
- Execute a seção Pesquisa Google do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Usar a Pesquisa Google como ferramenta (embasamento).
Tarefa 8: usar a chamada de função e a execução de códigos
Com a chamada de função, os desenvolvedores podem criar uma descrição de função no código e transmitir essa informação para um modelo de linguagem em uma solicitação. É possível enviar uma função em Python para a chamada automática, que executa a função e retorna a saída em linguagem natural gerada pelo Gemini.
Também é possível enviar uma especificação da OpenAPI (link em inglês), que vai responder com o nome de uma função correspondente à descrição e os argumentos para chamá-la. Nesta tarefa, você vai aprender a chamar funções, permitindo que o modelo interaja com sistemas externos e execute o código gerado por ele.
- Execute a seção Função Python (chamada de função automática) do notebook.
- Execute a seção Especificação da OpenAPI (chamada manual de função) do notebook.
Execução de código
O recurso de execução de código da API Gemini permite que o modelo gere e execute código em Python e aprenda de forma iterativa com os resultados até chegar a uma saída final. Use esse recurso para criar aplicativos que usam o raciocínio baseado em código e que produzem saídas de texto. Por exemplo, é possível usar a execução de código em um aplicativo que resolve equações ou processa textos.
A API Gemini inclui a execução de código como uma ferramenta, semelhante à chamada de função.
Depois de adicionar a execução de código como uma ferramenta, o modelo decide quando usá-la.
- Execute a seção Execução de código do notebook.
Clique em Verificar meu progresso para conferir o objetivo.
Usar a chamada de função e a execução de código.
Parabéns!
Parabéns! Neste laboratório, você participou de uma experiência prática com o modelo avançado Gemini 2.0 Flash usando a API Gemini na Vertex AI. Você já conhece os vários recursos disponíveis, como a geração de texto e código, o processamento de dados multimodais e a configuração avançada de modelos. Agora já pode usar esses recursos aprimorados na criação de aplicativos de IA inovadores e sofisticados. Além disso, você conheceu os novos recursos lançados no Gemini 2.0 e aprendeu a usar o novo SDK para migrar entre APIs.
Próximas etapas / Saiba mais
Confira os recursos a seguir para saber mais sobre o Gemini:
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 5 de maio de 2025
Laboratório testado em 5 de maio de 2025
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.