
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Set up the notebook
/ 20
Generate text from text prompts
/ 10
Configure model parameters
/ 10
Send multimodal prompts
/ 10
Control generated output and manage tokens
/ 10
Google Search as a tool (Grounding)
/ 20
Utilize function calling and code execution
/ 20
本实验将为您介绍 Gemini 2.0 Flash,这是一款由 Google DeepMind 打造的功能强大的全新多模态 AI 模型,可通过 Vertex AI 中的 Gemini API 使用。您将探索这款模型在速度、性能和质量方面的显著提升,同时学习如何利用其功能来完成文本和代码生成、多模态数据处理以及函数调用等任务。本实验还会介绍一些高级功能,例如异步方法、系统指令、受控生成、安全设置、依托 Google 搜索进行接地以及统计 token 数量。
Gemini 是 Google DeepMind 开发的一系列强大的生成式 AI 模型,能够理解和生成各种形式的内容,包括文本、代码、图片、音频和视频。
Vertex AI 中的 Gemini API 提供了与各 Gemini 模型交互的统一接口。通过 Gemini API,开发者可以轻松将这些强大的 AI 功能集成到他们的应用中。如需了解最新版本的最新详细信息和具体功能,请参阅官方 Gemini 文档。
在开始本实验之前,您应该先熟悉:
在本实验中,您将学习如何使用 Gemini 2.0 Flash 执行以下操作:
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码,然后将其粘贴到欢迎对话框中。
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
继续在后续页面中点击以完成相应操作:
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
在 Google Cloud 控制台的导航菜单 () 中依次点击 Vertex AI > Workbench。
找到
Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。
打开
在选择内核对话框中,从可用内核列表中选择 Python 3。
运行笔记本的开始使用和导入库部分。
点击检查我的进度以验证是否完成了以下目标:
在此任务中,您将使用 Gemini 2.0 Flash 模型根据文本提示生成文本。
默认情况下,模型会在完成整个生成过程后返回回答。您也可以使用 generate_content_stream
方法,在生成回答的同时对其流式传输,这样模型便会在生成一部分回答后立即返回这部分回答。
Gemini API 支持多轮自由对话,可实现多轮来回交互。
对话上下文会在消息之间保留。
client.aio
公开了 client
上提供的所有类似的异步方法。
例如,client.aio.models.generate_content
是 client.models.generate_content
的异步版本。
点击检查我的进度以验证是否完成了以下目标:
在此任务中,您将学习如何配置模型参数以微调模型输出。通过调整这些参数,您可以控制所生成文本的创意、长度和安全性等方面。
您可以在发送给模型的每次调用中包含参数值,以控制模型如何生成回答。对于不同的参数值,模型会生成不同的结果。您可以尝试使用不同的模型参数,看看结果会如何变化。
系统指令可用于引导模型的行为。通过设置系统指令,您可以为模型提供更多背景信息,以便其理解任务、提供更具个性化的回答,并在与用户互动的过程中遵循相关准则。
Gemini API 提供了安全过滤器,您可以在多个过滤器类别中进行调整,以限制或允许某些类型的内容。您可以使用这些过滤器,针对您的应用场景进行适当的调整。如需了解详情,请参阅配置安全过滤器页面。
当您向 Gemini 发出请求时,系统会对内容进行分析并为其进行安全评级。您可以输出模型的回答,以检查所生成内容的安全评级。安全设置默认为 OFF
,默认屏蔽阈值为 BLOCK_NONE
。
您可以使用 safety_settings
来调整向 API 发出的每个请求的安全设置。此示例演示了如何将所有类别的屏蔽阈值设置为 BLOCK_LOW_AND_ABOVE
:
点击检查我的进度以验证是否完成了以下目标:
Gemini 是一种支持多模态提示的多模态模型。
您可以包含各种来源的以下任何一种数据类型。以下是更新后的 HTML 表,其中“音频”部分的 MIME 类型已扩展:
数据类型 | 来源 | MIME 类型 |
---|---|---|
文本 | 内嵌、本地文件、常规网址、Google Cloud Storage | text/plain |
代码 | 内嵌、本地文件、常规网址、Google Cloud Storage | text/plain |
文档 | 本地文件、常规网址、Google Cloud Storage | application/pdf |
图片 | 本地文件、常规网址、Google Cloud Storage |
image/jpeg image/png image/webp
|
音频 | 本地文件、常规网址、Google Cloud Storage |
audio/aac audio/flac audio/mp3
audio/m4a audio/mpeg audio/mpga
audio/mp4 audio/opus audio/pcm
audio/wav audio/webm
|
视频 | 本地文件、常规网址、Google Cloud Storage、YouTube |
video/mp4 video/mpeg video/x-flv
video/quicktime video/mpegps video/mpg
video/webm video/wmv video/3gpp
|
在此任务中,您将向模型发送不同类型的多模态提示,将文本与其他数据类型(如图片、音频和视频)结合起来。
点击检查我的进度以验证是否完成了以下目标:
通过受控生成功能,您可以定义回答架构,以指定模型输出的结构、字段名称以及每个字段的预期数据类型。回答架构在 config
的 response_schema
参数中指定,模型输出将严格遵循该架构。
您可以将架构作为 Pydantic 模型或 JSON 字符串提供,模型将以 JSON 或枚举形式进行回答,具体取决于 response_mime_type
中设置的值。在此任务中,您将探索用于控制模型输出和管理 token 使用情况的技术。
在前一个任务中,您学习了如何配置参数,此任务将在此基础上介绍如何定义回答架构,以便更好地控制模型的输出格式。
您可以使用 count_tokens()
方法计算输入 token 的数量,然后再向 Gemini API 发送请求。如需了解详情,请参阅列出并统计 token 数量。
点击检查我的进度以验证是否完成了以下目标:
接地可以让您将真实数据与 Gemini 模型关联起来。
通过依托 Google 搜索结果对模型回答进行接地,模型可以在运行时访问超出其训练数据范围的信息,从而生成更准确、更相关且时效性更强的回答。
通过依托 Google 搜索进行接地,您可以提高模型回答的准确率和时效性。从 Gemini 2.0 开始,Google 搜索可作为工具使用。这意味着模型可以决定何时使用 Google 搜索。
您可以添加 tools
关键字参数,并将 Tool
指定为 GoogleSearch
,以指示 Gemini 先根据提示执行 Google 搜索,然后再根据网页搜索结果来构建回答。
动态检索功能可让您设置一个阈值,以确定何时对模型回答进行接地。当提示不需要依托 Google 搜索进行接地来获得回答,并且支持的模型能够基于自身知识在不进行接地的情况下提供回答时,就可以利用这项功能。这有助于您更有效地管理延迟时间、回答质量和费用。
点击检查我的进度以验证是否完成了以下目标:
借助 Gemini 中的函数调用功能,开发者可以在代码中创建函数的说明,然后通过请求将该说明传递给语言模型。您可以提交用于自动函数调用的 Python 函数,系统会运行该函数并以自然语言返回 Gemini 生成的输出。
您还可以提交 OpenAPI 规范,系统会返回与描述相匹配的函数名称,以及用于调用该函数的参数。在此任务中,您将探索函数调用功能,该功能允许模型与外部系统进行交互,您还将执行由模型生成的代码。
Gemini API 的代码执行功能可让模型生成和运行 Python 代码,并从结果中迭代学习,直到获得最终输出。利用此代码执行功能,您可以构建可受益于基于代码的推理并生成文本输出的应用。例如,您可以将此项功能用于求解方程式或处理文本方面的应用。
Gemini API 提供代码执行作为工具,类似于函数调用。将代码执行作为工具添加后,模型会决定何时使用它。
点击检查我的进度以验证是否完成了以下目标:
恭喜!在本实验中,您获得了通过 Vertex AI 中的 Gemini API 使用先进的 Gemini 2.0 Flash 模型的实操经验。您成功地探索了该模型的多种功能,包括文本和代码生成、多模态数据处理以及高级模型配置。现在,您已经掌握了利用这些强大功能来构建复杂的创新型 AI 应用的知识和技能。您还熟悉了 Gemini 2.0 中引入的新功能,并了解了如何利用新 SDK 在 API 之间进行迁移。
请参阅以下资源,详细了解 Gemini:
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
本手册的最后更新时间:2025 年 5 月 5 日
本实验的最后测试时间:2025 年 5 月 5 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验