
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Image understanding across multiple images
/ 10
Generating a video description
/ 10
Audio understanding
/ 10
Reason across a codebase
/ 10
Video and audio understanding
/ 10
All modalities (images, video, audio, text) at once
/ 10
Generating recommendations based on provided images
/ 10
Understand entity relationships in technical diagrams
/ 10
Compare images for similarities and differences
/ 20
本实验将向您介绍 Gemini,这是一套由 Google 开发的多模态生成式 AI 模型。您将使用 Gemini API,探索 Gemini Flash 如何理解文本、图片和视频内容并生成相关回答。
Gemini 的多模态功能可执行以下操作:
通过在 Vertex AI 中使用 Gemini API 执行实操任务,您可以亲自体验这些功能。
在开始本实验之前,您应该先熟悉:
在此实验中,您将执行以下操作:
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码,然后将其粘贴到欢迎对话框中。
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
继续在后续页面中点击以完成相应操作:
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
在 Google Cloud 控制台的导航菜单 () 中依次点击 Vertex AI > Workbench。
找到
Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。
1. 关闭 JupyterLab 的浏览器标签页,然后返回 Workbench 首页。
2. 选中实例名称旁边的复选框,然后点击重置。
3. 打开 JupyterLab 按钮重新启用后,请等待一分钟,然后点击打开 JupyterLab。
打开
在选择内核对话框中,从可用内核列表中选择 Python 3。
运行笔记本的开始使用和导入库部分。
Gemini Flash 是一种支持多模态提示的多模态模型。您可以在提示请求中包含文本、图片和视频,并获取文本或代码回答。
在本任务中,运行各个笔记本单元,了解如何使用 Gemini Flash 模型。完成目标后,返回此处以检查您的进度。
Gemini 的一项功能是通过多张图片进行推理。在此示例中,您将使用 Gemini 分析水果图片和价格表,以便推算出食物的总费用。
运行此笔记本的根据多张图片进行推理部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 还可以从视频中提取标签,并检索视频内容之外的额外信息。在此示例中,您将使用 Gemini 从不同的视频中提取标签并检索额外信息:
运行此笔记本的生成视频说明部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 可以直接处理音频,以便理解长上下文。在此示例中,您将使用 Gemini 处理音频,以便理解长上下文:
运行此笔记本的音频理解部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 可以直接处理音频,以便理解长上下文。在此示例中,您将使用 Gemini 处理音频,以便理解长上下文:
运行此笔记本的在整个代码库中推理部分。
点击检查我的进度以验证是否完成了以下目标:
在本示例中,您将尝试使用 Gemini 的原生多模态和长上下文功能,来理解视频和音频相交织的输入信息。
运行此笔记本的视频和音频理解部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 是原生多模态模型,支持交错使用不同模态的数据。在此示例中,您可以尝试在同一输入序列中混合使用音频、影像、文本和代码输入。
运行此笔记本的同时使用所有模态(图片、视频、音频、文本)部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 能够进行图片比较并提供建议。这对零售公司来说尤其有用,因为他们希望根据用户当前所处的场景来推荐商品。
运行此笔记本的根据提供的图片生成建议部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 具备多模态功能,这使其能够理解图表并执行一些可行的操作,例如进行优化或生成代码。在此示例中,您将看到 Gemini 能够解读实体关系 (ER) 图表,理解表之间的关系,确定特定环境(例如 BigQuery)中的优化要求,甚至生成相应的代码。
运行此笔记本的理解技术图表中的实体关系部分。
点击检查我的进度以验证是否完成了以下目标:
Gemini 可以对不同的图片进行比较,并找出对象之间的相似/不同之处。在此示例中,您将使用 Gemini 比较在同一地点拍摄的两张图片,并找出它们的不同之处。
运行此笔记本的比较图片以发现相似和不同之处部分。
点击检查我的进度以验证是否完成了以下目标:
您现已完成本实验!在本实验中,您学习了如何在 Vertex AI 中使用 Gemini API,根据文本和图片提示生成回答。
请参阅以下资源,详细了解 Gemini:
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2025 年 5 月 19 日
上次测试实验的时间:2025 年 5 月 19 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验