使用 Gemini 的多模态应用场景

Install packages and import libraries

检查我的进度

/ 20

Individual modalities on text, pdf and image

检查我的进度

/ 10

Individual modalities on video

检查我的进度

/ 10

Individual modalities on codebase

检查我的进度

/ 10

Individual modalities on audio

检查我的进度

/ 10

Combining multiple modalities at once

检查我的进度

/ 10

E-commerce use case

检查我的进度

/ 10

Entity relationships in technical diagrams

检查我的进度

/ 10

Compare images for similarities, anomalies, or differences

检查我的进度

/ 10

此实验可能会提供 AI 工具来支持您学习。

GSP1278

概览

本实验将全面探索 Google 先进的多模态 AI 模型 - Gemini。您将学习如何借助 Google Gen AI SDK for Python，通过 Gemini API 与这些模型进行交互，具体会涉及文本、PDF、图片、视频、代码和音频等多种单一模态的应用。然后，您将深入学习多模态融合应用，充分展现 Gemini 同步处理和分析多样化数据格式的强大能力。最后，您将探索一个真实的零售/电子商务应用场景，亲身体验 Gemini 在生成推荐方案、提升客户体验方面的实际应用价值。

Gemini

Gemini 是 Google DeepMind 开发的一系列强大的生成式 AI 模型，能够理解和生成各种形式的内容，包括文本、代码、图片、音频和视频。

Agent Platform 中的 Gemini API

Agent Platform 中的 Gemini API 为与 Gemini 模型进行交互提供了统一界面。通过 Gemini API，开发者可以轻松将这些强大的 AI 功能集成到他们的应用中。如需了解最新版本的最新详细信息和具体功能，请参阅官方 Gemini 文档。

Gemini 模型

Gemini Pro：专为复杂的推理任务而设计，包括：
- 分析和总结大量信息。
- 复杂的跨模态推理（跨文本、代码、图片等）。
- 有效解决复杂代码库的问题。
Gemini Flash：针对速度和效率进行了优化，具有以下特点和功能：
- 亚秒级响应时间和高吞吐量。
- 成本低、效率高，适用于各种任务。
- 增强的多模态功能，包括改进的空间理解、新的输出模态（文本、音频、图片）以及原生工具使用体验（Google 搜索、代码执行和第三方功能）。

前提条件

在开始本实验之前，您应当熟悉以下内容：

Python 编程基础知识。
API 的一般性概念。
在 Agent Platform Workbench 上的 Jupyter 笔记本中运行 Python 代码。

目标

在本实验中，您将学习如何使用 Google Gen AI SDK for Python 与 Gemini 模型进行交互，以实现以下目标：

覆盖文本、PDF、图片、视频、代码及音频等单一模态场景
探索不同模态的组合方式
实操电子商务应用场景
比较不同图片以发现其相似、异常或不同之处
理解技术图表中的实体关系

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的，并且您无法暂停实验。计时器在您点击开始实验后即开始计时，显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动，免受模拟或演示环境的局限。为此，我们会向您提供新的临时凭据，您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验，您需要：

能够使用标准的互联网浏览器（建议使用 Chrome 浏览器）。

注意：请使用无痕模式（推荐）或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突，这种冲突可能导致您的个人账号产生额外费用。

完成实验的时间 - 请注意，实验开始后无法暂停。

注意：请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号，则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

点击开始实验按钮。如果该实验需要付费，系统会打开一个对话框供您选择支付方式。右侧是实验设置和访问权限面板，其中包含以下内容：
- 打开 Google Cloud 控制台按钮
- 您在本实验中必须使用的临时凭证（用户名和密码）
- 帮助您逐步完成该实验所需的其他信息（如果需要）
请注意，实验计时器位于页面顶部附近，将显示剩余时间。
点击打开 Google Cloud 控制台（如果您使用的是 Chrome 浏览器，请右键点击并选择在无痕式窗口中打开链接）。

该实验会启动资源并打开另一个标签页，显示“登录”页面。

提示：可以将这些标签页分别放在不同的窗口中，并排显示。
注意：如果您看见选择账号对话框，请点击使用其他账号。
如有必要，请复制下方的用户名，然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在实验设置和访问权限面板中找到“用户名”。
点击下一步。
复制下面的密码，然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在实验设置和访问权限面板中找到“密码”。
点击下一步。
重要提示：您必须使用实验提供的凭证。请勿使用您的 Google Cloud 账号凭证。注意：在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
依次点击进入后续页面：
- 接受条款及条件。
- 由于这是临时账号，请勿添加账号恢复选项或双重身份验证。
- 请勿注册免费试用。

片刻之后，系统会在此标签页中打开 Google Cloud 控制台。

注意：如需访问 Google Cloud 产品和服务，请点击导航菜单，或在搜索字段中输入服务或产品的名称。 “导航菜单”图标和“搜索”字段

任务 1. 在 Agent Platform Workbench 中打开笔记本

在 Google Cloud 控制台的导航菜单 () 中，依次点击 Agent Platform > Notebooks > Workbench。
找到实例，然后点击打开 JupyterLab 按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

任务 2. 设置笔记本

打开文件。
在 Select Kernel（选择内核）对话框中，从可用内核列表中选择 Python 3 (Local)。
运行笔记本的开始使用部分。系统已为您预配置项目 ID 和位置。

注意：如有笔记本单元在执行时遇到 429 响应，请等待一分钟，然后再次运行该单元以继续操作。

点击检查我的进度，验证是否完成了以下目标：安装软件包并导入相应的库

任务 3. 单一模态应用

在本部分中，您将探索 Gemini 支持的多种单一模态。

运行笔记本中 Individual Modalities（单一模态应用）部分的内容。

点击检查我的进度，验证是否完成了以下目标：文本、PDF 和图片的单一模态应用

点击检查我的进度，验证是否完成了以下目标：视频的单一模态应用

点击检查我的进度，验证是否完成了以下目标：音频的单一模态应用

注意：如果在执行任何笔记本单元时遇到 ClientError 499 响应（表明任务在完成之前被取消），请尝试重新执行相应代码单元。

点击检查我的进度，验证是否完成了以下目标：代码库的单一模态应用

任务 4. 多模态融合应用

在本部分中，您将探索如何使用 Gemini 实现多种模态的交织应用。

运行笔记本中 Combining multiple modalities（多模态融合应用）部分的内容。

点击检查我的进度，验证是否完成了以下目标：多模态同步融合应用

任务 5. 应用场景：零售/电子商务

在本部分中，您将探索 Gemini 在零售推荐场景中的应用。

运行笔记本中 Use Case: retail / e-commerce（应用场景：零售/电子商务）部分的内容。

点击检查我的进度，验证是否完成了以下目标：电子商务应用场景

任务 6. 应用场景：技术图表中的实体关系

在本部分中，您将探索一个应用场景，了解如何使用 Gemini 来理解图表并执行优化、代码生成等可行操作。

运行笔记本中 Use Case: Entity relationships in technical diagrams（应用场景：技术图表中的实体关系）部分的内容。

点击检查我的进度，验证是否完成了以下目标：技术图表中的实体关系

任务 7. 应用场景：比较不同图片以发现其相似、异常或不同之处

在本部分中，您将探索一个应用场景，了解如何使用 Gemini 比较不同图片并找出多个对象之间的相似或不同之处。

运行笔记本中 Use Case: Similarity/Differences（应用场景：相似/不同之处）部分的内容。

点击检查我的进度，验证是否完成了以下目标：比较不同图片以发现其相似、异常或不同之处

恭喜！

在本实验中，您学习了 Gemini 模型在多模态应用场景中的使用方法。。您可以在下列 Agent Platform 文档网站上找到有关 Gemini 的更多信息。

后续步骤/了解详情

如需详细了解生成式 AI 和 Gemini Enterprise Agent Platform，请查看以下资源：

参阅 Google DeepMind Gemini 模型概览，了解核心模型功能。
浏览官方 Agent Platform 文档，了解设计、扩缩和部署准则。
查看 Agent Platform 上的智能体概览，了解如何构建和治理自定义智能体。
观看 YouTube 上有关生成式 AI 的播放列表，获取视频教程和产品演示。
探索 Google Cloud 生成式 AI 代码库中的其他笔记本和示例。
探索 Google 智能体开发套件 (ADK) 示例代码库，获取自定义智能体模板。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践，可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训，并有点播、直播和虚拟三种方式选择，让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间：2025 年 10 月 14 日

本实验的最后测试时间：2025 年 10 月 14 日

GSP1278

概览

Gemini

Agent Platform 中的 Gemini API

Gemini 模型

前提条件

目标

设置和要求

点击“开始实验”按钮前的注意事项

如何开始实验并登录 Google Cloud 控制台

任务 1. 在 Agent Platform Workbench 中打开笔记本

任务 2. 设置笔记本

任务 3. 单一模态应用

任务 4. 多模态融合应用

任务 5. 应用场景：零售/电子商务

任务 6. 应用场景：技术图表中的实体关系

任务 7. 应用场景：比较不同图片以发现其相似、异常或不同之处

恭喜！

后续步骤/了解详情

Google Cloud 培训和认证

准备工作

使用无痕浏览模式

登录控制台

使用无痕浏览模式运行实验