探索 Google AI Studio 的多模态功能

Generate images

检查我的进度

/ 30

Prompt a model to analyze a long-format video

检查我的进度

/ 30

Build a spatial understanding app from a template

检查我的进度

/ 40

此实验可能会提供 AI 工具来支持您学习。

GSP1336

Google Cloud 自学实验

概览

在本实验中，您将探索 Google AI Studio 强大的多模态功能，重点了解生成式 AI 和空间理解。通过实践练习，您将获得使用前沿 AI 模型的实操经验，并了解如何将它们集成到您的应用中。作为博物馆馆长兼展览设计师，您将使用这些工具为新的博物馆展览集思广益并制作原型。

学习内容

在本实验中，您将学习如何完成以下操作：

提示模型生成图片。
提示模型分析长视频。
基于模板构建空间理解应用。
提示空间理解应用原型识别图片中的物品。

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的，并且您无法暂停实验。计时器在您点击开始实验后即开始计时，显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动，免受模拟或演示环境的局限。为此，我们会向您提供新的临时凭据，您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验，您需要：

能够使用标准的互联网浏览器（建议使用 Chrome 浏览器）。

注意：请使用无痕模式（推荐）或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突，这种冲突可能导致您的个人账号产生额外费用。

完成实验的时间 - 请注意，实验开始后无法暂停。

注意：请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号，则可能会向该账号收取费用。

打开 Google AI Studio

点击开始实验。实验面板将显示此实验的临时凭证。
- 注意：如果实验需要付费，系统会提示您选择支付方式。
在无痕式窗口中打开 Google AI Studio。系统会显示 Google 登录页面。
- 提示：为了方便操作，请将实验和 AI Studio 这两个标签页分别放在不同的窗口中，并排显示。
复制下面的用户名，将其粘贴到电子邮件字段，然后点击下一步。
{{{user_0.username | "Username"}}}
复制下面的密码，将其粘贴到输入密码字段中，然后点击下一步。
{{{user_0.password | "Password"}}}
接受屏幕上显示的任何条款及条件，然后继续操作。

您现在已使用临时学生账号登录 Google AI Studio。

任务 1.生成图片

在此任务中，您将扮演策展人的角色，为新的恐龙展览生成概念图。这需要使用专门为生成媒体而设计的模型。

使用 Gemini 图片生成功能生成概念图

在左侧导航菜单中，点击测试场即可打开主对话界面。
打开右侧面板中的运行设置，在 Model selection（模型选择）下找到 Gemini 标签页，然后选择 Nano Banana。
在提示输入字段中，输入生成概念图的提示：

一张逼真、未来感十足的自然历史博物馆大厅图片，其中央矗立着一具发出蓝色光芒的水晶霸王龙骨架。

点击运行，然后查看生成的图片。这张图片可以作为新展览设计的基础。
在弹出式窗口中，点击 Enable Google Drive（启用 Google 云端硬盘），然后选择您的学生账号（例如 student-XX-YYYY@qwiklabs.net），并授予所有必要的权限以继续操作。
点击自动生成的标题旁边的“修改”图标，保存提示和回答，然后在提示名称部分输入未来风博物馆展厅。
点击保存。

点击检查我的进度以验证是否完成了以下目标：生成图片

任务 2. 提示模型分析长视频

在此任务中，您将让 Gemini 分析美国自然历史博物馆的视频导览，从而研究现有的成功展览。

在左侧导航菜单中，点击测试场即可返回主对话界面。
在右侧面板中，打开运行设置边栏，然后点击默认 Gemini 模型（当前设置为 Nano Banana）以选择其他模型。
在 Model selection（模型选择）下，点击 Gemini 标签页，然后选择模型，因为该模型旨在处理视频等大型输入内容。
点击提示栏内的附件图标（圆圈内一个加号），然后选择 Sample Media（示例媒体）。
从视频列表中选择 American Museum of Natural History Tour - 10 Min，然后点击 Add to prompt（添加到提示）。
等待视频处理完毕。您会看到视频显示在提示区域中，并附有其 token 数量。

注意：添加视频后，您会看到一个较大的 token 数量。语言模型将视频视为数千个单独帧的序列。每个帧都会转换为称为 token 的数值数据，供模型进行分析。您看到的处理时间是指模型在回答有关视频的问题之前“读取”所有这些 token 的时间。

在视频上方的文本字段中，输入以下提示：

请总结一下此视频导览中展示的主要展品。列出每个不同的展厅或展区，并用一句话描述每个展厅或展区。

点击运行，然后查看模型生成的视频内容文本摘要。
点击自动生成的标题旁边的“修改”图标，保存提示和回答，然后在提示名称部分输入博物馆展览亮点。
点击保存。

点击检查我的进度以验证是否完成了以下目标：提示模型分析长视频

任务 3. 基于模板构建空间理解应用

在此任务中，您将基于模板构建一个应用，快速为博物馆游客设计一个互动式“询问与展品相关的问题”功能，而无需编写任何代码。

在左侧导航菜单中，点击构建。
滚动浏览应用模板库，找到 Spatial Understanding（空间理解）卡片。

注意：如果未显示模板，请选择 All apps（所有应用）以查看完整的应用模板库。

点击 Spatial Understanding（空间理解）模板，即可立即生成应用原型。

空间理解应用原型页面

界面随之加载，显示应用的代码，右侧显示应用的实时预览。

点击检查我的进度以验证是否完成了以下目标：基于模板构建空间理解应用

任务 4. 提示空间理解应用原型

在此任务中，您将测试刚刚构建的原型。您将模拟访客互动，让应用识别丰收节展览中的示例图片内的对象，并修改代码以更改边界框颜色。

探索应用的功能

在应用的预览窗格中，找到底部的示例图片。点击显示多个南瓜的图片。
在提示框上方，确保已选择 2D bounding boxes（2D 边界框）按钮。在提示输入框中，输入南瓜，然后点击发送。观察南瓜周围绘制的标准边界框。

注意：边界框是一个矩形，用于突出显示图片中对象的精确位置。这是计算机视觉模型展示其空间理解能力的基本方式，它不仅会向您展示自己看到了什么，还会展示自己是在哪里看到的。

现在，选择 Segmentation masks（分割遮罩）按钮，然后再次点击发送。请注意输出结果的变化，每个检测到的南瓜的整个区域都变了颜色。
最后，选择 Points（点）按钮，然后点击发送。观察模型如何在检测到的对象上放置关键点。

在代码助理的帮助下修改应用

在继续操作之前，请确保在“预览”窗格中再次选择 2D bounding boxes（2D 边界框）按钮。
现在，请将注意力集中到屏幕左下角的代码助理输入字段，该字段显示“进行更改、添加新功能…”。输入以下命令：

将边界框设为红色。

点击 Remix（重新合成）或按助理的“发送”按钮，然后选择应用。系统会打开一个新的浏览器窗口，点击页面上的确认，然后观察助理如何在编辑器窗口中更新应用代码。
代码更新完毕后，请关注右侧的预览窗格。在南瓜图片和 2D bounding boxes（2D 边界框）仍处于选中状态的情况下，最后一次点击南瓜提示的发送按钮。
观察结果。现在，南瓜周围绘制的边界框应为红色，这表明您已成功通过简单的文本命令修改了运行的应用。
可选挑战：您已经了解了如何轻松地使用文本修改应用。在结束之前，请尝试向代码助理发出更多指令。您能想出如何执行以下操作吗？
- 将边界框颜色更改为绿色？
- 将边界框线设为虚线而非实线？
- 将边界框更改为粗虚线？
- 将标签文本颜色更改为白色？
点击自动生成的标题旁边的“修改”图标，保存提示和回答，然后在提示名称部分输入空间理解。
点击保存。

恭喜！

恭喜！您已成功使用 Google AI Studio 的多模态功能集思广益并设计了新的博物馆展览原型。您生成了概念图和视频片段，分析了现有的视频导览，甚至还构建了交互式空间理解应用原型。现在，您已经亲身体验了 AI 的强大功能，它不仅能看到内容，还能理解内容，并生成各种富媒体。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践，可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训，并有点播、直播和虚拟三种方式选择，让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间：2026 年 3 月 5 日

本实验的最后测试时间：2026 年 3 月 5 日

GSP1336

概览

学习内容

设置和要求

点击“开始实验”按钮前的注意事项

打开 Google AI Studio

任务 1.生成图片

使用 Gemini 图片生成功能生成概念图

任务 2. 提示模型分析长视频

任务 3. 基于模板构建空间理解应用

任务 4. 提示空间理解应用原型

探索应用的功能

在代码助理的帮助下修改应用

恭喜！

Google Cloud 培训和认证

准备工作

使用无痕浏览模式

登录控制台

使用无痕浏览模式运行实验