探索 Google AI Studio 的多模态功能

实验 25 分钟 universal_currency_alt 免费 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。

GSP1336

Google Cloud 自学实验的徽标

概览

在本实验中,您将探索 Google AI Studio 强大的多模态功能,重点了解生成式 AI 和空间理解。通过实践练习,您将获得使用前沿 AI 模型的实操经验,并了解如何将它们集成到您的应用中。作为博物馆馆长兼展览设计师,您将使用这些工具为新的博物馆展览集思广益并制作原型。

学习内容

在本实验中,您将学习如何完成以下操作:

  • 提示模型生成图片和视频片段。
  • 提示模型分析长视频。
  • 基于模板构建空间理解应用。
  • 提示空间理解应用原型识别图片中的物品。

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

打开 Google AI Studio

  1. 点击开始实验。实验面板将显示此实验的临时凭证。

    • 注意:如果实验需要付费,系统会提示您选择支付方式。
  2. 无痕式窗口中打开 Google AI Studio。系统会显示 Google 登录页面。

    • 提示:为了方便操作,请将实验和 AI Studio 这两个标签页分别放在不同的窗口中,并排显示。
  3. 复制下面的用户名,将其粘贴到电子邮件字段,然后点击下一步

    {{{user_0.username | "Username"}}}
  4. 复制下面的密码,将其粘贴到输入密码字段中,然后点击下一步

    {{{user_0.password | "Password"}}}
  5. 接受屏幕上显示的任何条款及条件,然后继续操作。

您现在已使用临时学生账号登录 Google AI Studio。

任务 1. 生成图片和视频片段

在此任务中,您将扮演策展人的角色,为新的恐龙展览生成概念图和简短的宣传视频。这需要使用专门为生成媒体而设计的模型。

使用 Gemini 图片生成功能生成概念图

  1. 在左侧导航菜单中,点击对话

  2. 选择图片,然后从列出的选项中选择 Imagen

  3. 在提示输入字段中,输入生成概念图的提示:

一张逼真、未来感十足的自然历史博物馆大厅图片,其中央矗立着一具发出蓝色光芒的水晶霸王龙骨架。
  1. 点击运行,然后查看生成的图片。这张图片可以作为新展览设计的基础。

  2. 点击“保存提示”图标 保存 保存提示和回答,然后修改提示的标题和说明。

  3. 系统会打开一个新的弹出式窗口。选择您的学员账号(例如 student-XX-YYYY@qwiklabs.net),然后授予所有必要的权限以继续操作。

    • 对于提示名称,输入未来风博物馆展厅
  4. 点击保存

使用 Veo 生成宣传视频片段

  1. 在左侧导航菜单中,点击对话

  2. 选择视频,然后从选项中选择 Veo 以生成视频。

  3. 在右侧面板中,找到视频时长设置,并将其调整为 8 秒。将宽高比设为 9:16

  4. 在提示输入字段中,描述一条简短的动态社交媒体短片:

一段电影风格的慢动作视频,展示了细节丰富的机械三角龙转头和眨眼的动作。
  1. 点击运行
注意:如果出现标题为允许访问云端硬盘的对话框,请点击允许访问按钮。系统会打开一个新的弹出式窗口。选择您的学员账号(例如 student-XX-YYYY@qwiklabs.net),然后授予所有必要的权限以继续操作。
  1. 模型将开始生成视频。看到播放视频选项后,点击该选项即可观看片段。

点击检查我的进度以验证是否完成了以下目标: 生成图片和视频片段

任务 2. 提示模型分析长视频

在此任务中,您将让 Gemini 分析美国自然历史博物馆的视频导览,从而研究现有的成功展览。

  1. 在左侧导航菜单中,点击对话即可返回主对话界面。

  2. 在右侧面板中,打开运行设置侧边栏,然后点击默认 Gemini 模型(当前设置为 Nano Banana)以选择其他模型。

  3. 模型选择下,点击 Gemini 标签页,然后选择 模型,因为该模型旨在处理视频等大型输入内容。

  4. 点击提示栏内的附件图标(圆圈内一个加号),然后选择示例媒体

  5. 从视频列表中选择 American Museum of Natural History Tour - 10 Min,然后点击添加到提示

  6. 等待视频处理完毕。您会看到视频显示在提示区域中,并附有其 token 数量。

注意:添加视频后,您会看到一个较大的 token 数量。语言模型将视频视为数千个单独帧的序列。每个帧都会转换为称为 token 的数值数据,供模型进行分析。您看到的处理时间是指模型在回答有关视频的问题之前“读取”所有这些 token 的时间。
  1. 在视频上方的文本字段中,输入以下提示:
请总结一下此视频导览中展示的主要展品。列出每个不同的展厅或展区,并用一句话描述每个展厅或展区。
  1. 点击运行,然后查看模型生成的视频内容文本摘要。

  2. 对于提示名称,输入博物馆展览亮点

  3. 点击保存

点击检查我的进度以验证是否完成了以下目标: 提示模型分析长视频

任务 3. 基于模板构建空间理解应用

在此任务中,您将基于模板构建一个应用,快速为博物馆游客设计一个互动式“询问与展品相关的问题”功能,而无需编写任何代码。

  1. 在左侧导航菜单中,点击构建

  2. 滚动浏览应用模板库,找到空间理解卡片。

  3. 点击空间理解模板,即可立即生成应用原型。

空间理解应用原型页面

  1. 界面随之加载,中间显示应用的代码,右侧显示应用的实时预览

点击检查我的进度以验证是否完成了以下目标: 基于模板构建空间理解应用

任务 4. 提示空间理解应用原型

在此任务中,您将测试刚刚构建的原型。您将模拟访客互动,让应用识别丰收节展览中的示例图片内的对象,并修改代码以更改边界框颜色。

探索应用的功能

  1. 在应用右侧的预览窗格中,找到底部的示例图片。点击显示多个南瓜的图片。

  2. 在提示框上方,确保已选择 2D 边界框按钮。在提示输入框中,输入南瓜,然后点击发送。观察南瓜周围绘制的标准边界框。

注意:边界框是一个矩形,用于突出显示图片中对象的精确位置。这是计算机视觉模型展示其空间理解能力的基本方式,它不仅会向您展示自己看到了什么,还会展示自己是在哪里看到的。
  1. 现在,选择分割遮罩按钮,然后再次点击发送。请注意输出结果的变化,每个检测到的南瓜的整个区域都变了颜色。

  2. 最后,选择按钮,然后点击发送。观察模型如何在检测到的对象上放置关键点。

在代码助理的帮助下修改应用

  1. 在继续操作之前,请确保在“预览”窗格中再次选择 2D 边界框按钮。

  2. 现在,请将注意力集中到屏幕左下角的代码助理输入字段,该字段显示“进行更改、添加新功能…”。输入以下命令:

将边界框设为红色。
  1. Enter 键或点击助理的“发送”按钮。观察助理如何在中间的编辑器窗口中修改应用代码。

  2. 代码更新完毕后,请关注右侧的预览窗格。在南瓜图片和 2D 边界框仍处于选中状态的情况下,最后一次点击南瓜提示的发送按钮。

  3. 观察结果。现在,南瓜周围绘制的边界框应为红色,这表明您已成功通过简单的文本命令修改了运行的应用。

  4. 可选挑战:您已经了解了如何轻松地使用文本修改应用。在结束之前,请尝试向代码助理发出更多指令。您能想出如何执行以下操作吗?

    • 将边界框颜色更改为绿色
    • 将边界框线设为虚线而非实线?
    • 将边界框更改为粗虚线?
    • 将标签文字颜色更改为白色?
  5. 点击“保存”图标 保存 保存应用,然后修改提示的标题和说明。

    • 提示名称中,输入空间理解
  6. 点击保存

点击检查我的进度以验证是否完成了以下目标: 提示空间理解应用原型

恭喜!

恭喜!您已成功使用 Google AI Studio 的多模态功能集思广益并设计了新的博物馆展览原型。您生成了概念图和视频片段,分析了现有的视频导览,甚至还构建了交互式空间感知应用原型。现在,您已经亲身体验了 AI 的强大功能,它不仅能看到内容,还能理解内容,并生成各种丰富多样的媒体。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2025 年 10 月 16 日

上次测试实验的时间:2025 年 10 月 16 日

版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

Using an Incognito or private browser window is the best way to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.