正在加载…
未找到任何结果。

Google Cloud Skills Boost

在 Google Cloud 控制台中运用您的技能

访问 700 多个实验和课程

使用 Gemini 处理文档

实验 1 小时 universal_currency_alt 1 个积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
访问 700 多个实验和课程

GSP1274

Google Cloud 自学实验的徽标

概览

在当今这个信息驱动的世界,每天生成的数字文档数量惊人。从电子邮件和报告到法律合同和科学论文,企业和个人都深陷文本数据的洪流之中。如何精准高效地从这些文档中发掘富有价值的分析洞见,已经成为一个不容忽视的难题。

文档处理涉及一系列任务,包括文本提取、分类、总结和翻译等。传统方法通常依赖于基于规则的算法或统计模型,这样可能难以把控自然语言的细微差别和复杂性。

在本实验中,您将学习如何结合使用 Vertex AI 中的 Gemini API 和 Google Gen AI SDK 来处理 PDF 文档。

前提条件

在开始本实验之前,您应该先熟悉:

  • Python 编程基础知识。
  • API 的一般性概念。
  • Vertex AI Workbench 上的 Jupyter 笔记本中运行 Python 代码

目标

在本实验中,您将执行以下操作:

  • 安装 Google Gen AI SDK for Python
  • 使用 Gemini 从非结构化文档中提取结构化实体
  • 使用 Gemini 对文档类型进行分类
  • 使用 Gemini 将分类和实体提取合并为单个工作流
  • 使用 Gemini 总结文档

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:

    • “打开 Google Cloud 控制台”按钮
    • 剩余时间
    • 进行该实验时必须使用的临时凭据
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
  2. 点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。

    该实验会启动资源并打开另一个标签页,显示“登录”页面。

    提示:将这些标签页安排在不同的窗口中,并排显示。

    注意:如果您看见选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。

    {{{user_0.username | "<用户名>"}}}

    您也可以在“实验详细信息”窗格中找到“用户名”。

  4. 点击下一步

  5. 复制下面的密码,然后将其粘贴到欢迎对话框中。

    {{{user_0.password | "<密码>"}}}

    您也可以在“实验详细信息”窗格中找到“密码”。

  6. 点击下一步

    重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  7. 继续在后续页面中点击以完成相应操作:

    • 接受条款及条件。
    • 由于这是临时账号,请勿添加账号恢复选项或双重验证。
    • 请勿注册免费试用。

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:如需访问 Google Cloud 产品和服务,请点击导航菜单,或在搜索字段中输入服务或产品的名称。 “导航菜单”图标和“搜索”字段

任务 1. 在 Vertex AI Workbench 中打开笔记本

  1. 在 Google Cloud 控制台的导航菜单 (“导航菜单”图标) 中依次点击 Vertex AI > Workbench

  2. 找到 实例,然后点击打开 JupyterLab 按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

任务 2. 设置笔记本

  1. 打开 文件。

  2. 选择内核对话框中,从可用内核列表中选择 Python 3

  3. 运行笔记本的开始使用导入库部分。

    • 对于项目 ID,请使用 ;对于位置,使用
注意:您可以跳过任何标为“仅限 Colab”的笔记本单元。 如有笔记本单元在执行时遇到 429 响应,请等待 1 分钟,然后再次运行该单元以继续操作。

点击检查我的进度以验证是否完成了以下目标: 导入库并设置笔记本。

任务 3. 尝试实体提取和文档分类

命名实体提取是一种自然语言处理技术,用于从非结构化文本中识别特定字段和值。例如,您可以从已填写的表单中找到键值对,或者从按类型分类的账单中获取所有重要数据。

文档分类是指识别文档类型的过程。例如,账单、W-2 表、收据等。

实体提取

在本部分,您将通过一个示例了解如何使用 Gemini 从文档中检索信息。

  1. 运行笔记本的实体提取部分。

文档分类

在本部分,您将了解如何使用 Gemini 审核文档,以及从指定列表中指定文档类型。

  1. 运行笔记本的文档分类部分。

将分类和提取链接在一起

这些技术还可以链接在一起,用于提取任意数量的文档类型。例如,如果您需要处理多种类型的文档,可以将每个文档连同分类提示一起发送给 Gemini,然后根据输出结果,编写逻辑来决定要使用哪个提取提示。

  1. 运行笔记本的将分类和提取链接在一起部分。

点击检查我的进度以验证是否完成了以下目标: 尝试实体提取和文档分类

任务 4. 尝试文档问答和总结

在本部分,您将了解如何使用 Gemini 回答与文档相关的问题并总结其内容。

文档问答

  1. 运行笔记本的文档问答部分。

文档总结

在本部分,您将了解如何使用 Gemini 对文档内容进行总结或释义。

  1. 运行笔记本的文档总结部分。

点击检查我的进度以验证是否完成了以下目标: 尝试文档问答和总结

任务 5. 尝试文档表解析

在本部分,您将了解 Gemini 如何解析表内容并以结构化格式(例如 HTML 或 Markdown)返回。

  1. 运行笔记本的文档表解析部分。

点击检查我的进度以验证是否完成了以下目标: 尝试文档问答和总结

任务 6. 尝试文档翻译和比较

在本部分,您将了解 Gemini 如何在不同语言之间翻译文档。

文档翻译

  1. 运行笔记本的文档翻译部分。

文档比较

在本部分,您将了解 Gemini 如何对照比较多个文档的内容。

注意:处理多个文档时,顺序很重要,应在提示中指定。
  1. 运行笔记本的文档比较部分。

点击检查我的进度以验证是否完成了以下目标: 尝试文档问答和总结

恭喜!

您现已完成本实验!在本实验中,您将 Gemini 2.0 Flash 模型和 Google Gen AI SDK 结合使用,从非结构化文档中提取了结构化实体。

后续步骤/了解详情

请参阅以下资源,详细了解 Gemini:

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2025 年 5 月 19 日

上次测试实验的时间:2025 年 5 月 19 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

请使用无痕模式或无痕式浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。