准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Enable Document AI API
/ 20
Create a form processor
/ 20
Create Google Cloud resources
/ 20
Deploy Cloud Run functions
/ 20
Validate data processed by the pipeline
/ 20
在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。
在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。
要想获得满分,您必须在该时间段内成功完成所有任务!
建议已报名参加用 Document AI 实现大规模自动数据采集技能徽章课程的学员参加此实验室挑战赛。准备好接受挑战了吗?
您是一家大型基础设施管理公司的数据工程师,被指派与公司的财务部门合作开展一个内部项目。该公司必须处理堆积如山且不断增加的文件,所有文件都需要逐一进行人工验证和授权。这是一项成本高昂的任务,需要投入大量人力。该公司打算利用 Google Cloud 工具,以高效且省力的方式自动收集、分类和验证文档。
您需要创建一个文档处理流水线,用于自动处理上传到 Cloud Storage 的文档。此流水线由一个主要的 Cloud Run 函数组成,该函数使用 Document AI 表单处理器处理新文件,以从文档中提取数据。然后,该函数会将从这些文件中检测到的表单数据保存到 BigQuery。
我们为您提供了用于执行处理操作的 Cloud Run 函数的源代码。请按照下方架构图所示部署文档处理流水线,并确保针对您的特定流水线正确配置各项组件。
在此任务中,您将启用 Cloud Document AI API 并将启动文件复制到 Cloud Shell 中。
包含预定义代码的 Cloud Run 函数托管在远程 Cloud Storage 存储桶中。将这些源文件复制到 Cloud Shell 中。这些文件包括 Cloud Run 函数的源代码,以及您将在实验中创建的 BigQuery 表的架构。
使用 Document AI Form Parser 处理器在通用(非专用)部分中创建通用表单处理器实例。通用表单处理器可处理各种类型的文档,并提取文档中所有可识别的文本内容,以及从布局中推断出的表单信息。
| 属性 | 值 |
|---|---|
| 处理器类型 | Form Parser |
| 处理器名称 | |
| 地区 | US |
创建文档处理流水线所需的 Google Cloud Storage 和 BigQuery 资源,完成环境准备。
| 存储桶名称 | 用途 | 存储类别 | 位置 |
|---|---|---|---|
| 用于输入账单 | Standard | ||
| 用于存储已处理的数据 | Standard | ||
| 用于归档账单 | Standard |
| 数据集名称 | 位置 |
|---|---|
| invoice_parser_results | US |
JSON 文件 document-ai-challenge/scripts/table-schema/doc_ai_extracted_entities.json 中提供了提取信息的表架构。使用此架构在 invoice_parser_results 数据集中创建一个名为 doc_ai_extracted_entities 的表。
您可以在 Cloud 控制台中前往 BigQuery,并使用 BigQuery SQL 工作区检查 invoice_parser_results 数据集中表的架构。
要完成此任务,您需要部署数据处理流水线使用的 Cloud Run 函数,以处理上传到 Cloud Storage 的账单。此函数将使用 Document AI API 通用表单处理器从原始文档中提取表单数据。
您可以使用代码编辑器或您选择的任何其他编辑器来检查 Cloud Run 函数的源代码。Cloud Run 函数存储在 Cloud Shell 中的以下文件夹中:
scripts/cloud-functions/process-invoices
当文件上传到您之前创建的输入文件存储桶时,必须触发 Cloud Run 函数 process-invoices。
部署一个 Cloud Run 函数,该函数使用 Document AI 表单处理器来解析上传到 Cloud Storage 存储桶的表单文档。
scripts 目录:如果您检查 Cloud Run 函数的源代码,会发现该函数通过两个运行时环境变量获取 Document AI 处理器详细信息。
PROCESSOR_ID 和 PARSER_LOCATION 包含您在上一步中部署的 Form Parser 处理器的正确值。必须采用小写字母。PROJECT_ID 环境变量更新为您的项目 ID。等待函数完全重新部署。
在最后一项任务中,您需要使用流水线成功处理 ~/document-ai-challenge/invoices 文件夹中的一组账单。
将这些账单上传到输入 Cloud Storage 存储桶,并监控流水线的进度。
观察事件,直到看到表明函数执行已完成且状态为 OK 的最后一则事件。
流水线完全处理完文档后,您会看到 Document AI 处理器从账单中提取的表单信息已写入 BigQuery 表中。
恭喜!在本实验中,您成功创建了一个文档处理流水线,该流水线使用 Document AI API 自动处理上传到 Cloud Storage 的文档。您创建了表单处理器,部署了 Cloud Run 函数来处理文档,并通过处理一组账单来验证端到端解决方案。
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
本手册的最后更新时间:2025 年 11 月 14 日
本实验的最后测试时间:2025 年 11 月 14 日
版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验