准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Enable Document AI API
/ 20
Create a form processor
/ 20
Create Google Cloud resources
/ 20
Deploy Cloud Run functions
/ 20
Validate data processed by the pipeline
/ 20
在挑戰研究室中,您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明,您將運用從課程研究室學到的技巧,自行找出方法完成任務!自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。
在您完成任務的期間,挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧,例如變更預設值或詳讀並研究錯誤訊息,解決遇到的問題。
若想滿分達標,就必須在時限內成功完成所有任務!
本實驗室適合參加下列技能徽章課程的學員:使用 Document AI 大規模自動擷取資料。準備迎接挑戰了嗎?
您是某大型基礎架構管理公司的資料工程師,目前負責一項內部專案,與公司的財務部門合作。該公司須處理的文件不斷增加,每份文件都要手動驗證及授權,這項工作成本高昂,需大量人力。該公司打算運用 Google Cloud 工具,自動化收集、分類及驗證文件,提高效率並降低人力需求。
您必須建立文件處理管道,自動處理上傳至 Cloud Storage 的文件。這個管道包含一個主要的 Cloud Run functions,會使用 Document AI 表單處理器處理新檔案,從中擷取資料。接著,該 functions 會將在這些檔案中偵測到的表單資料儲存至 BigQuery。
您會取得 Cloud Run functions 的原始碼,該 functions 將執行處理作業。您必須部署文件處理管道 (如以下架構圖所示),並確實為特定管道正確設定元件。
在這項工作,您將啟用 Cloud Document AI API,並將啟動檔案複製到 Cloud Shell。
預先定義程式碼的 Cloud Run functions 會託管在遠端 Cloud Storage bucket。請將這些原始碼檔案複製到 Cloud Shell。這些檔案包含 Cloud Run functions 的原始碼,以及您將在實驗室建立的 BigQuery 資料表結構定義。
在「一般」 (非專用) 區塊,使用 Document AI Form Parser 處理器建立一般表單處理器的執行個體。一般表單處理器能處理任何類型的文件,並擷取文件中可辨識的所有文字內容,還能根據版面配置推測表單資訊。
| 屬性 | 值 |
|---|---|
| 處理器類型 | 表單剖析器 |
| 處理器名稱 | |
| 地區 | 美國 |
建立文件處理管道所需的 Google Cloud Storage 和 BigQuery 資源,準備好環境。
| 值區名稱 | 目的 | 儲存空間級別 | 位置 |
|---|---|---|---|
| 輸入帳單 | 標準 | ||
| 儲存已處理的資料 | 標準 | ||
| 封存帳單 | 標準 |
| 資料集名稱 | 位置 |
|---|---|
| invoice_parser_results | 美國 |
JSON 檔案 document-ai-challenge/scripts/table-schema/doc_ai_extracted_entities.json 中已提供擷取資訊的資料表結構定義。請使用這個結構定義,在 invoice_parser_results 資料集建立資料表,並命名為 doc_ai_extracted_entities。
您可以前往 Cloud 控制台的 BigQuery,並使用 BigQuery SQL 工作區檢查 invoice_parser_results 資料集的資料表結構定義。
如要完成這項工作,您必須部署資料處理管道使用的 Cloud Run functions,處理上傳至 Cloud Storage 的帳單。這個 functions 會使用 Document AI API 一般表單處理器,從原始文件擷取表單資料。
您可以使用程式碼編輯器或任何其他編輯器,檢查 Cloud Run functions 的原始碼。Cloud Run functions 儲存在下列 Cloud Shell 資料夾:
scripts/cloud-functions/process-invoices
您必須設定 Cloud Run functions process-invoices的觸發時機:檔案上傳至先前建立的輸入檔案儲存 bucket 時。
部署 Cloud Run functions,使用 Document AI 表單處理器剖析上傳至 Cloud Storage bucket 的表單文件。
scripts 目錄:檢查 Cloud Run functions 原始碼,您會發現 functions 是透過兩個執行階段環境變數,取得 Document AI 處理器的詳細資料。
PROCESSOR_ID 和 PARSER_LOCATION 包含您在前一個步驟部署的表單剖析器處理器的正確值。小寫。PROJECT_ID 環境變數更新為您的專案 ID。等待該 functions 完全重新部署。
最後一項工作是使用管道處理 ~/document-ai-challenge/invoices 資料夾中的一組帳單。
將這些帳單上傳至輸入 Cloud Storage bucket,並監控管道進度。
查看事件,直到最終事件指出 functions 已執行完畢且狀態為「OK」。
當管道完善處理文件後,您會看到 Document AI 處理器從帳單擷取的表單資訊,已寫入 BigQuery 資料表。
恭喜!您已在本實驗室,成功建立文件處理管道,這個管道會使用 Document AI API 自動處理上傳至 Cloud Storage 的文件。您已建立表單處理器、部署 Cloud Run functions 來處理文件,並透過處理一組帳單驗證端對端解決方案。
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 11 月 14 日
實驗室上次測試日期:2025 年 11 月 14 日
Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验