Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Enable Document AI API
/ 20
Create a processor
/ 20
Create a label
/ 20
Build processor version using foundation model
/ 20
Train the model
/ 20
Enable Document AI API
/ 20
Create a processor
/ 20
Create a label
/ 20
Build processor version using foundation model
/ 20
Train the model
/ 20
Document AI 是文件解讀解決方案,可擷取並處理文件、電子郵件、帳單和表單等非結構化資料,方便您解讀、分析和使用。Document AI API 會透過內容分類、實體擷取、進階搜尋等功能,將文件轉換成結構化資料。有了 Document AI Workbench,您就能使用自己的訓練資料建立完全自訂的模型,提高文件處理的準確率。
您可以為自家文件打造專屬的自訂文件擷取器 (CDE),並用自有資料加以訓練和評估效能。這個處理器會辨識並擷取文件中的實體,完成訓練後,就可以用來處理更多文件。自訂文件擷取器一般適合用在單一類型的文件,例如機構的註冊表單。
在這個實驗室,您會瞭解如何使用 Document AI Workbench 建立及訓練自訂文件擷取器,以便處理 W-2 (美國稅務表單) 文件。我們已為您完成大部分的文件準備工作,因此您可以專注於自訂文件擷取器的其他建立步驟。
在本實驗室中,您將瞭解如何執行下列工作:
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示 。
系統顯示視窗時,請按照下列步驟操作:
連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID:
gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
輸出內容:
輸出內容:
gcloud 的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南。
您必須先啟用 API,才能使用 Document AI。
畫面應如下所示:
畫面應如下所示:
現在,您可以開始使用 Document AI API 了!
您必須先建立自訂文件擷取器的處理器,才能在本實驗室中使用。
在本教學課程中,您必須先建立表單剖析器的處理器執行個體,才能在 Document AI Platform 中使用。
點選「建立自訂處理器」。
在「自訂擷取器」方塊中,點選「建立處理器」。
將名稱設為 lab-custom-extractor,然後從清單中選取「US (美國)」區域。
點按「建立」即可建立處理器。
點選「Check my progress」確認目標已達成。
您現在位於新建處理器的總覽頁面。
您可以指定要讓處理器擷取的欄位,並開始為文件加上標籤。
按一下「開始」分頁標籤。畫面上會出現「欄位」選單。
按一下「建立新欄位」。
輸入欄位名稱。選取「資料類型」和「出現次數」。點選「建立」。如需建立與編輯結構定義的詳細操作說明,請參閱「定義處理器結構定義」一文。
為處理器結構定義建立下列標籤。
| 名稱 | 資料類型 | 出現次數 |
|---|---|---|
control_number |
數字 | 選用 (可出現多次) |
employees_social_security_number |
數字 | 必要 (可出現多次) |
employer_identification_number |
數字 | 必要 (可出現多次) |
employers_name_address_and_zip_code |
地址 | 必要 (可出現多次) |
federal_income_tax_withheld |
金額 | 必要 (可出現多次) |
social_security_tax_withheld |
金額 | 必要 (可出現多次) |
social_security_wages |
金額 | 必要 (可出現多次) |
wages_tips_other_compensation |
金額 | 必要 (可出現多次) |
您也可以在處理器結構定義中建立及使用其他類型的標籤,例如核取方塊和表格實體。舉例來說,W-2 表單含有「Statutory employee」(法定員工)、「Retirement plan」(退休計畫) 和「Third party sick pay」(第三方病假薪酬) 核取方塊,您可一併新增至結構定義。
點選「Check my progress」確認目標已達成。
接著,請上傳範例 W-2 PDF 檔案並加上標籤。
按一下「上傳範例文件」。
按一下側欄中的「從 Google Cloud Storage 匯入文件」。
在本範例中,請在「來源路徑」輸入下列 bucket 名稱,這樣就會直接連結至某份文件。
系統會將您重新導向至標籤控制台。
在文件中選取文字及套用標籤的程序稱為「註解」。
如要使用建議的標籤,請將滑鼠游標懸停在側邊面板中的標籤上,然後按一下勾號來確認標籤正確無誤。如果值與文件內容不符,請修改這些值。
在這個範例中,系統沒有自動識別文件底部的值,因此您必須手動為這些值加上標籤。
使用預設的「邊框」工具選取內容並套用標籤,如果值有多行,則使用「選取文字」工具執行操作。
wages_tips_other_compensation 的值並套用標籤。完成後,加上標籤的 W-2 文件看起來應該像這樣:
如有需要,您可以按一下「建立新欄位」,在這個頁面中將新欄位加進結構定義。
順利為文件加上註解後,請按一下「標示為已加上標籤」。
系統會將您重新導向至「開始」分頁。
為單一文件加上標籤後,您可以使用預先訓練的基礎模型建立處理器版本,藉此擷取實體。
在「呼叫基礎模型」下方,按一下「建立新版本」。
輸入處理器版本的名稱,例如 w2-foundation-model。
按一下「建立」。建立作業需要幾分鐘才能完成。
稍後,您將測試並評估這個版本。
點選「Check my progress」確認目標已達成。
基礎模型能精準地擷取各種文件類型的欄位,但您也可以提供其他訓練資料,提高模型處理特定文件結構的準確度。
您可以輕鬆運用 Document AI Workbench 的自動加上標籤功能,依據已定義的標籤名稱和先前的註解,快速為大量文件加上標籤。
前往「版本」頁面。
按一下「匯入文件」。
按一下側欄中的「從 Google Cloud Storage 匯入文件」。
在「來源路徑」輸入下列 bucket 名稱,內含未加上標籤的 W-2 PDF 檔案。
在「資料分割」清單中,選取「自動分割」。這樣系統就會自動分割文件,其中 80% 用於訓練集,20% 用於測試集。
在「自動加上標籤」專區中,勾選「使用自動加上標籤功能匯入」核取方塊。
選取剛剛建立的基礎模型處理器版本,為文件加上標籤。
按一下「匯入」,然後等待系統匯入文件。您可以先離開這個頁面,稍後再返回查看。
您必須先驗證已自動加上標籤的文件,才能使用這些文件進行訓練或測試。只要按一下「開始設定標籤」,即可查看已自動加上標籤的文件。
如要使用建議的標籤,請將滑鼠游標懸停在註解上,然後按一下勾號來確認標籤正確無誤。如果值與文件內容不符,請修改這些值。
順利為文件加上註解後,請按一下「標示為已加上標籤」。
請為每份已自動加上標籤的文件重複執行上述步驟。在本教學課程中,您可以略過任何未成功自動加上標籤的文件。
本實驗室會提供預先加上標籤的資料。如果您是處理自有專案,則必須決定如何為資料加上標籤。詳情請參閱「標籤選項」。一般來說,訓練資料越多,準確率就會越高。
前往「版本」頁面。
按一下「匯入文件」。
按一下側欄中的「從 Google Cloud Storage 匯入文件」。
在「來源路徑」輸入下列路徑,這個 bucket 包含預先加上標籤的 Document JSON 格式文件。
在「資料分割」清單中,選取「自動分割」。這樣系統就會自動分割文件,其中 80% 用於訓練集,20% 用於測試集。取消勾選「使用自動加上標籤功能匯入」。
按一下「匯入」。匯入作業需要幾分鐘才能完成。
視需要前往「版本」頁面的「管理資料集」控制台,查看及編輯資料集中的所有文件與標籤。
現在您已擁有充足的訓練和測試資料,接著可以開始訓練處理器。訓練作業可能需要數小時才能完成,因此在開始前,請務必確認您已使用適當的資料和標籤設定處理器。
在「訓練自訂模型」下方,按一下「建立新版本」。
如果無法點選「建立新版本」,請按一下「查看完整需求條件」,瞭解資料集相關規定。
在「版本名稱」欄位中,輸入這個處理器版本的名稱,例如 w2-custom-model。
(選用) 按一下「查看標籤統計資料」 即可看到文件標籤的相關資訊,這有助於確定涵蓋範圍。接著按一下「關閉」,返回訓練設定頁面。
在「模型訓練方法」下方,選取「以模型為基準」。
點選「開始訓練」。
(選用) 按一下「部署及使用」分頁標籤。在這個頁面中,您可以查看可用的處理器版本,以及新版本的訓練狀態。
點選「Check my progress」確認目標已達成。
太好了!您已開始訓練第一個自訂 Document AI 處理器。由於訓練作業需要數小時才能完成,本實驗室先到此結束。如要瞭解如何部署及測試模型版本,請參閱本說明文件的相關章節。
恭喜!在本實驗室中,您已成功使用 Document AI 建立自訂文件擷取功能的處理器、匯入資料集,並為範例文件加上標籤。現在,就像使用任何專業處理器一樣,您可以透過這個處理器剖析這類格式的文件。您也可以使用這個處理器的自動加上標籤功能,為新文件加上標籤,並在 Document AI Workbench 管理訓練資料和訓練工作。
如要進一步瞭解 Document AI 和 Python 用戶端程式庫,請參閱下列資源:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 3 月 17 日
實驗室上次測試日期:2025 年 3 月 17 日
Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one
Complete this quick step to start your lab.