Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Add Cloud Data Fusion API Service Agent role to service account
/ 30
Import, Deploy and Run Shipment Data Cleansing pipeline
/ 35
Import, Deploy, and Run the Delayed Shipments data pipeline
/ 35
本實驗室說明如何運用 Cloud Data Fusion 探索資料歷程,也就是資料的來源和變化趨勢。
Cloud Data Fusion 資料歷程功能可協助您:
Cloud Data Fusion 提供資料集和欄位層級的資料歷程,並支援時間維度,可呈現不同時間點的歷程變化。
本實驗室會使用兩個管道,示範原始資料經過清理後,傳送至下游處理的典型案例。透過 Cloud Data Fusion 歷程功能,您可完整掌握資料的來龍去脈,包含原始資料、清理後的運送資料及分析輸出內容。
在本實驗室中,您將瞭解如何:
每個實驗室都會提供新的 Google Cloud 專案和一組資源,讓您在時限內免費使用。
請以無痕視窗登入 Google Skills。
請記下實驗室時間限制 (例如 02:00:00),務必在時限內完成作業。
研究室不提供暫停功能。如有需要,您可以重新開始,但原先的進度恕無法保留。
準備就緒之後,請點選「Start Lab」。
請記下研究室憑證 (使用者名稱和密碼),登入 Google Cloud 控制台時會用到。
點選「Open Google console」。
點選「Use another account」,然後複製這個研究室的憑證,並貼到提示中。
如果使用其他憑證,系統會顯示錯誤或向您收取費用。
接受條款,然後略過資源復原頁面。
這個臨時帳戶只在實驗室期間有效,使用時務必遵守下列規定:
Cloud Shell 是含有多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,並在 Google Cloud 中運作。Cloud Shell 可讓您透過指令列存取 Google Cloud 資源。gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵完成功能。
在控制台的右上方,點按「啟用 Cloud Shell」按鈕 。
點按「繼續」。
請稍候片刻,等待系統完成佈建作業並連線至環境。連線建立後,即代表您已通過驗證,且專案已設為「PROJECT_ID」。
輸出內容
輸出內容範例
輸出內容
輸出內容範例
開始使用 Google Cloud 前,請務必確保專案在 Identity and Access Management (IAM) 中具備正確的權限。
前往 Google Cloud 控制台的「導覽選單」,依序點選「IAM 與管理」>「身分與存取權管理」。
確認具有預設的運算服務帳戶 {project-number}-compute@developer.gserviceaccount.com,且已指派 editor 角色。帳戶前置字串為專案編號,如需查看,請前往「導覽選單」>「Cloud 總覽」。
如果帳戶未顯示在 IAM 中,或沒有 editor 角色,請依照下列步驟指派必要角色。
前往 Google Cloud 控制台,依序點選「導覽選單」>「Cloud 總覽」。
從「專案資訊」資訊卡複製「專案編號」。
從「導覽選單」依序點選「IAM 與管理」>「身分與存取權管理」。
點選「身分與存取權管理」頁面頂端的「新增」。
在「新增主體」輸入:
將 {project-number} 換成您的專案編號。
從「請選擇角色」選單依序選取「基本」或「專案」>「編輯者」。
點選「儲存」。
在本實驗室中,您將使用兩個管道:
請點選 Shipment Data Cleansing 和 Delayed Shipments USA 連結,將相關範例資料集下載到本機。
接著請按照下列步驟,授權給執行個體綁定的服務帳戶。
前往 Google Cloud 控制台,依序點選「IAM 與管理」>「IAM」。
確認 Compute Engine 預設服務帳戶 {project-number}-compute@developer.gserviceaccount.com 確實存在,並將這個服務帳戶複製到剪貼簿。
在「IAM 權限」頁面,按一下「+ 授予存取權」。
在「新增主體」欄位貼上服務帳戶。
按一下「選取角色」欄位,輸入並選取「Cloud Data Fusion API 服務代理」。
點選「新增其他角色」。
新增「Dataproc 管理員」角色。
按一下「儲存」。
點選「Check my progress」,確認目標已達成。
前往控制台,依序點選「導覽選單」圖示 >「IAM 與管理」>「身分與存取權管理」。
勾選「包含 Google 提供的角色授予項目」核取方塊。
向下捲動清單,找到 Google 代管的 Cloud Data Fusion 服務帳戶 (格式為 service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com),然後將該帳戶的名稱複製到剪貼簿。
接著,依序點選「IAM 與管理」>「服務帳戶」。
點選預設的 Compute Engine 帳戶 (格式為 {project-number}-compute@developer.gserviceaccount.com),然後選取頂端導覽面板中的「具備存取權的主體」分頁標籤。
點選「授予存取權」按鈕。
在「新增主體」欄位,貼上先前複製的服務帳戶名稱。
在「角色」下拉式選單,選取「服務帳戶使用者」。
點選「儲存」。
前往「Data Fusion」,依序點選「執行個體」,以及 Data Fusion 執行個體旁的「查看執行個體」連結,然後選取實驗室憑證並登入。如果系統請您觀看服務導覽,請點選「不用了,謝謝」,隨即應會進入 Cloud Data Fusion UI。
在左側導覽面板點選「Studio」,開啟 Cloud Data Fusion Studio 頁面。
接著請部署管道。點選「Studio」頁面右上方的「Deploy」。部署完成後即會開啟「Pipeline」頁面。
在「Pipeline」頁面點選頂端中央的「Run」,即可執行管道。
點選「Check my progress」,確認目標已達成。
「Shipping Data Cleansing」的狀態顯示「Succeeded」後,請繼續匯入並部署稍早下載的「Delayed Shipments USA」資料管道。
在左側導覽面板點選「Studio」,返回 Cloud Data Fusion Studio 頁面。
點選「Studio」頁面右上方的「Import」,選取並匯入稍早下載的「Delayed Shipments USA」資料管道。
點選「Studio」頁面右上方的「Deploy」,開始部署管道。部署完成後即會開啟「Pipeline」頁面。
點選「Pipeline」頁面頂端中央的「Run」,即可執行管道。
第二個管道成功完成後,您可以繼續執行下列剩餘步驟。
點選「Check my progress」,確認目標已達成。
您必須先發掘資料集,才能探索其歷程。
shipment」。搜尋結果會包含這個資料集。透過中繼資料搜尋,您可發掘「Cloud Data Fusion」管道使用、處理或產生的資料集。管道是在結構化架構上執行,這個架構會自動產生及收集技術與作業中繼資料。技術中繼資料包括資料集名稱、類型、結構定義、欄位、建立時間和處理資訊。Cloud Data Fusion 中繼資料搜尋和歷程功能會運用這些技術資訊。
雖然來源和接收器的「Reference Name」是不重複的資料集 ID,也是絕佳的搜尋字詞,不過您也可以使用其他技術中繼資料做為搜尋條件,例如資料集說明、結構定義、欄位名稱或中繼資料前置字元。
Cloud Data Fusion 也支援使用標記和鍵/值屬性等業務中繼資料 (可做為搜尋條件使用),為資料集加上註解。舉例來說,如要為「Raw Shipping Data」資料集新增及搜尋業務標記註解,請按照下列步驟操作:
在 Cloud Data Fusion UI 的左側導覽面板選取「Metadata」,開啟中繼資料「Search」頁面。
在中繼資料選項的搜尋頁面中,輸入「Raw shipping data」。
點選「Raw_Shipping_Data」。
在「Business tags」下方點選「+」,然後插入標記名稱 (可使用英數字元和底線),並按下 Enter 鍵。
如要搜尋標記,請點選標記名稱,或在「Metadata」搜尋頁面的搜尋框中輸入「tags: tag_name」。
在 Cloud Data Fusion UI 左側導覽面板選取「Metadata」,開啟中繼資料「Search」頁面,並在搜尋框中輸入「shipment」。
在「Search」頁面點選「Cleaned-Shipments」資料集名稱。
接著點選「Lineage」分頁標籤。歷程圖顯示,這個資料集是由「Shipments-Data-Cleansing」管道產生,而該管道使用了「Raw_Shipping_Data」資料集。
Cloud Data Fusion 欄位層級歷程會呈現資料集欄位之間的關係,以及對一組欄位執行轉換而產生對應欄位的過程。如同資料集層級歷程,欄位層級歷程會隨時間變動,結果也因時間而異。
欄位層級歷程會呈現這個欄位隨時間推移的轉換過程。請注意「time_to_ship」欄位的轉換:(i) 轉換為「float」類型欄,(ii) 判斷該值應重新導向下一個節點,或進入錯誤路徑。
歷程會呈現特定欄位歷經的變化過程。其他範例如下:串連數個欄位來組成新欄位 (例如將「名字」和「姓氏」組合成「姓名」),或對欄位執行運算 (例如將「數字」轉換為占總數的「百分比」)。
原因和影響連結會以人類可讀的分類帳格式,呈現欄位上下游執行的轉換作業。
在本實驗室中,您學會了如何探索資料歷程。這些資訊對報表和治理作業至關重要,可協助不同對象瞭解資料演變為現狀的過程。
使用手冊上次更新日期:2022 年 11 月 14 日
實驗室上次測試日期:2023 年 8 月 8 日
Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one