准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Add Cloud Data Fusion API Service Agent role to service account
/ 30
Import, Deploy and Run Shipment Data Cleansing pipeline
/ 35
Import, Deploy, and Run the Delayed Shipments data pipeline
/ 35
本實驗室說明如何運用 Cloud Data Fusion 探索資料歷程,也就是資料的來源和變化趨勢。
Cloud Data Fusion 資料歷程功能可協助您:
Cloud Data Fusion 提供資料集和欄位層級的資料歷程,並支援時間維度,可呈現不同時間點的歷程變化。
本實驗室會使用兩個管道,示範原始資料經過清理後,傳送至下游處理的典型案例。透過 Cloud Data Fusion 歷程功能,您可完整掌握資料的來龍去脈,包含原始資料、清理後的運送資料及分析輸出內容。
在本實驗室中,您將瞭解如何:
每個實驗室都會提供新的 Google Cloud 專案和一組資源,讓您在時限內免費使用。
請以無痕視窗登入 Google Skills。
請記下實驗室時間限制 (例如 02:00:00),務必在時限內完成作業。
研究室不提供暫停功能。如有需要,您可以重新開始,但原先的進度恕無法保留。
準備就緒之後,請點選「Start Lab」。
請記下研究室憑證 (使用者名稱和密碼),登入 Google Cloud 控制台時會用到。
點選「Open Google console」。
點選「Use another account」,然後複製這個研究室的憑證,並貼到提示中。
如果使用其他憑證,系統會顯示錯誤或向您收取費用。
接受條款,然後略過資源復原頁面。
這個臨時帳戶只在實驗室期間有效,使用時務必遵守下列規定:
Cloud Shell 是含有多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,並在 Google Cloud 中運作。Cloud Shell 可讓您透過指令列存取 Google Cloud 資源。gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵完成功能。
在控制台的右上方,點按「啟用 Cloud Shell」按鈕 。
點按「繼續」。
請稍候片刻,等待系統完成佈建作業並連線至環境。連線建立後,即代表您已通過驗證,且專案已設為「PROJECT_ID」。
輸出內容
輸出內容範例
輸出內容
輸出內容範例
開始使用 Google Cloud 前,請務必確保專案在 Identity and Access Management (IAM) 中具備正確的權限。
前往 Google Cloud 控制台的「導覽選單」,依序點選「IAM 與管理」>「身分與存取權管理」。
確認具有預設的運算服務帳戶 {project-number}-compute@developer.gserviceaccount.com,且已指派 editor 角色。帳戶前置字串為專案編號,如需查看,請前往「導覽選單」>「Cloud 總覽」。
如果帳戶未顯示在 IAM 中,或沒有 editor 角色,請依照下列步驟指派必要角色。
前往 Google Cloud 控制台,依序點選「導覽選單」>「Cloud 總覽」。
從「專案資訊」資訊卡複製「專案編號」。
從「導覽選單」依序點選「IAM 與管理」>「身分與存取權管理」。
點選「身分與存取權管理」頁面頂端的「新增」。
在「新增主體」輸入:
將 {project-number} 換成您的專案編號。
從「請選擇角色」選單依序選取「基本」或「專案」>「編輯者」。
點選「儲存」。
在本實驗室中,您將使用兩個管道:
請點選 Shipment Data Cleansing 和 Delayed Shipments USA 連結,將相關範例資料集下載到本機。
接著請按照下列步驟,授權給執行個體綁定的服務帳戶。
前往 Google Cloud 控制台,依序點選「IAM 與管理」>「IAM」。
確認 Compute Engine 預設服務帳戶 {project-number}-compute@developer.gserviceaccount.com 確實存在,並將這個服務帳戶複製到剪貼簿。
在「IAM 權限」頁面,按一下「+ 授予存取權」。
在「新增主體」欄位貼上服務帳戶。
按一下「選取角色」欄位,輸入並選取「Cloud Data Fusion API 服務代理」。
點選「新增其他角色」。
新增「Dataproc 管理員」角色。
按一下「儲存」。
點選「Check my progress」,確認目標已達成。
前往控制台,依序點選「導覽選單」圖示 >「IAM 與管理」>「身分與存取權管理」。
勾選「包含 Google 提供的角色授予項目」核取方塊。
向下捲動清單,找到 Google 代管的 Cloud Data Fusion 服務帳戶 (格式為 service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com),然後將該帳戶的名稱複製到剪貼簿。
接著,依序點選「IAM 與管理」>「服務帳戶」。
點選預設的 Compute Engine 帳戶 (格式為 {project-number}-compute@developer.gserviceaccount.com),然後選取頂端導覽面板中的「具備存取權的主體」分頁標籤。
點選「授予存取權」按鈕。
在「新增主體」欄位,貼上先前複製的服務帳戶名稱。
在「角色」下拉式選單,選取「服務帳戶使用者」。
點選「儲存」。
前往「Data Fusion」,依序點選「執行個體」,以及 Data Fusion 執行個體旁的「查看執行個體」連結,然後選取實驗室憑證並登入。如果系統請您觀看服務導覽,請點選「不用了,謝謝」,隨即應會進入 Cloud Data Fusion UI。
在左側導覽面板點選「Studio」,開啟 Cloud Data Fusion Studio 頁面。
接著請部署管道。點選「Studio」頁面右上方的「Deploy」。部署完成後即會開啟「Pipeline」頁面。
在「Pipeline」頁面點選頂端中央的「Run」,即可執行管道。
點選「Check my progress」,確認目標已達成。
「Shipping Data Cleansing」的狀態顯示「Succeeded」後,請繼續匯入並部署稍早下載的「Delayed Shipments USA」資料管道。
在左側導覽面板點選「Studio」,返回 Cloud Data Fusion Studio 頁面。
點選「Studio」頁面右上方的「Import」,選取並匯入稍早下載的「Delayed Shipments USA」資料管道。
點選「Studio」頁面右上方的「Deploy」,開始部署管道。部署完成後即會開啟「Pipeline」頁面。
點選「Pipeline」頁面頂端中央的「Run」,即可執行管道。
第二個管道成功完成後,您可以繼續執行下列剩餘步驟。
點選「Check my progress」,確認目標已達成。
您必須先發掘資料集,才能探索其歷程。
shipment」。搜尋結果會包含這個資料集。透過中繼資料搜尋,您可發掘「Cloud Data Fusion」管道使用、處理或產生的資料集。管道是在結構化架構上執行,這個架構會自動產生及收集技術與作業中繼資料。技術中繼資料包括資料集名稱、類型、結構定義、欄位、建立時間和處理資訊。Cloud Data Fusion 中繼資料搜尋和歷程功能會運用這些技術資訊。
雖然來源和接收器的「Reference Name」是不重複的資料集 ID,也是絕佳的搜尋字詞,不過您也可以使用其他技術中繼資料做為搜尋條件,例如資料集說明、結構定義、欄位名稱或中繼資料前置字元。
Cloud Data Fusion 也支援使用標記和鍵/值屬性等業務中繼資料 (可做為搜尋條件使用),為資料集加上註解。舉例來說,如要為「Raw Shipping Data」資料集新增及搜尋業務標記註解,請按照下列步驟操作:
在 Cloud Data Fusion UI 的左側導覽面板選取「Metadata」,開啟中繼資料「Search」頁面。
在中繼資料選項的搜尋頁面中,輸入「Raw shipping data」。
點選「Raw_Shipping_Data」。
在「Business tags」下方點選「+」,然後插入標記名稱 (可使用英數字元和底線),並按下 Enter 鍵。
如要搜尋標記,請點選標記名稱,或在「Metadata」搜尋頁面的搜尋框中輸入「tags: tag_name」。
在 Cloud Data Fusion UI 左側導覽面板選取「Metadata」,開啟中繼資料「Search」頁面,並在搜尋框中輸入「shipment」。
在「Search」頁面點選「Cleaned-Shipments」資料集名稱。
接著點選「Lineage」分頁標籤。歷程圖顯示,這個資料集是由「Shipments-Data-Cleansing」管道產生,而該管道使用了「Raw_Shipping_Data」資料集。
Cloud Data Fusion 欄位層級歷程會呈現資料集欄位之間的關係,以及對一組欄位執行轉換而產生對應欄位的過程。如同資料集層級歷程,欄位層級歷程會隨時間變動,結果也因時間而異。
欄位層級歷程會呈現這個欄位隨時間推移的轉換過程。請注意「time_to_ship」欄位的轉換:(i) 轉換為「float」類型欄,(ii) 判斷該值應重新導向下一個節點,或進入錯誤路徑。
歷程會呈現特定欄位歷經的變化過程。其他範例如下:串連數個欄位來組成新欄位 (例如將「名字」和「姓氏」組合成「姓名」),或對欄位執行運算 (例如將「數字」轉換為占總數的「百分比」)。
原因和影響連結會以人類可讀的分類帳格式,呈現欄位上下游執行的轉換作業。
在本實驗室中,您學會了如何探索資料歷程。這些資訊對報表和治理作業至關重要,可協助不同對象瞭解資料演變為現狀的過程。
使用手冊上次更新日期:2022 年 11 月 14 日
實驗室上次測試日期:2023 年 8 月 8 日
Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验