Lab setup instructions and requirements

Protect your account and progress. Always use a private browser window and lab credentials to run this lab.

運用 Cloud Data Fusion 探索資料歷程

Lab 1 hour 30 minutes universal_currency_alt 5 Credits show_chart Advanced

info This lab may incorporate AI tools to support your learning.

GSP812
總覽
設定和需求
工作 1：新增 Cloud Data Fusion 執行個體的必要權限
工作 2：開啟 Cloud Data Fusion UI
工作 3：匯入、部署及執行「Shipment Data Cleansing」管道
工作 4：匯入、部署及執行「Delayed Shipments」資料管道
工作 5：發掘資料集
工作 6：使用標記發掘資料集
工作 7：探索資料歷程
恭喜！

This content is not yet optimized for mobile devices.

For the best experience, please visit us on a desktop computer using a link sent by email.

GSP812

Google Cloud 自修研究室標誌

總覽

本實驗室說明如何運用 Cloud Data Fusion 探索資料歷程，也就是資料的來源和變化趨勢。

Cloud Data Fusion 資料歷程功能可協助您：

找出不良資料事件的根本原因。
在變更資料前執行影響分析。

Cloud Data Fusion 提供資料集和欄位層級的資料歷程，並支援時間維度，可呈現不同時間點的歷程變化。

「資料集層級歷程」呈現所選時間間隔內，資料集與管道間的關係。
「欄位層級歷程」呈現對來源資料集的特定一組欄位執行的作業，以便在目標資料集中產生對應欄位。

本實驗室會使用兩個管道，示範原始資料經過清理後，傳送至下游處理的典型案例。透過 Cloud Data Fusion 歷程功能，您可完整掌握資料的來龍去脈，包含原始資料、清理後的運送資料及分析輸出內容。

注意：目前 Cloud Data Fusion 歷程功能僅適用於 Cloud Data Fusion Enterprise Edition。

目標

在本實驗室中，您將瞭解如何：

執行範例管道來產生歷程資料。
探索資料集和欄位層級歷程。
將握手資訊從上游管道傳遞至下游管道。

設定和需求

每個實驗室都會提供新的 Google Cloud 專案和一組資源，讓您在時限內免費使用。

請以無痕視窗登入 Google Skills。
請記下實驗室時間限制 (例如 02:00:00)，務必在時限內完成作業。
研究室不提供暫停功能。如有需要，您可以重新開始，但原先的進度恕無法保留。
準備就緒之後，請點選「Start Lab」。
注意事項：點選「Start Lab」之後，研究室需要 15 至 20 分鐘來佈建必要資源，並建立 Data Fusion 執行個體。在此期間，不妨詳閱下方步驟，瞭解研究室的目標。
執行個體建立完畢之後，左側面板會顯示研究室憑證 (使用者名稱和密碼)，此時即可繼續登入控制台。
請記下研究室憑證 (使用者名稱和密碼)，登入 Google Cloud 控制台時會用到。
點選「Open Google console」。
點選「Use another account」，然後複製這個研究室的憑證，並貼到提示中。
如果使用其他憑證，系統會顯示錯誤或向您收取費用。
接受條款，然後略過資源復原頁面。

注意事項：請等到已完成研究室工作或想重新開始時，再點選「End Lab」。這麼做會清除現有工作並移除專案。

登入 Google Cloud 控制台

在用來進行本實驗室活動的瀏覽器分頁或視窗，複製「Connection Details」面板中的使用者名稱，然後點選「Open Google Console」按鈕。

注意：如果系統要求您選擇帳戶，請點選「使用其他帳戶」。

按照系統提示，依序貼上使用者名稱和密碼。
點選「Next」。
接受條款及細則。

這個臨時帳戶只在實驗室期間有效，使用時務必遵守下列規定：

請勿新增救援選項
請勿申請免費試用

開啟主控台後，點選畫面左上方的「導覽選單」圖示，即可查看服務清單。

導覽選單

啟用 Cloud Shell

Cloud Shell 是含有多項開發工具的虛擬機器，提供永久的 5 GB 主目錄，並在 Google Cloud 中運作。Cloud Shell 可讓您透過指令列存取 Google Cloud 資源。gcloud 是 Google Cloud 的指令列工具，已預先安裝於 Cloud Shell，並支援 Tab 鍵完成功能。

在控制台的右上方，點按「啟用 Cloud Shell」按鈕。
點按「繼續」。
請稍候片刻，等待系統完成佈建作業並連線至環境。連線建立後，即代表您已通過驗證，且專案已設為「PROJECT_ID」。

指令範例

列出目前使用的帳戶名稱：

gcloud auth list

輸出內容

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

輸出內容範例

Credentialed accounts: - google1623327_student@qwiklabs.net

列出專案 ID：

gcloud config list project

輸出內容

[core] project = <project_ID>

輸出內容範例

[core] project = qwiklabs-gcp-44776a13dea667a6

注意：如需 gcloud 的完整說明，請參閱 gcloud CLI 總覽指南。

檢查專案權限

開始使用 Google Cloud 前，請務必確保專案在 Identity and Access Management (IAM) 中具備正確的權限。

前往 Google Cloud 控制台的「導覽選單」，依序點選「IAM 與管理」>「身分與存取權管理」。
確認具有預設的運算服務帳戶 {project-number}-compute@developer.gserviceaccount.com，且已指派 editor 角色。帳戶前置字串為專案編號，如需查看，請前往「導覽選單」>「Cloud 總覽」。

預設的運算服務帳戶

如果帳戶未顯示在 IAM 中，或沒有 editor 角色，請依照下列步驟指派必要角色。

前往 Google Cloud 控制台，依序點選「導覽選單」>「Cloud 總覽」。
從「專案資訊」資訊卡複製「專案編號」。
從「導覽選單」依序點選「IAM 與管理」>「身分與存取權管理」。
點選「身分與存取權管理」頁面頂端的「新增」。
在「新增主體」輸入：

{project-number}-compute@developer.gserviceaccount.com

將 {project-number} 換成您的專案編號。

從「請選擇角色」選單依序選取「基本」或「專案」>「編輯者」。
點選「儲存」。

事前準備

在本實驗室中，您將使用兩個管道：

「Shipment Data Cleansing」管道：從小型範例資料集讀取原始運送資料，並套用轉換來清理資料。
「Delayed Shipments USA」管道：讀取清理後的運送資料並進行分析，找出美國境內延遲超過門檻的運送案件。

請點選 Shipment Data Cleansing 和 Delayed Shipments USA 連結，將相關範例資料集下載到本機。

工作 1：新增 Cloud Data Fusion 執行個體的必要權限

前往 Google Cloud 控制台，在標題列的「搜尋」欄位輸入「Data Fusion」，然後點選搜尋結果中的「Data Fusion」，並按一下「執行個體」。

注意：建立執行個體約需 20 分鐘，請耐心等候。

接著請按照下列步驟，授權給執行個體綁定的服務帳戶。

前往 Google Cloud 控制台，依序點選「IAM 與管理」>「IAM」。
確認 Compute Engine 預設服務帳戶 {project-number}-compute@developer.gserviceaccount.com 確實存在，並將這個服務帳戶複製到剪貼簿。
在「IAM 權限」頁面，按一下「+ 授予存取權」。
在「新增主體」欄位貼上服務帳戶。
按一下「選取角色」欄位，輸入並選取「Cloud Data Fusion API 服務代理」。
點選「新增其他角色」。
新增「Dataproc 管理員」角色。
按一下「儲存」。

點選「Check my progress」，確認目標已達成。將 Cloud Data Fusion API 服務代理角色新增至服務帳戶

授予服務帳戶使用者權限

前往控制台，依序點選「導覽選單」圖示 >「IAM 與管理」>「身分與存取權管理」。
勾選「包含 Google 提供的角色授予項目」核取方塊。
向下捲動清單，找到 Google 代管的 Cloud Data Fusion 服務帳戶 (格式為 service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com)，然後將該帳戶的名稱複製到剪貼簿。

Google 代管的 Cloud Data Fusion 服務帳戶清單

接著，依序點選「IAM 與管理」>「服務帳戶」。
點選預設的 Compute Engine 帳戶 (格式為 {project-number}-compute@developer.gserviceaccount.com)，然後選取頂端導覽面板中的「具備存取權的主體」分頁標籤。
點選「授予存取權」按鈕。
在「新增主體」欄位，貼上先前複製的服務帳戶名稱。
在「角色」下拉式選單，選取「服務帳戶使用者」。
點選「儲存」。

工作 2：開啟 Cloud Data Fusion UI

前往「Data Fusion」，依序點選「執行個體」，以及 Data Fusion 執行個體旁的「查看執行個體」連結，然後選取實驗室憑證並登入。如果系統請您觀看服務導覽，請點選「不用了，謝謝」，隨即應會進入 Cloud Data Fusion UI。
在左側導覽面板點選「Studio」，開啟 Cloud Data Fusion Studio 頁面。

Cloud Fusion Studio UI

工作 3：匯入、部署及執行「Shipment Data Cleansing」管道

接下來，您必須匯入原始運送資料。點選「Studio」頁面右上方的「匯入」，然後選取並匯入稍早下載的「Shipment Data Cleansing」管道。

注意：如果彈出式視窗要求您升級管道外掛程式，請點選「Fix All」升級至最新版本。

「Shipment Data Cleansing」管道

接著請部署管道。點選「Studio」頁面右上方的「Deploy」。部署完成後即會開啟「Pipeline」頁面。
在「Pipeline」頁面點選頂端中央的「Run」，即可執行管道。

注意：如果管道失敗，請重新執行

點選「Check my progress」，確認目標已達成。匯入、部署及執行「Shipment Data Cleansing」管道

工作 4：匯入、部署及執行「Delayed Shipments」資料管道

「Shipping Data Cleansing」的狀態顯示「Succeeded」後，請繼續匯入並部署稍早下載的「Delayed Shipments USA」資料管道。

在左側導覽面板點選「Studio」，返回 Cloud Data Fusion Studio 頁面。
點選「Studio」頁面右上方的「Import」，選取並匯入稍早下載的「Delayed Shipments USA」資料管道。

注意：如果彈出式視窗要求您升級管道外掛程式，請點選「Fix All」升級至最新版本。

點選「Studio」頁面右上方的「Deploy」，開始部署管道。部署完成後即會開啟「Pipeline」頁面。
點選「Pipeline」頁面頂端中央的「Run」，即可執行管道。

注意：如果管道失敗，請重新執行

第二個管道成功完成後，您可以繼續執行下列剩餘步驟。

點選「Check my progress」，確認目標已達成。匯入、部署及執行「Delayed Shipments」資料管道

工作 5：發掘資料集

您必須先發掘資料集，才能探索其歷程。

在 Cloud Data Fusion UI 的左側導覽面板選取「Metadata」，開啟中繼資料「Search」頁面。
由於「Shipment Data Cleansing」資料集將「Cleaned-Shipments」指定為參考資料集，請在搜尋框中輸入「shipment」。搜尋結果會包含這個資料集。

清理後的運送中繼資料搜尋結果

工作 6：使用標記發掘資料集

透過中繼資料搜尋，您可發掘「Cloud Data Fusion」管道使用、處理或產生的資料集。管道是在結構化架構上執行，這個架構會自動產生及收集技術與作業中繼資料。技術中繼資料包括資料集名稱、類型、結構定義、欄位、建立時間和處理資訊。Cloud Data Fusion 中繼資料搜尋和歷程功能會運用這些技術資訊。

雖然來源和接收器的「Reference Name」是不重複的資料集 ID，也是絕佳的搜尋字詞，不過您也可以使用其他技術中繼資料做為搜尋條件，例如資料集說明、結構定義、欄位名稱或中繼資料前置字元。

Cloud Data Fusion 也支援使用標記和鍵/值屬性等業務中繼資料 (可做為搜尋條件使用)，為資料集加上註解。舉例來說，如要為「Raw Shipping Data」資料集新增及搜尋業務標記註解，請按照下列步驟操作：

在 Cloud Data Fusion UI 的左側導覽面板選取「Metadata」，開啟中繼資料「Search」頁面。
在中繼資料選項的搜尋頁面中，輸入「Raw shipping data」。
點選「Raw_Shipping_Data」。
在「Business tags」下方點選「+」，然後插入標記名稱 (可使用英數字元和底線)，並按下 Enter 鍵。

「Business tags」名稱欄位

如要搜尋標記，請點選標記名稱，或在「Metadata」搜尋頁面的搜尋框中輸入「tags: tag_name」。

工作 7：探索資料歷程

資料集層級歷程

在 Cloud Data Fusion UI 左側導覽面板選取「Metadata」，開啟中繼資料「Search」頁面，並在搜尋框中輸入「shipment」。
在「Search」頁面點選「Cleaned-Shipments」資料集名稱。
接著點選「Lineage」分頁標籤。歷程圖顯示，這個資料集是由「Shipments-Data-Cleansing」管道產生，而該管道使用了「Raw_Shipping_Data」資料集。

Cloud Data Fusion 的「Lineage」分頁

欄位層級歷程

Cloud Data Fusion 欄位層級歷程會呈現資料集欄位之間的關係，以及對一組欄位執行轉換而產生對應欄位的過程。如同資料集層級歷程，欄位層級歷程會隨時間變動，結果也因時間而異。

接續資料集層級歷程步驟，點選「Cleaned Shipments」資料集層級歷程圖右上方的「Field Level Lineage」按鈕，即可顯示欄位層級歷程圖。

Cloud Data Fusion「Field Level Lineage」按鈕

欄位層級歷程圖會呈現欄位之間的關聯，選取欄位即可查看歷程。依序選取「View」和「Pin field」，查看該欄位的歷程。

Data Fusion「Pin field」歷程選取頁面

在「Cleaned-Shipments」資料集下方找到「time_to_ship」欄位，依序選取「View」和「View impact」，執行影響分析。

「View impact」選項

欄位層級歷程會呈現這個欄位隨時間推移的轉換過程。請注意「time_to_ship」欄位的轉換：(i) 轉換為「float」類型欄，(ii) 判斷該值應重新導向下一個節點，或進入錯誤路徑。

歷程會呈現特定欄位歷經的變化過程。其他範例如下：串連數個欄位來組成新欄位 (例如將「名字」和「姓氏」組合成「姓名」)，或對欄位執行運算 (例如將「數字」轉換為占總數的「百分比」)。

原因和影響連結會以人類可讀的分類帳格式，呈現欄位上下游執行的轉換作業。

恭喜！

在本實驗室中，您學會了如何探索資料歷程。這些資訊對報表和治理作業至關重要，可協助不同對象瞭解資料演變為現狀的過程。

使用手冊上次更新日期：2022 年 11 月 14 日

實驗室上次測試日期：2023 年 8 月 8 日

運用 Cloud Data Fusion 探索資料歷程

GSP812

總覽

目標

設定和需求

登入 Google Cloud 控制台

啟用 Cloud Shell

指令範例

檢查專案權限

事前準備

工作 1：新增 Cloud Data Fusion 執行個體的必要權限

授予服務帳戶使用者權限

工作 2：開啟 Cloud Data Fusion UI

工作 3：匯入、部署及執行「Shipment Data Cleansing」管道

工作 4：匯入、部署及執行「Delayed Shipments」資料管道

工作 5：發掘資料集

工作 6：使用標記發掘資料集

工作 7：探索資料歷程

資料集層級歷程

欄位層級歷程

恭喜！

Before you begin

Use private browsing

Sign in to the Console

Use private browsing to run the lab