实验设置说明和要求
保护您的账号和进度。请务必在无痕浏览器窗口中,使用实验凭证运行此实验。

開始使用 Cloud Data Fusion

实验 1 小时 30 分钟 universal_currency_alt 5 积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。

Google Cloud 自修研究室標誌

總覽

本實驗室將說明如何建立 Data Fusion 執行個體,並部署提供的範例管道。這個管道會從 Cloud Storage 讀取包含《紐約時報》暢銷書資料的 JSON 檔案,接著透過轉換程序剖析及清除資料,最後將部分記錄載入 BigQuery。

目標

本實驗室的學習內容包括:

  • 建立 Data Fusion 執行個體
  • 部署範例管道,利用該管道轉換 JSON 檔案,並將篩選結果載入 BigQuery

設定

每個實驗室都會提供新的 Google Cloud 專案和一組資源,讓您在時限內免費使用。

  1. 請以無痕視窗登入 Google Skills。

  2. 請記下實驗室時間限制 (例如 1:15:00),務必在時限內完成作業。
    研究室不提供暫停功能。如有需要,您可以重新開始,但原先的進度恕無法保留。

  3. 準備就緒後,請按一下「Start lab」

  4. 請記下研究室憑證 (使用者名稱密碼),這組資訊將用於登入 Google Cloud 控制台。

  5. 按一下「Open Google Console」

  6. 按一下「Use another account」,然後複製這個研究室的憑證,並貼入提示訊息。
    如果使用其他憑證,系統會顯示錯誤或向您收取費用

  7. 接受條款,然後略過資源復原頁面。

登入 Google Cloud 控制台

  1. 在用來進行本實驗室活動的瀏覽器分頁或視窗,複製「Connection Details」面板中的使用者名稱,然後點選「Open Google Console」按鈕。
注意:如果系統要求您選擇帳戶,請點選「使用其他帳戶」
  1. 按照系統提示,依序貼上使用者名稱密碼
  2. 點選「Next」
  3. 接受條款及細則。

這個臨時帳戶只在實驗室期間有效,使用時務必遵守下列規定:

  • 請勿新增救援選項
  • 請勿申請免費試用
  1. 開啟主控台後,點選畫面左上方的「導覽選單」圖示 「導覽選單」圖示,即可查看服務清單。

導覽選單

啟用 Cloud Shell

Cloud Shell 是含有多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,並在 Google Cloud 中運作。Cloud Shell 可讓您透過指令列存取 Google Cloud 資源。gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵完成功能。

  1. 在控制台的右上方,點按「啟用 Cloud Shell」按鈕 「啟用 Cloud Shell」圖示

  2. 點按「繼續」
    請稍候片刻,等待系統完成佈建作業並連線至環境。連線建立後,即代表您已通過驗證,且專案已設為「PROJECT_ID」

指令範例

  • 列出目前使用的帳戶名稱:
gcloud auth list

輸出內容

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

輸出內容範例

Credentialed accounts: - google1623327_student@qwiklabs.net
  • 列出專案 ID:
gcloud config list project

輸出內容

[core] project = <project_ID>

輸出內容範例

[core] project = qwiklabs-gcp-44776a13dea667a6 注意:如需 gcloud 的完整說明,請參閱 gcloud CLI 總覽指南

檢查專案權限

開始使用 Google Cloud 前,請務必確保專案在 Identity and Access Management (IAM) 中具備正確的權限。

  1. 前往 Google Cloud 控制台的「導覽選單」「導覽選單」圖示,依序點選「IAM 與管理」>「身分與存取權管理」

  2. 確認具有預設的運算服務帳戶 {project-number}-compute@developer.gserviceaccount.com,且已指派 editor 角色。帳戶前置字串為專案編號,如需查看,請前往「導覽選單」>「Cloud 總覽」

預設的運算服務帳戶

如果帳戶未顯示在 IAM 中,或沒有 editor 角色,請依照下列步驟指派必要角色。

  1. 前往 Google Cloud 控制台,依序點選「導覽選單」>「Cloud 總覽」

  2. 從「專案資訊」資訊卡複製「專案編號」

  3. 從「導覽選單」依序點選「IAM 與管理」>「身分與存取權管理」

  4. 點選「身分與存取權管理」頁面頂端的「新增」

  5. 在「新增主體」輸入:

{project-number}-compute@developer.gserviceaccount.com

{project-number} 換成您的專案編號。

  1. 從「請選擇角色」選單依序選取「基本」或「專案」>「編輯者」

  2. 點選「儲存」

工作 1:啟用 Cloud Data Fusion API

  1. 前往 Cloud 控制台,依序點選「導覽選單」圖示 導覽選單 >「API 和服務」>「程式庫」

  2. 在搜尋方塊中輸入 Data fusion,找出 Cloud Data Fusion API 並點按超連結。

  3. 這個 API 應為啟用狀態。請依序點選「管理」和「停用 API」,再點選「停用」加以確認。

  4. 停用 API 後,點選「啟用」即可重新啟用。

工作 2:建立 Cloud Data Fusion 執行個體

  1. 前往 Google Cloud 控制台,依序點選「導覽選單」圖示 導覽選單 >「查看所有產品」。在「數據分析」部分,點選「Data Fusion」

  2. 點選該部分頂端的「建立執行個體」連結,即可建立 Cloud Data Fusion 執行個體。

  3. 在載入的「建立 Data Fusion 執行個體」頁面中:

a. 輸入執行個體名稱 (例如 cdf-lab-instance)。

b. 在「區域」中選取 us-central1

c. 在「版本」下方,選取「基本」

d. 在「授權」部分,視需要點選「授予權限」

e. 點選「進階選項」旁的下拉式選單圖示,在「進階監控與記錄功能」底下勾選「Dataproc Cloud Logging」核取方塊。

f. 其餘欄位保持不變,點選「建立」

點選「Check my progress」,確認目標已達成。建立 Cloud Data Fusion 執行個體

注意:執行個體大約 10 分鐘可建立完成。等待期間,可以先觀看下方這支 2019 年 Next 大會的 Cloud Data Fusion 簡報,建議從 15:31 開始播放。您可以不時確認執行個體的狀態,先完成實驗室課程,再繼續看完影片。

注意:提醒您,本實驗室有時間限制,時間到不會保留進度。

接著請按照下列步驟,授權給執行個體綁定的服務帳戶。

  1. 按一下執行個體名稱。在「執行個體詳細資料」頁面,將「Dataproc 服務帳戶」複製到剪貼簿。

「執行個體詳細資料」頁面截圖,圖中標明了服務帳戶

  1. 前往 Cloud 控制台,依序點選「導覽選單」圖示 導覽選單 >「IAM 與管理」>「身分與存取權管理」。

  2. 在「IAM 權限」頁面中,按一下「+ 授予存取權」

  3. 在「新增主體」欄位,貼上「Dataproc 服務帳戶」

  4. 按一下「選取角色」欄位,輸入並選取「Cloud Data Fusion API 服務代理」

  5. 按一下「儲存」

點選「Check my progress」,確認目標已達成。 將 Cloud Data Fusion API 服務代理角色新增至服務帳戶

工作 3:瀏覽 Cloud Data Fusion UI

使用 Cloud Data Fusion 時,需要同時操作 Cloud 控制台和獨立的 Cloud Data Fusion UI。

  • 在 Cloud 控制台中,您可以建立及刪除 Cloud Data Fusion 執行個體,也可以查看相關詳細資料。

  • 在 Cloud Data Fusion 網頁 UI 中,您可以透過不同的頁面 (例如「Pipeline Studo」或「Wrangler」) 操作 Cloud Data Fusion 的各項功能。

如要瀏覽 Cloud Data Fusion UI,請按照下列步驟操作:

  1. 前往 Cloud 控制台,依序點選「導覽選單」圖示 導覽選單 >「查看所有產品」。在「數據分析」部分,點選「Data Fusion」

  2. 點選 Data Fusion 執行個體旁的「查看執行個體」連結。選取用於登入的實驗室憑證,視需要勾選「管理您的 Google 服務控制資料」旁的核取方塊,然後點按「繼續」

醒目顯示「查看執行個體」連結的畫面

  1. 如果系統請您觀看服務導覽,請點按「取消」。現在應會進入 Cloud Data Fusion UI。

  2. 請注意,Cloud Data Fusion 網頁 UI 的左側有專屬導覽面板,方便快速切換至所需頁面。

工作 4:部署範例管道

您可以透過 Cloud Data Fusion Hub 取得範例管道,並分享可重複使用的 Cloud Data Fusion 管道、外掛程式和解決方案。

  1. 在 Cloud Data Fusion 網頁 UI 中,按一下右上角的「HUB」

醒目顯示「HUB」連結的畫面

  1. 點按左側面板中的「Pipelines」

  2. 點選「Cloud Data Fusion Quickstart」管道,然後在隨即顯示的彈出式視窗中點選「Create」

「Pipelines」頁面中醒目顯示的「Cloud Data Fusion Quickstart」圖塊

  1. 在「Cloud Data Fusion Quickstart」設定面板中,點選「Finish」

  2. 點選「Customize Pipeline」。您的管道示意圖會出現在 Pipeline Studio 中,這是用於開發資料整合管道的圖形介面。左側會列出可用的管道外掛程式,您的管道則顯示在主畫布區域。將游標懸停在個別管道節點上,然後點選隨之出現的「Properties」按鈕,即可瀏覽管道資料。在每個節點的「Properties」選單中,您可以查看相關聯的物件和作業。

注意: 管道節點是一種物件,依序連接便會形成有向無環圖。節點可以是來源、接收器、轉換、動作等等。

Pipeline Studio 顯示管道示意圖

  1. 在右上方的選單中點選「Deploy」,即可將管道提交至 Cloud Data Fusion。您將在下一節執行管道。

「Deploy」圖示

工作 5:檢視您的管道

部署完成的管道會顯示在管道詳細資料檢視畫面,您可以在這裡執行下列操作:

  • 檢視管道的結構及設定。

  • 手動執行管道,或設定時間表/觸發條件。

  • 查看過往執行記錄的摘要,包括執行時間、記錄檔和指標。

管道詳細資料檢視畫面

工作 6:執行管道

  1. 在管道詳細資料檢視畫面中,點選畫面頂端中央的「Run」,即可執行管道。
注意:執行管道時,Cloud Data Fusion 會佈建暫時的 Dataproc 叢集,並在該叢集上透過 Apache Hadoop MapReduce 或 Apache Spark 執行管道,完成後再刪除叢集。管道轉換為「Running」狀態後,您可以監控 Dataproc 叢集的建立和刪除過程。這個叢集只會在管道執行期間存在。 注意:如果管道執行失敗,請重新執行一次。
  1. 幾分鐘後,管道就會執行完成。管道狀態會變更為「Succeeded」,並顯示各節點處理的記錄數量。

管線已成功執行完畢,各節點也會同步顯示處理成功的記錄數量

點選「Check my progress」,確認目標已達成。 部署及執行範例管道

工作 7:查看結果

管道會將輸出內容寫入 BigQuery 資料表,您可以按照下列步驟確認。

  1. 點按這個連結,在 Cloud 控制台中開啟 BigQuery UI,或在控制台分頁標籤上按一下滑鼠右鍵,然後選取「複製」。接著點選「導覽選單」圖示 導覽選單 並選取「BigQuery」

  2. 在「傳統版 Explorer」窗格中,點選您的專案 ID (開頭為 qwiklabs)。

  3. 在專案的「GCPQuickstart」資料集下方,點選「top_rated_inexpensive」資料表。

  4. 點選「+ SQL 查詢」,貼上下列查詢,然後點選「執行」

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10
  1. 等待查詢完成。系統會顯示類似的「結果」

查詢結果

點選「Check my progress」,確認目標已達成。 查看結果

恭喜!

在本實驗室,您已學會如何建立 Data Fusion 執行個體,並成功部署範例管道。這個管道會從 Cloud Storage 讀取輸入檔案,經過資料轉換與篩選後,將部分資料輸出到 BigQuery。

關閉研究室

完成實驗室後,請按一下「End Lab」。Google Skills 會移除您使用的資源,並清除所用帳戶。

您可以為實驗室的使用體驗評分。請選取合適的星級評等並提供意見,然後按一下「Submit」

星級評等代表您的滿意程度:

  • 1 星 = 非常不滿意
  • 2 星 = 不滿意
  • 3 星 = 普通
  • 4 星 = 滿意
  • 5 星 = 非常滿意

如果不想提供意見回饋,您可以直接關閉對話方塊。

如有任何想法、建議或指教,請透過「Support」分頁提交。

使用手冊上次更新日期:2025 年 12 月 17 日

實驗室上次測試日期:2025 年 12 月 17 日

Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

使用无痕模式或无痕浏览器窗口是运行此实验的最佳方式。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。