实验设置说明和要求
保护您的账号和进度。请务必在无痕浏览器窗口中,使用实验凭证运行此实验。

Cloud Data Fusion 使用入门

实验 1 小时 30 分钟 universal_currency_alt 5 个点数 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。

Google Cloud 自学实验的徽标

概览

本实验将介绍如何创建 Data Fusion 实例并部署所提供的示例流水线。该流水线会从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。然后,该流水线对文件进行转换,以解析和清理数据。最后将部分记录加载到 BigQuery 中。

目标

在本实验中,您将学习如何完成以下操作:

  • 创建 Data Fusion 实例
  • 部署一个示例流水线,该流水线会对 JSON 文件执行一些转换,并将匹配的结果过滤到 BigQuery 中

设置

对于每个实验,您都会免费获得一个新的 Google Cloud 项目及一组资源,它们都有固定的使用时限。

  1. 使用无痕式窗口登录 Google Skills。

  2. 留意实验的访问时限(例如 1:15:00)并确保能在相应时间段内完成实验。
    系统不提供暂停功能。如有需要,您可以重新开始实验,不过必须从头开始。

  3. 准备就绪时,点击开始实验

  4. 请记好您的实验凭据(用户名密码)。您需要使用这组凭据来登录 Google Cloud 控制台。

  5. 点击打开 Google 控制台

  6. 点击使用其他账号,然后将实验的凭据复制并粘贴到相应提示框中。
    如果您使用其他凭据,将会收到错误消息或产生费用

  7. 接受条款并跳过恢复资源页面。

登录到 Google Cloud 控制台

  1. 使用您在本次实验课程中使用的浏览器标签页或窗口,从连接详情面板中复制用户名,然后点击打开 Google 控制台按钮。
注意:如果您看到选择账号的提示,请点击使用其他账号
  1. 将其粘贴在用户名中,然后按照提示粘贴密码
  2. 点击下一步
  3. 接受条款及条件。

由于这是一个临时账号,仅在本次实验期间有效:

  • 请勿添加恢复选项
  • 请勿用其注册免费试用服务
  1. 控制台打开后,点击左上角的导航菜单 (“导航菜单”图标) 即可查看服务列表。

导航菜单

激活 Cloud Shell

Cloud Shell 是一种包含开发工具的虚拟机。它提供了一个 5 GB 的永久性主目录,并且在 Google Cloud 上运行。Cloud Shell 可让您通过命令行访问 Google Cloud 资源。gcloud 是 Google Cloud 的命令行工具。它会预先安装在 Cloud Shell 上,且支持 Tab 键自动补全功能。

  1. 在 Google Cloud Console 的导航窗格中,点击激活 Cloud Shell (Cloud Shell 图标)。

  2. 点击继续
    预配和连接到环境需要一些时间。若连接成功,也就表明您已通过身份验证,且相关项目的 ID 会被设为您的 PROJECT_ID。例如:

Cloud Shell 终端

命令示例

  • 列出有效的帐号名称:

gcloud auth list

(输出)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(输出示例)

Credentialed accounts: - google1623327_student@qwiklabs.net
  • 列出项目 ID:

gcloud config list project

(输出)

[core] project = <project_ID>

(输出示例)

[core] project = qwiklabs-gcp-44776a13dea667a6

检查项目权限

在开始在 Google Cloud 中工作之前,您必须确保您的项目在 Identity and Access Management (IAM) 中拥有正确的权限。

  1. 在 Google Cloud 控制台的导航菜单 (“导航菜单”图标) 中,点击 IAM 和管理 > IAM

  2. 确认默认计算服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在且被授予了 editor 角色。账号前缀是项目编号,您可以在导航菜单 > Cloud 概览中找到此编号。

默认计算服务账号

如果该账号在 IAM 中不存在或不具有 editor 角色,请按照以下步骤向其分配所需的角色。

  1. 在 Google Cloud 控制台的导航菜单中,点击 Cloud 概览

  2. 项目信息卡片中复制项目编号

  3. 导航菜单中,点击 IAM 和管理 > IAM

  4. IAM 页面顶部,点击添加

  5. 新的主账号字段中,输入:

{project-number}-compute@developer.gserviceaccount.com

{project-number} 替换为您的项目编号。

  1. 选择角色部分,依次选择基本(或“项目”)> Editor

  2. 点击保存

任务 1. 启用 Cloud Data Fusion API

  1. 在 Cloud 控制台的导航菜单 (导航菜单) 中,依次选择 API 和服务 > 库

  2. 在搜索框中输入 Data fusion,找到 Cloud Data Fusion API,并点击超链接。

  3. 该 API 已启用,点击管理,然后点击停用 API。确认停用

  4. 停用 API 后,点击启用以重新启用 API。

任务 2. 创建 Cloud Data Fusion 实例

  1. 在 Google Cloud 控制台的导航菜单 (导航菜单) 中,点击查看所有产品。在分析下,点击 Data Fusion

  2. 点击该部分顶部的创建实例链接,以创建 Cloud Data Fusion 实例。

  3. 在随即加载的创建 Data Fusion 实例页面中:

a. 输入实例名称(例如 cdf-lab-instance)。

b. 在区域中,选择 us-central1

c. 在版本下,选择基本

d. 在授权部分中,根据需要点击授予权限

e. 点击高级选项旁边的下拉菜单图标,在高级 Monitoring 和 Logging 下,选中 Dataproc Cloud Logging 复选框。

f. 将其他所有字段保留原样,然后点击创建

点击检查我的进度以验证是否完成了以下目标: 创建 Cloud Data Fusion 实例

注意:创建实例需要大约 10 分钟。在等待期间,不妨观看 Next '19 大会上的关于 Cloud Data Fusion 的演示,从 15:31 开始。请不时回来查看实例,您可以在实验完成后继续观看此视频。

注意:请记住,本实验有时间限制,时间一到,您所做的工作将会丢失。

接下来,您将按照以下步骤向与实例关联的服务账号授予权限。

  1. 点击实例名称。在“实例详情”页面上,将 Dataproc 服务账号复制到剪贴板。

“实例详情”页面上突出显示的服务账号

  1. 在 Cloud 控制台的导航菜单 (导航菜单) 中,依次选择 IAM 和管理 > IAM

  2. 在“IAM 权限”页面上,点击 +授予访问权限

  3. 在“新的主账号”字段中,粘贴复制的 Dataproc 服务账号

  4. 点击“选择角色”字段,开始输入 Cloud Data Fusion API Service Agent,然后选择该角色。

  5. 点击保存

点击检查我的进度以验证是否完成了以下目标: 为服务账号添加 Cloud Data Fusion API Service Agent 角色

任务 3. 浏览 Cloud Data Fusion 界面

使用 Cloud Data Fusion 时,您将同时使用 Cloud 控制台和单独的 Cloud Data Fusion 界面。

  • 在 Cloud 控制台中,您可以创建和删除 Cloud Data Fusion 实例,以及查看 Cloud Data Fusion 实例详情。

  • 在 Cloud Data Fusion 网页界面中,您可以通过各种页面(如 Pipeline StudioWrangler)来使用 Cloud Data Fusion 功能。

若要浏览 Cloud Data Fusion 界面,请按以下步骤操作:

  1. 在 Google Cloud 控制台的导航菜单 (导航菜单) 中,点击查看所有产品。在分析下,点击 Data Fusion

  2. 点击 Data Fusion 实例旁边的查看实例链接。选择您的实验凭证进行登录,如果需要,请选中管理您的 Google 服务控制数据旁边的复选框。点击继续

突出显示的“查看实例”链接

  1. 如果系统提示您浏览该服务,请点击取消。现在,您应该已进入 Cloud Data Fusion 界面。

  2. 请注意,Cloud Data Fusion 网页界面自带导航面板(位于左侧),可用于前往所需的页面。

任务 4. 部署示例流水线

示例流水线通过 Cloud Data Fusion Hub 提供,它能让您共享可重复使用的 Cloud Data Fusion 流水线、插件以及解决方案。

  1. 点击 Cloud Data Fusion 网页界面右上角的 HUB

突出显示的 HUB 链接

  1. 在左侧面板中,点击流水线

  2. 点击 Cloud Data Fusion 快速入门流水线,然后在随即出现的弹出式窗口中点击创建

“流水线”页面上突出显示的“Cloud Data Fusion 快速入门”模块

  1. 在 Cloud Data Fusion 快速入门配置面板中,点击完成

  2. 点击自定义流水线。在用于开发数据集成流水线的图形界面“Pipeline Studio”中,会直观呈现流水线。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以通过将鼠标指针悬停在每个流水线节点上,并点击显示的属性按钮,探索流水线。通过每个节点的“属性”菜单,您可以查看与相应节点关联的对象和操作。

注意:流水线中的节点是按顺序连接的对象,用于生成有向无环图。例如:来源、接收器、转换、操作等。

直观呈现流水线的 Pipeline Studio

  1. 点击右上角菜单中的部署。此操作会将流水线提交到 Cloud Data Fusion。您将在下一部分中执行流水线。

部署图标

任务 5. 查看流水线

已部署的流水线将显示在“流水线详情”视图中,您可以在其中执行以下操作:

  • 查看流水线的结构和配置。

  • 手动运行流水线,或者设置时间表或触发器。

  • 查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。

“流水线详情”视图

任务 6. 执行流水线

  1. 在“流水线详情”视图中,点击顶部中间的运行,以执行流水线。
注意:当您执行流水线时,Cloud Data Fusion 会预配一个临时 Dataproc 集群,使用 Apache Hadoop MapReduce 或 Apache Spark 在该集群上执行流水线,然后删除该集群。当流水线的状态转变为“正在运行”时,您可以监控 Dataproc 集群的创建和删除。该集群仅在流水线存续期间存在。 注意:如果流水线状态为失败,请重新运行流水线。
  1. 几分钟后,流水线运行完成。流水线状态将更改为成功,并且系统会显示每个节点处理的记录数。

运行完成的流水线,状态为成功,并显示每个节点处理的记录数

点击检查我的进度以验证是否完成了以下目标: 部署并执行示例流水线

任务 7. 查看结果

流水线将输出写入 BigQuery 表。您可以按照以下步骤验证这一点。

  1. 点击此链接,在 Cloud 控制台中打开 BigQuery 界面,或者右键点击控制台标签页并选择复制,然后使用导航菜单 (导航菜单) 选择 BigQuery

  2. 传统版探索器窗格中,点击您的项目 ID(以 qwiklabs 开头)。

  3. 在项目中的 GCPQuickstart 数据集下,点击 top_rated_inexpensive 表。

  4. 点击 + SQL 查询,粘贴以下查询,然后点击运行

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10
  1. 等待查询完成。系统会显示类似的结果

查询结果

点击检查我的进度以验证是否完成了以下目标: 查看结果

恭喜!

在本实验中,您学习了如何创建 Data Fusion 实例和部署示例流水线,该流水线会从 Cloud Storage 读取输入文件,对数据进行转换和过滤,然后将部分数据输出到 BigQuery。

结束实验

完成实验后,请点击结束实验。Google Skills 会移除您使用过的资源并为您清理账号。

系统会提示您为实验体验评分。请选择相应的评分星级,输入评论,然后点击提交

星级的含义如下:

  • 1 颗星 = 非常不满意
  • 2 颗星 = 不满意
  • 3 颗星 = 一般
  • 4 颗星 = 满意
  • 5 颗星 = 非常满意

如果您不想提供反馈,可以关闭该对话框。

如果要留言反馈、提出建议或做出更正,请使用支持标签页。

本手册的最后更新时间:2025 年 12 月 17 日

本实验的最后测试时间:2025 年 12 月 17 日

版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名称和产品名称可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

使用无痕模式或无痕浏览器窗口是运行此实验的最佳方式。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。