准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Create a cloud data fusion instance
/ 25
Add Cloud Data Fusion API Service Agent role to service account
/ 25
Deploy a sample pipeline
/ 25
View the result
/ 25
本实验将介绍如何创建 Data Fusion 实例并部署所提供的示例流水线。该流水线会从 Cloud Storage 读取包含《纽约时报》畅销书数据的 JSON 文件。然后,该流水线对文件进行转换,以解析和清理数据。最后将部分记录加载到 BigQuery 中。
在本实验中,您将学习如何完成以下操作:
对于每个实验,您都会免费获得一个新的 Google Cloud 项目及一组资源,它们都有固定的使用时限。
使用无痕式窗口登录 Google Skills。
留意实验的访问时限(例如 1:15:00)并确保能在相应时间段内完成实验。
系统不提供暂停功能。如有需要,您可以重新开始实验,不过必须从头开始。
准备就绪时,点击开始实验。
请记好您的实验凭据(用户名和密码)。您需要使用这组凭据来登录 Google Cloud 控制台。
点击打开 Google 控制台。
点击使用其他账号,然后将此实验的凭据复制并粘贴到相应提示框中。
如果您使用其他凭据,将会收到错误消息或产生费用。
接受条款并跳过恢复资源页面。
由于这是一个临时账号,仅在本次实验期间有效:
Cloud Shell 是一种包含开发工具的虚拟机。它提供了一个 5 GB 的永久性主目录,并且在 Google Cloud 上运行。Cloud Shell 可让您通过命令行访问 Google Cloud 资源。gcloud 是 Google Cloud 的命令行工具。它会预先安装在 Cloud Shell 上,且支持 Tab 键自动补全功能。
在 Google Cloud Console 的导航窗格中,点击激活 Cloud Shell ()。
点击继续。
预配和连接到环境需要一些时间。若连接成功,也就表明您已通过身份验证,且相关项目的 ID 会被设为您的 PROJECT_ID。例如:
列出有效的帐号名称:
(输出)
(输出示例)
列出项目 ID:
(输出)
(输出示例)
在开始在 Google Cloud 中工作之前,您必须确保您的项目在 Identity and Access Management (IAM) 中拥有正确的权限。
在 Google Cloud 控制台的导航菜单 () 中,点击 IAM 和管理 > IAM。
确认默认计算服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在且被授予了 editor 角色。账号前缀是项目编号,您可以在导航菜单 > Cloud 概览中找到此编号。
如果该账号在 IAM 中不存在或不具有 editor 角色,请按照以下步骤向其分配所需的角色。
在 Google Cloud 控制台的导航菜单中,点击 Cloud 概览。
从项目信息卡片中复制项目编号。
在导航菜单中,点击 IAM 和管理 > IAM。
在 IAM 页面顶部,点击添加。
在新的主账号字段中,输入:
将 {project-number} 替换为您的项目编号。
在选择角色部分,依次选择基本(或“项目”)> Editor。
点击保存。
在 Cloud 控制台的导航菜单 () 中,依次选择 API 和服务 > 库。
在搜索框中输入 Data fusion,找到 Cloud Data Fusion API,并点击超链接。
该 API 已启用,点击管理,然后点击停用 API。确认停用。
停用 API 后,点击启用以重新启用 API。
在 Google Cloud 控制台的导航菜单 () 中,点击查看所有产品。在分析下,点击 Data Fusion。
点击该部分顶部的创建实例链接,以创建 Cloud Data Fusion 实例。
在随即加载的创建 Data Fusion 实例页面中:
a. 输入实例名称(例如 cdf-lab-instance)。
b. 在区域中,选择 us-central1。
c. 在版本下,选择基本。
d. 在授权部分中,根据需要点击授予权限。
e. 点击高级选项旁边的下拉菜单图标,在高级 Monitoring 和 Logging 下,选中 Dataproc Cloud Logging 复选框。
f. 将其他所有字段保留原样,然后点击创建。
点击检查我的进度以验证是否完成了以下目标:
接下来,您将按照以下步骤向与实例关联的服务账号授予权限。
在 Cloud 控制台的导航菜单 () 中,依次选择 IAM 和管理 > IAM。
在“IAM 权限”页面上,点击 +授予访问权限。
在“新的主账号”字段中,粘贴复制的 Dataproc 服务账号。
点击“选择角色”字段,开始输入 Cloud Data Fusion API Service Agent,然后选择该角色。
点击保存。
点击检查我的进度以验证是否完成了以下目标:
使用 Cloud Data Fusion 时,您将同时使用 Cloud 控制台和单独的 Cloud Data Fusion 界面。
在 Cloud 控制台中,您可以创建和删除 Cloud Data Fusion 实例,以及查看 Cloud Data Fusion 实例详情。
在 Cloud Data Fusion 网页界面中,您可以通过各种页面(如 Pipeline Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
若要浏览 Cloud Data Fusion 界面,请按以下步骤操作:
在 Google Cloud 控制台的导航菜单 () 中,点击查看所有产品。在分析下,点击 Data Fusion。
点击 Data Fusion 实例旁边的查看实例链接。选择您的实验凭证进行登录,如果需要,请选中管理您的 Google 服务控制数据旁边的复选框。点击继续。
如果系统提示您浏览该服务,请点击取消。现在,您应该已进入 Cloud Data Fusion 界面。
请注意,Cloud Data Fusion 网页界面自带导航面板(位于左侧),可用于前往所需的页面。
示例流水线通过 Cloud Data Fusion Hub 提供,它能让您共享可重复使用的 Cloud Data Fusion 流水线、插件以及解决方案。
在左侧面板中,点击流水线。
点击 Cloud Data Fusion 快速入门流水线,然后在随即出现的弹出式窗口中点击创建。
在 Cloud Data Fusion 快速入门配置面板中,点击完成。
点击自定义流水线。在用于开发数据集成流水线的图形界面“Pipeline Studio”中,会直观呈现流水线。可用的流水线插件列在左侧,您的流水线显示在主画布区域。您可以通过将鼠标指针悬停在每个流水线节点上,并点击显示的属性按钮,探索流水线。通过每个节点的“属性”菜单,您可以查看与相应节点关联的对象和操作。
已部署的流水线将显示在“流水线详情”视图中,您可以在其中执行以下操作:
查看流水线的结构和配置。
手动运行流水线,或者设置时间表或触发器。
查看流水线历史运行情况(包括执行时间、日志和指标)的摘要。
点击检查我的进度以验证是否完成了以下目标:
流水线将输出写入 BigQuery 表。您可以按照以下步骤验证这一点。
点击此链接,在 Cloud 控制台中打开 BigQuery 界面,或者右键点击控制台标签页并选择复制,然后使用导航菜单 () 选择 BigQuery。
在传统版探索器窗格中,点击您的项目 ID(以 qwiklabs 开头)。
在项目中的 GCPQuickstart 数据集下,点击 top_rated_inexpensive 表。
点击 + SQL 查询,粘贴以下查询,然后点击运行。
点击检查我的进度以验证是否完成了以下目标:
在本实验中,您学习了如何创建 Data Fusion 实例和部署示例流水线,该流水线会从 Cloud Storage 读取输入文件,对数据进行转换和过滤,然后将部分数据输出到 BigQuery。
完成实验后,请点击结束实验。Google Skills 会移除您使用过的资源并为您清理账号。
系统会提示您为实验体验评分。请选择相应的评分星级,输入评论,然后点击提交。
星级的含义如下:
如果您不想提供反馈,可以关闭该对话框。
如果要留言反馈、提出建议或做出更正,请使用支持标签页。
本手册的最后更新时间:2025 年 12 月 17 日
本实验的最后测试时间:2025 年 12 月 17 日
版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名称和产品名称可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验