使用 Cloud Data Fusion 探索数据沿袭

Add Cloud Data Fusion API Service Agent role to service account

检查我的进度

/ 30

Import, Deploy and Run Shipment Data Cleansing pipeline

检查我的进度

/ 35

Import, Deploy, and Run the Delayed Shipments data pipeline

检查我的进度

/ 35

此实验可能会提供 AI 工具来支持您学习。

GSP812

Google Cloud 自学实验的徽标

概览

本实验向您展示如何使用 Cloud Data Fusion 探索数据沿袭：数据的来源及其随时间推移的移动情况。

Cloud Data Fusion 数据沿袭可帮助您：

检测不良数据事件的根本原因。
在更改数据之前执行影响分析。

Cloud Data Fusion 提供数据集级和字段级沿袭，且具有时限性，以显示随时间推移的沿袭情况。

数据集级沿袭显示在选定时间间隔内数据集与流水线之间的关系。
字段级沿袭显示对源数据集中的一组字段执行的操作，以在目标数据集中生成一组不同的字段。

在本实验中，您将使用两条流水线来演示一个典型场景：清理原始数据，然后将其发送以进行下游处理。您可以使用 Cloud Data Fusion 沿袭功能来探索以下数据跟踪：从原始数据到经过清理的发货数据再到分析输出。

注意：目前，仅 Cloud Data Fusion 企业版提供 Cloud Data Fusion 沿袭功能。

目标

在本实验中，您将探索如何：

运行示例流水线以生成沿袭。
探索数据集级和字段级沿袭。
了解如何将握手信息从上游流水线传递到下游流水线。

设置和要求

对于每个实验，您都会免费获得一个新的 Google Cloud 项目及一组资源，它们都有固定的使用时限。

使用无痕式窗口登录 Google Skills。
留意实验的访问时限（例如 02:00:00）并确保能在此时限内完成实验。
系统不提供暂停功能。如有需要，您可以重新开始实验，不过必须从头开始。
准备就绪时，点击开始实验。
注意：点击开始实验后，系统需要 15 到 20 分钟的时间为实验预配必要的资源，并创建一个 Data Fusion 实例。在此期间，您可以通读下方的步骤，以熟悉实验目标。
在左侧面板中看到实验凭据（用户名和密码）后，实例即已创建，您可继续登录控制台。
请记好您的实验凭据（用户名和密码）。您需要使用这组凭据来登录 Google Cloud 控制台。
点击打开 Google 控制台。
点击使用其他账号，然后将此实验的凭据复制并粘贴到相应提示框中。
如果您使用其他凭据，将会收到错误消息或产生费用。
接受条款并跳过恢复资源页面。

注意：除非您完成了此实验或想要重新开始，否则请勿点击结束实验。点击此按钮会清除您的实验成果并移除此项目。

如何开始实验并登录 Google Cloud 控制台

点击开始实验按钮。如果该实验需要付费，系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格，其中包含以下各项：
- “打开 Google Cloud 控制台”按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息（如果需要）
点击打开 Google Cloud 控制台（如果您使用的是 Chrome 浏览器，请右键点击并选择在无痕式窗口中打开链接）。

该实验会启动资源并打开另一个标签页，显示“登录”页面。

提示：将这些标签页安排在不同的窗口中，并排显示。
注意：如果您看见选择账号对话框，请点击使用其他账号。
如有必要，请复制下方的用户名，然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码，然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
重要提示：您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。注意：在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
继续在后续页面中点击以完成相应操作：
- 接受条款及条件。
- 由于这是临时账号，请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。

片刻之后，系统会在此标签页中打开 Google Cloud 控制台。

注意：如需访问 Google Cloud 产品和服务，请点击导航菜单，或在搜索字段中输入服务或产品的名称。 “导航菜单”图标和“搜索”字段

激活 Cloud Shell

Cloud Shell 是一种包含开发工具的虚拟机。它提供了一个 5 GB 的永久性主目录，并且在 Google Cloud 上运行。Cloud Shell 可让您通过命令行访问 Google Cloud 资源。gcloud 是 Google Cloud 的命令行工具。它会预先安装在 Cloud Shell 上，且支持 Tab 键自动补全功能。

在 Google Cloud Console 的导航窗格中，点击激活 Cloud Shell ()。
点击继续。
预配和连接到环境需要一些时间。若连接成功，也就表明您已通过身份验证，且相关项目的 ID 会被设为您的 PROJECT_ID。例如：

Cloud Shell 终端

命令示例

列出有效的帐号名称：

gcloud auth list

（输出）

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

（输出示例）

Credentialed accounts: - google1623327_student@qwiklabs.net

列出项目 ID：

gcloud config list project

（输出）

[core] project = <project_ID>

（输出示例）

[core] project = qwiklabs-gcp-44776a13dea667a6

如需查看 gcloud 的完整文档，请参阅 gcloud 命令行工具概览。

检查项目权限

在开始在 Google Cloud 中工作之前，您必须确保您的项目在 Identity and Access Management (IAM) 中拥有正确的权限。

在 Google Cloud 控制台的导航菜单 () 中，点击 IAM 和管理 > IAM。
确认默认计算服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在且被授予了 editor 角色。账号前缀是项目编号，您可以在导航菜单 > Cloud 概览中找到此编号。

默认计算服务账号

如果该账号在 IAM 中不存在或不具有 editor 角色，请按照以下步骤向其分配所需的角色。

在 Google Cloud 控制台的导航菜单中，点击 Cloud 概览。
从项目信息卡片中复制项目编号。
在导航菜单中，点击 IAM 和管理 > IAM。
在 IAM 页面顶部，点击添加。
在新的主账号字段中，输入：

{project-number}-compute@developer.gserviceaccount.com

将 {project-number} 替换为您的项目编号。

在选择角色部分，依次选择基本（或“项目”）> Editor。
点击保存。

前提条件

在本实验中，您将使用两条流水线：

Shipment Data Cleansing（发货数据清理）流水线，用于从小型示例数据集中读取原始发货数据，并应用转换以清理数据。
Delayed Shipments USA（美国延迟发货）流水线，用于读取清理后的发货数据，对其进行分析，并找出美国境内延迟时间超出某个阈值的发货。

点击 Shipment Data Cleansing（发货数据清理）和 Delayed Shipments USA（美国延迟发货）链接，将这些示例数据集下载到您的本地机器。

任务 1.为 Cloud Data Fusion 实例添加必要权限

在 Google Cloud 控制台标题栏的搜索字段中，输入 Data Fusion，然后点击搜索结果中的 Data Fusion。点击实例。

注意：创建实例大约需要 20 分钟。请等待其准备就绪。

接下来，您将按照以下步骤，向与实例关联的服务账号授予权限。

在 Google Cloud 控制台中，找到 IAM 和管理 > IAM。
确认 Compute Engine 默认服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在，并将服务账号复制到剪贴板。
在 IAM 权限页面，点击 +授予访问权限。
在“新的主账号”字段中，粘贴该服务账号。
点击选择角色字段，开始输入 Cloud Data Fusion API Service Agent，然后选择该角色。
点击添加其他角色
添加 Managed Service for Spark Administrator 角色。
点击保存。

点击“检查我的进度”以验证是否完成了以下目标：为服务账号添加 Cloud Data Fusion API Service Agent 角色

授予服务账号用户权限

在控制台中，点击导航菜单下的 IAM 和管理 > IAM。
选中包括 Google 提供的角色授权复选框。
在列表中向下滚动，找到由 Google 管理的 Cloud Data Fusion 服务账号（其形式类似于 service-{项目编号}@gcp-sa-datafusion.iam.gserviceaccount.com），随后将该服务账号名称复制到剪贴板。

Google 管理的 Cloud Data Fusion 服务账号列表

然后前往 IAM 和管理 > 服务账号。
点击默认 Compute Engine 账号（其形式类似于 {项目编号}-compute@developer.gserviceaccount.com），然后选择顶部导航栏中的具有访问权限的主账号标签页。
点击授予访问权限按钮。
将您先前复制的服务账号粘贴到新的主账号字段中。
在角色下拉菜单中，选择 Service Account User。
点击保存。

任务 2.打开 Cloud Data Fusion 界面

进入 Data Fusion 界面，点击实例，然后点击 Data Fusion 实例旁边的查看实例链接。选择您的实验凭证进行登录。如果系统提示您浏览该服务，请点击不用了。现在，您应该已进入 Cloud Data Fusion 界面。
点击左侧导航面板中的 Studio，打开 Cloud Data Fusion Studio 页面。

Cloud Fusion Studio 界面

任务 3.导入、部署并运行“Shipment Data Cleansing”（发货数据清理）流水线

接下来，您需要导入原始发货数据。点击 Studio 页面右上角的导入，然后选择并导入您之前下载的 Shipment Data Cleansing（发货数据清理）流水线。

注意： 如果弹出式窗口要求您升级流水线插件，请点击 Fix All（全部修复）以将插件升级至最新版本。

“Shipment Data Cleansing”（发货数据清理）流水线

现在部署流水线。在 Studio 页面右上角，点击部署。部署完成后，系统会打开流水线页面。
点击“流水线”页面顶部中央的运行来运行该流水线。

注意：如果流水线失败，请重新运行

点击“检查我的进度”以验证是否完成了以下目标：导入、部署并运行“Shipment Data Cleansing”（发货数据清理）流水线

任务 4.导入、部署并运行“Delayed Shipments”（延迟发货）数据流水线。

在“Shipping Data Cleansing”（发货数据清理）的状态显示为成功之后，您将继续导入并部署之前下载的“Delayed Shipments USA”（美国延迟发货）数据流水线。

点击左侧导航面板中的 Studio，返回 Cloud Data Fusion Studio 页面。
点击 Studio 页面右上角的导入，然后选择并导入之前下载的 Delayed Shipments USA（美国延迟发货）数据流水线。

注意： 如果弹出式窗口要求您升级流水线插件，请点击 Fix All（全部修复）以将插件升级至最新版本。

点击 Studio 页面右上角的部署来部署流水线。部署完成后，系统会打开流水线页面。
点击“流水线”页面顶部中央的运行来运行流水线。

注意：如果流水线失败，请重新运行

成功运行完第二条流水线后，您可以继续执行下面的剩余步骤。

点击“检查我的进度”以验证是否完成了以下目标：导入、部署并运行“Delayed Shipments”（延迟发货）数据流水线

任务 5.发现一些数据集

您必须先发现一个数据集，然后才能探索其沿袭。

从 Cloud Data Fusion 界面的左侧导航面板中选择元数据，以打开元数据搜索页。
由于“Shipment Data Cleansing”（发货数据清理）数据集指定了“Cleaned-Shipments”（清理后的发货）作为参考数据集，因此请在搜索框中输入 shipment（发货）。搜索结果包含此数据集。

清理后的发货元数据搜索结果

任务 6.使用标记发现数据集

元数据搜索会发现已由 Cloud Data Fusion 流水线使用、处理或生成的数据集。流水线在结构化框架上执行，该框架会生成并收集技术元数据和操作元数据。技术元数据包括数据集名称、类型、架构、字段、创建时间和处理信息。Cloud Data Fusion 元数据搜索和沿袭功能会使用此技术信息。

虽然来源和接收器的参考名称是唯一的数据集标识符和极佳的搜索字词，但您也可以使用其他技术元数据作为搜索条件，例如数据集说明、架构、字段名称或元数据前缀。

Cloud Data Fusion 还支持使用业务元数据（例如标记和键值对属性）为数据集添加注解，这些元数据也可用作搜索条件。例如，要在“Raw Shipping Data”（原始发货数据）数据集上添加并搜索业务标记注解，请执行以下操作：

从 Cloud Data Fusion 界面的左侧导航面板中选择元数据，以打开元数据搜索页。
在元数据选项的搜索页面中输入 Raw shipping data（原始发货数据）
点击 Raw_Shipping_Data（原始发货数据）。
在 Business tags（业务标记）下，点击 +，然后插入标记名称（允许使用字母数字字符和下划线字符），然后按 Enter 键。

业务标记“名称”字段

您可以通过点击标记名称，或在元数据搜索页的搜索框中输入“tags: tag_name”来搜索标记。

任务 7.探索数据沿袭

数据集级沿袭

从 Cloud Data Fusion 界面的左侧导航面板中选择元数据，以打开元数据搜索页，然后在搜索框中输入 shipment（发货）。
点击搜索页上列出的 Cleaned-Shipments（清理后的发货）数据集名称。
然后点击沿袭标签页。沿袭图表显示，此数据集是由“Shipments-Data-Cleansing”（发货数据清理）流水线生成的，该流水线使用了“Raw_Shipping_Data”（原始发货数据）数据集。

Cloud Data Fusion“沿袭”标签页

字段级沿袭

Cloud Data Fusion 字段级沿袭显示了数据集各字段之间的关系，以及为生成一组不同字段而对原有一组字段执行的转换操作。与数据集级沿袭一样，字段级沿袭具有时限性，其结果会随时间而变化。

接着数据集级沿袭步骤继续操作，点击“Cleaned Shipments”（清理后的发货）数据集级沿袭图表右上角的 Field Level Lineage（字段级沿袭）按钮，以显示其字段级沿袭图表。

Cloud Data Fusion 字段级沿袭

字段级沿袭图表显示了字段之间的连接。您可以选择某个字段以查看其沿袭。选择查看，然后选择 Pin field（固定字段），仅查看该字段的沿袭。

Data Fusion“固定字段”沿袭选项

在“Cleaned-Shipments”（清理后的发货）数据集下找到 time_to_ship（发货用时）字段，选择查看，然后选择查看影响以执行影响分析。

查看影响

字段级沿袭显示了此字段如何随时间发生转换。请注意 time_to_ship（发货用时）字段的转换：(i) 将其转换为“float”（浮点）类型列，(ii) 确定是将该值重定向到下一个节点，还是沿错误路径向下传递。

沿袭会展示特定字段经历的更改历史记录。其他示例包括将几个字段串联起来以组成一个新字段（例如将“名字”和“姓氏”组合以生成“姓名”），或者对字段执行计算（例如将“数字”转换为相对于总数的“百分比”）。

“原因”和“影响”链接以人类可读的账本格式显示对字段两侧执行的转换。

恭喜！

在本实验中，您学习了如何探索数据的沿袭。此信息对于报告和治理至关重要。它可以帮助不同的受众群体了解数据是如何演变成当前状态的。

上次更新手册的时间：2022 年 11 月 14 日

上次测试实验的时间：2023 年 8 月 8 日

GSP812

概览

目标

设置和要求

如何开始实验并登录 Google Cloud 控制台

激活 Cloud Shell

命令示例

检查项目权限

前提条件

任务 1.为 Cloud Data Fusion 实例添加必要权限

授予服务账号用户权限

任务 2.打开 Cloud Data Fusion 界面

任务 3.导入、部署并运行“Shipment Data Cleansing”（发货数据清理）流水线

任务 4.导入、部署并运行“Delayed Shipments”（延迟发货）数据流水线。

任务 5.发现一些数据集

任务 6.使用标记发现数据集

任务 7.探索数据沿袭

数据集级沿袭

字段级沿袭

恭喜！

准备工作

使用无痕浏览模式

登录控制台

使用无痕浏览模式运行实验