实验设置说明和要求
保护您的账号和进度。请务必在无痕浏览器窗口中,使用实验凭证运行此实验。

在 Cloud Data Fusion 流水线中隐去机密数据

实验 1 小时 30 分钟 universal_currency_alt 5 个点数 show_chart 高级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。

GSP811

Google Cloud 自学实验的徽标

概览

在本实验中,您将学习如何使用适用于 Cloud Fusion 的 Sensitive Data Protection 插件来隐去敏感数据。

考虑以下需要隐去某些敏感客户信息的场景:

场景:您的支持团队会在支持服务工单中记录他们处理的每个支持请求的详情。支持服务工单中的所有信息都会被拉取到一个 CSV 文件中。支持技术人员不应记录任何敏感的客户信息,但实际操作中难免会有疏漏。您发现 CSV 文件中显示了一些客户的电话号码。

您需要遍历 CSV 文件并隐藏所有电话号码。为此,您使用 Sensitive Data Protection 插件创建一个 Cloud Data Fusion 流水线,用以隐去敏感客户数据。

您将创建一个执行以下操作的流水线:

  • 使用 # 字符遮盖客户的电话号码和邮箱。
  • 将经过遮盖的敏感数据和非敏感数据存储至 Cloud Storage。

目标

在本实验中,您将学习如何完成以下操作:

  • 将 Cloud Data Fusion 连接到 Cloud Storage 来源。
  • 部署 Sensitive Data Protection 插件。
  • 创建自定义 Sensitive Data Protection 模板。
  • 使用隐去转换插件来遮盖敏感客户数据。
  • 将输出数据写入 Cloud Storage。

设置和要求

对于每个实验,您都会免费获得一个新的 Google Cloud 项目及一组资源,它们都有固定的使用时限。

  1. 使用无痕式窗口登录 Google Skills。

  2. 留意实验的访问时限(例如 02:00:00)并确保能在此时限内完成实验。
    系统不提供暂停功能。如有需要,您可以重新开始实验,不过必须从头开始。

  3. 准备就绪时,点击开始实验

    注意:点击开始实验后,系统需要 15 到 20 分钟的时间为实验预配必要的资源,并创建一个 Data Fusion 实例。 在此期间,您可以通读下方的步骤,以熟悉实验目标。

    在左侧面板中看到实验凭据(用户名密码)后,实例即已创建,您可继续登录控制台。
  4. 请记好您的实验凭据(用户名密码)。您需要使用这组凭据来登录 Google Cloud 控制台。

  5. 点击打开 Google 控制台

  6. 点击使用其他账号,然后将实验的凭据复制并粘贴到相应提示框中。
    如果您使用其他凭据,将会收到错误消息或产生费用

  7. 接受条款并跳过恢复资源页面。

注意:除非您完成了此实验或想要重新开始,否则请勿点击结束实验。点击此按钮会清除您的实验成果并移除此项目。

登录到 Google Cloud 控制台

  1. 使用您在本次实验课程中使用的浏览器标签页或窗口,从连接详情面板中复制用户名,然后点击打开 Google 控制台按钮。
注意:如果您看到选择账号的提示,请点击使用其他账号
  1. 将其粘贴在用户名中,然后按照提示粘贴密码
  2. 点击下一步
  3. 接受条款及条件。

由于这是一个临时账号,仅在本次实验期间有效:

  • 请勿添加恢复选项
  • 请勿用其注册免费试用服务
  1. 控制台打开后,点击左上角的导航菜单 (“导航菜单”图标) 即可查看服务列表。

导航菜单

激活 Cloud Shell

Cloud Shell 是一种包含开发工具的虚拟机。它提供了一个 5 GB 的永久性主目录,并且在 Google Cloud 上运行。Cloud Shell 可让您通过命令行访问 Google Cloud 资源。gcloud 是 Google Cloud 的命令行工具。它会预先安装在 Cloud Shell 上,且支持 Tab 键自动补全功能。

  1. 在 Google Cloud Console 的导航窗格中,点击激活 Cloud Shell (Cloud Shell 图标)。

  2. 点击继续
    预配和连接到环境需要一些时间。若连接成功,也就表明您已通过身份验证,且相关项目的 ID 会被设为您的 PROJECT_ID。例如:

Cloud Shell 终端

命令示例

  • 列出有效的帐号名称:

gcloud auth list

(输出)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(输出示例)

Credentialed accounts: - google1623327_student@qwiklabs.net
  • 列出项目 ID:

gcloud config list project

(输出)

[core] project = <project_ID>

(输出示例)

[core] project = qwiklabs-gcp-44776a13dea667a6

检查项目权限

在开始在 Google Cloud 中工作之前,您必须确保您的项目在 Identity and Access Management (IAM) 中拥有正确的权限。

  1. 在 Google Cloud 控制台的导航菜单 (“导航菜单”图标) 中,点击 IAM 和管理 > IAM

  2. 确认默认计算服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在且被授予了 editor 角色。账号前缀是项目编号,您可以在导航菜单 > Cloud 概览中找到此编号。

默认计算服务账号

如果该账号在 IAM 中不存在或不具有 editor 角色,请按照以下步骤向其分配所需的角色。

  1. 在 Google Cloud 控制台的导航菜单中,点击 Cloud 概览

  2. 项目信息卡片中复制项目编号

  3. 导航菜单中,点击 IAM 和管理 > IAM

  4. IAM 页面顶部,点击添加

  5. 新的主账号字段中,输入:

{project-number}-compute@developer.gserviceaccount.com

{project-number} 替换为您的项目编号。

  1. 选择角色部分,依次选择基本(或“项目”)> Editor

  2. 点击保存

任务 1. 设置 Cloud Storage 存储桶

您将在项目中创建一个 Cloud Storage 存储桶,以便流水线可以存储输出数据。

  • 在 Cloud Shell 中,执行以下命令以创建新存储桶:

    export BUCKET=$GOOGLE_CLOUD_PROJECT gcloud storage buckets create gs://$BUCKET

新建存储桶的名称与您的项目 ID 相同。

点击“检查我的进度”以验证是否完成了以下目标: 设置 Cloud Storage 存储桶

任务 2. 为 Cloud Data Fusion 实例添加必要的权限

  1. 在 Google Cloud 控制台标题栏的搜索字段中,输入 Data Fusion,然后点击搜索结果中的 Data Fusion。您应该会看到一个已经设置完毕并可供使用的 Cloud Data Fusion 实例。
注意:创建实例大约需要 20 分钟。请等待其准备就绪。

接下来,您将按照以下步骤向与实例关联的服务账号授予权限。

  1. 在 Google Cloud 控制台中,找到 IAM 和管理 > IAM

  2. 确认 Compute Engine 默认服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在,并将服务账号复制到剪贴板中。

  3. 在“IAM 权限”页面上,点击 +授予访问权限

  4. 在“新的主账号”字段中,粘贴刚刚复制的服务账号。

  5. 点击选择角色字段,输入“Cloud Data Fusion API Service Agent”,然后选择该角色。

  6. 点击保存

点击“检查我的进度”以验证是否完成了以下目标: 为服务账号添加 Cloud Data Fusion API Service Agent 角色

授予服务账号用户权限

  1. 在控制台中,点击导航菜单下的 IAM 和管理 > IAM

  2. 选中包括 Google 提供的角色授权复选框。

  3. 在列表中向下滚动,找到由 Google 管理的 Cloud Data Fusion 服务账号(其形式类似于 service-{项目编号}@gcp-sa-datafusion.iam.gserviceaccount.com),随后将该服务账号名称复制到剪贴板。

Google 管理的 Cloud Data Fusion 服务账号列表

  1. 然后前往 IAM 和管理 > 服务账号

  2. 点击默认 Compute Engine 账号(其形式类似于 {项目编号}-compute@developer.gserviceaccount.com),然后选择顶部导航栏中的具有访问权限的主账号标签页。

  3. 点击授予访问权限按钮。

  4. 将您先前复制的服务账号粘贴到新的主账号字段中。

  5. 角色下拉菜单中,选择 Service Account User

  6. 点击保存

任务 3. 获取 Sensitive Data Protection 权限

  1. 在 Cloud 控制台中,前往导航菜单 > IAM

  2. 在权限表的右上角,找到包括 Google 提供的角色授权复选框并点击。

“Google 提供的角色授权”复选框已选中

  1. 在权限表的主账号列中,找到与 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 格式匹配的服务账号。

服务账号主体过滤器

  1. 点击服务账号右侧的修改按钮。

  2. 点击添加其他角色

  3. 点击显示的下拉菜单。

  4. 使用搜索栏进行搜索,然后选择 DLP Administrator

添加 DLP Administrator 角色

  1. 点击保存

  2. 检查 DLP Administrator 是否显示在了角色列中。

DLP Administrator 角色已添加

点击“检查我的进度”以验证是否完成了以下目标: 获取 Sensitive Data Protection 权限

任务 4. 进入 Cloud Data Fusion 界面

  1. 进入 Data Fusion 界面,点击实例,然后点击 Data Fusion 实例旁边的查看实例链接。如果需要,请使用您的实验凭证进行登录。如果系统提示您浏览该服务,请点击不用了。现在,您应该已进入 Cloud Data Fusion 界面。

  2. 在 Cloud Data Fusion 界面中,点击左上角的导航菜单,然后进入 Studio 页面。接下来,您将创建一条流水线。

任务 5. 创建流水线

您将构建可执行以下操作的流水线: * 使用 Cloud Storage 来源插件读取输入数据。 * 从 Hub 部署 Sensitive Data Protection 插件并应用隐去转换插件。 * 使用 Cloud Storage 接收器插件写入输出数据。

  1. 在您的 Studio 页面的左侧面板中,点击来源菜单下的 Google Cloud Storage (GCS) 插件。

已在“来源”菜单中选中 GCS 插件

  1. 将指针悬停在显示的 GCS 节点上,然后点击属性

  2. 参考名称部分,输入一个参考名称。

  3. 本实验使用公开提供的 Cloud Storage 存储桶中的输入数据集 SampleRecords.csv。在路径下,输入 gs://cloud-training/OCBL167/SampleRecords.csv

  4. 格式部分,选择 CSV

  5. 输出架构字段名称下,针对每种数据类型点击 + 按钮,并输入以下内容。移除所有现有数据类型(如有)。

    • 日期
    • 银行
    • 邮编
    • 备注
  6. 确保所有数据类型均为字符串类型。要更改类型,请点击类型,然后从下拉菜单中选择字符串

  7. 选中每种数据类型对应的复选框。这可确保在流水线遇到 null(空)值时不会发生故障。

GCS 属性配置

  1. 点击验证以确保没有错误。

  2. 点击对话框右上角的 X 按钮。

任务 6. 隐去敏感数据

隐去转换插件可识别数据输入流中的敏感记录,并将您定义的转换应用于这些记录。与您选择的预定义 Sensitive Data Protection 过滤器或您定义的自定义模板匹配的数据记录,即视为敏感记录。

在本实验中,您需要隐去您团队中的一些支持技术人员意外记录的客户电话号码。他们在支持服务工单的备注部分(在 CSV 文件中显示为备注列)中输入了敏感信息。您要创建自定义 Sensitive Data Protection 检查模板,然后在隐去转换插件的属性菜单中提供模板 ID。

任务 7. 部署 Sensitive Data Protection 插件

  1. 在 Cloud Data Fusion 界面的右上角,点击 Hub

  2. 点击 Data Loss Prevention 插件。

  3. 点击部署

  4. 点击完成

  5. 点击数据泄露防护 | 部署对话框右上角的 X 按钮。

  6. 点击 X 按钮退出 Hub。

任务 8. 创建自定义模板

  1. 在 Google Cloud 控制台标题栏的搜索字段中输入 Security,然后点击搜索结果中的 Security。选择 Sensitive Data Protection

  2. 点击配置标签页,然后点击创建模板

  3. 定义模板部分的模板 ID 字段中,输入模板的 ID。在本教程的后面部分,您将需要该模板 ID。

  4. 点击继续

  5. 配置检测部分,点击管理 infoType

  6. 内置标签页中,使用过滤器搜索 phone number

内置电话号码过滤器

  1. 选择 PHONE_NUMBER

  2. 点击完成

  3. 点击创建

点击“检查我的进度”以验证是否完成了以下目标: 创建自定义模板

任务 9. 应用隐去转换

  1. 回到 Cloud Data Fusion 界面,在 Studio 页面上,点击以展开转换菜单。

  2. 点击 Google DLP Redact 转换插件。

隐去转换选择

  1. 将连接箭头从 GCS 节点拖动到 Google DLP Redact 节点。

GCS 节点已连接到隐去节点

  1. 将指针悬停在 Google DLP Redact 节点上,然后点击属性
  • 使用自定义模板设置为
  • 模板 ID 部分,输入您为自定义模板创建的 ID。
  • 匹配部分的备注中,对自定义模板应用遮盖
注意:除了提供遮盖外,Sensitive Data Protection 插件还可提供其他转换选项。如需了解详情,请参阅隐去插件属性菜单中的文档标签页。
  1. 遮盖字符部分,输入 #

遮盖属性配置

  1. 点击验证以确保没有错误。

  2. 点击对话框右上角的 X 按钮。

任务 10. 存储输出数据

将流水线的结果存储在 Cloud Storage 文件中。

  1. 在 Cloud Data Fusion 界面的 Studio 页面上,点击以展开接收器菜单。

  2. 点击 GCS

  3. 将连接箭头从 Google DLP Redact 节点拖动到 GCS2 节点。

隐去节点已连接到 GCS2

  1. 将指针悬停在 GCS2 节点上,然后点击属性
  • 参考名称部分,输入一个参考名称。
  • 路径部分,输入您在本实验开始时创建的 Cloud Storage 存储桶的路径
  • 格式部分,选择 CSV

GCS 接收器属性配置

  1. 点击验证以确保没有错误。

  2. 点击对话框右上角的 X 按钮。

任务 11. 在预览模式下运行流水线

接下来,在部署流水线之前,先在预览模式下运行此流水线。

  1. 点击预览,然后点击运行流水线预览运行配置

运行按钮会显示流水线状态,从正在启动开始,依次转换为停止运行

  1. 预览运行完成后,在 Google DLP Redact 节点上,点击预览数据以查看输入和输出数据的对照比较。确认是否已使用 # 字符遮盖了电话号码。

隐去属性输出结果 3. 点击 X 按钮关闭预览数据

注意:如果您在备注列中看不到电话号码,请将鼠标悬停在条目上以验证结果。

任务 12. 隐去其他数据类型

在检查预览运行结果时,您发现备注列中仍有其他敏感信息显示:邮箱。返回并修改 Sensitive Data Protection 检查模板,将邮箱也一同隐去。

  1. 找到安全 > Sensitive Data Protection

  2. 配置标签页中选择模板。

  3. 点击修改

  4. 点击管理 infoType

  5. 内置标签页中,使用过滤器搜索 phone number OR email address

内置电话号码或邮箱过滤器

  1. 全选然后点击完成

  2. 点击保存

  3. 在弹出式窗口中,点击确认保存

  4. 再次在预览模式下运行流水线。Cloud Data Fusion 将自动使用更新后的 Sensitive Data Protection 模板。

  5. 确认是否已使用 # 字符遮盖了电话号码和邮箱。

流水线预览输出结果

注意:如果您在备注列中看不到电话号码和邮箱,请将鼠标悬停在条目上以验证结果。

点击“检查我的进度”以验证是否完成了以下目标: 隐去其他数据类型

任务 13. 部署并运行流水线

  1. 确保未选中预览模式。

  2. 点击保存。点击保存之后,系统会提示您为流水线命名。为流水线命名,然后点击保存

“为流水线命名”文本字段

  1. 点击部署

  2. 部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态正在预配依次转换为正在启动正在运行成功

注意:如果流水线出现故障,请再次重新运行流水线

点击“检查我的进度”以验证是否完成了以下目标: 部署并运行流水线

任务 14. 查看结果

  1. 在 Cloud 控制台中,找到 Cloud Storage

  2. Storage 浏览器部分,找到您在接收器 Cloud Storage 插件属性中指定的 Cloud Storage 存储桶。

  3. 经过身份验证的网址部分,复制该链接并将其粘贴到新的浏览器标签页中,以下载包含结果的 CSV 文件。确认是否已使用 # 字符遮盖了电话号码和邮箱。

Google Cloud Storage 对象详情配置

恭喜!

在本实验中,您学习了如何使用 Sensitive Data Protection 来遮盖 Data Fusion 流水线所运行数据的某些部分。这有助于在与受众群体共享数据之前,移除/遮盖嵌入在数据中的个人身份信息。

如需详细了解如何创建 Sensitive Data Protection 模板,请参阅相关文档。

上次更新手册的时间:2025 年 12 月 9 日

上次测试实验的时间:2025 年 12 月 9 日

版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名称和产品名称可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

使用无痕模式或无痕浏览器窗口是运行此实验的最佳方式。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。