准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Setup Cloud Storage bucket
/ 15
Add Cloud Data Fusion API Service Agent role to service account
/ 15
Get Sensitive Data Protection permissions
/ 15
Create a custom template
/ 20
Redact another data type
/ 15
Deploy and run the pipeline
/ 20
在本实验中,您将学习如何使用适用于 Cloud Fusion 的 Sensitive Data Protection 插件来隐去敏感数据。
考虑以下需要隐去某些敏感客户信息的场景:
场景:您的支持团队会在支持服务工单中记录他们处理的每个支持请求的详情。支持服务工单中的所有信息都会被拉取到一个 CSV 文件中。支持技术人员不应记录任何敏感的客户信息,但实际操作中难免会有疏漏。您发现 CSV 文件中显示了一些客户的电话号码。
您需要遍历 CSV 文件并隐藏所有电话号码。为此,您使用 Sensitive Data Protection 插件创建一个 Cloud Data Fusion 流水线,用以隐去敏感客户数据。
您将创建一个执行以下操作的流水线:
在本实验中,您将学习如何完成以下操作:
对于每个实验,您都会免费获得一个新的 Google Cloud 项目及一组资源,它们都有固定的使用时限。
使用无痕式窗口登录 Google Skills。
留意实验的访问时限(例如 02:00:00)并确保能在此时限内完成实验。
系统不提供暂停功能。如有需要,您可以重新开始实验,不过必须从头开始。
准备就绪时,点击开始实验。
请记好您的实验凭据(用户名和密码)。您需要使用这组凭据来登录 Google Cloud 控制台。
点击打开 Google 控制台。
点击使用其他账号,然后将此实验的凭据复制并粘贴到相应提示框中。
如果您使用其他凭据,将会收到错误消息或产生费用。
接受条款并跳过恢复资源页面。
由于这是一个临时账号,仅在本次实验期间有效:
Cloud Shell 是一种包含开发工具的虚拟机。它提供了一个 5 GB 的永久性主目录,并且在 Google Cloud 上运行。Cloud Shell 可让您通过命令行访问 Google Cloud 资源。gcloud 是 Google Cloud 的命令行工具。它会预先安装在 Cloud Shell 上,且支持 Tab 键自动补全功能。
在 Google Cloud Console 的导航窗格中,点击激活 Cloud Shell ()。
点击继续。
预配和连接到环境需要一些时间。若连接成功,也就表明您已通过身份验证,且相关项目的 ID 会被设为您的 PROJECT_ID。例如:
列出有效的帐号名称:
(输出)
(输出示例)
列出项目 ID:
(输出)
(输出示例)
在开始在 Google Cloud 中工作之前,您必须确保您的项目在 Identity and Access Management (IAM) 中拥有正确的权限。
在 Google Cloud 控制台的导航菜单 () 中,点击 IAM 和管理 > IAM。
确认默认计算服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在且被授予了 editor 角色。账号前缀是项目编号,您可以在导航菜单 > Cloud 概览中找到此编号。
如果该账号在 IAM 中不存在或不具有 editor 角色,请按照以下步骤向其分配所需的角色。
在 Google Cloud 控制台的导航菜单中,点击 Cloud 概览。
从项目信息卡片中复制项目编号。
在导航菜单中,点击 IAM 和管理 > IAM。
在 IAM 页面顶部,点击添加。
在新的主账号字段中,输入:
将 {project-number} 替换为您的项目编号。
在选择角色部分,依次选择基本(或“项目”)> Editor。
点击保存。
您将在项目中创建一个 Cloud Storage 存储桶,以便流水线可以存储输出数据。
在 Cloud Shell 中,执行以下命令以创建新存储桶:
新建存储桶的名称与您的项目 ID 相同。
点击“检查我的进度”以验证是否完成了以下目标:
接下来,您将按照以下步骤向与实例关联的服务账号授予权限。
在 Google Cloud 控制台中,找到 IAM 和管理 > IAM。
确认 Compute Engine 默认服务账号 {project-number}-compute@developer.gserviceaccount.com 已存在,并将服务账号复制到剪贴板中。
在“IAM 权限”页面上,点击 +授予访问权限。
在“新的主账号”字段中,粘贴刚刚复制的服务账号。
点击选择角色字段,输入“Cloud Data Fusion API Service Agent”,然后选择该角色。
点击保存。
点击“检查我的进度”以验证是否完成了以下目标:
在控制台中,点击导航菜单下的 IAM 和管理 > IAM。
选中包括 Google 提供的角色授权复选框。
在列表中向下滚动,找到由 Google 管理的 Cloud Data Fusion 服务账号(其形式类似于 service-{项目编号}@gcp-sa-datafusion.iam.gserviceaccount.com),随后将该服务账号名称复制到剪贴板。
然后前往 IAM 和管理 > 服务账号。
点击默认 Compute Engine 账号(其形式类似于 {项目编号}-compute@developer.gserviceaccount.com),然后选择顶部导航栏中的具有访问权限的主账号标签页。
点击授予访问权限按钮。
将您先前复制的服务账号粘贴到新的主账号字段中。
在角色下拉菜单中,选择 Service Account User。
点击保存。
在 Cloud 控制台中,前往导航菜单 > IAM。
在权限表的右上角,找到包括 Google 提供的角色授权复选框并点击。
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 格式匹配的服务账号。点击服务账号右侧的修改按钮。
点击添加其他角色。
点击显示的下拉菜单。
使用搜索栏进行搜索,然后选择 DLP Administrator。
点击保存。
检查 DLP Administrator 是否显示在了角色列中。
点击“检查我的进度”以验证是否完成了以下目标:
进入 Data Fusion 界面,点击实例,然后点击 Data Fusion 实例旁边的查看实例链接。如果需要,请使用您的实验凭证进行登录。如果系统提示您浏览该服务,请点击不用了。现在,您应该已进入 Cloud Data Fusion 界面。
在 Cloud Data Fusion 界面中,点击左上角的导航菜单,然后进入 Studio 页面。接下来,您将创建一条流水线。
您将构建可执行以下操作的流水线: * 使用 Cloud Storage 来源插件读取输入数据。 * 从 Hub 部署 Sensitive Data Protection 插件并应用隐去转换插件。 * 使用 Cloud Storage 接收器插件写入输出数据。
将指针悬停在显示的 GCS 节点上,然后点击属性。
在参考名称部分,输入一个参考名称。
本实验使用公开提供的 Cloud Storage 存储桶中的输入数据集 SampleRecords.csv。在路径下,输入 gs://cloud-training/OCBL167/SampleRecords.csv
在格式部分,选择 CSV。
在输出架构的字段名称下,针对每种数据类型点击 + 按钮,并输入以下内容。移除所有现有数据类型(如有)。
确保所有数据类型均为字符串类型。要更改类型,请点击类型,然后从下拉菜单中选择字符串。
选中每种数据类型对应的复选框。这可确保在流水线遇到 null(空)值时不会发生故障。
点击验证以确保没有错误。
点击对话框右上角的 X 按钮。
隐去转换插件可识别数据输入流中的敏感记录,并将您定义的转换应用于这些记录。与您选择的预定义 Sensitive Data Protection 过滤器或您定义的自定义模板匹配的数据记录,即视为敏感记录。
在本实验中,您需要隐去您团队中的一些支持技术人员意外记录的客户电话号码。他们在支持服务工单的备注部分(在 CSV 文件中显示为备注列)中输入了敏感信息。您要创建自定义 Sensitive Data Protection 检查模板,然后在隐去转换插件的属性菜单中提供模板 ID。
在 Cloud Data Fusion 界面的右上角,点击 Hub。
点击 Data Loss Prevention 插件。
点击部署。
点击完成。
点击数据泄露防护 | 部署对话框右上角的 X 按钮。
点击 X 按钮退出 Hub。
在 Google Cloud 控制台标题栏的搜索字段中输入 Security,然后点击搜索结果中的 Security。选择 Sensitive Data Protection。
点击配置标签页,然后点击创建模板。
在定义模板部分的模板 ID 字段中,输入模板的 ID。在本教程的后面部分,您将需要该模板 ID。
点击继续。
在配置检测部分,点击管理 infoType。
在内置标签页中,使用过滤器搜索 phone number。
选择 PHONE_NUMBER。
点击完成。
点击创建。
点击“检查我的进度”以验证是否完成了以下目标:
回到 Cloud Data Fusion 界面,在 Studio 页面上,点击以展开转换菜单。
点击 Google DLP Redact 转换插件。
#。点击验证以确保没有错误。
点击对话框右上角的 X 按钮。
将流水线的结果存储在 Cloud Storage 文件中。
在 Cloud Data Fusion 界面的 Studio 页面上,点击以展开接收器菜单。
点击 GCS。
将连接箭头从 Google DLP Redact 节点拖动到 GCS2 节点。
点击验证以确保没有错误。
点击对话框右上角的 X 按钮。
接下来,在部署流水线之前,先在预览模式下运行此流水线。
运行按钮会显示流水线状态,从正在启动开始,依次转换为停止、运行。
3. 点击 X 按钮关闭预览数据。
在检查预览运行结果时,您发现备注列中仍有其他敏感信息显示:邮箱。返回并修改 Sensitive Data Protection 检查模板,将邮箱也一同隐去。
找到安全 > Sensitive Data Protection。
在配置标签页中选择模板。
点击修改。
点击管理 infoType。
在内置标签页中,使用过滤器搜索 phone number OR email address。
全选然后点击完成。
点击保存。
在弹出式窗口中,点击确认保存。
再次在预览模式下运行流水线。Cloud Data Fusion 将自动使用更新后的 Sensitive Data Protection 模板。
确认是否已使用 # 字符遮盖了电话号码和邮箱。
点击“检查我的进度”以验证是否完成了以下目标:
确保未选中预览模式。
点击保存。点击保存之后,系统会提示您为流水线命名。为流水线命名,然后点击保存。
点击部署。
部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态从正在预配依次转换为正在启动、正在运行、成功。
点击“检查我的进度”以验证是否完成了以下目标:
在 Cloud 控制台中,找到 Cloud Storage。
在 Storage 浏览器部分,找到您在接收器 Cloud Storage 插件属性中指定的 Cloud Storage 存储桶。
在经过身份验证的网址部分,复制该链接并将其粘贴到新的浏览器标签页中,以下载包含结果的 CSV 文件。确认是否已使用 # 字符遮盖了电话号码和邮箱。
在本实验中,您学习了如何使用 Sensitive Data Protection 来遮盖 Data Fusion 流水线所运行数据的某些部分。这有助于在与受众群体共享数据之前,移除/遮盖嵌入在数据中的个人身份信息。
如需详细了解如何创建 Sensitive Data Protection 模板,请参阅相关文档。
上次更新手册的时间:2025 年 12 月 9 日
上次测试实验的时间:2025 年 12 月 9 日
版权所有 2026 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名称和产品名称可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验