实验设置说明和要求
保护您的账号和进度。请务必在无痕浏览器窗口中,使用实验凭证运行此实验。

在整个生态系统中发现并保护敏感数据:实验室挑战赛

实验 30 分钟 universal_currency_alt 5 个点数 show_chart 中级
info 此实验可能会提供 AI 工具来支持您学习。
此内容尚未针对移动设备进行优化。
为获得最佳体验,请在桌面设备上访问通过电子邮件发送的链接。

GSP522

Google Cloud 自学实验的徽标

概览

在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。

在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。

要想获得满分,您必须在该时间段内成功完成所有任务!

建议已报名参加在整个生态系统中发现并保护敏感数据课程的学员参加此实验室挑战赛。准备好接受挑战了吗?

挑战场景

您是 Cymbal Cars 的一名数据工程师,负责在贵组织的数据生态系统中识别并保护客户(车主)的敏感数据。

您的同事之前已经完成了部分工作,旨在识别和隐去您组织的 Cloud Storage 文件和 BigQuery 表中的敏感数据(特别是美国社会保障号),以及您组织的生成式 AI 模型回答中的敏感信息。

为确保定期扫描和保护 Cloud Storage 文件和 BigQuery 资产,您需要设置 Sensitive Data Protection 发现作业,并运行这些作业来识别和隐去其他敏感数据,例如信用卡号。

对于您组织的生成式 AI 模型,您还想在同事之前所完成工作的基础上进行扩展,以便在发现回答中包含凭证时,隐去回答内容。

在本挑战赛中,您将运用所掌握的 Sensitive Data Protection 工具知识,对 Cloud Storage 和 BigQuery 中的数据执行发现和保护,并使用 Cloud Data Loss Prevention (DLP) API 的 Python 客户端来识别和隐去包含凭证的生成式 AI 模型回答。

测试的主题

  • 为 Cloud Storage 创建和安排发现扫描配置
  • 创建去标识化模板并对 Cloud Storage 文件运行去标识化作业
  • 为敏感数据创建 IAM 标记,并将其应用于 BigQuery 数据,以授予条件式访问权限
  • 编写 Python 函数,以隐去和阻止包含敏感数据(由 Cloud Data Loss Prevention (DLP) API 识别)的生成式 AI 模型回答

设置和要求

在本实验中,请使用以下详细信息来设置实验环境:

  • 以用户名 1 () 的身份登录 Google Cloud 控制台。
  • 对于项目 ID,请使用:
  • 对于位置,请使用:(除非另有说明)

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

任务 1. 为 Cloud Storage 启用敏感数据保护

您的团队有一个名为 gs://-car-owners 的 Cloud Storage 存储桶,其中包含与车主互动的文件。这些文件中的大部分敏感数据都已被您的同事隐去,但存储桶中新添加了一些 CSV 文件 (.csv),其中包含信用卡号(例如 sample-chat-log-data-10.csv)。

您的目标是识别并隐去新 CSV 文件中的信用卡号,并为存储桶启用每日发现功能,以便监控今后新出现的敏感数据实例。

为帮助您实现这些目标,请完成以下子任务。

展开下面的提示,获取一些可助您入门的实用指南!

创建一个发现扫描配置,并安排每天对 Cloud Storage 进行扫描

有关发现扫描的实用技巧!

属性
选择范围 扫描所选项目
托管式时间表 修改默认时间表,将按时间表检查模板发生更改时的设置指定为每日重新分析
选择检查模板 创建新的检查模板
将数据配置文件副本保存到 BigQuery 在当前项目中,将数据集 ID 设置为 cs_discovery,并将表 ID 设置为 cs_data_profiles
设置用于存储配置的位置 Multi_region > us(美国的多个区域)
配置的显示名称 Cloud Storage Daily Discovery

创建一个去标识化模板,以隐去结构化数据(如 CSV 文件)中的信用卡号

有关去标识化模板的实用技巧!

属性
模板 ID us_ccn_deidentify
数据转换类型 录制
显示名称 对信用卡号进行去标识化处理
位置类型 Multi_region > global(全球)
转换规则的字段 message
转换类型 按 infoType 匹配
转换方法 替换为 infoType 名称

使用去标识化模板对 Cloud Storage 存储桶中的 CSV 文件运行去标识化作业

有关去标识化作业的实用提示!

属性
任务 ID us_ccn_deidentify
位置类型 Multi_region > us(美国的多个区域)
网址 gs://-car-owners/
以递归方式扫描 启用此选项
采样 100%
采样方法 无采样
结构化的去标识化模板 指定您在第 2 步中创建的去标识化模板的路径
将转换详细信息导出到 BigQuery 在当前项目中,将数据集 ID 设置为 cs_transformations,将表 ID 设置为 deidentify_ccn
Cloud Storage 输出位置 gs://-car-owners-transformed

点击检查我的进度以验证是否完成了以下目标: 为 Cloud Storage 启用敏感数据保护。

任务 2. 为 BigQuery 启用敏感数据保护

为了便于分析,汽车车主及其购买行为的数据也存储在 BigQuery 中,其中一些数据集包含敏感数据。您的任务是在 IAM 中创建一个标记,用于标记敏感的个人身份信息 (SPII),并使用该标记为某些用户授予条件式访问权限,使其只能访问没有 SPII 标记的 BigQuery 数据集。

为帮助您实现这一目标,请完成以下子任务。

展开下面的提示,获取一些可助您入门的实用指南!

在 IAM 中为敏感的个人身份信息 (SPII) 创建标记

有关创建标记的实用技巧!

属性
标记键 SPII
标记键说明 标记敏感的个人身份信息 (SPII)
标记键值对 1
标记键值 1 说明 包含敏感的个人身份信息 (SPII)
标记键值 2
标记键值 2 说明 不包含敏感的个人身份信息 (SPII)

为 Username 2 授予条件式访问权限,使其只能访问没有 SPII 标记的 BigQuery 数据集

有关授予条件式访问权限的实用技巧!

  1. 更新用户名 2 () 的 IAM 设置,添加一个条件(具体来说,仅允许访问 SPII 标记值为 的 BigQuery 数据集)。
属性
Username 2 的 IAM 角色 Viewer 替换为 Browser,并保留 BigQuery Data Viewer 以添加条件。
条件标题 No SPII Access Only
条件类型 1 和运算符 选择标记有值
条件类型 1 的值路径 /SPII/No
  1. 为 BigQuery 数据集 orders 添加标记,将 SPII 的值设为

car_owners 数据集不同,orders 数据集不包含 SPII,而只包含订单详细信息。

可选测试:如果您想查看此条件式访问权限的实际效果,可使用 Username 2 的身份登录项目,然后前往 BigQuery。刷新页面,直到探索器列表中只剩下名为 orders 的数据集,因为 Username 2 现在只能访问 SPII 标记为的数据集。

请注意,应用此条件可能需要几分钟时间。

点击检查我的进度以验证是否完成了以下目标: 为 BigQuery 启用敏感数据保护。

任务 3. 保护生成式 AI 模型回答中的敏感数据

您的团队已经有一个 Python 函数,可用于识别和隐去(或阻止)生成式 AI 模型回答中的敏感数据类型。您需要扩展该函数,以阻止包含美国车辆识别号的生成式 AI 模型回答。车辆识别号是一种敏感数据,由分配给北美地区每辆道路机动车的唯一 17 位代码组成。

为帮助您实现这一目标,请使用本实验环境中提供的笔记本来完成以下子任务:

  1. 更新现有 Python 函数,以便阻止包含美国 VIN 的 模型回答。
  2. 使用以下提示生成示例文本,以测试更新后的函数:Is 4Y1SL65848Z411439 an example of a US Vehicle Identification Number (VIN)?
    • 生成回答时,请务必将温度设置为 0,以便在下面的进度检查中返回概率最高的结果。

请务必使用 Workbench 实例 vertex-ai-jupyterlab 中预先创建的笔记本 deidentify-model-response-challenge-lab.ipynb

  • 对于项目 ID,请使用:
  • 对于位置,请使用:
注意:如果您在 JupyterLab 中没有看到笔记本,请按照以下额外步骤重置实例:

1. 关闭 JupyterLab 的浏览器标签页,然后返回 Workbench 首页。

2. 选中实例名称旁边的复选框,然后点击重置

3. 在打开 JupyterLab 按钮重新启用后,等待一分钟,然后点击打开 JupyterLab

有关更新和测试 Python 函数的实用提示!

有关将温度设置为 0 的实用技巧!

点击检查我的进度以验证是否完成了以下目标: 保护生成式 AI 模型回答中的敏感数据。

恭喜!

在本实验中,您为 Cloud Storage 创建并安排了发现扫描配置,然后创建了一个去标识化模板,并使用该模板对 Cloud Storage 文件运行了去标识化作业。您还创建了 IAM 标记并将其应用于 BigQuery 数据,以授予条件式访问权限。最后,您更新了一个 Python 函数,以隐去和阻止包含敏感数据(由 Cloud Data Loss Prevention (DLP) API 识别)的生成式 AI 模型回答。

“在整个生态系统中发现并保护敏感数据”技能徽章

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

上次更新手册的时间:2025 年 10 月 30 日

上次测试实验的时间:2025 年 10 月 30 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

使用无痕模式或无痕浏览器窗口是运行此实验的最佳方式。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。