准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Create and schedule a scan configuration
/ 20
Modify the existing inspection template and create a de-identify template for structured data.
/ 20
Create and run an inspection job
/ 30
Create and run a de-identify job
/ 30
Sensitive Data Protection 是一项全托管式服务,旨在帮助发现、分类和保护敏感信息。主要选项包括:敏感数据发现,用于持续分析敏感数据;敏感数据去标识化,包括隐去;Cloud Data Loss Prevention (DLP) API,用于将发现、检查和去标识化功能内置到自定义工作负载和应用中。
想象您在 Cloud Storage 中有包含敏感数据的原始数据,并且您希望在最终用户使用这些文件进行分析或训练机器学习模型之前,能识别、保护和隐去这些敏感数据。Sensitive Data Protection 可以提供帮助!
在本实验中,您首先要启用发现功能,以便持续监控 Cloud Storage 中的敏感数据。根据发现结果,您可以创建和修改自定义的可重复使用的模板,用于对 Cloud Storage 文件进行检查和去标识化(隐去)处理。最后,您将使用这些模板运行作业,以更深入地检查和隐去 Cloud Storage 文件中的特定敏感数据类型。
在本实验中,您将学习如何完成以下操作:
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码,然后将其粘贴到欢迎对话框中。
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
继续在后续页面中点击以完成相应操作:
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
Sensitive Data Protection 中的发现服务可帮助您识别组织中敏感数据和高风险数据所在的位置。创建发现扫描配置后,Sensitive Data Protection 会扫描您选择进行审核的资源,并生成数据分析文件,其中包含有关识别出的 infoType(敏感数据类型)和元数据(数据风险和敏感度级别)的一系列分析洞见。
在此任务中,您将创建一个发现扫描,以自动分析项目中所有 Cloud Storage 存储桶中的数据。生成完整的发现结果可能需要一些时间,因此本任务的最后一部分提供了关键结果的要点和摘要。
在 Google Cloud 控制台中,依次点击导航菜单 () > 安全。
在数据保护下,点击 Sensitive Data Protection。
点击名为发现的标签页。
在 Cloud Storage 下,点击启用。
在选择发现类型部分,将 Cloud Storage 选项保持启用状态,然后点击继续。
在选择范围部分,将扫描所选项目选项保留在启用状态,点击继续。
对于托管式时间表,保留默认值,点击继续。
在本实验中,您将安排在创建后立即运行发现扫描,但您也可以选择按周期(例如每天或每周)或在特定事件发生后(例如在更新检查模板后)运行扫描。
对于选择检查模板,将创建新的检查模板选项保留在启用状态。
保留所有其他默认值,然后点击继续。
默认情况下,新的检查模板包含所有现有的 infoType。
对于置信度阈值,最低可能性的默认值为可能,这意味着您只会获得评估结果为可能、很可能和极有可能的发现结果。
在后面的任务中,您将修改此检查模板,以探索 infoType 和置信度阈值的其他选项。
对于添加操作,启用发布到 Security Command Center。
对于添加操作,还要启用将数据分析文件副本保存到 BigQuery,并提供数据集和表(在本实验中已预先创建),以便将结果保存到 BigQuery。
| 属性 | 值 |
|---|---|
| 项目 ID | |
| 数据集 ID | Cloud Storage 发现 |
| 表 ID | data_profiles |
点击继续。
对于设置存储配置的位置,将该选项保留为启用状态,并选择 us(美国的多个区域),然后点击继续。
为此配置提供显示名称:Cloud Storage Discovery
点击创建,然后点击创建配置以确认创建。
点击检查我的进度,验证已完成以下目标:
注意:配置扫描开始后,可能需要一段时间才能获得完整的结果。
下图显示了在本实验环境中为 Cloud Storage 启用发现功能的主要结果。对于本实验环境中包含的 Cloud Storage 数据,结果标记了可能存在的几种信息类型,包括美国社会保障号,这是高度敏感的数据。
已为 Cloud Storage 确定了两个配置文件:一个具有低敏感度(用于接收作业输出的空存储桶),另一个具有高敏感度(包含原始数据的存储桶)。
结果的这一部分提供了两个数据分析文件的全球位置。在本例中,两者都位于 us-central1 区域。
发现结果还提供了在 Cloud Storage 中发现的关键 infoType:美国社会保障号、出生日期、电子邮件地址、姓名等。
Profiles(剖析)标签页会识别每个特定 Cloud Storage 存储桶名称的敏感度和风险级别:一个存储桶的敏感度较低(用于接收作业输出的空存储桶),另一个存储桶的敏感度较高(包含原始数据,包括美国社会保障号码)。
在本实验环境中,请务必将位置类型选择为区域 >
现在您知道了 Cloud Storage 文件中存在美国社会保障号码,接下来可以开始制定计划,在将这些文件用于训练机器学习模型之前检查并隐去这些敏感数据。
在此任务中,您将配置两个模板:
在本实验的后面部分,您将使用这些模板运行检查和去标识化作业,进一步检查和隐去美国社会保障号码。
回想一下,在为 Cloud Storage 启用发现功能时,系统创建了一个新的检查模板,其中包含多个默认值,包括 infoType 和置信度阈值。
在本部分中,假设您已经查看了完整的发现结果,现在想要修改该检查模板,使其专注于美国社会保障号码。
点击导航菜单 () > 安全 > Sensitive Data Protection(位于数据保护下),返回 Sensitive Data Protection 概览页面。
点击配置标签页。
在模板标签页中,找到发现功能生成的模板所在的行(例如模板 ID 7216194786087173213)。
请记下此模板 ID,以便在任务 4 中使用。
在模板 ID 对应的操作下,点击三个竖点,然后选择修改。
将显示名称更新为 Inspection Template for US SSN。
将说明更新为:此模板是作为 Sensitive Data Protection 性能分析器配置的一部分创建的,并经过修改,可对美国社会保障号码进行更深入的检查。
对于 InfoType,点击管理 InfoType。
选中 US_SOCIAL_SECURITY_NUMBER 复选框,取消选中所有其他选项。
您可以点击选择所有行(在“过滤”图标下方),然后再次点击,取消选择所有值,轻松取消选择所有其他选项。
点击完成,返回检查模板。
对于置信度阈值(“最低可能性”),选择不太可能。
除了评估为可能、很可能和极有可能的发现结果之外,结果现在还将包括不太可能,以支持进一步审核美国社会保障号码的潜在实例。
保留所有其他默认设置,然后点击保存。
点击确认保存。
返回 Sensitive Data Protection 概览页面。
点击配置标签页。
在模板标签页中,点击创建模板。
提供以下值以创建去标识化模板:
| 属性 | 值 |
|---|---|
| 模板类型 | 去标识化(移除敏感数据) |
| 数据转换类型 | 记录 |
| 模板 ID | us_ssn_deidentify |
| 显示名称 | 美国社会保障号码的去标识化模板 |
| 位置类型 | Multi_region > global (Global) |
保留所有其他默认值,然后点击继续。
在配置去标识化 > 转换规则中,输入以下字段名称,然后按 Enter 键进行添加:ssn 和 email
在转换类型部分,选择基础字段转换。
在转换方法 > 转换部分,选择替换。
此选项会替换您在第 6 步中提供的字段(ssn 和 email)的每个实例的内容。
在转换方法 > 替换类型部分,选择字符串。
对于转换方法 > 字符串值,保留默认值 [redacted]。
点击 + 添加转换规则,添加第二条规则。
对于第二条规则的转换规则,输入以下字段名称,然后按 Enter 键进行添加:message
在本实验环境中,Cloud Storage 中有一些 CSV 文件,其中包含一个名为 message 的列(或字段),用于存储客户与服务代理之间的示例聊天消息。
在转换类型部分,选择按 infoType 匹配,然后点击添加转换。
在转换方法部分,选择替换为 infoType 名称。
在要转换的 infoType 部分,选择在检查模板或检查配置中定义但未在其他规则中指定的任何检测到的 infoType。
如果使用此模板运行作业,此选项会对包含名为 message 的字段的所有文件执行 infoType 检查和数据隐去。
点击创建。
点击检查我的进度,验证已完成以下目标:
注意:如前所述,配置扫描开始后,可能需要一段时间才能获得完整的结果。
在您创建模板期间,已经过去了一段时间,Looker 信息中心里应该有一些发现扫描生成的结果了。在此任务中,您将查看初始发现结果,这些结果显示在 Looker 信息中心内,数据来源是任务 1 中保存到 BigQuery 的数据分析信息。
返回 Sensitive Data Protection 概览页面。
在发现 > 扫描配置标签页下,找到名为 Cloud Storage 发现的行。在 Looker Studio 下,点击该行对应的 Looker。
在请求授权部分,点击授权。
在从 qwiklabs.net 中选择账号对话框中,选择
查看摘要概览。
请注意,这里有一些数据图块,其中汇总了数据风险、数据敏感度和资产类型等关键信息。
点击高级探索(资产详情)。
找到 infoType 为 US_SOCIAL_SECURITY_NUMBER 的行。在“操作”下,点击该行对应的打开。
查看打开的页面,该页面标题为敏感数据发现:文件存储区分析结果详情。
请注意,这里就扫描的资源提供了许多详细信息,包括 IAM 权限。
展开查看详细的 IAM 权限旁边的箭头。
展开存储管理员旁边的箭头。
您可以看到,另一个用户 (
请留在本页面上,并继续执行下一个任务。
对于 Sensitive Data Protection,发现扫描后的典型工作流是运行更详细的检查作业,更深入地调查特定的 infoType。
回想一下,在任务 2 中,您创建了一个检查模板,用于更深入地检查美国社会保障号码。在此任务中,您将使用该模板创建并运行检查作业。
返回 Sensitive Data Protection 概览页面。
点击检查标签页,然后点击创建作业和作业触发器。
对于选择输入数据,提供以下值:
| 属性 | 值 |
|---|---|
| 作业 ID | us_ssn_inspection |
| 位置类型 | Multi_region > us(美国的多个区域) |
| 存储类型 | Google Cloud Storage |
| 位置类型 | 扫描单个文件或文件夹路径 |
| 网址 |
gs:///) |
| 以递归方式扫描 | 启用此选项(请务必在上述网址末尾添加 /,以便启用此选项) |
| 采样 | 将值增加到 100% |
| 采样方法 | 无采样 |
| 文件 | 选择 TEXT 和 CSV(并取消选择所有其他选项),然后点击确定 |
点击继续。
对于检查模板 > 模板名称,添加检查模板的路径,如下所示,并将 TEMPLATE_ID 替换为在任务 2 中修改的检查模板的模板 ID(例如 7216194786087173213):
projects/
如需再次查看模板 ID,请前往 Sensitive Data Protection 概览页面的配置标签页。
保留所有其他默认值,然后点击继续。
在添加操作部分,启用保存到 BigQuery 选项,并选中包含引用复选框。
此选项可让作业将潜在敏感数据的位置和内容都复制到 BigQuery。
提供数据集和表(已在本实验中预先创建),以将结果保存到 BigQuery:
| 属性 | 值 |
|---|---|
| 项目 ID | |
| 数据集 ID | cloudstorage_inspection |
| 表 ID | us_ssn |
对于添加操作,还要启用发布到 Security Command Center。
点击继续。
将时间安排保留为默认值无(在创建后立即运行一次性作业),以立即运行作业,然后点击继续。
与发现扫描类似,您可以将检查作业安排在特定时间表运行。在本例中,您将在创建作业后立即运行该作业。
请留在本页面,等待作业完成。
当作业状态显示为完成时,继续下一部分。
在上一部分中,您选择将检查结果保存到名为 us_ssn 的 BigQuery 表中。点击下方的按钮,即可轻松跳转到 BigQuery 查看结果。
点击在 BigQuery 中查看发现结果。
在 BigQuery 中,点击预览,查看表的内容。
请注意名为 quote 的列,其中包含检查作业标记为需要额外审核的准确值的副本。您还可以向右滚动表格,查看名为 container name 的列,了解包含引用值的位置(具体来说是文件名)。
点击检查我的进度,验证已完成以下目标:
借助 Sensitive Data Protection,您可以运行去标识化作业,创建隐去了敏感数据的 Cloud Storage 文件的新副本,从而缓解 Cloud Storage 中的敏感数据漏洞。这些新副本可以与下游工作流共享,而不是包含敏感数据的原始版本。
在此任务中,您将使用在任务 2 中创建的去标识化模板来创建并运行去标识化作业。
返回 Sensitive Data Protection 概览页面。
点击检查标签页,然后点击创建作业和作业触发器。
对于选择输入数据,提供以下值:
| 属性 | 值 |
|---|---|
| 作业 ID | us_ssn_deidentify |
| 位置类型 | Multi_region > us(美国的多个区域) |
| 存储类型 | Google Cloud Storage |
| 位置类型 | 使用可选的包含/排除规则扫描存储桶 |
| 存储桶名称 | |
| 采样 | 将值增加到 100% |
| 采样方法 | 无采样 |
| 文件 | 选择 TEXT 和 CSV(并取消选择所有其他选项),然后点击确定 |
ignore
排除路径 1 值现在为:
gs://
此选项可让您告知去标识化作业忽略该子目录中名为 ignore 的文件。
请注意,您没有为检查模板添加值。在接下来的步骤中,您将为去标识化模板定义值。
对于配置检测,保留所有默认值,然后点击继续。
在添加操作部分,向下滚动页面,找到并启用创建去标识化副本。
对于结构化去标识化模板,输入您之前为结构化文件(例如 CSV 文件和文本文件)创建的去标识化模板:
projects/
| 属性 | 值 |
|---|---|
| 项目 ID | |
| 数据集 ID | cloudstorage_transformations |
| 表 ID | deidentify_ssn_csv |
gs://
此值指示作业将经过数据隐去处理的输出文件写入到本实验中预先创建的第二个存储桶。
在文件部分,选择 TEXT 和 CSV(并取消选择所有其他选项),然后点击确定。
点击继续。
将时间安排保留为默认值无,以便立即运行作业,然后点击继续。
与检查作业类似,安排选项包括按周期性时间表(例如每周)运行去标识化作业。
请留在本页面,等待作业完成。
当作业状态显示为完成时,保持此浏览器标签页处于打开状态,然后继续下一部分。
在上一部分中,您选择将去标识化详细信息保存到名为 deidentify_ssn_csv 的 BigQuery 表中。在本部分中,您将前往 BigQuery 查看转换详情。
在 Google Cloud 控制台中,依次点击导航菜单 () > BigQuery。
在探索器窗格中,依次展开
点击预览来查看结果。
请注意名为 container_name 和 transformation.type 的列,其中提供了使用特定转换规则进行了去标识化的文件的详细信息。
返回检查作业结果页面,然后点击配置。
向下滚动到操作 > 用于去标识化 Cloud Storage 数据的输出存储桶。
点击存储桶链接 (gs://
点击检查我的进度,验证已完成以下目标:
在本实验中,您启用了发现功能,以持续监控 Cloud Storage 文件中的敏感数据。您还创建并修改了可重复使用的检查和去标识化模板,运行了检查和去标识化作业,同时启用了将作业结果写入 BigQuery 的选项,以便进行进一步调查。
请查看以下资源,详细了解 Cloud Storage 的 Sensitive Data Protection:
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
上次更新手册的时间:2025 年 9 月 15 日
上次测试实验的时间:2025 年 9 月 15 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验