准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Create and schedule a scan configuration
/ 20
Modify the existing inspection template and create a de-identify template for structured data.
/ 20
Create and run an inspection job
/ 30
Create and run a de-identify job
/ 30
Sensitive Data Protection 是一項全代管服務,可以協助您找出、分類和保護敏感資訊。主要功能包括:機密資料探索 (能持續剖析敏感資料)、敏感資料去識別化 (包括遮蓋) 和 Cloud Data Loss Prevention (DLP) API (可讓您將探索、檢查和去識別化功能整合至自訂工作負載和應用程式)。
假設您在 Cloud Storage 中有原始資料,其中包含敏感資料,而您想在使用者將這些檔案用於分析或訓練機器學習模型前,先找出、保護及遮蓋這類資料。這時候 Sensitive Data Protection 便可派上用場!
在本實驗室中,您會先啟用探索功能,持續監控 Cloud Storage 中的敏感資料,然後根據探索結果建立並修改可重複使用的自訂範本,以便用於檢查和去識別化 (遮蓋) Cloud Storage 檔案。最後,您會使用這些範本執行工作,進一步檢查及遮蓋 Cloud Storage 檔案中特定類型的敏感資料。
本實驗室的內容包括:
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Sensitive Data Protection 的探索服務可協助您找出組織內敏感和高風險資料的所在位置。建立探索掃描設定後,Sensitive Data Protection 會掃描您指定要檢查的資源,並生成資料剖析檔,也就是針對找到的 infoType (敏感資料類型) 提供一系列的洞察資訊,以及有關資料風險和敏感程度的中繼資料。
在這項工作中,您會建立探索掃描作業,自動剖析專案中所有 Cloud Storage bucket 的資料。系統可能需要一段時間才能生成完整的探索結果,因此這項工作的最後一節會提供主要結果的重點和摘要供您參考。
在 Google Cloud 控制台,依序點選「導覽選單」圖示 >「安全性」。
點選「資料保護」下方的「Sensitive Data Protection」。
點選「探索」分頁標籤。
在「Cloud Storage」下方,點選「啟用」。
在「選取探索類型」部分,將「Cloud Storage」選項保持為啟用狀態,然後點選「繼續」。
在「選取範圍」部分,將「掃描所選專案」選項保持為啟用狀態,然後點選「繼續」。
保留「管理時間表」設定的預設值,然後點選「繼續」。
在本實驗室中,您會將探索掃描作業安排在建立後立即執行,但其實還有許多其他掃描排程方式可供選擇,包括定期執行 (如每天或每週),或在特定事件發生後執行 (如檢查範本更新時)。
在「選取檢查範本」部分,將「建立新的檢查範本」選項保持為啟用狀態。
其餘設定均保留預設值,然後點選「繼續」。
新檢查範本預設會包含所有現有的 infoType。
在「可信度門檻」部分,「最低可能性」的預設值為「或許可能」,這表示,您只會看到評估結果為「或許可能」、「有可能」和「非常可能」的發現項目。
在後續工作中,您將修改這個檢查範本,探索其他的 infoType 和可信度門檻選項。
在「新增動作」部分,啟用「發布至 Security Command Center」。
在「新增動作」部分,一併啟用「將資料設定檔副本儲存至 BigQuery」,並提供本實驗室預先建立的資料集和資料表,以便將結果儲存至 BigQuery。
| 屬性 | 值 |
|---|---|
| 專案 ID | |
| 資料集 ID | cloudstorage_discovery |
| 資料表 ID | data_profiles |
點選「繼續」。
在「設定儲存設定的位置」部分,將「美國 (多個美國地區)」選項保持為啟用狀態,然後點選「繼續」。
提供這項設定的顯示名稱:Cloud Storage Discovery
按一下「建立」,然後再點選「建立設定」來確認建立。
點選「Check my progress」,確認目標已達成。
注意:設定掃描開始後,可能要過一段時間才能取得完整結果。
下方圖片顯示在這個實驗室環境中,為 Cloud Storage 啟用探索功能後主要會產生什麼結果。就本實驗室環境中的 Cloud Storage 資料而言,結果指出可能有數種 infoType,包括屬於高度敏感資料的美國社會安全號碼。
系統已為 Cloud Storage 找出兩個剖析檔:一個敏感程度低 (用於接收工作輸出內容的空 bucket),另一個敏感程度高 (包含原始資料的 bucket)。
結果的這個部分會顯示兩個資料剖析檔的全球位置。在本例中,兩者都位於 us-central1 區域。
探索結果也提供了在 Cloud Storage 中找出的主要 infoType:美國社會安全號碼、出生日期、電子郵件地址、姓名等。
「剖析檔」分頁會針對各個特定的 Cloud Storage bucket 名稱,顯示敏感程度和風險等級:一個敏感程度低 (用於接收工作輸出內容的空 bucket),另一個敏感程度高 (包含美國社會安全號碼等原始資料的 bucket)。
在本實驗室環境中,請務必在「位置類型」部分依序選取「區域」>「
知道系統在 Cloud Storage 檔案中發現美國社會安全號碼後,您可以開始規劃,在這些檔案用於訓練機器學習模型之前,先檢查及遮蓋這類敏感資料。
在這項工作中,您將設定兩個範本:
在本實驗室的後續階段,您將使用這些範本執行檢查和去識別化工作,進一步檢查及遮蓋美國社會安全號碼。
還記得嗎?啟用 Cloud Storage 探索功能時,系統會建立新的檢查範本,其中包含 infoType 和可信度門檻等多項設定的預設值。
在本節中,假設您已查看完整的探索結果,現在想修改檢查範本,將重點放在美國社會安全號碼。
依序點選「導覽選單」圖示 >「安全性」>「Sensitive Data Protection」(位於「資料保護」下方),返回 Sensitive Data Protection「總覽」頁面。
點選「設定」分頁標籤。
在「範本」分頁中,找出探索功能產生的範本 (例如範本 ID 7216194786087173213) 所在的資料行。
請記下這組範本 ID,稍後工作 4 會用到。
在該範本 ID 的「動作」下方,點選直向三點圖示,然後選取「編輯」。
將「顯示名稱」更新為 Inspection Template for US SSN。
將「說明」更新為:This template was created as part of a Sensitive Data Protection profiler configuration and was modified for deeper inspection for US Social Security numbers.
在「InfoType」部分,點選「管理 infoType」。
勾選「US_SOCIAL_SECURITY_NUMBER」核取方塊,其他選項全部取消勾選。
您可以輕鬆取消勾選所有其他選項,做法如下:點選「篩選器」圖示下方的「選取所有列」,然後再按一次,就能取消選取所有值。
點選「完成」,返回檢查範本。
在「可信度門檻」(「最低可能性」) 部分,選取「不可能」。
除了評估為「或許可能」、「有可能」和「非常可能」的發現項目外,系統現在還會顯示「不太可能」的結果,協助您進一步檢查可能為美國社會安全號碼的資料。
其餘設定均保留預設值,然後點選「儲存」。
點選「確定儲存」。
返回 Sensitive Data Protection「總覽」頁面。
點選「設定」分頁標籤。
在「範本」分頁中,點選「建立範本」。
提供下列值來建立去識別化範本:
| 屬性 | 值 |
|---|---|
| 範本類型 | 去識別化 (移除機密資料) |
| 資料轉換類型 | 記錄 |
| 範本 ID | us_ssn_deidentify |
| 顯示名稱 | De-identification Template for US SSN |
| 位置類型 | 「多區域」>「全球 (全球)」 |
其餘設定均保留預設值,然後點選「繼續」。
在「設定去識別化作業」>「轉換規則」部分,輸入欄位名稱並按下 Enter 鍵,新增下列欄位名稱:ssn 和 email
在「轉換類型」部分,選取「原始欄位轉換」。
在「轉換方法」>「轉換」部分,選取「取代」。
這個選項會替換您在步驟 6 提供的欄位 (ssn 和 email) 中每個例項的內容。
在「轉換方法」>「替換類型」部分,選取「字串」。
在「轉換方法」>「字串值」部分,保留預設值 [redacted]。
點選「+ 新增轉換規則」,新增第二項規則。
在第二項規則的「轉換規則」部分,輸入以下名稱,然後按下 Enter 鍵來新增該欄位名稱:message
在這個實驗室環境中,Cloud Storage 中有 CSV 檔案,其中包含名為 message 的資料欄 (或欄位),用來儲存客戶與服務專員之間的即時通訊訊息範例。
在「轉換類型」部分,選取「比對 infoType」,然後點選「新增轉換」。
在「轉換方法」部分,選取「替換為 infoType 名稱」。
在「要轉換的 InfoType」部分,選取「系統偵測到的所有 infoType (已於檢查範本或檢查設定中定義,但並未在其他規則中指定)」。
採用這個選項後,如果將這個範本用來執行工作,系統就會對有 message 欄位的所有檔案執行 infoType 檢查和遮蓋作業。
點選「建立」。
點選「Check my progress」,確認目標已達成。
注意:如先前所述,設定掃描開始後,可能要過一段時間才能取得完整結果。
您剛在建立範本,因此已經過一段時間,探索掃描作業產生的 Looker 資訊主頁會開始顯示部分結果。在這項工作中,您將查看初步探索結果。這些結果會顯示在 Looker 資訊主頁中,資料來源是工作 1 中儲存至 BigQuery 的資料剖析檔資訊。
返回 Sensitive Data Protection「總覽」頁面。
在「探索」>「掃描設定」分頁中,找出名為「Cloud Storage Discovery」的資料列。在「Looker Studio」下方,點選該列的「Looker」。
在「正在要求授權」部分,點按「授權」。
在「從 qwiklabs.net 中選擇一個帳戶」對話方塊中,選取「
查看「Summary Overview」頁面。
請注意,這裡有彙整資料風險、資料敏感程度和資產類型等重要資訊的資料方塊。
點選「Advanced Exploration (Asset Details)」。
找出 infoType 為 US_SOCIAL_SECURITY_NUMBER 的資料列。在「Action」下方,點選該列的「Open」。
查看開啟的頁面,標題為「機密資料探索:檔案儲存庫剖析檔詳細資料」。
請注意,頁面上針對掃描的資源提供了許多詳細資料,包括 IAM 權限。
展開「查看詳細的身分與存取權管理權限」旁的箭頭。
展開「Storage 管理員」旁的箭頭。
您會看到這裡將另一位使用者 (
請留在這個頁面,繼續執行下一個工作。
在 Sensitive Data Protection 中,完成探索掃描後,通常會執行更詳細的檢查工作,進一步調查特定 infoType。
回想一下,在工作 2 中,您建立了用來進一步檢查美國社會安全號碼的檢查範本。在這項工作中,您將使用該範本建立及執行檢查工作。
返回 Sensitive Data Protection「總覽」頁面。
依序點選「檢查」分頁標籤、「建立工作和工作觸發條件」。
在「選擇輸入資料」部分,提供下列值:
| 屬性 | 值 |
|---|---|
| 工作 ID | us_ssn_inspection |
| 位置類型 | 「多區域」>「美國 (多個美國地區)」 |
| 儲存空間類型 | Google Cloud Storage |
| 位置類型 | 掃描單一檔案或資料夾路徑 |
| 網址 |
gs:///) |
| 以遞迴方式掃描 | 啟用這個選項 (必須在上述網址結尾加上 /,才能啟用這個選項) |
| 取樣 | 將值調高至 100% |
| 取樣方式 | 不進行任何取樣作業 |
| 檔案 | 選取「文字」和「CSV」 (其他選項全部取消選取),然後按一下「確定」 |
點選「繼續」。
在「檢查範本」>「範本名稱」部分,新增檢查範本的路徑 (如下所示),並將 TEMPLATE_ID 改成您在工作 2 中修改的檢查範本 ID (例如 7216194786087173213):
projects/
如要再次查看範本 ID,請前往 Sensitive Data Protection「總覽」頁面的「設定」分頁。
其餘設定均保留預設值,然後點選「繼續」。
在「新增動作」部分,啟用「儲存至 BigQuery」選項,並勾選「包含引言」核取方塊。
啟用這個選項後,檢查工作會將可能包含敏感資料的位置和內容複製到 BigQuery。
提供本實驗室預先建立的資料集和資料表,以便將結果儲存至 BigQuery:
| 屬性 | 值 |
|---|---|
| 專案 ID | |
| 資料集 ID | cloudstorage_inspection |
| 資料表 ID | us_ssn |
在「新增動作」部分,將「發布至 Security Command Center」一併啟用。
點選「繼續」。
將「時間表」的預設值保留為「無 (建立後立即執行一次性工作)」,讓系統立即執行工作,然後按一下「繼續」。
與探索掃描作業類似,您可以將檢查工作設為依特定排程執行。在本例中,工作會在建立完畢後立即執行。
請留在這個頁面,等待工作完成。
工作狀態顯示為「完成」後,請繼續按照下一節的指示操作。
在上一節,您已選擇將檢查結果儲存至名為 us_ssn 的 BigQuery 資料表。只要點選下方的按鈕,就能輕鬆前往 BigQuery 查看結果。
點選「在 BigQuery 中查看發現項目」。
在 BigQuery 點選「預覽」,查看資料表內容。
請注意名為 quote 的資料欄,該欄包含檢查工作標為需額外檢查的確切值。您也可以向右捲動資料表,查看名為 container name 的資料欄,確認引用值的所在位置 (尤其是檔案名稱)。
點選「Check my progress」,確認目標已達成。
有了 Sensitive Data Protection,您就能執行去識別化工作,建立 Cloud Storage 檔案的新副本,將敏感資料遮蓋起來,藉此減少 Cloud Storage 中的敏感資料安全漏洞。這些新副本可提供給下游工作流程使用,不必使用含有敏感資料的原始版本。
在這項工作中,您將使用在工作 2 建立的去識別化範本,建立並執行去識別化工作。
返回 Sensitive Data Protection「總覽」頁面。
依序點選「檢查」分頁標籤、「建立工作和工作觸發條件」。
在「選擇輸入資料」部分,提供下列值:
| 屬性 | 值 |
|---|---|
| 工作 ID | us_ssn_deidentify |
| 位置類型 | 「多區域」>「美國 (多個美國地區)」 |
| 儲存空間類型 | Google Cloud Storage |
| 位置類型 | 透過選用的納入/排除規則掃描 bucket |
| bucket 名稱 | |
| 取樣 | 將值調高至 100% |
| 取樣方式 | 不進行任何取樣作業 |
| 檔案 | 選取「文字」和「CSV」 (其他選項全部取消選取),然後按一下「確定」 |
ignore
「排除路徑 1」的值現在會變成:
gs://
這個選項可讓您指示去識別化工作忽略 ignore 子目錄中的檔案。
請注意,這裡不需要為檢查範本新增值。您將在後續步驟中設定去識別化範本的值。
在「設定偵測作業」部分,保留所有預設值,然後點選「繼續」。
在「新增動作」部分,捲動頁面至底部,找到並啟用「建立去識別化副本」。
在「結構化去識別化範本」部分,輸入先前為結構化檔案 (如 CSV 和文字檔) 建立的去識別化範本:
projects/
| 屬性 | 值 |
|---|---|
| 專案 ID | |
| 資料集 ID | cloudstorage_transformations |
| 資料表 ID | deidentify_ssn_csv |
gs://
這個值會指示工作將遮蓋處理後的輸出內容,寫入本實驗室為輸出檔案預先建立的第二個 bucket。
在「檔案」部分,選取「文字」和「CSV」 (其他選項全部取消選取),然後按一下「確定」
點選「繼續」。
將「時間表」的預設值保留為「無」,讓系統立即執行工作,然後按一下「繼續」。
與檢查工作類似,去識別化工作的排程選項也包括定期 (例如每週) 執行。
請留在這個頁面,等待工作完成。
工作狀態顯示為「完成」後,請勿關閉這個瀏覽器分頁,繼續按照下一節的指示操作。
在上一節,您選擇將去識別化詳細資料儲存至名為 deidentify_ssn_csv 的 BigQuery 資料表。在本節中,您將前往 BigQuery 查看轉換詳細資料。
在 Google Cloud 控制台,依序點選「導覽選單」圖示 >「BigQuery」。
在「Explorer」窗格中,依序展開「
點選「預覽」即可查看結果。
請特別留意 container_name 和 transformation.type 資料欄,這兩欄會針對已使用特定轉換規則去識別化的檔案提供詳細資料。
返回檢查工作結果頁面,然後點選「設定」。
向下捲動至「動作」>「Output bucket for de-identified Cloud Storage Data」。
點選 bucket 連結 (gs://
點選「Check my progress」,確認目標已達成。
在本實驗室中,您分別執行了以下操作:啟用探索功能來持續監控 Cloud Storage 檔案中的敏感資料、建立及修改可重複使用的檢查和去識別化範本、啟用將工作結果寫入 BigQuery 的選項,並按此設定執行檢查和去識別化工作,以便展開進一步的調查。
歡迎參考下列資源,進一步瞭解如何將 Sensitive Data Protection 用於 Cloud Storage:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 9 月 15 日
實驗室上次測試日期:2025 年 9 月 15 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验