Cloud Data Fusion のパイプライン内で機密データを秘匿化する

Setup Cloud Storage bucket

進行状況を確認

/ 15

Add Cloud Data Fusion API Service Agent role to service account

進行状況を確認

/ 15

Get Sensitive Data Protection permissions

進行状況を確認

/ 15

Create a custom template

進行状況を確認

/ 20

Redact another data type

進行状況を確認

/ 15

Deploy and run the pipeline

進行状況を確認

/ 20

このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP811

Google Cloud セルフペースラボのロゴ

概要

このラボでは、Cloud Fusion 向け Sensitive Data Protection プラグインを使用して機密データを秘匿化する方法を学びます。

次のような、顧客の機密情報を秘匿化する必要があるシナリオを想定しましょう。

シナリオ: あなたの組織のサポートチームは、サポートチケットで対応した各サポートケースの詳細を記録しています。サポートチケットのすべての情報は、CSV ファイルに抽出されます。サポート技術者は、機密情報とみなされる顧客情報は記録しないことになっていますが、間違って記録してしまうこともあります。あなたは、CSV ファイルに一部の顧客の電話番号が含まれていることに気づきました。

CSV ファイル全体を調べ、すべての電話番号が表示されないようにしなければなりません。そこで、Sensitive Data Protection プラグインを使用して顧客の機密データを秘匿化する Cloud Data Fusion パイプラインを作成することにしました。

この場合、次の処理を行うパイプラインを作成します。

顧客の電話番号とメールアドレスを # 文字でマスクして秘匿化する。
マスクされた機密データとそれ以外のデータを Cloud Storage に保存する。

目標

このラボでは、次の方法について学びます。

Cloud Data Fusion を Cloud Storage ソースに接続する。
Sensitive Data Protection プラグインをデプロイする。
Sensitive Data Protection のカスタムテンプレートを作成する。
Redact 変換プラグインを使用して顧客の機密データをマスクする。
出力データを Cloud Storage に書き込む。

設定と要件

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

シークレットウィンドウを使用して Google Skills にログインします。
ラボのアクセス時間（例: 02:00:00）に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
注: [ラボを開始] をクリックしてから、ラボが必要なリソースをプロビジョニングして Data Fusion インスタンスを作成するまで 15～20 分ほどかかります。その間、ラボの目標を理解するために以下のステップをご確認ください。
左側のパネルにラボの認証情報（ユーザー名とパスワード）が表示されたら、インスタンスの作成が完了したため、コンソールへのログインに進めるようになります。
ラボの認証情報（ユーザー名とパスワード）をメモしておきます。この情報は、Google Cloud コンソールにログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。

注: ラボを完了した場合と最初からやり直す場合以外は、[ラボを終了] をクリックしないでください。クリックすると、作業内容とプロジェクトが削除されます。

Google Cloud コンソールにログインする

このラボセッションで使用しているブラウザタブまたはウィンドウで、[接続の詳細] パネルからユーザー名をコピーし、[Google Console を開く] ボタンをクリックします。

注: アカウントの選択を求められたら、[別のアカウントを使用] をクリックします。

ユーザー名を貼り付け、プロンプトが表示されたらパスワードを入力します。
[次へ] をクリックします。
利用規約に同意します。

これは、このラボの間だけ有効な一時的なアカウントです。以下の点に注意してください。

復元オプションを追加しないでください。
無料トライアルに登録しないでください。

コンソールが開いたら、左上のナビゲーションメニュー（）をクリックしてサービスのリストを確認します。

ナビゲーションメニュー

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールが組み込まれた仮想マシンです。5 GB の永続ホームディレクトリを提供し、Google Cloud 上で実行されます。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。gcloud は Google Cloud のコマンドラインツールで、Cloud Shell にプリインストールされており、Tab キーによる入力補完がサポートされています。

Google Cloud Console のナビゲーションパネルで、「Cloud Shell をアクティブにする」アイコン（）をクリックします。
[次へ] をクリックします。
環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続の際に認証も行われ、プロジェクトは現在のプロジェクト ID に設定されます。次に例を示します。

Cloud Shell ターミナル

サンプルコマンド

有効なアカウント名前を一覧表示する:

gcloud auth list

（出力）

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

（出力例）

Credentialed accounts: - google1623327_student@qwiklabs.net

プロジェクト ID を一覧表示する:

gcloud config list project

（出力）

[core] project = <プロジェクト ID>

（出力例）

[core] project = qwiklabs-gcp-44776a13dea667a6

gcloud のドキュメントの全文については、gcloud コマンドラインツールの概要をご覧ください。

プロジェクトの権限を確認する

Google Cloud で作業を開始する前に、Identity and Access Management（IAM）内で適切な権限がプロジェクトに付与されていることを確認する必要があります。

Google Cloud コンソールのナビゲーションメニュー（）で、[IAM と管理] > [IAM] をクリックします。
Compute Engine のデフォルトのサービスアカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーションメニュー > [Cloud の概要] から確認できます。

デフォルトのコンピューティングサービスアカウント

アカウントが IAM に存在しない場合やアカウントに編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。

Google Cloud コンソールのナビゲーションメニューで、[Cloud の概要] をクリックします。
[プロジェクト情報] カードからプロジェクト番号をコピーします。
ナビゲーションメニューで、[IAM と管理] > [IAM] をクリックします。
IAM ページの上部にある [追加] をクリックします。
新しいプリンシパルの場合は、次のように入力します。

{project-number}-compute@developer.gserviceaccount.com

{project-number} はプロジェクト番号に置き換えてください。

[ロールを選択] で、[基本]（または [Project]）> [編集者] を選択します。
[保存] をクリックします。

タスク 1. Cloud Storage バケットを設定する

パイプラインに出力データを保存できるように、プロジェクトに Cloud Storage バケットを作成します。

Cloud Shell で、次のコマンドを実行して新しいバケットを作成します。
export BUCKET=$GOOGLE_CLOUD_PROJECT gcloud storage buckets create gs://$BUCKET

現在のプロジェクト ID と同じ名前のバケットが作成されます。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Storage バケットを設定する

タスク 2. Cloud Data Fusion インスタンスに必要な権限を追加する

Google Cloud コンソールのタイトルバーで [検索] フィールドに「Data Fusion」と入力し、検索結果から [Data Fusion] をクリックします。Cloud Data Fusion インスタンスがすでにセットアップされて使用できる状態になっているはずです。

注: インスタンスの作成には 20 分ほどかかります。完了するまでお待ちください。

次に、以下の手順に沿って、インスタンスに関連付けられているサービスアカウントに権限を付与します。

Google Cloud コンソールで、[IAM と管理] > [IAM] に移動します。
Compute Engine のデフォルトのサービスアカウント {プロジェクト番号}-compute@developer.gserviceaccount.com が表示されていることを確認し、そのサービスアカウントをクリップボードにコピーします。
[IAM 権限] ページで、[+アクセス権を付与] をクリックします。
[新しいプリンシパル] フィールドに、サービスアカウントを貼り付けます。
[ロールを選択] フィールドをクリックし、「Cloud Data Fusion API サービスエージェント」と入力します。最初の数文字を入力すると [Cloud Data Fusion API サービスエージェント] が表示されるので、それを選択します。
[保存] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion API サービスエージェントのロールをサービスアカウントに追加する

サービスアカウントにユーザー権限を付与する

コンソールのナビゲーションメニューで、[IAM と管理] > [IAM] をクリックします。
[Google 提供のロール付与を含める] チェックボックスをオンにします。
リストを下にスクロールして、Google が管理する service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com という表示形式の Cloud Data Fusion サービスアカウントを探し、サービスアカウント名をクリップボードにコピーします。

Google が管理する Cloud Data Fusion サービスアカウントのリスト

次に、[IAM と管理] > [サービスアカウント] に移動します。
{project-number}-compute@developer.gserviceaccount.com という表示形式のデフォルトの Compute Engine アカウントをクリックし、上部のナビゲーションメニューの [アクセス権を持つプリンシパル] タブを選択します。
[アクセスを許可] ボタンをクリックします。
[新しいプリンシパル] フィールドに、前の手順でコピーしたサービスアカウントを貼り付けます。
[ロール] プルダウンメニューで、[サービスアカウントユーザー] を選択します。
[保存] をクリックします。

タスク 3. Sensitive Data Protection の権限を取得する

Cloud コンソールのナビゲーションメニューから [IAM] に移動します。
権限テーブルの右上にある [Google 提供のロール付与を含める] チェックボックスを探し、クリックします。

選択済みの [Google 提供のロール付与を含める] チェックボックス

権限テーブルの [プリンシパル] 列で、service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com という形式のサービスアカウントを探します。

サービスアカウントのプリンシパルのフィルタ

サービスアカウントの右側にある [編集] ボタンをクリックします。
[別のロールを追加] をクリックします。
表示されるプルダウンをクリックします。
検索バーを使用して「DLP 管理者」を検索し、選択します。

DLP 管理者のロールを追加する

[保存] をクリックします。
[ロール] 列に [DLP 管理者] が表示されていることを確認します。

追加された DLP 管理者のロール

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Sensitive Data Protection の権限を取得する

タスク 4. Cloud Data Fusion UI に移動する

Data Fusion に移動し、[インスタンス] をクリックしてから、Data Fusion インスタンスの横にある [インスタンスを表示] リンクをクリックします。必要に応じて、ラボの認証情報を選択してログインします。サービスのガイドに進むダイアログが表示された場合は [No, Thanks] をクリックします。これで Cloud Data Fusion UI が表示されるようになります。
Cloud Data Fusion UI で、左上のナビゲーションメニューをクリックし、[Studio] ページに移動します。次に、パイプラインを作成します。

タスク 5. パイプラインを作成する

ここで構築するパイプラインは、次の処理を行うものです。 * Cloud Storage ソースプラグインを使用して入力データを読み取る。 * Sensitive Data Protection プラグインをハブからデプロイし、Redact 変換プラグインを適用する。 * Cloud Storage シンクプラグインを使用して出力データを書き込む。

[Studio] ページの左パネルの [Source] メニューで、[Google Cloud Storage (GCS)] プラグインをクリックします。

ソースメニューで選択されている GCS プラグイン

表示される GCS ノードの上にポインタを置き、[Properties] をクリックします。
[Reference Name] に参照名を入力します。
このラボでは、一般公開の Cloud Storage バケットで提供されている入力データセット SampleRecords.csv を使用します。[Path] に「gs://cloud-training/OCBL167/SampleRecords.csv」と入力します。
[Format] で [CSV] を選択します。
[Output Schema] の [Field name] で + ボタンをクリックして、次のデータタイプをそれぞれ入力します。既存のデータタイプがある場合は、すべて削除してください。
- Date
- Bank
- State
- Zip
- Notes
すべてのデータタイプが String になっていることを確認します。タイプを変更する必要がある場合は、[Type] をクリックし、プルダウンから [String] を選択します。
各データタイプのチェックボックスをオンにします。こうすれば、null（空）値を検出しても、パイプラインが失敗することはありません。

GCS プロパティの構成

[Validate] をクリックして、エラーがないことを確認します。
ダイアログボックスの右上にある X ボタンをクリックします。

タスク 6. 機密データを秘匿化する

Redact 変換プラグインは、入力データストリーム内の機密レコードを識別し、定義された変換をそれらのレコードに適用します。データのレコードが、選択された事前定義済み Sensitive Data Protection フィルタまたはユーザーが定義したカスタムテンプレートと一致すると、そのレコードは機密とみなされます。

このラボでは、チームのサポート担当者が誤って記録していた顧客の電話番号を秘匿化します。担当者がサポートチケットの Notes セクションに入力した機密情報は、CSV ファイルの Notes 列にあります。カスタムの Sensitive Data Protection 検査テンプレートを作成し、Redact 変換プラグインのプロパティメニューでそのテンプレート ID を指定します。

タスク 7. Sensitive Data Protection プラグインをデプロイする

Cloud Data Fusion UI で、右上にある [Hub] をクリックします。
[Data Loss Prevention] プラグインをクリックします。
[Deploy] をクリックします。
[Finish] をクリックします。
[Data Loss Prevention | Deploy] ダイアログボックスの右上にある X ボタンをクリックします。
X ボタンをクリックして、ハブを終了します。

タスク 8. カスタムテンプレートを作成する

Google Cloud コンソールのタイトルバーで、[検索] フィールドに「セキュリティ」と入力し、検索結果から [セキュリティ] をクリックします。[機密データの保護] を選択します。
[構成] タブをクリックし、[テンプレートの作成] をクリックします。
[テンプレートの定義] で、[テンプレート ID] フィールドに作成したテンプレートの ID を入力します。このテンプレート ID はチュートリアルで後ほど必要になります。
[続行] をクリックします。
[検出の設定] で、[infoType を管理] をクリックします。
[組み込み] タブで、フィルタを使用して「phone number」を検索します。

電話番号の組み込みフィルタ

[PHONE_NUMBER] を選択します。
[完了] をクリックします。
[作成] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。カスタムテンプレートを作成する

タスク 9. Redact 変換を適用する

Cloud Data Fusion UI に戻り、[Studio] ページで [Transform] メニューをクリックして展開します。
[Google DLP Redact] 変換プラグインをクリックします。

Redact 変換の選択

GCS ノードから Google DLP Redact ノードに接続矢印をドラッグします。

Redact ノードに接続された GCS ノード

ポインタを Google DLP Redact ノードの上に置き、[Properties] をクリックします。

[Use custom template] を [Yes] に設定します。
[Template ID] に、作成したカスタムテンプレートのテンプレート ID を入力します。
[Matching] で、[Apply] を「Masking」に、[on] を「Custom template」に、[within] を「Notes」にします。

注: Sensitive Data Protection プラグインでは、マスキング以外の Sensitive Data Protection 変換も利用できます。詳細については、Redact プラグインのプロパティメニューにある [Documentation] タブをご覧ください。

[Masking Character] に「#」と入力します。

マスキングプロパティの構成

[Validate] をクリックして、エラーがないことを確認します。
ダイアログボックスの右上にある X ボタンをクリックします。

タスク 10. 出力データを保存する

パイプラインの結果を Cloud Storage ファイルに保存します。

Cloud Data Fusion UI の [Studio] ページで、[Sink] メニューをクリックして展開します。
[GCS] をクリックします。
Google DLP Redact ノードから GCS2 ノードに接続矢印をドラッグします。

GCS2 に接続された Redact ノード

ポインタを GCS2 ノードの上に置き、[Properties] をクリックします。

[Reference Name] に参照名を入力します。
[Path] に、このラボの冒頭で作成した Cloud Storage バケットのパスを入力します。
[Format] で [CSV] を選択します。

GCS シンクのプロパティの構成

[Validate] をクリックして、エラーがないことを確認します。
ダイアログボックスの右上にある X ボタンをクリックします。

タスク 11. プレビューモードでパイプラインを実行する

次に、パイプラインをプレビューモードで実行してからデプロイします。

[Preview] をクリックし、[Run] をクリックします。

[Run] ボタンにはパイプラインのステータスが表示され、最初は [Starting]、その後 [Stop] に代わり、さらに [Run] となります。

プレビューの実行が完了したら、Google DLP Redact ノードで [Preview Data] をクリックし、入力データと出力データを並べて比較します。電話番号が # 文字でマスクされていることを確認します。

Redact プロパティ出力の結果 3. X ボタンをクリックして [Preview Data] を閉じます。

注: [Notes] 列に電話番号が表示されない場合は、エントリにカーソルを合わせて結果を確認してください。

タスク 12. 別のデータタイプを秘匿化する

プレビューの実行結果を確認していたあなたは、[Notes] 列に他の機密情報（メールアドレス）も含まれていることに気づきました。Sensitive Data Protection 検査テンプレートに戻って、メールアドレスも秘匿化するように編集します。

[セキュリティ] > [機密データの保護] に移動します。
[設定] タブで、先ほどのテンプレートを選択します。
[編集] をクリックします。
[infoType を管理] をクリックします。
[組み込み] タブで、フィルタを使用して「phone number」「OR」「email address」を検索します。

電話番号またはメールアドレスの組み込みフィルタ

すべて選択して [完了] をクリックします。
[保存] をクリックします。
ポップアップで [保存の確認] をクリックします。
再度パイプラインをプレビューモードで実行します。Cloud Data Fusion は、更新された Sensitive Data Protection テンプレートを自動的に使用します。
電話番号とメールアドレスの両方が # 文字でマスクされていることを確認します。

パイプラインのプレビュー出力の結果

注: [Notes] 列に電話番号とメールアドレスが表示されない場合は、エントリにカーソルを合わせて結果を確認してください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。別のデータタイプを秘匿化する

タスク 13. パイプラインをデプロイして実行する

[Preview] モードがオフになっていることを確認します。
[Save] をクリックします。[Save] をクリックすると、パイプラインの名前を入力するよう求められます。パイプラインに名前を付け、[Save] をクリックします。

[Name your pipeline] テキストフィールド

[Deploy] をクリックします。
デプロイが完了したら、[Run] をクリックします。パイプラインの実行には数分を要する場合があります。その間に、パイプラインのステータスが [Provisioning]、[Starting]、[Running]、[Succeeded] へと変化していきます。

注: パイプラインが失敗した場合は、パイプラインを再実行してください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。パイプラインをデプロイして実行する

タスク 14. 結果を見る

Cloud コンソールで Cloud Storage に移動します。
ストレージブラウザで、シンクの Cloud Storage プラグインプロパティに指定した Cloud Storage バケットに移動します。
[認証済み URL] のリンクをコピーし、新しいブラウザタブに貼り付けて、結果の CSV ファイルをダウンロードします。電話番号とメールアドレスが # 文字でマスクされていることを確認します。

Google Cloud Storage オブジェクトの詳細の構成

お疲れさまでした

このラボでは、Sensitive Data Protection を使用して、Data Fusion パイプラインを通過するデータの一部をマスクする方法を学びました。データをオーディエンスと共有する前に、データに埋め込まれた個人情報（PII）を削除またはマスクする必要がある場合に役立ちます。

ドキュメントを参照して、Sensitive Data Protection テンプレートの作成について詳しく確認しましょう。

マニュアルの最終更新日: 2025 年 12 月 9 日

ラボの最終テスト日: 2025 年 12 月 9 日

GSP811

概要

目標

設定と要件

Google Cloud コンソールにログインする

Cloud Shell をアクティブにする

サンプル コマンド

プロジェクトの権限を確認する

タスク 1. Cloud Storage バケットを設定する

タスク 2. Cloud Data Fusion インスタンスに必要な権限を追加する

サービス アカウントにユーザー権限を付与する

タスク 3. Sensitive Data Protection の権限を取得する

タスク 4. Cloud Data Fusion UI に移動する

タスク 5. パイプラインを作成する

タスク 6. 機密データを秘匿化する

タスク 7. Sensitive Data Protection プラグインをデプロイする

タスク 8. カスタム テンプレートを作成する

タスク 9. Redact 変換を適用する

タスク 10. 出力データを保存する

タスク 11. プレビュー モードでパイプラインを実行する

タスク 12. 別のデータタイプを秘匿化する

タスク 13. パイプラインをデプロイして実行する

タスク 14. 結果を見る

お疲れさまでした

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

サンプルコマンド

サービスアカウントにユーザー権限を付与する

タスク 8. カスタムテンプレートを作成する

タスク 11. プレビューモードでパイプラインを実行する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する