ラボの設定手順と要件

アカウントと進行状況を保護します。このラボを実行するには、常にシークレットブラウジングウィンドウとラボの認証情報を使用してください。

Cloud Data Fusion を使用してデータリネージを調べる

ラボ 1時間 30分 universal_currency_alt クレジット: 7 show_chart 上級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP957
概要
設定と要件
タスク 1. Cloud Data Fusion インスタンスに必要な権限を追加する
タスク 2. Cloud Data Fusion UI を開く
タスク 3. 配送データクレンジングパイプラインをインポート、デプロイ、実行する
タスク 4. 遅延配送データパイプラインをインポート、デプロイ、実行する
タスク 5. 一部のデータセットを確認する
タスク 6. タグを使用してデータセットを確認する
タスク 7. データリネージを調べる
お疲れさまでした

このコンテンツはまだモバイルデバイス向けに最適化されていません。

快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップパソコンでアクセスしてください。

GSP957

Google Cloud セルフペースラボのロゴ

概要

このラボでは、Cloud Data Fusion を使用して、データリネージ（データの起源とその経緯）を調べる方法を説明します。

Cloud Data Fusion のデータリネージは次の処理を行う場合に有用です。

不正なデータイベントの根本原因を見つける。
データの変更を行う前に、影響分析を行う。

Cloud Data Fusion は、データセットレベル、フィールドレベルでリネージを追跡するだけでなく、時間制約付きリネージを追跡して、時系列でもリネージを表示します。

データセットレベルのリネージでは、選択された期間におけるデータセットとパイプラインの関係が表示されます。
フィールドレベルのリネージでは、ソースデータセット内のフィールドセットに対して実行され、ターゲットデータセット内に別のフィールドセットを生成するオペレーションが表示されます。

このラボでは、元データをクリーンアップしてからダウンストリーム処理を行う一般的なシナリオを示す 2 つのパイプラインを使用します。元データから、分析出力のためのクリーンアップされた配送データまでのデータ証跡は、Cloud Data Fusion のリネージ機能を使用して確認できます。

注: 現在、Cloud Data Fusion のリネージ機能は、Cloud Data Fusion Enterprise Edition でのみ使用できます。

目標

このラボでは、次の方法について学びます。

サンプルパイプラインを実行してリネージを生成する
データセットレベルとフィールドレベルのリネージを確認する
ハンドシェイク情報をアップストリームパイプラインからダウンストリームパイプラインに渡す方法を学ぶ

設定と要件

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

シークレットウィンドウを使用して Google Skills にログインします。
ラボのアクセス時間（例: 02:00:00）に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
注: [ラボを開始] をクリックしてから、ラボが必要なリソースをプロビジョニングして Data Fusion インスタンスを作成するまで 15～20 分ほどかかります。その間、ラボの目標を理解するために以下のステップをご確認ください。
左側のパネルにラボの認証情報（ユーザー名とパスワード）が表示されたら、インスタンスの作成が完了したため、コンソールへのログインに進めるようになります。
ラボの認証情報（ユーザー名とパスワード）をメモしておきます。この情報は、Google Cloud コンソールにログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。

注: ラボを完了した場合と最初からやり直す場合以外は、[ラボを終了] をクリックしないでください。クリックすると、作業内容とプロジェクトが削除されます。

Google Cloud コンソールにログインする

このラボセッションで使用しているブラウザタブまたはウィンドウで、[接続の詳細] パネルからユーザー名をコピーし、[Google Console を開く] ボタンをクリックします。

注: アカウントの選択を求められたら、[別のアカウントを使用] をクリックします。

ユーザー名を貼り付け、プロンプトが表示されたらパスワードを入力します。
[次へ] をクリックします。
利用規約に同意します。

これは、このラボの間だけ有効な一時的なアカウントです。以下の点に注意してください。

復元オプションを追加しないでください。
無料トライアルに登録しないでください。

コンソールが開いたら、左上のナビゲーションメニュー（）をクリックしてサービスのリストを確認します。

ナビゲーションメニュー

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールが組み込まれた仮想マシンです。5 GB の永続ホームディレクトリを提供し、Google Cloud 上で実行されます。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。gcloud は Google Cloud のコマンドラインツールで、Cloud Shell にプリインストールされており、Tab キーによる入力補完がサポートされています。

Google Cloud Console のナビゲーションパネルで、「Cloud Shell をアクティブにする」アイコン（）をクリックします。
[次へ] をクリックします。
環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続の際に認証も行われ、プロジェクトは現在のプロジェクト ID に設定されます。次に例を示します。

Cloud Shell ターミナル

サンプルコマンド

有効なアカウント名前を一覧表示する:

gcloud auth list

（出力）

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

（出力例）

Credentialed accounts: - google1623327_student@qwiklabs.net

プロジェクト ID を一覧表示する:

gcloud config list project

（出力）

[core] project = <プロジェクト ID>

（出力例）

[core] project = qwiklabs-gcp-44776a13dea667a6

gcloud のドキュメントの全文については、gcloud コマンドラインツールの概要をご覧ください。

プロジェクトの権限を確認する

Google Cloud で作業を開始する前に、Identity and Access Management（IAM）内で適切な権限がプロジェクトに付与されていることを確認する必要があります。

Google Cloud コンソールのナビゲーションメニュー（）で、[IAM と管理] > [IAM] をクリックします。
Compute Engine のデフォルトのサービスアカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーションメニュー > [Cloud の概要] から確認できます。

デフォルトのコンピューティングサービスアカウント

アカウントが IAM に存在しない場合やアカウントに編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。

Google Cloud コンソールのナビゲーションメニューで、[Cloud の概要] をクリックします。
[プロジェクト情報] カードからプロジェクト番号をコピーします。
ナビゲーションメニューで、[IAM と管理] > [IAM] をクリックします。
IAM ページの上部にある [追加] をクリックします。
新しいプリンシパルの場合は、次のように入力します。

{project-number}-compute@developer.gserviceaccount.com

{project-number} はプロジェクト番号に置き換えてください。

[ロールを選択] で、[基本]（または [Project]）> [編集者] を選択します。
[保存] をクリックします。

前提条件

このラボでは、次の 2 つのパイプラインを使用します。

配送データクレンジング パイプライン。小さなサンプルデータセットから未加工の配送データを読み取り、変換を適用してデータをクリーンアップします。
米国での遅延配送パイプライン。クリーンアップした配送データを読み取り、分析して、しきい値を超えて遅延した米国内の配送がないか確認します。

配送データクレンジングと米国での遅延配送のリンクを使用して、これらのサンプルデータセットをローカルマシンにダウンロードします。

タスク 1. Cloud Data Fusion インスタンスに必要な権限を追加する

Google Cloud コンソールのタイトルバーで [検索] フィールドに「Data Fusion」と入力し、検索結果から [Data Fusion] をクリックします。[Instances] をクリックします。

注: インスタンスの作成には 20 分ほどかかります。完了するまでお待ちください。

次に、以下の手順に沿って、インスタンスに関連付けられているサービスアカウントに権限を付与します。

Google Cloud コンソールで、[IAM と管理] > [IAM] に移動します。
Compute Engine のデフォルトのサービスアカウント {プロジェクト番号}-compute@developer.gserviceaccount.com が表示されていることを確認し、サービスアカウントをクリップボードにコピーします。
[IAM 権限] ページで、[+アクセス権を付与] をクリックします。
[新しいプリンシパル] フィールドに、サービスアカウントを貼り付けます。
[ロールを選択] フィールドをクリックし、「Cloud Data Fusion API サービスエージェント」と入力します。最初の数文字を入力すると [Cloud Data Fusion API サービスエージェント] が表示されるので、それを選択します。
[別のロールを追加] をクリックします。
[Dataproc 管理者] ロールを追加します。
[保存] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion API サービスエージェントのロールをサービスアカウントに追加する

サービスアカウントにユーザー権限を付与する

コンソールのナビゲーションメニューで、[IAM と管理] > [IAM] をクリックします。
[Google 提供のロール付与を含める] チェックボックスをオンにします。
リストを下にスクロールして、Google が管理する service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com という表示形式の Cloud Data Fusion サービスアカウントを探し、サービスアカウント名をクリップボードにコピーします。

Google が管理する Cloud Data Fusion サービスアカウントのリスト

次に、[IAM と管理] > [サービスアカウント] に移動します。
{project-number}-compute@developer.gserviceaccount.com という表示形式のデフォルトの Compute Engine アカウントをクリックし、上部のナビゲーションメニューの [アクセス権を持つプリンシパル] タブを選択します。
[アクセスを許可] ボタンをクリックします。
[新しいプリンシパル] フィールドに、前の手順でコピーしたサービスアカウントを貼り付けます。
[ロール] プルダウンメニューで、[サービスアカウントユーザー] を選択します。
[保存] をクリックします。

タスク 2. Cloud Data Fusion UI を開く

[Data Fusion] に移動し、[Instances] をクリックしてから、Data Fusion インスタンスの横にある [インスタンスを表示] リンクをクリックします。ラボの認証情報を選択してログインします。サービスのガイドに進むダイアログが表示された場合は [No, Thanks] をクリックします。これで Cloud Data Fusion UI が表示されるようになります。
左側のナビゲーションパネルから [Studio] をクリックして、Cloud Data Fusion Studio ページを開きます。

Cloud Fusion Studio UI

タスク 3. 配送データクレンジングパイプラインをインポート、デプロイ、実行する

次に、未加工の配送データをインポートする必要があります。[Studio] ページの右上にある [インポート] をクリックしてから、先ほどダウンロードした配送データクレンジングパイプラインを選択してインポートします。

注: パイプラインプラグインのアップグレードを求めるポップアップが表示されたら、[すべて修正] をクリックしてプラグインを最新バージョンにアップグレードします。

配送データクレンジングパイプライン

次に、パイプラインをデプロイします。[Studio] ページの右上にある [デプロイ] をクリックします。デプロイ後、[パイプライン] ページが開きます。
パイプラインページの中央上部にある [実行] をクリックして、パイプラインを実行します。

注: パイプラインが失敗した場合は、再実行してください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。配送データクレンジングパイプラインをインポート、デプロイ、実行する

タスク 4. 遅延配送データパイプラインをインポート、デプロイ、実行する

配送データクレンジングのステータスが [Succeeded] になった後、先ほどダウンロードした米国での遅延配送データパイプラインをインポートしてデプロイします。

左側のナビゲーションパネルから [Studio] をクリックして、Cloud Data Fusion Studio ページに戻ります。
[Studio] ページの右上にある [インポート] をクリックしてから、先ほどダウンロードした 米国での遅延配送データパイプラインを選択してインポートします。

[Studio] ページの右上にある [デプロイ] をクリックして、パイプラインをデプロイします。デプロイ後、[パイプライン] ページが開きます。
[パイプライン] ページの中央上部にある [実行] をクリックしてパイプラインを実行します。

注: パイプラインが失敗した場合は、再実行してください。

この 2 つ目のパイプラインが正常に完了すると、以下の手順を続行できます。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。遅延配送データパイプラインをインポート、デプロイ、実行する

タスク 5. 一部のデータセットを確認する

リネージを調べる前に、データセットを確認する必要があります。

Cloud Data Fusion UI の左側のナビゲーションパネルで [メタデータ] を選択して、メタデータの検索ページを開きます。
配送データクレンジングデータセットは、参照データセットとして「Cleaned-Shipments」を指定しているため、検索ボックスに「shipment」と入力します。検索結果にこのデータセットが含まれます。

クリーンアップされた配送メタデータの検索結果

タスク 6. タグを使用してデータセットを確認する

メタデータ検索では、Cloud Data Fusion パイプラインによって利用、処理、生成されたデータセットが検出されます。パイプラインは、テクニカルメタデータとオペレーションメタデータを生成して収集する構造化フレームワークで実行されます。テクニカルメタデータには、データセット名、タイプ、スキーマ、フィールド、作成時間、処理情報が含まれます。このテクニカル情報は、Cloud Data Fusion のメタデータ検索とリネージ機能で使用されます。

ソースとシンクの Reference Name は一意のデータセット識別子で優れた検索キーワードですが、検索条件としては他のテクニカルメタデータ（データセットの説明、スキーマ、フィールド名、メタデータ接頭辞など）を使用できます。

Cloud Data Fusion は、検索条件として使用できるタグや Key-Value プロパティなどのビジネスメタデータを含むデータセットのアノテーションもサポートしています。たとえば、未加工の配送データのデータセットにビジネスタグアノテーションを追加して検索するには、次を行います。

Cloud Data Fusion UI の左側のナビゲーションパネルで [メタデータ] を選択して、メタデータの検索ページを開きます。
メタデータオプションの検索ページで「Raw shipping data」と入力します。
[Raw_Shipping_Data] をクリックします。
[ビジネスタグ] で [+] をクリックし、タグ名（英数字とアンダースコアも使用可能）を入力して Enter キーを押します。

ビジネスタグの名前フィールド

タグを検索するには、タグ名をクリックするか、[メタデータ] 検索ページの検索ボックスに「tags: tag_name」と入力します。

タスク 7. データリネージを調べる

データセットレベルのリネージ

Cloud Data Fusion UI の左側のナビゲーションパネルから [メタデータ] を選択してメタデータの検索ページを開き、検索ボックスに「shipment」と入力します。
[検索] ページに表示されている [クリーンアップされた配送] のデータセット名をクリックします。
次に、[リネージ] タブをクリックします。リネージグラフで、このデータセットが、Raw_Shipping_Data データセットを使用した配送データクレンジングパイプラインによって生成されたことが示されます。

Cloud Data Fusion の [リネージ] タブ

フィールドレベルのリネージ

Cloud Data Fusion のフィールドレベルのリネージは、データセットのフィールドと、フィールドセットに実行して別のフィールドセットを生成する変換との間の関係を示します。データセットレベルのリネージと同様に、フィールドレベルのリネージには時間の制約があり、結果は、時系列で変化します。

データセットレベルのリネージのステップから続けて、[クリーンアップされた配送] のデータセットレベルのリネージグラフの右上にある [フィールドレベルのリネージ] ボタンをクリックし、フィールドレベルのリネージグラフを表示します。

Cloud Data Fusion フィールドレベルのリネージ

フィールドレベルのリネージグラフには、フィールド間の関係が表示されます。フィールドを選択して、そのリネージを表示できます。[表示] を選択してから、[フィールドを固定] を選択して、そのフィールドのリネージのみを表示します。

Data Fusion リネージにフィールドの固定を選択

Cleaned-Shipments データセットの下にある time_to_ship フィールドを見つけ、[表示] を選択してから [影響を表示] を選択して影響分析を行います。

影響を表示

フィールドレベルのリネージは、このフィールドが時間の経過とともにどのように変換されたかを示します。time_to_ship フィールドの次の変化に注目してください。（i）float 型の列に変換する、（ii）値が次のノードか、下流のエラーパスにリダイレクトされるかを判断する。

リネージは、特定のフィールドが経てきた変更の履歴を示します。その他の例としては、複数のフィールドを連結して新しいフィールドを作成する（名と姓を組み合わせて名前を作成するなど）、フィールドに対して計算を行う（数値を合計数に対する割合に変換するなど）といったものがあります。

原因と影響を示すリンクでは、フィールドの両側で行われた変換が人間が読める台帳形式で表示されます。

お疲れさまでした

このラボでは、データリネージを確認する方法を学びました。この情報は、レポートとガバナンスにおいて不可欠であることが考えられます。さまざまな受講者が、データが現在の状態になるまでの経緯を理解するのに役立ちます。

マニュアルの最終更新日: 2022 年 11 月 14 日

ラボの最終テスト日: 2023 年 8 月 8 日

Cloud Data Fusion を使用してデータリネージを調べる

GSP957

概要

目標

設定と要件

Google Cloud コンソールにログインする

Cloud Shell をアクティブにする

サンプル コマンド

プロジェクトの権限を確認する

前提条件

タスク 1. Cloud Data Fusion インスタンスに必要な権限を追加する

サービス アカウントにユーザー権限を付与する

タスク 2. Cloud Data Fusion UI を開く

タスク 3. 配送データ クレンジング パイプラインをインポート、デプロイ、実行する

タスク 4. 遅延配送データ パイプラインをインポート、デプロイ、実行する

タスク 5. 一部のデータセットを確認する

タスク 6. タグを使用してデータセットを確認する

タスク 7. データリネージを調べる

データセット レベルのリネージ

フィールド レベルのリネージ

お疲れさまでした

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

サンプルコマンド

サービスアカウントにユーザー権限を付与する

タスク 3. 配送データクレンジングパイプラインをインポート、デプロイ、実行する

タスク 4. 遅延配送データパイプラインをインポート、デプロイ、実行する

データセットレベルのリネージ

フィールドレベルのリネージ

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する