ラボの設定手順と要件
アカウントと進行状況を保護します。このラボを実行するには、常にシークレット ブラウジング ウィンドウとラボの認証情報を使用してください。

Cloud Data Fusion を使用してデータリネージを調べる

ラボ 1時間 30分 universal_currency_alt クレジット: 7 show_chart 上級
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
このコンテンツはまだモバイル デバイス向けに最適化されていません。
快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップ パソコンでアクセスしてください。

GSP957

Google Cloud セルフペース ラボのロゴ

概要

このラボでは、Cloud Data Fusion を使用して、データリネージ(データの起源とその経緯)を調べる方法を説明します。

Cloud Data Fusion のデータリネージは次の処理を行う場合に有用です。

  • 不正なデータイベントの根本原因を見つける。
  • データの変更を行う前に、影響分析を行う。

Cloud Data Fusion は、データセット レベル、フィールド レベルでリネージを追跡するだけでなく、時間制約付きリネージを追跡して、時系列でもリネージを表示します。

  • データセット レベルのリネージでは、選択された期間におけるデータセットとパイプラインの関係が表示されます。
  • フィールド レベルのリネージでは、ソース データセット内のフィールド セットに対して実行され、ターゲット データセット内に別のフィールド セットを生成するオペレーションが表示されます。

このラボでは、元データをクリーンアップしてからダウンストリーム処理を行う一般的なシナリオを示す 2 つのパイプラインを使用します。元データから、分析出力のためのクリーンアップされた配送データまでのデータ証跡は、Cloud Data Fusion のリネージ機能を使用して確認できます。

注: 現在、Cloud Data Fusion のリネージ機能は、Cloud Data Fusion Enterprise Edition でのみ使用できます。

目標

このラボでは、次の方法について学びます。

  • サンプル パイプラインを実行してリネージを生成する
  • データセット レベルとフィールド レベルのリネージを確認する
  • ハンドシェイク情報をアップストリーム パイプラインからダウンストリーム パイプラインに渡す方法を学ぶ

設定と要件

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

  1. シークレット ウィンドウを使用して Google Skills にログインします。

  2. ラボのアクセス時間(例: 02:00:00)に注意し、時間内に完了できるようにしてください。
    一時停止機能はありません。必要な場合はやり直せますが、最初からになります。

  3. 準備ができたら、[ラボを開始] をクリックします。

    注: [ラボを開始] をクリックしてから、ラボが必要なリソースをプロビジョニングして Data Fusion インスタンスを作成するまで 15~20 分ほどかかります。 その間、ラボの目標を理解するために以下のステップをご確認ください。

    左側のパネルにラボの認証情報(ユーザー名パスワード)が表示されたら、インスタンスの作成が完了したため、コンソールへのログインに進めるようになります。
  4. ラボの認証情報(ユーザー名パスワード)をメモしておきます。この情報は、Google Cloud コンソールにログインする際に使用します。

  5. [Google Console を開く] をクリックします。

  6. [別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
    他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。

  7. 利用規約に同意し、再設定用のリソースページをスキップします。

注: ラボを完了した場合と最初からやり直す場合以外は、[ラボを終了] をクリックしないでください。クリックすると、作業内容とプロジェクトが削除されます。

Google Cloud コンソールにログインする

  1. このラボ セッションで使用しているブラウザタブまたはウィンドウで、[接続の詳細] パネルからユーザー名をコピーし、[Google Console を開く] ボタンをクリックします。
注: アカウントの選択を求められたら、[別のアカウントを使用] をクリックします。
  1. ユーザー名を貼り付け、プロンプトが表示されたらパスワードを入力します。
  2. [次へ] をクリックします。
  3. 利用規約に同意します。

これは、このラボの間だけ有効な一時的なアカウントです。以下の点に注意してください。

  • 復元オプションを追加しないでください。
  • 無料トライアルに登録しないでください。
  1. コンソールが開いたら、左上のナビゲーション メニューナビゲーション メニュー アイコン)をクリックしてサービスのリストを確認します。

ナビゲーション メニュー

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールが組み込まれた仮想マシンです。5 GB の永続ホーム ディレクトリを提供し、Google Cloud 上で実行されます。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。gcloud は Google Cloud のコマンドライン ツールで、Cloud Shell にプリインストールされており、Tab キーによる入力補完がサポートされています。

  1. Google Cloud Console のナビゲーション パネルで、「Cloud Shell をアクティブにする」アイコン(Cloud Shell アイコン)をクリックします。

  2. [次へ] をクリックします。
    環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続の際に認証も行われ、プロジェクトは現在のプロジェクト ID に設定されます。次に例を示します。

Cloud Shell ターミナル

サンプル コマンド

  • 有効なアカウント名前を一覧表示する:

gcloud auth list

(出力)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(出力例)

Credentialed accounts: - google1623327_student@qwiklabs.net
  • プロジェクト ID を一覧表示する:

gcloud config list project

(出力)

[core] project = <プロジェクト ID>

(出力例)

[core] project = qwiklabs-gcp-44776a13dea667a6

プロジェクトの権限を確認する

Google Cloud で作業を開始する前に、Identity and Access Management(IAM)内で適切な権限がプロジェクトに付与されていることを確認する必要があります。

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー アイコン)で、[IAM と管理] > [IAM] をクリックします。

  2. Compute Engine のデフォルトのサービス アカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーション メニュー > [Cloud の概要] から確認できます。

デフォルトのコンピューティング サービス アカウント

アカウントが IAM に存在しない場合やアカウントに編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。

  1. Google Cloud コンソールのナビゲーション メニューで、[Cloud の概要] をクリックします。

  2. [プロジェクト情報] カードからプロジェクト番号をコピーします。

  3. ナビゲーション メニューで、[IAM と管理] > [IAM] をクリックします。

  4. IAM ページの上部にある [追加] をクリックします。

  5. 新しいプリンシパルの場合は、次のように入力します。

{project-number}-compute@developer.gserviceaccount.com

{project-number} はプロジェクト番号に置き換えてください。

  1. [ロールを選択] で、[基本](または [Project])> [編集者] を選択します。

  2. [保存] をクリックします。

前提条件

このラボでは、次の 2 つのパイプラインを使用します。

  • 配送データ クレンジング パイプライン。小さなサンプル データセットから未加工の配送データを読み取り、変換を適用してデータをクリーンアップします。
  • 米国での遅延配送パイプライン。クリーンアップした配送データを読み取り、分析して、しきい値を超えて遅延した米国内の配送がないか確認します。

配送データ クレンジング米国での遅延配送のリンクを使用して、これらのサンプル データセットをローカルマシンにダウンロードします。

タスク 1. Cloud Data Fusion インスタンスに必要な権限を追加する

  1. Google Cloud コンソールのタイトルバーで [検索] フィールドに「Data Fusion」と入力し、検索結果から [Data Fusion] をクリックします。[Instances] をクリックします。
: インスタンスの作成には 20 分ほどかかります。完了するまでお待ちください。

次に、以下の手順に沿って、インスタンスに関連付けられているサービス アカウントに権限を付与します。

  1. Google Cloud コンソールで、[IAM と管理] > [IAM] に移動します。

  2. Compute Engine のデフォルトのサービス アカウント {プロジェクト番号}-compute@developer.gserviceaccount.com が表示されていることを確認し、サービス アカウントをクリップボードにコピーします。

  3. [IAM 権限] ページで、[+アクセス権を付与] をクリックします。

  4. [新しいプリンシパル] フィールドに、サービス アカウントを貼り付けます。

  5. [ロールを選択] フィールドをクリックし、「Cloud Data Fusion API サービス エージェント」と入力します。最初の数文字を入力すると [Cloud Data Fusion API サービス エージェント] が表示されるので、それを選択します。

  6. [別のロールを追加] をクリックします。

  7. [Dataproc 管理者] ロールを追加します。

  8. [保存] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion API サービス エージェントのロールをサービス アカウントに追加する

サービス アカウントにユーザー権限を付与する

  1. コンソールのナビゲーション メニューで、[IAM と管理] > [IAM] をクリックします。

  2. [Google 提供のロール付与を含める] チェックボックスをオンにします。

  3. リストを下にスクロールして、Google が管理する service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com という表示形式の Cloud Data Fusion サービス アカウントを探し、サービス アカウント名をクリップボードにコピーします。

Google が管理する Cloud Data Fusion サービス アカウントのリスト

  1. 次に、[IAM と管理] > [サービス アカウント] に移動します。

  2. {project-number}-compute@developer.gserviceaccount.com という表示形式のデフォルトの Compute Engine アカウントをクリックし、上部のナビゲーション メニューの [アクセス権を持つプリンシパル] タブを選択します。

  3. [アクセスを許可] ボタンをクリックします。

  4. [新しいプリンシパル] フィールドに、前の手順でコピーしたサービスアカウントを貼り付けます。

  5. [ロール] プルダウン メニューで、[サービス アカウント ユーザー] を選択します。

  6. [保存] をクリックします。

タスク 2. Cloud Data Fusion UI を開く

  1. [Data Fusion] に移動し、[Instances] をクリックしてから、Data Fusion インスタンスの横にある [インスタンスを表示] リンクをクリックします。ラボの認証情報を選択してログインします。サービスのガイドに進むダイアログが表示された場合は [No, Thanks] をクリックします。これで Cloud Data Fusion UI が表示されるようになります。

  2. 左側のナビゲーション パネルから [Studio] をクリックして、Cloud Data Fusion Studio ページを開きます。

Cloud Fusion Studio UI

タスク 3. 配送データ クレンジング パイプラインをインポート、デプロイ、実行する

  1. 次に、未加工の配送データをインポートする必要があります。[Studio] ページの右上にある [インポート] をクリックしてから、先ほどダウンロードした配送データ クレンジングパイプラインを選択してインポートします。
注: パイプライン プラグインのアップグレードを求めるポップアップが表示されたら、[すべて修正] をクリックしてプラグインを最新バージョンにアップグレードします。

配送データ クレンジング パイプライン

  1. 次に、パイプラインをデプロイします。[Studio] ページの右上にある [デプロイ] をクリックします。デプロイ後、[パイプライン] ページが開きます。

  2. パイプライン ページの中央上部にある [実行] をクリックして、パイプラインを実行します。

注: パイプラインが失敗した場合は、再実行してください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 配送データ クレンジング パイプラインをインポート、デプロイ、実行する

タスク 4. 遅延配送データ パイプラインをインポート、デプロイ、実行する

配送データ クレンジングのステータスが [Succeeded] になった後、先ほどダウンロードした米国での遅延配送データ パイプラインをインポートしてデプロイします。

  1. 左側のナビゲーション パネルから [Studio] をクリックして、Cloud Data Fusion Studio ページに戻ります。

  2. [Studio] ページの右上にある [インポート] をクリックしてから、先ほどダウンロードした 米国での遅延配送データ パイプラインを選択してインポートします。

注: パイプライン プラグインのアップグレードを求めるポップアップが表示されたら、[すべて修正] をクリックしてプラグインを最新バージョンにアップグレードします。
  1. [Studio] ページの右上にある [デプロイ] をクリックして、パイプラインをデプロイします。デプロイ後、[パイプライン] ページが開きます。

  2. [パイプライン] ページの中央上部にある [実行] をクリックしてパイプラインを実行します。

注: パイプラインが失敗した場合は、再実行してください。

この 2 つ目のパイプラインが正常に完了すると、以下の手順を続行できます。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 遅延配送データ パイプラインをインポート、デプロイ、実行する

タスク 5. 一部のデータセットを確認する

リネージを調べる前に、データセットを確認する必要があります。

  1. Cloud Data Fusion UI の左側のナビゲーション パネルで [メタデータ] を選択して、メタデータの検索ページを開きます。
  2. 配送データ クレンジング データセットは、参照データセットとして「Cleaned-Shipments」を指定しているため、検索ボックスに「shipment」と入力します。検索結果にこのデータセットが含まれます。

クリーンアップされた配送メタデータの検索結果

タスク 6. タグを使用してデータセットを確認する

メタデータ検索では、Cloud Data Fusion パイプラインによって利用、処理、生成されたデータセットが検出されます。パイプラインは、テクニカル メタデータとオペレーション メタデータを生成して収集する構造化フレームワークで実行されます。テクニカル メタデータには、データセット名、タイプ、スキーマ、フィールド、作成時間、処理情報が含まれます。このテクニカル情報は、Cloud Data Fusion のメタデータ検索とリネージ機能で使用されます。

ソースとシンクの Reference Name は一意のデータセット識別子で優れた検索キーワードですが、検索条件としては他のテクニカル メタデータ(データセットの説明、スキーマ、フィールド名、メタデータ接頭辞など)を使用できます。

Cloud Data Fusion は、検索条件として使用できるタグや Key-Value プロパティなどのビジネス メタデータを含むデータセットのアノテーションもサポートしています。たとえば、未加工の配送データのデータセットにビジネスタグ アノテーションを追加して検索するには、次を行います。

  1. Cloud Data Fusion UI の左側のナビゲーション パネルで [メタデータ] を選択して、メタデータの検索ページを開きます。

  2. メタデータ オプションの検索ページで「Raw shipping data」と入力します。

  3. [Raw_Shipping_Data] をクリックします。

  4. [ビジネスタグ] で [+] をクリックし、タグ名(英数字とアンダースコアも使用可能)を入力して Enter キーを押します。

ビジネス タグの名前フィールド

タグを検索するには、タグ名をクリックするか、[メタデータ] 検索ページの検索ボックスに「tags: tag_name」と入力します。

タスク 7. データリネージを調べる

データセット レベルのリネージ

  1. Cloud Data Fusion UI の左側のナビゲーション パネルから [メタデータ] を選択してメタデータの検索ページを開き、検索ボックスに「shipment」と入力します。

  2. [検索] ページに表示されている [クリーンアップされた配送] のデータセット名をクリックします。

  3. 次に、[リネージ] タブをクリックします。リネージグラフで、このデータセットが、Raw_Shipping_Data データセットを使用した配送データ クレンジング パイプラインによって生成されたことが示されます。

Cloud Data Fusion の [リネージ] タブ

フィールド レベルのリネージ

Cloud Data Fusion のフィールド レベルのリネージは、データセットのフィールドと、フィールド セットに実行して別のフィールド セットを生成する変換との間の関係を示します。データセット レベルのリネージと同様に、フィールド レベルのリネージには時間の制約があり、結果は、時系列で変化します。

  1. データセット レベルのリネージのステップから続けて、[クリーンアップされた配送] のデータセット レベルのリネージグラフの右上にある [フィールド レベルのリネージ] ボタンをクリックし、フィールド レベルのリネージグラフを表示します。

Cloud Data Fusion フィールド レベルのリネージ

  1. フィールド レベルのリネージグラフには、フィールド間の関係が表示されます。フィールドを選択して、そのリネージを表示できます。[表示] を選択してから、[フィールドを固定] を選択して、そのフィールドのリネージのみを表示します。

Data Fusion リネージにフィールドの固定を選択

  1. Cleaned-Shipments データセットの下にある time_to_ship フィールドを見つけ、[表示] を選択してから [影響を表示] を選択して影響分析を行います。

影響を表示

フィールドレベルのリネージは、このフィールドが時間の経過とともにどのように変換されたかを示します。time_to_ship フィールドの次の変化に注目してください。(i)float 型の列に変換する、(ii)値が次のノードか、下流のエラーパスにリダイレクトされるかを判断する。

リネージは、特定のフィールドが経てきた変更の履歴を示します。その他の例としては、複数のフィールドを連結して新しいフィールドを作成する(名と姓を組み合わせて名前を作成するなど)、フィールドに対して計算を行う(数値を合計数に対する割合に変換するなど)といったものがあります。

原因と影響を示すリンクでは、フィールドの両側で行われた変換が人間が読める台帳形式で表示されます。

お疲れさまでした

このラボでは、データリネージを確認する方法を学びました。この情報は、レポートとガバナンスにおいて不可欠であることが考えられます。さまざまな受講者が、データが現在の状態になるまでの経緯を理解するのに役立ちます。

マニュアルの最終更新日: 2022 年 11 月 14 日

ラボの最終テスト日: 2023 年 8 月 8 日

Copyright 2026 Google LLC All rights reserved. Google および Google のロゴは、Google LLC の商標です。その他すべての社名および製品名は、それぞれ該当する企業の商標である可能性があります。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボを実行するには、シークレット モードまたはシークレット ブラウジング ウィンドウを使用することをおすすめします。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。