ラボの設定手順と要件
アカウントと進行状況を保護します。このラボを実行するには、常にシークレット ブラウジング ウィンドウとラボの認証情報を使用してください。

Cloud Data Fusion スタートガイド

ラボ 1時間 30分 universal_currency_alt クレジット: 5 show_chart 入門
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
このコンテンツはまだモバイル デバイス向けに最適化されていません。
快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップ パソコンでアクセスしてください。

Google Cloud セルフペース ラボのロゴ

概要

このラボでは、Data Fusion インスタンスを作成し、提供されているサンプル パイプラインをデプロイする方法を学びます。このパイプラインは、NYT のベストセラー データを含む JSON ファイルを Cloud Storage から読み取ります。その後、ファイルに対して変換を実行し、データの解析とクリーニングを行います。最後に、レコードのサブセットを BigQuery に読み込みます。

目標

このラボでは、次の方法について学びます。

  • Data Fusion インスタンスを作成する
  • JSON ファイルでいくつかの変換を実行し、一致する結果をフィルタリングして BigQuery に取り込むサンプル パイプラインをデプロイする

設定

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

  1. シークレット ウィンドウを使用して Google Skills にログインします。

  2. ラボのアクセス時間(例: 1:15:00)に注意し、時間内に完了できるようにしてください。
    一時停止機能はありません。必要な場合はやり直せますが、最初からになります。

  3. 準備ができたら、[ラボを開始] をクリックします。

  4. ラボの認証情報(ユーザー名パスワード)をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。

  5. [Google Console を開く] をクリックします。

  6. [別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
    他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。

  7. 利用規約に同意し、再設定用のリソースページをスキップします。

Google Cloud コンソールにログインする

  1. このラボ セッションで使用しているブラウザタブまたはウィンドウで、[接続の詳細] パネルからユーザー名をコピーし、[Google Console を開く] ボタンをクリックします。
注: アカウントの選択を求められたら、[別のアカウントを使用] をクリックします。
  1. ユーザー名を貼り付け、プロンプトが表示されたらパスワードを入力します。
  2. [次へ] をクリックします。
  3. 利用規約に同意します。

これは、このラボの間だけ有効な一時的なアカウントです。以下の点に注意してください。

  • 復元オプションを追加しないでください。
  • 無料トライアルに登録しないでください。
  1. コンソールが開いたら、左上のナビゲーション メニューナビゲーション メニュー アイコン)をクリックしてサービスのリストを確認します。

ナビゲーション メニュー

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールが組み込まれた仮想マシンです。5 GB の永続ホーム ディレクトリを提供し、Google Cloud 上で実行されます。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。gcloud は Google Cloud のコマンドライン ツールで、Cloud Shell にプリインストールされており、Tab キーによる入力補完がサポートされています。

  1. Google Cloud Console のナビゲーション パネルで、「Cloud Shell をアクティブにする」アイコン(Cloud Shell アイコン)をクリックします。

  2. [次へ] をクリックします。
    環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続の際に認証も行われ、プロジェクトは現在のプロジェクト ID に設定されます。次に例を示します。

Cloud Shell ターミナル

サンプル コマンド

  • 有効なアカウント名前を一覧表示する:

gcloud auth list

(出力)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(出力例)

Credentialed accounts: - google1623327_student@qwiklabs.net
  • プロジェクト ID を一覧表示する:

gcloud config list project

(出力)

[core] project = <プロジェクト ID>

(出力例)

[core] project = qwiklabs-gcp-44776a13dea667a6

プロジェクトの権限を確認する

Google Cloud で作業を開始する前に、Identity and Access Management(IAM)内で適切な権限がプロジェクトに付与されていることを確認する必要があります。

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー アイコン)で、[IAM と管理] > [IAM] をクリックします。

  2. Compute Engine のデフォルトのサービス アカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーション メニュー > [Cloud の概要] から確認できます。

デフォルトのコンピューティング サービス アカウント

アカウントが IAM に存在しない場合やアカウントに編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。

  1. Google Cloud コンソールのナビゲーション メニューで、[Cloud の概要] をクリックします。

  2. [プロジェクト情報] カードからプロジェクト番号をコピーします。

  3. ナビゲーション メニューで、[IAM と管理] > [IAM] をクリックします。

  4. IAM ページの上部にある [追加] をクリックします。

  5. 新しいプリンシパルの場合は、次のように入力します。

{project-number}-compute@developer.gserviceaccount.com

{project-number} はプロジェクト番号に置き換えてください。

  1. [ロールを選択] で、[基本](または [Project])> [編集者] を選択します。

  2. [保存] をクリックします。

タスク 1. Cloud Data Fusion API を有効にする

  1. Cloud コンソールのナビゲーション メニューナビゲーション メニュー)で、[API とサービス] > [ライブラリ] を選択します。

  2. 検索ボックスに「Data fusion」と入力して Cloud Data Fusion API を検索し、そのハイパーリンクをクリックします。

  3. API はすでに有効になっているため、[管理]、[API を無効にする] の順にクリックします。無効にすることを確認します。

  4. API が無効になったら、[有効にする] をクリックして API を再度有効にします。

タスク 2. Cloud Data Fusion インスタンスを作成する

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー)で、[すべてのプロダクトを表示] をクリックします。[アナリティクス] で [Data Fusion] をクリックします。

  2. セクションの上部にある [インスタンスの作成] リンクをクリックして、Cloud Data Fusion インスタンスを作成します。

  3. 読み込まれた [Data Fusion インスタンスの作成] ページで、次の操作を行います。

a. インスタンスの名前(例: cdf-lab-instance)を入力します。

b. [リージョン] で「us-central1」を選択します。

c. [エディション] で [Basic] を選択します。

d. [認可] セクションで、必要に応じて [権限を付与] をクリックします。

e. [詳細オプション] の横にあるプルダウン アイコンをクリックし、[高度なモニタリングとロギング] の下にある [Dataproc Cloud Logging] のチェックボックスをオンにします。

f. 他のフィールドはそのままにして、[作成] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion インスタンスを作成する

注: インスタンスの作成には 10 分ほどかかります。お待ちいただく間、Next '19 の Cloud Data Fusion に関するプレゼンテーション(15:31 から)をご覧ください。インスタンスが作成されたか、定期的に確認してください。動画の続きは、ラボの完了後に視聴できます。

注: このラボには時間制限があります。時間切れになると、作業内容が失われます。

次に、以下の手順に沿って、インスタンスに関連付けられているサービス アカウントに権限を付与します。

  1. インスタンス名をクリックします。[インスタンスの詳細] ページにある Dataproc サービス アカウントをクリップボードにコピーします。

[インスタンスの詳細] ページでハイライト表示されているサービス アカウント

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー)で、[IAM と管理] > [IAM] を選択します。

  2. [IAM 権限] ページで、[+アクセスを許可] をクリックします。

  3. [新しいプリンシパル] フィールドに Dataproc サービス アカウントを貼り付けます。

  4. [ロールを選択] フィールドをクリックし、「Cloud Data Fusion API サービス エージェント」と入力します。最初の数文字を入力すると [Cloud Data Fusion API サービス エージェント] が表示されるので、それを選択します。

  5. [保存] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion API サービス エージェントのロールをサービス アカウントに追加する

タスク 3. Cloud Data Fusion UI を操作する

Cloud Data Fusion を使用する際は、Cloud コンソールと別個の Cloud Data Fusion UI の両方を使用します。

  • Cloud コンソールで可能な作業は、Cloud Data Fusion インスタンスの作成と削除、および Cloud Data Fusion インスタンスの詳細の表示です。

  • Cloud Data Fusion ウェブ UI では、Pipeline StudioWrangler などのさまざまなページを使用して Cloud Data Fusion の機能を使用できます。

Cloud Data Fusion UI を操作するには、次の手順に従います。

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー)で、[すべてのプロダクトを表示] をクリックします。[アナリティクス] で [Data Fusion] をクリックします。

  2. Data Fusion インスタンスの横にある [インスタンスを表示] リンクをクリックします。ラボの認証情報を選択してログインし、必要に応じて [Google Service Control データの管理] の横にあるチェックボックスをオンにします。[続行] をクリックします。

ハイライト表示された [インスタンスを表示] リンク

  1. サービスのガイドに進むダイアログが表示された場合は [キャンセル] をクリックします。これで Cloud Data Fusion UI が表示されるようになります。

  2. Cloud Data Fusion ウェブ UI には固有のナビゲーション パネル(左側)があり、そこから必要なページに移動できます。

タスク 4. サンプル パイプラインをデプロイする

サンプル パイプラインは Cloud Data Fusion のハブに用意されています。このハブでは、再利用可能な Cloud Data Fusion パイプライン、プラグイン、ソリューションを共有できます。

  1. Cloud Data Fusion ウェブ UI で、右上にある [HUB] をクリックします。

ハイライト表示された [HUB] リンク

  1. 左側のパネルで [Pipelines] をクリックします。

  2. [Cloud Data Fusion Quickstart] パイプラインをクリックし、表示されたポップアップで [Create] をクリックします。

パイプラインのページでハイライト表示された [Cloud Data Fusion Quickstart] タイル

  1. [Cloud Data Fusion Quickstart] 構成パネルで [Finish] をクリックします。

  2. [Customize Pipeline] をクリックします。Pipeline Studio に、パイプラインの視覚的表現が表示されます。Pipeline Studio は、データ統合パイプライン開発用のグラフィカル インターフェースです。左側に使用可能なパイプライン プラグインが表示され、操作するパイプラインはメインのキャンバス領域に表示されます。パイプラインの各ノードの上にポインタを重ねて、表示される [Properties] ボタンをクリックすると、パイプラインの詳細を確認できます。各ノードの [Properties] メニューを使用して、そのノードに関連付けられているオブジェクトやオペレーションを表示できます。

注: パイプラインのノードは、順番に接続されて有向非巡回グラフを生成するオブジェクトです。たとえば、ソース、シンク、変換、アクションなどがあります。

パイプラインの視覚的表現を表示する Pipeline Studio

  1. 右上のメニューで [Deploy] をクリックします。これにより、パイプラインが Cloud Data Fusion に送信されます。次のセクションで、このパイプラインを実行します。

デプロイ アイコン

タスク 5. パイプラインを表示する

デプロイされたパイプラインがパイプラインの詳細ビューに表示されます。このビューでは、次の操作を行うことができます。

  • パイプラインの構造と構成を表示する。

  • 手動でパイプラインを実行するか、スケジュールやトリガーを設定する。

  • 実行時間、ログ、指標など、パイプラインの実行履歴の概要を表示する。

パイプラインの詳細ビュー

タスク 6. パイプラインを実行する

  1. パイプラインの詳細ビューで、上部中央の [Run] をクリックしてパイプラインを実行します。
注: パイプラインを実行すると、Cloud Data Fusion は一時的な Dataproc クラスタをプロビジョニングし、Apache Hadoop MapReduce または Apache Spark を使用してクラスタでパイプラインを実行します。実行が完了すると、クラスタは削除されます。パイプラインが Running 状態に移行したら、Dataproc クラスタの作成と削除をモニタリングできます。このクラスタは、パイプラインの実行中にのみ存在します。 注: パイプラインのステータスが失敗になった場合は、パイプラインを再実行してください。
  1. 数分後、パイプラインが完了します。パイプラインのステータスが Succeeded に変わり、各ノードで処理されたレコード数が表示されます。

実行が完了したパイプライン。ステータスは成功を示しており、各ノードで処理されたレコード数が表示されている。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 サンプル パイプラインをデプロイして実行する

タスク 7. 結果を見る

パイプラインは出力を BigQuery テーブルに書き込みます。次の手順で、この点を確認できます。

  1. このリンクをクリックして Cloud コンソールの BigQuery UI を開くか、コンソールのタブを右クリックして [タブを複製] を選択してから、ナビゲーション メニューナビゲーション メニュー)を使用して [BigQuery] を選択します。

  2. [従来のエクスプローラ] ペインで、プロジェクト IDqwiklabs で始まる ID)をクリックします。

  3. プロジェクトの GCPQuickstart データセットの下にある top_rated_inexpensive テーブルをクリックします。

  4. [+ SQL クエリ] をクリックし、以下のクエリを貼り付けて、[実行] をクリックします。

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10
  1. クエリが完了するまで待ちます。次のような結果が表示されます。

クエリ結果

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 結果を見る

お疲れさまでした

このラボでは、Data Fusion インスタンスを作成する方法と、Cloud Storage から入力ファイルを読み取り、データを変換およびフィルタリングして、データのサブセットを BigQuery に出力するサンプル パイプラインをデプロイする方法を学びました。

ラボを終了する

ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Skills から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックしてください。

星の数は、それぞれ次の評価を表します。

  • 星 1 つ = 非常に不満
  • 星 2 つ = 不満
  • 星 3 つ = どちらともいえない
  • 星 4 つ = 満足
  • 星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログ ボックスを閉じてください。

フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。

マニュアルの最終更新日: 2025 年 12 月 17 日

ラボの最終テスト日: 2025 年 12 月 17 日

Copyright 2026 Google LLC All rights reserved. Google および Google のロゴは、Google LLC の商標です。その他すべての社名および製品名は、それぞれ該当する企業の商標である可能性があります。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボを実行するには、シークレット モードまたはシークレット ブラウジング ウィンドウを使用することをおすすめします。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。