ラボの設定手順と要件

アカウントと進行状況を保護します。このラボを実行するには、常にシークレットブラウジングウィンドウとラボの認証情報を使用してください。

Cloud Data Fusion スタートガイド

ラボ 1時間 30分 universal_currency_alt クレジット: 5 show_chart 入門

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

概要
設定
タスク 1. Cloud Data Fusion API を有効にする
タスク 2. Cloud Data Fusion インスタンスを作成する
タスク 3. Cloud Data Fusion UI を操作する
タスク 4. サンプルパイプラインをデプロイする
タスク 5. パイプラインを表示する
タスク 6. パイプラインを実行する
タスク 7. 結果を見る
お疲れさまでした
ラボを終了する

このコンテンツはまだモバイルデバイス向けに最適化されていません。

快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップパソコンでアクセスしてください。

Google Cloud セルフペースラボのロゴ

概要

このラボでは、Data Fusion インスタンスを作成し、提供されているサンプルパイプラインをデプロイする方法を学びます。このパイプラインは、NYT のベストセラーデータを含む JSON ファイルを Cloud Storage から読み取ります。その後、ファイルに対して変換を実行し、データの解析とクリーニングを行います。最後に、レコードのサブセットを BigQuery に読み込みます。

目標

このラボでは、次の方法について学びます。

Data Fusion インスタンスを作成する
JSON ファイルでいくつかの変換を実行し、一致する結果をフィルタリングして BigQuery に取り込むサンプルパイプラインをデプロイする

設定

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

シークレットウィンドウを使用して Google Skills にログインします。
ラボのアクセス時間（例: 1:15:00）に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
ラボの認証情報（ユーザー名とパスワード）をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。

Google Cloud コンソールにログインする

このラボセッションで使用しているブラウザタブまたはウィンドウで、[接続の詳細] パネルからユーザー名をコピーし、[Google Console を開く] ボタンをクリックします。

注: アカウントの選択を求められたら、[別のアカウントを使用] をクリックします。

ユーザー名を貼り付け、プロンプトが表示されたらパスワードを入力します。
[次へ] をクリックします。
利用規約に同意します。

これは、このラボの間だけ有効な一時的なアカウントです。以下の点に注意してください。

復元オプションを追加しないでください。
無料トライアルに登録しないでください。

コンソールが開いたら、左上のナビゲーションメニュー（）をクリックしてサービスのリストを確認します。

ナビゲーションメニュー

Cloud Shell をアクティブにする

Cloud Shell は、開発ツールが組み込まれた仮想マシンです。5 GB の永続ホームディレクトリを提供し、Google Cloud 上で実行されます。Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。gcloud は Google Cloud のコマンドラインツールで、Cloud Shell にプリインストールされており、Tab キーによる入力補完がサポートされています。

Google Cloud Console のナビゲーションパネルで、「Cloud Shell をアクティブにする」アイコン（）をクリックします。
[次へ] をクリックします。
環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続の際に認証も行われ、プロジェクトは現在のプロジェクト ID に設定されます。次に例を示します。

Cloud Shell ターミナル

サンプルコマンド

有効なアカウント名前を一覧表示する:

gcloud auth list

（出力）

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

（出力例）

Credentialed accounts: - google1623327_student@qwiklabs.net

プロジェクト ID を一覧表示する:

gcloud config list project

（出力）

[core] project = <プロジェクト ID>

（出力例）

[core] project = qwiklabs-gcp-44776a13dea667a6

gcloud のドキュメントの全文については、gcloud コマンドラインツールの概要をご覧ください。

プロジェクトの権限を確認する

Google Cloud で作業を開始する前に、Identity and Access Management（IAM）内で適切な権限がプロジェクトに付与されていることを確認する必要があります。

Google Cloud コンソールのナビゲーションメニュー（）で、[IAM と管理] > [IAM] をクリックします。
Compute Engine のデフォルトのサービスアカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーションメニュー > [Cloud の概要] から確認できます。

デフォルトのコンピューティングサービスアカウント

アカウントが IAM に存在しない場合やアカウントに編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。

Google Cloud コンソールのナビゲーションメニューで、[Cloud の概要] をクリックします。
[プロジェクト情報] カードからプロジェクト番号をコピーします。
ナビゲーションメニューで、[IAM と管理] > [IAM] をクリックします。
IAM ページの上部にある [追加] をクリックします。
新しいプリンシパルの場合は、次のように入力します。

{project-number}-compute@developer.gserviceaccount.com

{project-number} はプロジェクト番号に置き換えてください。

[ロールを選択] で、[基本]（または [Project]）> [編集者] を選択します。
[保存] をクリックします。

タスク 1. Cloud Data Fusion API を有効にする

Cloud コンソールのナビゲーションメニュー（）で、[API とサービス] > [ライブラリ] を選択します。
検索ボックスに「Data fusion」と入力して Cloud Data Fusion API を検索し、そのハイパーリンクをクリックします。
API はすでに有効になっているため、[管理]、[API を無効にする] の順にクリックします。無効にすることを確認します。
API が無効になったら、[有効にする] をクリックして API を再度有効にします。

タスク 2. Cloud Data Fusion インスタンスを作成する

Google Cloud コンソールのナビゲーションメニュー（）で、[すべてのプロダクトを表示] をクリックします。[アナリティクス] で [Data Fusion] をクリックします。
セクションの上部にある [インスタンスの作成] リンクをクリックして、Cloud Data Fusion インスタンスを作成します。
読み込まれた [Data Fusion インスタンスの作成] ページで、次の操作を行います。

a. インスタンスの名前（例: cdf-lab-instance）を入力します。

b. [リージョン] で「us-central1」を選択します。

c. [エディション] で [Basic] を選択します。

d. [認可] セクションで、必要に応じて [権限を付与] をクリックします。

e. [詳細オプション] の横にあるプルダウンアイコンをクリックし、[高度なモニタリングとロギング] の下にある [Dataproc Cloud Logging] のチェックボックスをオンにします。

f. 他のフィールドはそのままにして、[作成] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion インスタンスを作成する

注: インスタンスの作成には 10 分ほどかかります。お待ちいただく間、Next '19 の Cloud Data Fusion に関するプレゼンテーション（15:31 から）をご覧ください。インスタンスが作成されたか、定期的に確認してください。動画の続きは、ラボの完了後に視聴できます。

注: このラボには時間制限があります。時間切れになると、作業内容が失われます。

次に、以下の手順に沿って、インスタンスに関連付けられているサービスアカウントに権限を付与します。

インスタンス名をクリックします。[インスタンスの詳細] ページにある Dataproc サービスアカウントをクリップボードにコピーします。

[インスタンスの詳細] ページでハイライト表示されているサービスアカウント

Google Cloud コンソールのナビゲーションメニュー（）で、[IAM と管理] > [IAM] を選択します。
[IAM 権限] ページで、[+アクセスを許可] をクリックします。
[新しいプリンシパル] フィールドに Dataproc サービスアカウントを貼り付けます。
[ロールを選択] フィールドをクリックし、「Cloud Data Fusion API サービスエージェント」と入力します。最初の数文字を入力すると [Cloud Data Fusion API サービスエージェント] が表示されるので、それを選択します。
[保存] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Cloud Data Fusion API サービスエージェントのロールをサービスアカウントに追加する

タスク 3. Cloud Data Fusion UI を操作する

Cloud Data Fusion を使用する際は、Cloud コンソールと別個の Cloud Data Fusion UI の両方を使用します。

Cloud コンソールで可能な作業は、Cloud Data Fusion インスタンスの作成と削除、および Cloud Data Fusion インスタンスの詳細の表示です。
Cloud Data Fusion ウェブ UI では、Pipeline Studio や Wrangler などのさまざまなページを使用して Cloud Data Fusion の機能を使用できます。

Cloud Data Fusion UI を操作するには、次の手順に従います。

Google Cloud コンソールのナビゲーションメニュー（）で、[すべてのプロダクトを表示] をクリックします。[アナリティクス] で [Data Fusion] をクリックします。
Data Fusion インスタンスの横にある [インスタンスを表示] リンクをクリックします。ラボの認証情報を選択してログインし、必要に応じて [Google Service Control データの管理] の横にあるチェックボックスをオンにします。[続行] をクリックします。

ハイライト表示された [インスタンスを表示] リンク

サービスのガイドに進むダイアログが表示された場合は [キャンセル] をクリックします。これで Cloud Data Fusion UI が表示されるようになります。
Cloud Data Fusion ウェブ UI には固有のナビゲーションパネル（左側）があり、そこから必要なページに移動できます。

タスク 4. サンプルパイプラインをデプロイする

サンプルパイプラインは Cloud Data Fusion のハブに用意されています。このハブでは、再利用可能な Cloud Data Fusion パイプライン、プラグイン、ソリューションを共有できます。

Cloud Data Fusion ウェブ UI で、右上にある [HUB] をクリックします。

ハイライト表示された [HUB] リンク

左側のパネルで [Pipelines] をクリックします。
[Cloud Data Fusion Quickstart] パイプラインをクリックし、表示されたポップアップで [Create] をクリックします。

パイプラインのページでハイライト表示された [Cloud Data Fusion Quickstart] タイル

[Cloud Data Fusion Quickstart] 構成パネルで [Finish] をクリックします。
[Customize Pipeline] をクリックします。Pipeline Studio に、パイプラインの視覚的表現が表示されます。Pipeline Studio は、データ統合パイプライン開発用のグラフィカルインターフェースです。左側に使用可能なパイプラインプラグインが表示され、操作するパイプラインはメインのキャンバス領域に表示されます。パイプラインの各ノードの上にポインタを重ねて、表示される [Properties] ボタンをクリックすると、パイプラインの詳細を確認できます。各ノードの [Properties] メニューを使用して、そのノードに関連付けられているオブジェクトやオペレーションを表示できます。

注: パイプラインのノードは、順番に接続されて有向非巡回グラフを生成するオブジェクトです。たとえば、ソース、シンク、変換、アクションなどがあります。

パイプラインの視覚的表現を表示する Pipeline Studio

右上のメニューで [Deploy] をクリックします。これにより、パイプラインが Cloud Data Fusion に送信されます。次のセクションで、このパイプラインを実行します。

デプロイアイコン

タスク 5. パイプラインを表示する

デプロイされたパイプラインがパイプラインの詳細ビューに表示されます。このビューでは、次の操作を行うことができます。

パイプラインの構造と構成を表示する。
手動でパイプラインを実行するか、スケジュールやトリガーを設定する。
実行時間、ログ、指標など、パイプラインの実行履歴の概要を表示する。

パイプラインの詳細ビュー

タスク 6. パイプラインを実行する

パイプラインの詳細ビューで、上部中央の [Run] をクリックしてパイプラインを実行します。

注: パイプラインを実行すると、Cloud Data Fusion は一時的な Dataproc クラスタをプロビジョニングし、Apache Hadoop MapReduce または Apache Spark を使用してクラスタでパイプラインを実行します。実行が完了すると、クラスタは削除されます。パイプラインが Running 状態に移行したら、Dataproc クラスタの作成と削除をモニタリングできます。このクラスタは、パイプラインの実行中にのみ存在します。

注: パイプラインのステータスが失敗になった場合は、パイプラインを再実行してください。

数分後、パイプラインが完了します。パイプラインのステータスが Succeeded に変わり、各ノードで処理されたレコード数が表示されます。

実行が完了したパイプライン。ステータスは成功を示しており、各ノードで処理されたレコード数が表示されている。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。サンプルパイプラインをデプロイして実行する

タスク 7. 結果を見る

パイプラインは出力を BigQuery テーブルに書き込みます。次の手順で、この点を確認できます。

このリンクをクリックして Cloud コンソールの BigQuery UI を開くか、コンソールのタブを右クリックして [タブを複製] を選択してから、ナビゲーションメニュー（）を使用して [BigQuery] を選択します。
[従来のエクスプローラ] ペインで、プロジェクト ID（qwiklabs で始まる ID）をクリックします。
プロジェクトの GCPQuickstart データセットの下にある top_rated_inexpensive テーブルをクリックします。
[+ SQL クエリ] をクリックし、以下のクエリを貼り付けて、[実行] をクリックします。

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10

クエリが完了するまで待ちます。次のような結果が表示されます。

クエリ結果

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。結果を見る

お疲れさまでした

このラボでは、Data Fusion インスタンスを作成する方法と、Cloud Storage から入力ファイルを読み取り、データを変換およびフィルタリングして、データのサブセットを BigQuery に出力するサンプルパイプラインをデプロイする方法を学びました。

ラボを終了する

ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Skills から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックしてください。

星の数は、それぞれ次の評価を表します。

星 1 つ = 非常に不満
星 2 つ = 不満
星 3 つ = どちらともいえない
星 4 つ = 満足
星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログボックスを閉じてください。

フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。

マニュアルの最終更新日: 2025 年 12 月 17 日

ラボの最終テスト日: 2025 年 12 月 17 日

Cloud Data Fusion スタートガイド

概要

目標

設定

Google Cloud コンソールにログインする

Cloud Shell をアクティブにする

サンプル コマンド

プロジェクトの権限を確認する

タスク 1. Cloud Data Fusion API を有効にする

タスク 2. Cloud Data Fusion インスタンスを作成する

タスク 3. Cloud Data Fusion UI を操作する

タスク 4. サンプル パイプラインをデプロイする

タスク 5. パイプラインを表示する

タスク 6. パイプラインを実行する

タスク 7. 結果を見る

お疲れさまでした

ラボを終了する

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

サンプルコマンド

タスク 4. サンプルパイプラインをデプロイする

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する