始める前に
- ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
- ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
- 画面左上の [ラボを開始] をクリックして開始します
Copy Java files to the Cloud
/ 5
Submit the Dataflow job to the Cloud
/ 5
このラボでは、Dataflow プロジェクトを開き、パイプライン フィルタリングを使用し、パイプラインをローカルとクラウド上で実行します。
Dataflow プロジェクトを開く
パイプラインのフィルタリング
パイプラインをローカルとクラウド上で実行する
このラボでは、シンプルな Dataflow パイプラインを記述し、ローカルとクラウド上の両方で実行する方法を学習します。
Apache Beam を使用して Python Dataflow プロジェクトを設定する
Python でシンプルなパイプラインを作成する
ローカルマシンでクエリを実行する
クラウドでクエリを実行する
各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。
Qwiklabs にシークレット ウィンドウでログインします。
ラボのアクセス時間(例: 1:15:00)に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
ラボの認証情報(ユーザー名とパスワード)をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。
Google Cloud で作業を開始する前に、Identity and Access Management(IAM)内で適切な権限がプロジェクトに付与されていることを確認する必要があります。
Google Cloud コンソールのナビゲーション メニュー()で、[IAM と管理] > [IAM] を選択します。
Compute Engine のデフォルトのサービス アカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーション メニュー > [Cloud の概要] > [ダッシュボード] から確認できます。
編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。729328892908)をコピーします。{project-number} はプロジェクト番号に置き換えてください。必要な API にアクセスできることを確認するには、Dataflow API への接続をリセットします。
Cloud Console の上部の検索バーに「Dataflow API」と入力します。
検索結果の「Dataflow API」をクリックします。
[管理] をクリックします。
[API を無効にする] をクリックします。
確認を求められたら、[無効にする] をクリックします。
[有効にする] をクリックします。
以後すべてのコードは、特定の整備済みトレーニング VM から実行します。
Cloud Console のナビゲーション メニュー()で、[Compute Engine] > [VM インスタンス] の順にクリックします。
training-vm という名前のインスタンスがある行を確認します。
右端の [接続] の下にある [SSH] をクリックしてターミナル ウィンドウを開きます。
このラボでは、training-vm 上で CLI コマンドを入力します。
このラボで使用するコード リポジトリをダウンロードします。training-vm の SSH ターミナルで次のように入力します。
次の手順に沿ってバケットを作成します。
Cloud Console のナビゲーション メニューで、[ホーム] をクリックします。
プロジェクト ID を選択してコピーします。
わかりやすいように、すでにグローバルに一意である Qwiklabs プロジェクト ID をバケット名として使用します。
| プロパティ | 値(値を入力するか、指定されたオプションを選択) |
|---|---|
| 名前 | <使用する一意のバケット名(プロジェクト ID)> |
| ロケーション タイプ | Multi-Region |
| ロケーション | <使用するロケーション> |
バケット名をメモしておきます。これは後のタスクで必要になります。
training-vm の SSH ターミナルで次のように入力して「BUCKET」という名前の環境変数を作成し、echo コマンドを使用してその変数が存在することを確認します。
ターミナル コマンドでは $BUCKET を使用できます。Console でテキスト フィールドにバケット名 <使用するバケット> を入力する必要がある場合は、echo $BUCKET を使って簡単にバケット名を取得できます。
このラボの目標は、Dataflow プロジェクトの構造を理解し、Dataflow パイプラインを実行する方法を学習することです。
/training-data-analyst/courses/data_analysis/lab2/python ディレクトリに移動して、grep.py ファイルを表示します。ファイルの表示には nano を使用します。コードは変更しないでください。Ctrl+X キーを押して nano を終了します。
ファイル grep.py に関する次の質問に回答してください。
パイプライン内には 3 つの変換があります。
変換で何が行われますか。
2 つ目の変換で何が行われますか。
入力元は何ですか。
この入力値に対し何が行われますか。
出力に書き込まれる内容は何ですか。
出力先はどこですか。
3 つ目の変換で何が行われますか。
training-vm の SSH ターミナルで、grep.py をローカルで実行します。
出力ファイルは output.txt です。出力サイズが大きければ、output-00000-of-00001 といった名前が付いた複数のファイルに分割されます。
ファイルの時刻から目的のファイルを見つけます。
出力ファイルを調べます。
以下の「-*」は該当するサフィックスに置き換えてください。
出力内容に問題がないかを確認します。
いくつかの Java ファイルをクラウドにコピーします。training-vm の SSH ターミナルで次のコマンドを入力します。
[進捗状況を確認] をクリックして進捗状況を確認します。
nano で grepc.py の Dataflow パイプラインを編集します。
編集前の文字列の例:
編集後の文字列の例(実際の値を使用してください):
ファイルを保存してから Ctrl+X キーを押して nano を閉じ、次に Y キーを押してから Enter キーを押します。
Dataflow ジョブをクラウドに送信します。
これは小さなジョブなので、クラウドで実行するほうがローカルで実行する場合よりもかなり長く(7~10 分ほど)時間がかかります。
Console のブラウザタブに戻ります。
ナビゲーション メニューで [Dataflow] をクリックし、今回のジョブをクリックして進行状況をモニタリングします。
例:
[進捗状況を確認] をクリックして進捗状況を確認します。
ジョブ ステータスが [完了] に変わるまで待ちます。
Cloud Storage バケットで出力を調べます。
ナビゲーション メニューで [Cloud Storage] > [ブラウザ] をクリックして、該当するバケットをクリックします。
javahelp ディレクトリをクリックします。
今回のジョブによってファイル output.txt が作成されます。ファイルのサイズが大きければ、output-0000x-of-000y といった名前が付いた複数のファイルに分割されます。最新のファイルは、名前または [最終更新] フィールドで特定できます。
または、training-vm の SSH ターミナルからファイルをダウンロードして表示することもできます。
ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Cloud Skills Boost から削除され、アカウントの情報も消去されます。
ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。
星の数は、それぞれ次の評価を表します。
フィードバックを送信しない場合は、ダイアログ ボックスを閉じてください。
フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。
Copyright 2026 Google LLC All rights reserved. Google および Google のロゴは、Google LLC の商標です。その他すべての社名および製品名は、それぞれ該当する企業の商標である可能性があります。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
1 回に 1 つのラボ
既存のラボをすべて終了して、このラボを開始することを確認してください