ラボの設定手順と要件

アカウントと進行状況を保護します。このラボを実行するには、常にシークレットブラウジングウィンドウとラボの認証情報を使用してください。

Serverless Data Analysis with Dataflow: シンプルな Dataflow パイプライン（Python）

ラボ 1時間 30分 universal_currency_alt クレジット: 5 show_chart 上級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

概要
目的
設定
タスク 1. Dataflow API が有効になっていることを確認する
タスク 2. 準備
タスク 3. パイプラインのフィルタリング
タスク 4. パイプラインをローカルで実行する
タスク 5. パイプラインをクラウド上で実行する
ラボを終了する

このコンテンツはまだモバイルデバイス向けに最適化されていません。

快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップパソコンでアクセスしてください。

概要

このラボでは、Dataflow プロジェクトを開き、パイプラインフィルタリングを使用し、パイプラインをローカルとクラウド上で実行します。

Dataflow プロジェクトを開く
パイプラインのフィルタリング
パイプラインをローカルとクラウド上で実行する

目的

このラボでは、シンプルな Dataflow パイプラインを記述し、ローカルとクラウド上の両方で実行する方法を学習します。

Apache Beam を使用して Python Dataflow プロジェクトを設定する
Python でシンプルなパイプラインを作成する
ローカルマシンでクエリを実行する
クラウドでクエリを実行する

設定

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

Qwiklabs にシークレットウィンドウでログインします。
ラボのアクセス時間（例: 1:15:00）に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
ラボの認証情報（ユーザー名とパスワード）をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。

プロジェクトの権限を確認する

Google Cloud で作業を開始する前に、Identity and Access Management（IAM）内で適切な権限がプロジェクトに付与されていることを確認する必要があります。

Google Cloud コンソールのナビゲーションメニュー（）で、[IAM と管理] > [IAM] を選択します。
Compute Engine のデフォルトのサービスアカウント {project-number}-compute@developer.gserviceaccount.com が存在し、編集者のロールが割り当てられていることを確認します。アカウントの接頭辞はプロジェクト番号で、ナビゲーションメニュー > [Cloud の概要] > [ダッシュボード] から確認できます。

Compute Engine のデフォルトのサービスアカウント名と編集者のステータスがハイライト表示された [権限] タブページ

注: アカウントが IAM に存在しない場合やアカウントに編集者のロールがない場合は、以下の手順に沿って必要なロールを割り当てます。

Google Cloud コンソールのナビゲーションメニューで、[Cloud の概要] > [ダッシュボード] をクリックします。
プロジェクト番号（例: 729328892908）をコピーします。
ナビゲーションメニューで、[IAM と管理] > [IAM] を選択します。
ロールの表の上部で、[プリンシパル別に表示] の下にある [アクセスを許可] をクリックします。
[新しいプリンシパル] に次のように入力します。

{project-number}-compute@developer.gserviceaccount.com

{project-number} はプロジェクト番号に置き換えてください。
[ロール] で、[Project]（または [基本]）> [編集者] を選択します。
[保存] をクリックします。

タスク 1. Dataflow API が有効になっていることを確認する

必要な API にアクセスできることを確認するには、Dataflow API への接続をリセットします。

Cloud Console の上部の検索バーに「Dataflow API」と入力します。
検索結果の「Dataflow API」をクリックします。
[管理] をクリックします。
[API を無効にする] をクリックします。
確認を求められたら、[無効にする] をクリックします。
[有効にする] をクリックします。

タスク 2. 準備

SSH ターミナルを開いてトレーニング用 VM に接続する

以後すべてのコードは、特定の整備済みトレーニング VM から実行します。

Cloud Console のナビゲーションメニュー（）で、[Compute Engine] > [VM インスタンス] の順にクリックします。
training-vm という名前のインスタンスがある行を確認します。
右端の [接続] の下にある [SSH] をクリックしてターミナルウィンドウを開きます。
このラボでは、training-vm 上で CLI コマンドを入力します。

コードリポジトリをダウンロードする

このラボで使用するコードリポジトリをダウンロードします。training-vm の SSH ターミナルで次のように入力します。

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Cloud Storage バケットを作成する

次の手順に沿ってバケットを作成します。

Cloud Console のナビゲーションメニューで、[ホーム] をクリックします。
プロジェクト ID を選択してコピーします。

わかりやすいように、すでにグローバルに一意である Qwiklabs プロジェクト ID をバケット名として使用します。

Cloud Console のナビゲーションメニューで、[Cloud Storage] > [ブラウザ] の順にクリックします。
[バケットを作成] をクリックします。
次のように指定し、残りの設定はデフォルトのままにします。

プロパティ	値（値を入力するか、指定されたオプションを選択）
名前	`<使用する一意のバケット名（プロジェクト ID）>`
ロケーションタイプ	`Multi-Region`
ロケーション	`<使用するロケーション>`

[作成] をクリックします。

バケット名をメモしておきます。これは後のタスクで必要になります。

training-vm の SSH ターミナルで次のように入力して「BUCKET」という名前の環境変数を作成し、echo コマンドを使用してその変数が存在することを確認します。

BUCKET="<使用する一意のバケット名（プロジェクト ID）>" echo $BUCKET

ターミナルコマンドでは $BUCKET を使用できます。Console でテキストフィールドにバケット名 <使用するバケット> を入力する必要がある場合は、echo $BUCKET を使って簡単にバケット名を取得できます。

タスク 3. パイプラインのフィルタリング

このラボの目標は、Dataflow プロジェクトの構造を理解し、Dataflow パイプラインを実行する方法を学習することです。

training-vm の SSH ターミナルに戻り、/training-data-analyst/courses/data_analysis/lab2/python ディレクトリに移動して、grep.py ファイルを表示します。

ファイルの表示には nano を使用します。コードは変更しないでください。Ctrl+X キーを押して nano を終了します。

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

ファイル grep.py に関する次の質問に回答してください。

読み込まれているファイルは何ですか。
検索キーワードは何ですか。
どこに出力されますか。

パイプライン内には 3 つの変換があります。

変換で何が行われますか。
2 つ目の変換で何が行われますか。
入力元は何ですか。
この入力値に対し何が行われますか。
出力に書き込まれる内容は何ですか。
出力先はどこですか。
3 つ目の変換で何が行われますか。

タスク 4. パイプラインをローカルで実行する

training-vm の SSH ターミナルで、grep.py をローカルで実行します。

python3 grep.py

出力ファイルは output.txt です。出力サイズが大きければ、output-00000-of-00001 といった名前が付いた複数のファイルに分割されます。

ファイルの時刻から目的のファイルを見つけます。

ls -al /tmp

出力ファイルを調べます。
以下の「-*」は該当するサフィックスに置き換えてください。

cat /tmp/output-*

出力内容に問題がないかを確認します。

タスク 5. パイプラインをクラウド上で実行する

いくつかの Java ファイルをクラウドにコピーします。training-vm の SSH ターミナルで次のコマンドを入力します。

gsutil cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

[進捗状況を確認] をクリックして進捗状況を確認します。

Java ファイルをクラウドにコピーする

nano で grepc.py の Dataflow パイプラインを編集します。

nano grepc.py

PROJECT と BUCKET をそれぞれ実際のプロジェクト ID とバケット名に置き換えます。

編集前の文字列の例:

PROJECT='cloud-training-demos' BUCKET='cloud-training-demos'

編集後の文字列の例（実際の値を使用してください）:

PROJECT='qwiklabs-gcp-your-value' BUCKET='qwiklabs-gcp-your-value'

ファイルを保存してから Ctrl+X キーを押して nano を閉じ、次に Y キーを押してから Enter キーを押します。

Dataflow ジョブをクラウドに送信します。

python3 grepc.py

注: 「WARNING:root:Make sure that locally built Python SDK docker image has Python 3.7 interpreter.」というメッセージは無視してかまいません。Dataflow のジョブが正常に開始されます。

これは小さなジョブなので、クラウドで実行するほうがローカルで実行する場合よりもかなり長く（7～10 分ほど）時間がかかります。

Console のブラウザタブに戻ります。
ナビゲーションメニューで [Dataflow] をクリックし、今回のジョブをクリックして進行状況をモニタリングします。

例:

Dataflow ジョブの詳細

[進捗状況を確認] をクリックして進捗状況を確認します。

Dataflow ジョブをクラウドに送信する

ジョブステータスが [完了] に変わるまで待ちます。
Cloud Storage バケットで出力を調べます。
ナビゲーションメニューで [Cloud Storage] > [ブラウザ] をクリックして、該当するバケットをクリックします。
javahelp ディレクトリをクリックします。

今回のジョブによってファイル output.txt が作成されます。ファイルのサイズが大きければ、output-0000x-of-000y といった名前が付いた複数のファイルに分割されます。最新のファイルは、名前または [最終更新] フィールドで特定できます。

そのファイルをクリックして表示します。

または、training-vm の SSH ターミナルからファイルをダウンロードして表示することもできます。

gsutil cp gs://$BUCKET/javahelp/output* . cat output*

ラボを終了する

ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Cloud Skills Boost から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。

星の数は、それぞれ次の評価を表します。

星 1 つ = 非常に不満
星 2 つ = 不満
星 3 つ = どちらともいえない
星 4 つ = 満足
星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログボックスを閉じてください。

フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。

Serverless Data Analysis with Dataflow: シンプルな Dataflow パイプライン（Python）

概要

目的

設定

プロジェクトの権限を確認する

タスク 1. Dataflow API が有効になっていることを確認する

タスク 2. 準備

SSH ターミナルを開いてトレーニング用 VM に接続する

コード リポジトリをダウンロードする

Cloud Storage バケットを作成する

タスク 3. パイプラインのフィルタリング

タスク 4. パイプラインをローカルで実行する

タスク 5. パイプラインをクラウド上で実行する

ラボを終了する

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

コードリポジトリをダウンロードする

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する