ラボの設定手順と要件

アカウントと進行状況を保護します。このラボを実行するには、常にシークレットブラウジングウィンドウとラボの認証情報を使用してください。

BigQuery ワークロードをモニタリングする

ラボ 1時間 universal_currency_alt クレジット: 5 show_chart 入門

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

概要
設定と要件
タスク 1. クエリ検証ツールを使用して、処理されるデータ量を推定する
タスク 2. SQL クエリを使用してスロットの使用状況を特定する
タスク 3. API 呼び出しを使用してスロットの使用状況を確認する
タスク 4. クエリのドライランを完了して、処理されるデータ量を見積もる
ラボを終了する

このコンテンツはまだモバイルデバイス向けに最適化されていません。

快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップパソコンでアクセスしてください。

概要

適切なインフラストラクチャを用意することなく大規模なデータセットを保存してクエリを実行すると、多大な時間と費用がかかってしまう可能性があります。BigQuery は、サーバーレスでフルマネージドのエンタープライズデータウェアハウスです。Google のインフラストラクチャの処理能力を活用して、高速かつ費用対効果の高いクエリを実現します。BigQuery では、ストレージリソースとコンピューティングリソースが分離されているため、組織のニーズや要件に応じて柔軟にデータを保存し、クエリを実行できます。

BigQuery では、Google Cloud コンソールの BigQuery クエリ検証ツール、bq コマンドラインツールのドライラン フラグ、Google Cloud 料金計算ツール、API とクライアントライブラリなど、さまざまなツールを使用してクエリのリソース使用量と費用を簡単に見積もることができます。

このラボでは、BigQuery のクエリ検証ツールと bq コマンドラインツールを使用して、クエリを実行する前に処理されるデータ量を推定します。また、SQL クエリと API を使用して、クエリが正常に実行された後のリソース使用量も特定します。

目標

このラボでは、次の方法について学びます。

BigQuery のクエリ検証ツールを使用して、クエリによって処理されるデータ量を推定する。
SQL クエリと API を使用して、実行されたクエリのスロット使用量を特定する。
クエリのドライランを実行して、クエリによって処理されるデータ量を推定する。

設定と要件

ラボの設定

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

シークレットウィンドウを使用して Google Skills にログインします。
ラボのアクセス時間（例: 1:15:00）に注意し、時間内に完了できるようにしてください。一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
ラボの認証情報（ユーザー名とパスワード）をメモしておきます。この情報は、Google Cloud コンソールにログインする際に使用します。
[Google コンソールを開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。他の認証情報を使用すると、エラーや料金が発生します。
利用規約に同意し、再設定用のリソースページをスキップします。

ラボを開始してコンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。左側のパネルには、このラボで使用する必要がある一時的な認証情報が表示されます。
ユーザー名をコピーし、[Google Console を開く] をクリックします。ラボでリソースが起動し、別のタブで [アカウントの選択] ページが表示されます。
注: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
[アカウントの選択] ページで [別のアカウントを使用] をクリックします。[ログイン] ページが開きます。
[接続の詳細] パネルでコピーしたユーザー名を貼り付けます。パスワードもコピーして貼り付けます。

注: 認証情報は [接続の詳細] パネルに表示されたものを使用してください。Google Skills の認証情報は使用しないでください。請求が発生する事態を避けるため、Google Cloud アカウントをお持ちの場合でも、このラボでは使用しないでください。

その後次のように進みます。

利用規約に同意します。
一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
無料トライアルには登録しないでください。

しばらくすると、このタブで Cloud コンソールが開きます。

注: 左上にある [ナビゲーションメニュー] をクリックすると、Google Cloud のプロダクトやサービスのリストが含まれるメニューが表示されます。 Cloud コンソールメニュー

Google Cloud Shell の有効化

Google Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホームディレクトリが用意されており、Google Cloud で稼働します。

Google Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。

Google Cloud コンソールで、右上のツールバーにある [Cloud Shell をアクティブにする] ボタンをクリックします。
[続行] をクリックします。

環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続した時点で認証が完了しており、プロジェクトに各自のプロジェクト ID が設定されます。次に例を示します。

Cloud Shell ターミナルでハイライト表示されたプロジェクト ID

gcloud は Google Cloud のコマンドラインツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。

次のコマンドを使用すると、有効なアカウント名を一覧表示できます。

gcloud auth list

出力:

Credentialed accounts: - @.com (active)

出力例:

Credentialed accounts: - google1623327_student@qwiklabs.net

次のコマンドを使用すると、プロジェクト ID を一覧表示できます。

gcloud config list project

出力:

[core] project =

出力例:

[core] project = qwiklabs-gcp-44776a13dea667a6

注: gcloud ドキュメントの全文については、 gcloud CLI の概要ガイドをご覧ください。

タスク 1. クエリ検証ツールを使用して、処理されるデータ量を推定する

Google Cloud コンソールでクエリを入力すると、BigQuery のクエリ検証ツールがクエリ構文を確認し、クエリによって処理されるバイト数を推定します。

このタスクでは、BigQuery 一般公開データセットプログラムによって管理されている一般公開データセット（New York Citi Bikes）をクエリします。このデータセットを使用して、クエリ検証ツールで SQL クエリを検証する方法と、クエリを実行する前にクエリによって処理されるデータ量を推定する方法を学びます。

Google Cloud コンソールのナビゲーションメニュー（）で、[分析] の [BigQuery] をクリックします。

[Cloud コンソールの BigQuery へようこそ] メッセージボックスが開きます。このメッセージボックスには、クイックスタートガイドとリリースノートへのリンクが表示されます。

[完了] をクリックします。
SQL ワークスペースのツールバーで、[エディタ] タブをクリックして SQL クエリエディタを開きます。

BigQuery クエリエディタに次のクエリを貼り付けます。ただし、クエリの実行はしないでください。

SELECT COUNT(*) FROM `bigquery-public-data.new_york_citibike.citibike_trips` WHERE start_station_name LIKE '%Broadway%';

このクエリを実行すると、citibike_trips テーブルの start_station_name 列に「Broadway」というテキストが含まれる駅名の数が返されます。

クエリエディタのツールバーにある丸いチェックアイコンは、クエリ検証ツールを起動してクエリが有効であることを確認するものです。

クエリエディタでコードを追加または変更すると、BigQuery がクエリ検証ツールを自動的に実行します。

クエリが有効か無効かに応じて、クエリエディタの上に緑色または赤色のチェックが表示されます。クエリが有効な場合は、クエリの実行を選択した場合に処理されるデータ量も検証ツールに表示されます。

クエリ検証ツールによると、このクエリを実行すると 1.06 GB が処理されます。

[実行] をクリックします。

このクエリは、start_station_name という名前の列に「Broadway」というテキストが含まれるレコードの数（5,414,611）を返します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。クエリによって処理されるデータ量を推定する

タスク 2. SQL クエリを使用してスロットの使用状況を特定する

BigQuery ではスロット（仮想 CPU）を使用して SQL クエリが実行され、クエリのサイズと複雑さに応じて、クエリに必要なスロット数が自動的に計算されます。Google Cloud コンソールでクエリを実行すると、その結果と、クエリの実行に使用されたリソース量の概要が表示されます。

このタスクでは、前のタスクで実行したクエリのジョブ ID を特定し、新しい SQL クエリで使用して、クエリジョブに関する追加情報を取得します。

[クエリ結果] で [ジョブ情報] タブをクリックします。

ジョブ ID の行を特定し、指定された値を使用してプロジェクト ID とジョブ ID を選択します。

たとえば、値 qwiklabs-gcp-01-5f4dee7a15a3:US.bquxjob_403a14df_185dd37737a は、プロジェクト ID で始まり、ジョブが実行されたロケーションが続き、ジョブ ID で終わります。:US. の構文は、ジョブが実行された場所を識別します。

プロジェクト ID は最初の部分 qwiklabs-gcp-01-5f4dee7a15a3（:US. の前）で、ジョブ ID は最後の部分 bquxjob_403a14df_185dd37737a（:US. の後）です。

注: 値全体をテキストエディタまたはドキュメントにコピーすると、プロジェクト ID とジョブ ID を選択しやすくなります。

クエリエディタで、次のクエリをコピーして貼り付けます。ここで、'YOUR_ID' はジョブ ID（'bquxjob_403a14df_185dd37737a' など）に置き換えます。

SELECT query, reservation_id, CONCAT('*****@',REGEXP_EXTRACT(user_email,r'@(.+)')) AS user_email, total_bytes_processed, total_slot_ms, job_stages FROM `region-us`.INFORMATION_SCHEMA.JOBS_BY_PROJECT WHERE job_id = 'YOUR_ID';

このクエリを実行すると、Citi Bikes 一般公開データセットで以前に実行されたクエリジョブのスロット使用量が返されます。

[実行] をクリックします。

このクエリの出力には、クエリステージと各ステージに関連付けられたスロット使用率を示すテーブルが表示されます。

クエリの個々のタスクは 1 つのスロットで実行されるため、job_stages.completed_parallel_inputs という名前の列の値の合計は、クエリの実行に使用されたスロットの合計数です。

ただし、1 つのスロットを割り当てた最初のタスクを完了すると、別のタスクを完了するためにスロットを再割り当てできます。

そのため、クエリの実行に使用された合計スロット時間（total_slot_ms という名前の列に表示される値）を把握することも重要です。具体的には、クエリジョブ全体とクエリの各ステージのスロット時間がミリ秒単位（ms）で提供されます。これは、そのステージの完了に使用されたスロット時間の量を示します。

たとえば、クエリが 150 個のタスクを完了しても、各タスクの実行が速い場合、クエリは実際には 150 スロットではなく 100 スロットなどの少ない数のスロットを使用することがあります。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 SQL クエリを使用してスロットの使用状況を特定する

タスク 3. API 呼び出しを使用してスロットの使用状況を確認する

API を使用して、特定のクエリジョブに関する情報を取得することもできます。BigQuery では、サーバーにリクエストを送信して API を直接使用するか、C#、Go、Java、Node.js、PHP、Python、Ruby などの任意の言語でクライアントライブラリを使用できます。

このタスクでは、Google APIs Explorer を使用して BigQuery API をテストし、前のタスクで実行したクエリのスロット使用量を取得します。

新しいシークレットブラウザタブで、jobs.get メソッドの BigQuery API ページに移動します。
[Try this method] ウィンドウで、前のタスクで特定したプロジェクト ID とジョブ ID を入力します。

たとえば、先述の値ではプロジェクト ID は qwiklabs-gcp-01-5f4dee7a15a3、ジョブ ID は bquxjob_403a14df_185dd37737a です。

[Execute] をクリックします。

ログインの確認を求められたら、前のタスクで Google Cloud にログインするために使用した受講者のユーザー名（）を選択します。

各ステージとクエリジョブ全体の API レスポンスを確認します。

最初のステージの完了した並列入力の値を確認するには、[statistics] > [query] > [queryPlan] > [name: S00] > [completedParallelInputs] までスクロールします。

クエリジョブ全体で使用された合計スロット数を確認するには、結果の最後までスクロールして、totalSlotMs の値を確認します。

タスク 4. クエリのドライランを完了して、処理されるデータ量を見積もる

bq コマンドラインツールでは、--dry_run フラグを使用して、クエリを実行する前にクエリで読み取られるバイト数を見積もることができます。また、API やクライアントライブラリを使用してクエリジョブを送信する場合は、dryRun パラメータを使用できます。クエリのドライランはクエリスロットを使用しないため、ドライランの実行に対しては課金されません。

このタスクでは、Cloud Shell の bq コマンドラインツールを使用して、クエリのドライランを完了する方法を学習します。

Cloud Shell で、次のコマンドを実行します。

bq query \ --use_legacy_sql=false \ --dry_run \ 'SELECT COUNT(*) FROM `bigquery-public-data`.new_york_citibike.citibike_trips WHERE start_station_name LIKE "%Lexington%"'

出力には、クエリを実行して結果を取得する前にクエリで処理されると推定されるバイト数が表示されます。

Query successfully validated. Assuming the tables are not modified, running this query will process 1135353688 bytes of data.

クエリでどの程度のバイト数が処理されるかがわかり、ワークフローの次のステップを決定するために必要な情報が得られました。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。クエリのドライランを完了する

ラボを終了する

ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Skills から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。

星の数は、それぞれ次の評価を表します。

星 1 つ = 非常に不満
星 2 つ = 不満
星 3 つ = どちらともいえない
星 4 つ = 満足
星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログボックスを閉じてください。

フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。

BigQuery ワークロードをモニタリングする

概要

目標

設定と要件

ラボの設定

ラボを開始してコンソールにログインする方法

Google Cloud Shell の有効化

タスク 1. クエリ検証ツールを使用して、処理されるデータ量を推定する

タスク 2. SQL クエリを使用してスロットの使用状況を特定する

タスク 3. API 呼び出しを使用してスロットの使用状況を確認する

タスク 4. クエリのドライランを完了して、処理されるデータ量を見積もる

ラボを終了する

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する