始める前に
- ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
- ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
- 画面左上の [ラボを開始] をクリックして開始します
BigQuery は、Google が提供する低コストで NoOps のフルマネージド分析データベースで、インフラストラクチャを所有して管理したり、データベース管理者を置いたりすることなく、テラバイト単位の大規模なデータでクエリを実行できます。また、SQL が採用されており、従量課金制というメリットもあります。そのため、BigQuery を使用すると、有用な情報を得るためのデータ分析に専念することができます。
ここで使用するのは、Google Merchandise Store に関する数百万件の Google アナリティクス レコードで構成される ecommerce データセットで、すでに BigQuery に読み込まれています。ラボではこのデータセットのコピーを使用して、利用可能なフィールドや行からどのような分析情報が得られるかを確認します。
このラボでは、パーティション分割されたデータセットに対してクエリを実行するほか、クエリのパフォーマンスを高めてコストを削減するために独自のデータセット パーティションを作成します。
各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。
Qwiklabs にシークレット ウィンドウでログインします。
ラボのアクセス時間(例: 1:15:00)に注意し、時間内に完了できるようにしてください。
一時停止機能はありません。必要な場合はやり直せますが、最初からになります。
準備ができたら、[ラボを開始] をクリックします。
ラボの認証情報(ユーザー名とパスワード)をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。
[Google Console を開く] をクリックします。
[別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。
利用規約に同意し、再設定用のリソースページをスキップします。
[Cloud Console の BigQuery へようこそ] メッセージ ボックスが開きます。このメッセージ ボックスにはクイックスタート ガイドへのリンクと、UI の更新情報が表示されます。
まず、テーブルを保存するためのデータセットを作成します。
[データセット ID] に「ecommerce」と入力します。その他のオプションはデフォルト値のままにします([データのロケーション]、[デフォルトのテーブルの有効期限])。
[データセットを作成] をクリックします。
パーティション分割テーブルは、パーティションと呼ばれるセグメントに分割されたテーブルで、使用するとデータの管理やクエリが容易になります。大きなテーブルを小さなパーティションに分割することで、クエリのパフォーマンスを高めたり、クエリが読み取るバイト数を減らしてコストを抑えたりすることができます。
ここでは、新しいテーブルを作成し、日付またはタイムスタンプの列をパーティションとしてバインドします。その前に、まずはパーティション分割されていないテーブルのデータを調べてみましょう。
このクエリでは 5 件の結果が返されます。
次に、このクエリを変更して 2018 年の訪問者を調べてみましょう。
クエリで処理されるデータの量が [クエリ結果] に表示されます。
返される結果が 0 件でも、1.74 GB のデータが処理されています。これは、クエリエンジンがデータセット内のすべてのレコードをスキャンして、WHERE 句の日付の条件と一致しているかどうかを確認する必要があるからです。ここでは、レコードのそれぞれの日付を「20180708」という条件と照合しなければなりません。
なお、よくある誤解ですが、LIMIT 5 を追加しても処理される合計データ量が減ることはありません。
行を WHERE 条件と照合するために毎回データセット全体をスキャンするのは、無駄の多い作業です。以下のように、特定の期間のレコードのみを対象とする場合は特に当てはまります。
今度は、前のクエリのようにデータセット全体をスキャンして date フィールドでフィルタする代わりに、日付パーティション分割テーブルを作成します。これにより、クエリに関係のないパーティションのレコードはスキャンする必要がなくなります。
このクエリには、PARTITION BY <フィールド> という新しいオプションがあります。パーティション分割に使用できるオプションは DATE と TIMESTAMP の 2 つです。ここでは、文字列として保存されている date フィールドをパーティショニングに適した DATE 型に変換するために、PARSE_DATE 関数を使用しています。
ecommerce データセットをクリックし、新しい partiton_by_day テーブルを選択します。
[詳細] タブをクリックします。
[テーブル情報] セクションに次の内容が表示されていることを確認します。
処理されるバイト数が最大で 25 KB(0.025 MB)になりました。これは、前のクエリに比べるとごくわずかです。
「このクエリを実行すると、0 B が処理されます。」と表示されます。
処理されるのが 0 バイトになるのはなぜでしょうか。
自動的に期限切れになるパーティション分割テーブルは、データ プライバシーに関する法令を遵守するために使用します。また、ストレージの不要な浪費を防ぐためにも役立ちます(本番環境ではコストの節約になります)。データのローリング ウィンドウを作成する場合は、使い終わったパーティションが消去されるように有効期限を追加します。
左側のパネルで [+ 追加] をクリックし、[公開データセット] を選択します。
「GSOD NOAA」を検索し、該当するデータセットを選択します。
[データセットを表示] をクリックします。
noaa_gsod データセットのテーブルのリストをスクロールします(手動でシャーディングされていて、パーティション分割されていません)。
次に、以下のクエリをコピーして [無題のクエリ] に貼り付けます。
TABLE_SUFFIX フィルタで参照されるテーブルの数を制限するために、FROM 句でテーブル ワイルドカード(*)が使用されています。
LIMIT 10 が追加されているものの、まだパーティションがないため、スキャンされる合計データ量(約 141.6 MB)は減りません。
[実行] をクリックします。
日付の形式が正しいことと、precipitation フィールドの値が 0 でないことを確認します。
前のクエリを変更してテーブルを作成します。次のように指定してください。
クエリは次のようになります。
過去60 日間のデータのみが保存されていることを確認するために、60 日後に期限切れになるように設定されているパーティションの経過日数を DATE_DIFF クエリを実行して取得します。
以下のクエリでは、非常に降水量の多い和歌山県にある NOAA の気象観測所の平均降水量を追跡します。
ORDER BY 句を更新して、パーティションを古い順に表示します。日付は表示されているとおりです。
BigQuery でパーティション分割テーブルを作成してクエリを実行しました。
ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Cloud Skills Boost から削除され、アカウントの情報も消去されます。
ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。
星の数は、それぞれ次の評価を表します。
フィードバックを送信しない場合は、ダイアログ ボックスを閉じてください。
フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。
Copyright 2020 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
1 回に 1 つのラボ
既存のラボをすべて終了して、このラボを開始することを確認してください