始める前に
- ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
- ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
- 画面左上の [ラボを開始] をクリックして開始します
Create a connection to Cloud Storage
/ 40
Create and load the Iceberg table in Cloud Storage with BigQuery
/ 30
Query the Iceberg table from BigQuery
/ 30
BigQuery で Cloud Storage の Iceberg テーブルをクエリする このラボでは、BigQuery の BigLake テーブルを使用して、Cloud Storage 内のオープンソース形式のデータを直接クエリする方法を学びます。既存の Iceberg テーブルを参照する BigLake テーブルを作成し、データを移動または複製することなく分析できる方法を習得します。この強力な機能により、オープン形式で信頼できる唯一の情報源を維持しながら、BigQuery の高性能な分析エンジンを活用できます。この実践演習は、形式や保存場所に関わらずデータを統合できる最新のデータ レイクハウスの基盤となります。
まず、BigQuery が Cloud Storage のデータに安全にアクセスできるようにする接続を作成します。次に、ウェブログの生データを含むサンプル Iceberg テーブルに対して BigLake テーブルを定義します。Iceberg は、大規模な分析データセット向けに設計されたオープン テーブル形式で、Apache Spark などの処理エンジンと組み合わせてよく利用されます。
最後に、Cloud Storage の Iceberg データと、顧客情報を収めたネイティブの BigQuery テーブルをシームレスに結合するクエリを実行します。これらの手法を習得することで、Cymbal E-commerce はさまざまなデータソースにまたがる重要なビジネス課題に答えることができます。たとえば、「最も価値の高いお客様が購入直前に最も頻繁に閲覧している商品はどれか?」といった質問に答えられます。
こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。
このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
これは、このラボの間だけ有効な一時的なアカウントです。以下の点に注意してください。
Google Cloud コンソールの上部の検索バーに「BigQuery API」と入力します。
Marketplace の下に表示された検索結果で、[BigQuery API] をクリックします。
API が有効になっていない場合は、[有効にする] をクリックして有効にします。
ナビゲーション メニューで [IAM と管理] を選択し、フライアウト サブメニューで [IAM] を選択します。
student-xx-xxxxxxxxxxxx@qwiklabs.net のような形式のエントリを見つけます。
BigQuery Connection 管理者と BigQuery Connection ユーザーのロールが付与されていることを確認します。
このタスクでは、BigQuery が Cloud Storage 内の CSV ファイルにあるデータを外部テーブルとして読み取れるように、Cloud Storage への新しい接続を作成します。
Google Cloud コンソールのナビゲーション メニュー()で、[BigQuery] > [スタジオ] に移動します。
左上のペインで、[エクスプローラ] をクリックし、[+ データを追加] をクリックします。
[データソースのタイプ] で、[ストレージ / データレイク] を選択します。
[最も人気のあるデータソース] から [Google Cloud Storage] のカードをクリックします。
表示された[外部データへのアクセス] のカードの中から、[外部テーブルまたは BigLake テーブル] をクリックします。
[テーブルを作成] の画面で、次の値を使用します。
| プロパティ | 値 | ||||||||||||||||
| テーブルの作成元 | Google Cloud Storage | ||||||||||||||||
| GCS バケットからファイルを選択するか、URI パターンを使用 | |||||||||||||||||
| ファイル形式 | CSV | ||||||||||||||||
| ソースデータ パーティショニング | オフのまま | ||||||||||||||||
| プロジェクト | |||||||||||||||||
| データセット | [データセット] をクリックし、[読み込まれたデータセット] から [cymbal_lake] を選択します。 |
||||||||||||||||
| テーブル | |||||||||||||||||
| テーブルタイプ | 外部テーブル | ||||||||||||||||
| Cloud リソース接続を使用して BigLake テーブルを作成する | この項目のチェックボックスをオンにする | ||||||||||||||||
| |||||||||||||||||
| スキーマ、自動検出 | この項目のチェックボックスをオンにする | ||||||||||||||||
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
このタスクでは、作成したばかりの外部テーブルからデータを取り込み、Cloud Storage バケットに Iceberg 形式で読み込みます。
Google Cloud コンソールのナビゲーション メニュー()で、[BigQuery] > [スタジオ] に移動します。
まだ開いていない場合は、[従来のエクスプローラ] をクリックしてプロジェクトを開きます。qwiklabs-gcp-xx-xxxxxxxxxxxx のように表示されます。
cymbal_lake のエントリを展開します。
web_log のエントリの右側にあるその他アイコン(縦に 3 つ並んだ点)をクリックします。ポップアップ メニューから [クエリ] を選択します。
右上の [X] をクリックして、リファレンス パネルを閉じます。
SQL クエリを次のコードに置き換えます。
[実行] ボタンをクリックします。処理後に、エラー メッセージが表示されます。このウィンドウは閉じないでください。適切な権限を設定するために、ここに表示される BigQuery サービス アカウント ID が必要になります。エラー メッセージは次のように表示されます。
エラー メッセージからユーザー ID をコピーします。形式は bqcx-xxxxxxxxxxxx-xxxx@gcp-sa-bigquery-condel.iam.gserviceaccount.com のようになります。
Google Cloud コンソールのナビゲーション メニュー()で、[Cloud Storage] > [バケット] に移動します。
gcs-bucket-
[アクセス制御] ボックスで、[均一に切り替える] のリンクをクリックします。
ポップアップで [均一] を選択します。[保存] をクリックします。
[+ プリンシパルを追加] をクリックします。
[新しいプリンシパル] に、BigQuery のエラー メッセージからコピーしたユーザー ID を貼り付けます。
[ロールを選択 *] をクリックします。
[フィルタ] に「Storage オブジェクト ユーザー」と入力し、表示されたリストから [Storage オブジェクト ユーザー] を選択して、[保存] をクリックします。
BigQuery に戻り、タスク 2 のステップ 6 を繰り返して、テーブル作成クエリを再実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
ここでは、BigQuery を使用して、Cloud Storage に作成した Iceberg テーブル内のデータにアクセスします。
Google Cloud コンソールのナビゲーション メニュー()で、[BigQuery] > [スタジオ] に移動します。
まだ開いていない場合は、[従来のエクスプローラ] 内のプロジェクトのエントリを開きます。qwiklabs-gcp-xx-xxxxxxxxxxxx のように表示されます。
cymbal_lake のエントリを展開します。
iceberg_web_log のエントリの右側にあるその他アイコン(縦に 3 つ並んだ点)をクリックします。ポップアップ メニューから [クエリ] を選択します。
右上の [X] をクリックして、リファレンス パネルを閉じます。
SQL クエリを次のコードに置き換えます。
[実行] ボタンをクリックします。返されたデータは、Cloud Storage の Iceberg テーブルから取得したものです。
SQL クエリを次のコードに置き換えます。
[実行] ボタンをクリックします。返されたデータは、Cloud Storage の Iceberg テーブルと、ネイティブの BigQuery テーブルの顧客データを結合したものです。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
BigQuery で外部テーブルを構成し、Cloud Storage の CSV ファイルからデータにアクセスできるようにしました。次に、Cloud Storage に Iceberg テーブルを作成し、BigQuery を使用して CSV ファイルからデータを取り込みました。最後に、Iceberg テーブルのデータとネイティブの BigQuery テーブルのデータを結合するクエリを実行しました。これは簡単な例でしたが、Cymbal の BigQuery と BigLake のレイクハウスが、データを強力なビジネスツールへと変えるパワーと柔軟性を備えていることを示しています。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
1 回に 1 つのラボ
既存のラボをすべて終了して、このラボを開始することを確認してください