Google AI Studio のマルチモーダル機能を試す

ラボ 25分 universal_currency_alt 無料 show_chart 入門
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
このコンテンツはまだモバイル デバイス向けに最適化されていません。
快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップ パソコンでアクセスしてください。

GSP1336

Google Cloud セルフペース ラボのロゴ

概要

このラボでは、Google AI Studio の強力なマルチモーダル機能について、生成 AI と空間認識に焦点を当てて学習します。実践的な演習を通じて、最先端の AI モデルを実際に操作し、アプリケーションに統合する方法を学びます。博物館の学芸員、展示デザイナーとして、これらのツールを使用して、博物館の新しい展示の要素についてアイデアを出し、プロトタイプを作成します。

学習内容

このラボでは、次の方法について学びます。

  • モデルに対して、画像と動画クリップを生成するプロンプトを実行する。
  • モデルに対して、長尺動画を分析するプロンプトを実行する。
  • テンプレートから空間認識アプリを構築する。
  • 空間認識アプリのプロトタイプに対して、画像内のアイテムを識別するプロンプトを実行する。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モード(推奨)またはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。
  • ラボを完了するための時間(開始後は一時停止できません)
注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

Google AI Studio を開く

  1. [ラボを開始] をクリックします。ラボパネルにこのラボ用の一時的な認証情報が表示されます。

    • : 有料のラボの場合は、お支払い方法を選択するよう求められます。
  2. シークレット ウィンドウGoogle AI Studio を開きます。Google ログインページが表示されます。

    • ヒント: ラボと AI Studio のタブをそれぞれ別のウィンドウで開いて並べて表示しておくと、操作が簡単です。
  3. 以下のユーザー名をコピーして [Email] 欄に貼り付け、[Next] をクリックします。

    {{{user_0.username | "Username"}}}
  4. 以下のパスワードをコピーして [Enter your password] 欄に貼り付け、[Next] をクリックします。

    {{{user_0.password | "Password"}}}
  5. 画面に表示される利用規約に同意して続行します。

これで、一時的な受講者用アカウントを使用して Google AI Studio にログインできます。

タスク 1. 画像と動画クリップを生成する

このタスクでは、新しい恐竜展のコンセプト アートと短いプロモーション動画を作成する学芸員の役割を担います。これには、メディア生成専用に設計されたモデルを使用します。

Gemini の画像生成ツールでコンセプト アートを作成する

  1. 左側のナビゲーション メニューで [Chat] をクリックします。

  2. [Images] を選択し、表示されたオプションから [Imagen] を選択します。

  3. プロンプトの入力フィールドに、コンセプト アートのリクエストを入力します。

近未来的な自然史博物館のロビーのリアルな画像。青く輝く水晶で作られた巨大なティラノサウルスの骨格標本がある。
  1. [Run] をクリックして、生成された画像を確認します。この画像は、新しい展示のデザインのベースとして使える可能性があります。

  2. プロンプトと回答を保存するには、プロンプトの保存アイコン 保存 をクリックして、プロンプトのタイトルと説明を編集します。

  3. 新しいポップアップ ウィンドウが開きます。受講者用アカウント(例: student-XX-YYYY@qwiklabs.net)を選択し、必要な権限を付与して続行します。

    • [Prompt name] として「近未来的な博物館のロビー」と入力します。
  4. [Save] をクリックします。

Veo でプロモーション動画クリップを生成する

  1. 左側のナビゲーション メニューで [Chat] をクリックします。

  2. [Video] を選択し、動画を生成するオプションとして [Veo] を選択します。

  3. 右側のパネルで [Video duration] を [8s] に設定します。[Aspect ratio] は [9:16] にします。

  4. プロンプトの入力フィールドに、ソーシャル メディア用の短くダイナミックなクリップの説明を入力します。

精巧なアニマトロニクスのトリケラトプスが頭の向きを変えて、まばたきをしている、映画のようなスローモーションの動画。
  1. [Run] をクリックします。
注: [Allow Drive access] というタイトルのダイアログが表示された場合は、[Allow access] ボタンをクリックします。新しいポップアップ ウィンドウが開きます。受講者用アカウント(例: student-XX-YYYY@qwiklabs.net)を選択し、必要な権限を付与して続行します。
  1. モデルが動画の生成を開始します。クリップが表示されたら、[Play video] オプションをクリックして確認します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 画像と動画クリップを生成する

タスク 2. モデルに対して、長尺動画を分析するプロンプトを実行する

このタスクでは、アメリカ自然史博物館の動画ツアーの分析を Gemini にリクエストして、成功した既存の展示を調査します。

  1. 左側のナビゲーション メニューで [Chat] をクリックして、メインのチャット インターフェースに戻ります。

  2. 右側のパネルで [Run settings] サイドバーを開き、デフォルトの Gemini モデル(現在は Nano Banana に設定)をクリックして別のモデルを選択します。

  3. [Model selection] で [Gemini] タブをクリックして、動画などの大量の入力に対応するように設計されている モデルを選択します。

  4. プロンプト バー内の添付ファイル アイコン(円で囲んだプラス記号)をクリックし、[Sample Media] を選択します。

  5. 動画のリストから [American Museum of Natural History Tour - 10 Min] を選択し、[Add to prompt] をクリックします。

  6. 動画の処理が終了するまで待ちます。プロンプト領域に、動画がトークン数とともに表示されます。

注: 動画を追加後、トークン数として大きな数値が表示されます。言語モデルは、動画を数千枚の個別のフレームのシーケンスとして「認識」します。各フレームは、トークンと呼ばれる数値データに変換されてから、モデルで分析されます。表示される処理時間は、モデルが動画に関する質問に回答するために、これらのトークンをすべて「読み取る」時間です。
  1. 動画の上のテキスト フィールドに、次のプロンプトを入力します。
この動画ツアーで紹介されている主な展示品について要約して。ホールやセクションをリストにし、それぞれについて 1 文で説明して。
  1. [Run] をクリックして、動画の内容についてモデルが要約したテキストを確認します。

  2. プロンプト名として「博物館の展示の見どころ」と入力します。

  3. [Save] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 モデルに対して、長尺動画を分析するプロンプトを実行する

タスク 3. テンプレートから空間認識アプリを構築する

このタスクでは、コードを記述せずにテンプレートからアプリを構築して、博物館の来場者向けのインタラクティブな「展示品の確認」機能のプロトタイプを迅速に作成します。

  1. 左側のナビゲーション メニューで [Build] をクリックします。

  2. アプリ テンプレートのギャラリーをスクロールして、[Spatial Understanding] カードを見つけます。

  3. [Spatial Understanding] テンプレートをクリックして、アプリのプロトタイプをすぐに生成します。

Spatial Understanding アプリのプロトタイプのページ

  1. インターフェースが読み込まれ、中央にアプリケーションのコード、右側にアプリのライブ プレビューが表示されます。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 テンプレートから空間認識アプリを構築する

タスク 4. 空間認識アプリのプロトタイプに対してプロンプトを実行する

このタスクでは、構築したプロトタイプをテストします。訪問者の操作のシミュレーションとして、収穫祭の展示のサンプル画像内でオブジェクトを特定するようにアプリに指示し、境界ボックスの色を変更するようにコードを変更します。

アプリの機能を確認する

  1. 右側にあるアプリの [Preview] ペインで、下部にあるサンプル画像を確認します。複数のカボチャが並んでいる画像をクリックします。

  2. プロンプト ボックスの上にある [2D bounding boxes] ボタンが選択されていることを確認します。[PROMPT] 入力ボックスに「カボチャ」と入力し、[Send] をクリックします。カボチャの周囲に標準の境界ボックスが描画されることを確認します。

注: 境界ボックスは、画像内のオブジェクトの正確な位置をハイライト表示する長方形です。これは、コンピュータ ビジョン モデルがどのように空間を認識しているかを示す基本的な方法であり、何が見えるかだけでなく、どこに見えるかも示します。
  1. 次に [Segmentation masks] ボタンを選択して、もう一度 [Send] をクリックします。この出力では、検出された各カボチャの面全体が色付きに変わることに注目してください。

  2. 最後に、[Points] ボタンを選択し、[Send] をクリックします。検出されたオブジェクトにキーポイントが配置されることを確認します。

コード アシスタントを使用してアプリを変更する

  1. 続行する前に、[Preview] ペインで [2D bounding boxes] ボタンが再度選択されていることを確認します。

  2. 画面の左下にある [Code assistant] 入力フィールドを確認します。フィールド内に「Make changes, add new features...」と表示されています。以下のコマンドを入力します。

境界ボックスを赤色にして。
  1. Enter キーを押すか、アシスタントの送信ボタンをクリックします。アシスタントによってアプリケーション コードが変更される様子が、中央のエディタ ウィンドウで確認できます。

  2. コードが更新されたら、右側の [Preview] ペインに戻ります。カボチャの画像と [2D bounding boxes] が選択された状態で、「カボチャ」のプロンプトの [Send] ボタンを最後にもう一度クリックします。

  3. 結果を確認します。カボチャの周囲に描画された境界ボックスが赤色になり、シンプルなテキスト コマンドでライブ アプリケーションを変更できたことがわかります。

  4. オプションのチャレンジ: テキストを使用してアプリを簡単に変更できることを確認しました。最後に、コード アシスタントで、ほかにもいくつかのコマンドを試してみましょう。次の処理を行う方法を考えてみてください。

    • 境界ボックスの色を緑色に変更する
    • 境界ボックスの線を実線ではなく点線にする
    • 境界ボックスを太い破線に変更する
    • ラベルのテキストの色を白に変更する
  5. 保存アイコン 保存 をクリックしてアプリを保存し、プロンプトのタイトルと説明を編集します。

    • [Prompt name] に「空間認識」と入力します。
  6. [Save] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 空間認識アプリのプロトタイプに対してプロンプトを実行する

お疲れさまでした

これで完了です。Google AI Studio のマルチモーダル機能を活用して、博物館の新しい展示のアイデアを出し、プロトタイプを作成しました。コンセプト アートや動画クリップの生成、既存の動画ツアーの分析、空間認識アプリを使用したインタラクティブなプロトタイプの構築を行いました。さまざまなリッチメディアを認識、理解、生成できる AI を実際に使用する体験ができました。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 10 月 16 日

ラボの最終テスト日: 2025 年 10 月 16 日

Copyright 2026 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

Using an Incognito or private browser window is the best way to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.