Google AI Studio のマルチモーダル機能を試す

ラボ 25分 universal_currency_alt 無料 show_chart 入門

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP1336
概要
学習内容
設定と要件
タスク 1. 画像を生成する
タスク 2. モデルに対して、長尺動画を分析するプロンプトを実行する
タスク 3. テンプレートから空間認識アプリを構築する
タスク 4. 空間認識アプリのプロトタイプに対してプロンプトを実行する
お疲れさまでした

このコンテンツはまだモバイルデバイス向けに最適化されていません。

快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップパソコンでアクセスしてください。

GSP1336

Google Cloud セルフペースラボのロゴ

概要

このラボでは、Google AI Studio の強力なマルチモーダル機能について、生成 AI と空間認識に焦点を当てて学習します。実践的な演習を通じて、最先端の AI モデルを実際に操作し、アプリケーションに統合する方法を学びます。博物館の学芸員、展示デザイナーとして、これらのツールを使用して、博物館の新しい展示の要素についてアイデアを出し、プロトタイプを作成します。

学習内容

このラボでは、次の方法について学びます。

モデルに対して、画像を生成するプロンプトを実行する。
モデルに対して、長尺動画を分析するプロンプトを実行する。
テンプレートから空間認識アプリを構築する。
空間認識アプリのプロトタイプに対して、画像内のアイテムを識別するプロンプトを実行する。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモード（推奨）またはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。

ラボを完了するための時間（開始後は一時停止できません）

注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

Google AI Studio を開く

[ラボを開始] をクリックします。ラボパネルにこのラボ用の一時的な認証情報が表示されます。
- 注: 有料のラボの場合は、お支払い方法を選択するよう求められます。
シークレットウィンドウで Google AI Studio を開きます。Google ログインページが表示されます。
- ヒント: ラボと AI Studio のタブをそれぞれ別のウィンドウで開いて並べて表示しておくと、操作が簡単です。
以下のユーザー名をコピーして [Email] 欄に貼り付け、[Next] をクリックします。
{{{user_0.username | "Username"}}}
以下のパスワードをコピーして [Enter your password] 欄に貼り付け、[Next] をクリックします。
{{{user_0.password | "Password"}}}
画面に表示される利用規約に同意して続行します。

これで、一時的な受講者用アカウントを使用して Google AI Studio にログインできます。

タスク 1. 画像を生成する

このタスクでは、新しい恐竜展のコンセプトアートを作成する学芸員の役割を担います。これには、メディア生成専用に設計されたモデルを使用します。

Gemini の画像生成ツールでコンセプトアートを作成する

左側のナビゲーションメニューで [Playground] をクリックして、メインのチャットインターフェースを開きます。
右側のパネルで [Run settings] を開き、[Model selection] の下の [Gemini] タブに移動して、[Nano Banana] を選択します。
プロンプトの入力フィールドに、コンセプトアートのリクエストを入力します。

近未来的な自然史博物館のロビーのリアルな画像。青く輝く水晶で作られた巨大なティラノサウルスの骨格標本がある。

[Run] をクリックして、生成された画像を確認します。この画像は、新しい展示のデザインのベースとして使える可能性があります。
ポップアップで、[Enable Google Drive] をクリックし、受講者用アカウント（例: student-XX-YYYY@qwiklabs.net）を選択して、必要な権限を付与して続行します。
プロンプトと回答を保存するには、自動生成されたタイトルの横にある編集アイコンをクリックし、[Prompt name] として「近未来的な博物館のロビー」と入力します。
[Save] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。画像を生成する

タスク 2. モデルに対して、長尺動画を分析するプロンプトを実行する

このタスクでは、アメリカ自然史博物館の動画ツアーの分析を Gemini にリクエストして、成功した既存の展示を調査します。

左側のナビゲーションメニューで [Playground] をクリックして、メインのチャットインターフェースに戻ります。
右側のパネルで [Run settings] サイドバーを開き、デフォルトの Gemini モデル（現在は Nano Banana に設定）をクリックして別のモデルを選択します。
[Model selection] で [Gemini] タブをクリックして、動画などの大量の入力に対応するように設計されているモデルを選択します。
プロンプトバー内の添付ファイルアイコン（円で囲んだプラス記号）をクリックし、[Sample Media] を選択します。
動画のリストから [American Museum of Natural History Tour - 10 Min] を選択し、[Add to prompt] をクリックします。
動画の処理が終了するまで待ちます。プロンプト領域に、動画がトークン数とともに表示されます。

注: 動画を追加後、トークン数として大きな数値が表示されます。言語モデルは、動画を数千枚の個別のフレームのシーケンスとして「認識」します。各フレームは、トークンと呼ばれる数値データに変換されてから、モデルで分析されます。表示される処理時間は、モデルが動画に関する質問に回答するために、これらのトークンをすべて「読み取る」時間です。

動画の上のテキストフィールドに、次のプロンプトを入力します。

この動画ツアーで紹介されている主な展示品について要約して。ホールやセクションをリストにし、それぞれについて 1 文で説明して。

[Run] をクリックして、動画の内容についてモデルが要約したテキストを確認します。
プロンプトと回答を保存するには、自動生成されたタイトルの横にある編集アイコンをクリックし、[Prompt name] に「博物館の展示の見どころ」と入力します。
[Save] をクリックします。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。モデルに対して、長尺動画を分析するプロンプトを実行する

タスク 3. テンプレートから空間認識アプリを構築する

このタスクでは、コードを記述せずにテンプレートからアプリを構築して、博物館の来場者向けのインタラクティブな「展示品の確認」機能のプロトタイプを迅速に作成します。

左側のナビゲーションメニューで [Build] をクリックします。
アプリテンプレートのギャラリーをスクロールして、[Spatial Understanding] カードを見つけます。

注: テンプレートが表示されない場合は、[All apps] を選択して、アプリテンプレートのギャラリー全体を表示します。

[Spatial Understanding] テンプレートをクリックして、アプリのプロトタイプをすぐに生成します。

Spatial Understanding アプリのプロトタイプのページ

インターフェースが読み込まれ、アプリケーションのコードと、右側にアプリのライブ プレビューが表示されます。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。テンプレートから空間認識アプリを構築する

タスク 4. 空間認識アプリのプロトタイプに対してプロンプトを実行する

このタスクでは、構築したプロトタイプをテストします。訪問者の操作のシミュレーションとして、収穫祭の展示のサンプル画像内でオブジェクトを特定するようにアプリに指示し、境界ボックスの色を変更するようにコードを変更します。

アプリの機能を確認する

アプリの [Preview] ペインで、下部にあるサンプル画像を確認します。複数のカボチャが並んでいる画像をクリックします。
プロンプトボックスの上にある [2D bounding boxes] ボタンが選択されていることを確認します。[PROMPT] 入力ボックスに「カボチャ」と入力し、[Send] をクリックします。カボチャの周囲に標準の境界ボックスが描画されることを確認します。

注: 境界ボックスは、画像内のオブジェクトの正確な位置をハイライト表示する長方形です。これは、コンピュータビジョンモデルがどのように空間を認識しているかを示す基本的な方法であり、何が見えるかだけでなく、どこに見えるかも示します。

次に [Segmentation masks] ボタンを選択して、もう一度 [Send] をクリックします。この出力では、検出された各カボチャの面全体が色付きに変わることに注目してください。
最後に、[Points] ボタンを選択し、[Send] をクリックします。検出されたオブジェクトにキーポイントが配置されることを確認します。

コードアシスタントを使用してアプリを変更する

続行する前に、[Preview] ペインで [2D bounding boxes] ボタンが再度選択されていることを確認します。
画面の左下にある [Code assistant] 入力フィールドを確認します。フィールド内に「Make changes, add new features...」と表示されています。以下のコマンドを入力します。

境界ボックスを赤色にして。

[Remix] をクリックするか、アシスタントの送信ボタンを押して、[Apply] を選択します。新しいブラウザウィンドウが開きます。ページで [Acknowledge] をクリックし、アシスタントがエディタウィンドウでアプリケーションコードを更新するのを確認します。
コードが更新されたら、右側の [Preview] ペインに戻ります。カボチャの画像と [2D bounding boxes] が選択された状態で、「カボチャ」のプロンプトの [Send] ボタンを最後にもう一度クリックします。
結果を確認します。カボチャの周囲に描画された境界ボックスが赤色になり、シンプルなテキストコマンドでライブアプリケーションを変更できたことがわかります。
オプションのチャレンジ: テキストを使用してアプリを簡単に変更できることを確認しました。最後に、コードアシスタントで、ほかにもいくつかのコマンドを試してみましょう。次の処理を行う方法を考えてみてください。
- 境界ボックスの色を緑色に変更する
- 境界ボックスの線を実線ではなく点線にする
- 境界ボックスを太い破線に変更する
- ラベルのテキストの色を白に変更する
プロンプトと回答を保存するには、自動生成されたタイトルの横にある編集アイコンをクリックし、[Prompt name] に「空間認識」と入力します。
[Save] をクリックします。

お疲れさまでした

これで完了です。Google AI Studio のマルチモーダル機能を活用して、博物館の新しい展示のアイデアを出し、プロトタイプを作成しました。コンセプトアートや動画クリップの生成、既存の動画ツアーの分析、空間認識アプリを使用したインタラクティブなプロトタイプの構築を行いました。さまざまなリッチメディアを認識、理解、生成できる AI を実際に使用する体験ができました。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2026 年 3 月 5 日

ラボの最終テスト日: 2026 年 3 月 5 日

Google AI Studio のマルチモーダル機能を試す

GSP1336

概要

学習内容

設定と要件

[ラボを開始] ボタンをクリックする前に

Google AI Studio を開く

タスク 1. 画像を生成する

Gemini の画像生成ツールでコンセプト アートを作成する

タスク 2. モデルに対して、長尺動画を分析するプロンプトを実行する

タスク 3. テンプレートから空間認識アプリを構築する

タスク 4. 空間認識アプリのプロトタイプに対してプロンプトを実行する

アプリの機能を確認する

コード アシスタントを使用してアプリを変更する

お疲れさまでした

Google Cloud トレーニングと認定資格

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

Gemini の画像生成ツールでコンセプトアートを作成する

コードアシスタントを使用してアプリを変更する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する