ラボの設定手順と要件

アカウントと進行状況を保護します。このラボを実行するには、常にシークレットブラウジングウィンドウとラボの認証情報を使用してください。

Gemini を使用したマルチモダリティ

ラボ 25分 universal_currency_alt クレジット: 5 show_chart 中級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP1210
概要
目標
設定と要件
タスク 1. Vertex AI Workbench でノートブックを開く
タスク 2. ノートブックを設定する
タスク 3. Gemini Flash モデルを使用する
お疲れさまでした

このコンテンツはまだモバイルデバイス向けに最適化されていません。

快適にご利用いただくには、メールで送信されたリンクを使用して、デスクトップパソコンでアクセスしてください。

GSP1210

Google Cloud セルフペースラボのロゴ

概要

このラボでは、Google が開発したマルチモーダル生成 AI モデルのファミリーである Gemini について説明します。Gemini API を使用して、Gemini Flash がテキスト、画像、動画について理解し、それらに基づいて回答を生成する方法について学習します。

Gemini のマルチモーダル機能により、次のことが可能になります。

画像を分析する: オブジェクトの検出、ユーザーインターフェースの理解、図の解釈、視覚的な類似点と相違点の比較を行う。
動画を処理する: 説明の生成、タグとハイライトの抽出、動画コンテンツに関する質問への回答を行う。

Vertex AI の Gemini API を使用して、これらの機能をハンズオンタスクで試します。

前提条件

このラボを開始する前に、以下について理解しておく必要があります。

基本的な Python プログラミング。
一般的な API のコンセプト。
Vertex AI Workbench の Jupyter ノートブックでの Python コードの実行。

目標

このラボの内容:

Vertex AI で Gemini API を操作する。
Gemini Flash モデルを使用して画像と動画を分析する。
テキスト、画像、動画のプロンプトを Gemini に提供して、有益な回答を生成する。
Gemini のマルチモーダル機能の実用的な活用方法について学ぶ。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモード（推奨）またはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。

ラボを完了するための時間（開始後は一時停止できません）

注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。左側の [ラボの詳細] ペインには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウで開く] を選択します）。

ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーションメニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。ナビゲーションメニューアイコンと検索フィールド

タスク 1. Vertex AI Workbench でノートブックを開く

Google Cloud コンソールのナビゲーションメニュー（）で、[Vertex AI] > [ワークベンチ] の順にクリックします。
インスタンスを見つけて、[JupyterLab を開く] ボタンをクリックします。

Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。

注: JupyterLab にノートブックが表示されない場合は、次の追加手順でインスタンスを再設定してください。

1. JupyterLab のブラウザタブを閉じて、Workbench のホームページに戻ります。

2. インスタンス名の横にあるチェックボックスをオンにして、[リセット] をクリックします。

3. [JupyterLab を開く] ボタンが再度有効になったら、1 分待ってから [JupyterLab を開く] をクリックします。

タスク 2. ノートブックを設定する

ファイルを開きます。
[Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。
ノートブックの「Getting Started」セクションを実行します。[Project ID] と [Location] は事前構成されています。

注: いずれかのノートブックセルの実行で 429 応答が返される場合は、1 分待ってから再度セルを実行し、次に進んでください。

タスク 3. Gemini Flash モデルを使用する

Gemini Flash は、マルチモーダルプロンプトに対応したマルチモーダルモデルです。プロンプトリクエストにテキスト、画像、動画を含めて、テキストまたはコードの回答を取得できます。

このタスクでは、指定されたノートブックセルの実行を通して、Gemini Flash モデルを使用する方法を見ていきます。目標を達成するたびに、ここに戻って進行状況を確認できます。

複数の画像にわたる画像理解

Gemini の機能の一つに、複数の画像にわたる推論があります。この例では、Gemini を使用して、果物と価格表の画像から食料品の合計費用を計算します。

ノートブックの「Image understanding across multiple images」（複数の画像にわたる画像理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。複数の画像にわたる画像理解

動画の説明の生成

Gemini は、動画全体からタグを抽出し、動画コンテンツの範囲を超えた追加情報を取得することもできます。この例では、Gemini を使用してタグを抽出し、さまざまな動画から追加情報を取得します。

ノートブックの「Generating a video description」（動画の説明の生成）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。動画の説明の生成

音声の理解

Gemini は、長いコンテキストの理解のために音声を直接処理できます。この例では、Gemini を使用して音声を処理し、長いコンテキストを理解します。

ノートブックの「Audio understanding」（音声の理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。音声の理解

コードベース全体の推論

Gemini は、長いコンテキストの理解のために音声を直接処理できます。この例では、Gemini を使用して音声を処理し、長いコンテキストを理解します。

ノートブックの「Reason across a codebase」（コードベース全体の推論）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。コードベース全体の推論

動画と音声の理解

この例では、音声入力を使用した動画インターリーブで、Gemini のネイティブマルチモーダルと長文コンテキスト処理機能を試します。

ノートブックの「Video and audio understanding」（動画と音声の理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。動画と音声の理解

すべてのモダリティ（画像、動画、音声、テキスト）の一括処理

Gemini はネイティブにマルチモーダルであり、さまざまなモダリティのデータのインターリーブをサポートしています。この例では、同じ入力シーケンスで音声、画像、テキスト、コードの入力を組み合わせてみます。

ノートブックの「All modalities (images, video, audio, text) at once」（すべてのモダリティ（画像、動画、音声、テキスト）の一括処理）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。すべてのモダリティ（画像、動画、音声、テキスト）の一括処理

提供された画像に基づく推奨事項の生成

Gemini は、画像比較から推奨事項を提供できます。これは、ユーザーの現在の設定に基づいて商品をおすすめすることを検討している小売企業にとって特に有用です。

ノートブックの「Generating recommendations based on provided images」（提供された画像に基づく推奨事項の生成）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。提供された画像に基づく推奨事項の生成

技術図内のエンティティリレーションシップの理解

Gemini は、図式を理解して、最適化やコード生成といった実践的な手順を取ることを可能にするマルチモーダル機能を備えています。この例では、Gemini がエンティティリレーションシップ（ER）図を解読して、テーブル間のリレーションシップを理解し、BigQuery などの特定の環境での最適化の要件を識別し、対応するコードまで生成できることを確認します。

ノートブックの「Understanding entity relationships in technical diagrams」（技術図内のエンティティリレーションシップの理解）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。技術図内のエンティティリレーションシップの理解

画像の類似点と相違点の比較

Gemini は画像の比較を通して、オブジェクト間の類似点や相違点を識別できます。この例では、Gemini を使用して、同じ場所の 2 つの画像を比較し、相違点を識別します。

ノートブックの「Compare images for similarities and differences」（画像の類似点と相違点の比較）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。画像の類似点と相違点の比較

お疲れさまでした

これでラボは完了です。このラボでは、Vertex AI の Gemini API を使用して、テキストや画像のプロンプトからテキストを生成する方法を学びました。

次のステップと詳細情報

以下のリソースで Gemini に関する理解を深めましょう。

Gemini の概要
Vertex AI の生成 AI に関するドキュメント
生成 AI に関する YouTube チャンネル
Vertex AI クックブック。生成 AI に関するノートブックを集めた、検索可能なギャラリーです。
Google Cloud 生成 AI レポジトリ。他のノートブックやサンプルを確認できます。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 10 月 8 日

ラボの最終テスト日: 2025 年 10 月 8 日

Gemini を使用したマルチモダリティ

GSP1210

概要

前提条件

目標

設定と要件

[ラボを開始] ボタンをクリックする前に

ラボを開始して Google Cloud コンソールにログインする方法

タスク 1. Vertex AI Workbench でノートブックを開く

タスク 2. ノートブックを設定する

タスク 3. Gemini Flash モデルを使用する

複数の画像にわたる画像理解

動画の説明の生成

音声の理解

コードベース全体の推論

動画と音声の理解

すべてのモダリティ（画像、動画、音声、テキスト）の一括処理

提供された画像に基づく推奨事項の生成

技術図内のエンティティ リレーションシップの理解

画像の類似点と相違点の比較

お疲れさまでした

次のステップと詳細情報

Google Cloud トレーニングと認定資格

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

技術図内のエンティティリレーションシップの理解

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する