arrow_back

Gemini 2.0 Flash の概要

ログイン 参加
700 以上のラボとコースにアクセス

Gemini 2.0 Flash の概要

ラボ 45分 universal_currency_alt クレジット: 1 show_chart 入門
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
700 以上のラボとコースにアクセス

GSP1290

Google Cloud セルフペース ラボのロゴ

概要

このラボでは、Google DeepMind の新しい強力なマルチモーダル AI モデルである Gemini 2.0 Flash を紹介します。このモデルは、Vertex AI の Gemini API で利用できます。大幅に向上した速度、パフォーマンス、品質について詳しく確認し、テキストとコードの生成、マルチモーダル データ処理、関数呼び出しなどのタスクでその機能を活用する方法を学びます。また、非同期メソッド、システム指示、生成制御、安全性設定、Google 検索によるグラウンディング、トークン カウントなどの高度な機能も取り上げます。

Gemini

Gemini は、Google DeepMind が開発した強力な生成 AI モデルのファミリーであり、テキスト、コード、画像、音声、動画などのさまざまな形式のコンテンツを理解し、生成することができます。

Vertex AI の Gemini API

Vertex AI の Gemini API は、Gemini モデルを操作するための統合インターフェースを提供します。これにより、開発者は強力な AI 機能をアプリケーションに簡単に組み込むことができます。最新バージョンの詳細情報と具体的な機能については、Gemini の公式ドキュメントをご覧ください。

Gemini モデル

  • Gemini Pro: 複雑な推論向けに設計されており、次のようなことができます。
    • 膨大な量の情報の分析と要約。
    • 高度なクロスモーダル推論(テキスト、コード、画像など)。
    • 複雑なコードベースでの効果的な問題解決。
  • Gemini Flash: 速度と効率が向上するように最適化されており、以下を提供します。
    • 1 秒未満の応答時間と高スループット。
    • 高品質かつ低コストでの幅広いタスクの実行。
    • 空間理解の向上、新しい出力形式(テキスト、音声、画像)、ネイティブでのツール使用(Google 検索、コード実行、サードパーティ機能)など、強化されたマルチモーダル機能。

前提条件

このラボを開始する前に、以下について理解しておく必要があります。

  • 基本的な Python プログラミング。
  • 一般的な API のコンセプト。
  • Vertex AI Workbench の Jupyter ノートブックでの Python コードの実行。

目標

このラボでは、Gemini 2.0 Flash を使用して次のタスクを行う方法を学びます。

  • テキストとコードを生成する: さまざまな形式のテキストの生成(出力のストリーミングを含む)、マルチターンの会話、コードの記述と実行を行います。
  • モデルの動作を構成して制御する: モデル パラメータの構成、システム指示の設定、安全フィルタの適用、生成制御機能の活用によってモデルの出力を調整します。
  • マルチモーダル データを処理する: テキスト、音声、コード、ドキュメント、画像、動画など、さまざまな種類のデータを取り扱い、処理します。
  • モデルを柔軟に操作する: 同期的および非同期的なインタラクション方法の両方を採用することで、さまざまなアプリケーション要件に対応します。
  • Google 検索を使用してモデルの回答をグラウンディングする: Google 検索による実世界のデータにモデルの回答をグラウンディングして、より精度が高く新しい回答をモデルから得られるようにします。
  • 関数呼び出しを活用してトークンを管理する: 自動と手動の両方の関数呼び出しを実装し、トークンをカウントして使用状況を追跡します。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モード(推奨)またはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。
  • ラボを完了するための時間(開始後は一時停止できません)
注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

  1. [ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。 左側の [ラボの詳細] ペインには、以下が表示されます。

    • [Google Cloud コンソールを開く] ボタン
    • 残り時間
    • このラボで使用する必要がある一時的な認証情報
    • このラボを行うために必要なその他の情報(ある場合)
  2. [Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウで開く] を選択します)。

    ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

    ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。

    注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
  3. 必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。

    {{{user_0.username | "Username"}}}

    [ラボの詳細] ペインでもユーザー名を確認できます。

  4. [次へ] をクリックします。

  5. 以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。

    {{{user_0.password | "Password"}}}

    [ラボの詳細] ペインでもパスワードを確認できます。

  6. [次へ] をクリックします。

    重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
  7. その後次のように進みます。

    • 利用規約に同意してください。
    • 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
    • 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーション メニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。 ナビゲーション メニュー アイコンと検索フィールド

タスク 1. Vertex AI Workbench でノートブックを開く

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー アイコン)で、[Vertex AI] > [ワークベンチ] の順にクリックします。

  2. インスタンスを見つけて、[JupyterLab を開く] ボタンをクリックします。

Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。

タスク 2. ノートブックを設定する

  1. ファイルを開きます。

  2. [Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。

  3. ノートブックの「Getting Started」(スタートガイド)セクションと「Import libraries」(ライブラリのインポート)セクションをすべて実行します。

    • [Project ID] に を使用し、[Location] に を使用します。
注: 「Colab only」(Colab のみ)と記載されているノートブック セルの実行は省略できます。 いずれかのノートブック セルの実行で 429 応答が返される場合は、1 分待ってから再度セルを実行し、次に進んでください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 ノートブックを設定する。

タスク 3. テキスト プロンプトからテキストを生成する

このタスクでは、Gemini 2.0 Flash モデルを使用してテキスト プロンプトからテキストを生成します。

  1. ノートブックの「Load the Gemini 2.0 Flash model」(Gemini 2.0 Flash モデルを読み込む)セクションを実行します。
  2. ノートブックの「Generate text from text prompts」(テキスト プロンプトからテキストを生成する)セクションを実行します。プロンプトの例をいくつか試して、モデルがどのように応答するかを確認します。

ストリーミング形式でコンテンツを生成する

デフォルトでは、モデルは生成プロセス全体が完了した後に回答を返します。generate_content_stream メソッドを使用すると、生成と同時に回答をストリーミングすることもできます。この場合、モデルはひとまとまりの内容が生成されるたびに回答を返します。

  1. ノートブックの「Generate content stream」(コンテンツ ストリーミングを生成する)セクションを実行します。

マルチターン チャットを開始する

Gemini API は自由形式のマルチターンの会話に対応しているため、複数回にわたってやり取りを続けることができます。

会話のコンテキストはメッセージ間で維持されます。

  1. ノートブックの「Start a multi-turn chat」(マルチターン チャットを開始する)セクションを実行します。

非同期リクエストを送信する

client.aio は、client で使用できる類似の非同期メソッドをすべて公開します。

たとえば、client.aio.models.generate_contentclient.models.generate_content の非同期バージョンです。

  1. ノートブックの「Send asynchronous requests」(非同期リクエストを送信する)セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 テキスト プロンプトからテキストを生成する。

タスク 4. モデル パラメータを構成する

このタスクでは、モデル パラメータを構成してモデルの出力をファインチューニングする方法を学びます。これらのパラメータを調整することで、生成されるテキストの創造性、長さ、安全性などの要素を制御できます。

モデルに送信する呼び出しの一つひとつに、モデルがどのように回答を生成するかを制御するパラメータ値を組み込むことができます。モデルは、パラメータ値に応じて異なる結果を生成できます。さまざまなモデル パラメータを試して、結果がどのように変化するかを確認してみましょう。

  1. ノートブックの「Configure model parameters」(モデル パラメータを構成する)セクションを実行します。

システム指示を設定する

システム指示を使用してモデルの動作を制御できます。システム指示を設定すると、タスクを理解するための追加のコンテキストがモデルに提供され、よりカスタマイズされた回答が得られます。また、ユーザー インタラクションをガイドラインに準拠させることができます。

  1. ノートブックの「Set system instructions」(システム指示を設定する)セクションを実行します。

安全フィルタ

Gemini API で提供されている安全フィルタは、特定の種類のコンテンツを制限または許可するように複数のカテゴリにわたって設定できます。これらのフィルタを使用して、回答がユースケースに適切なものとなるように調整できます。詳しくは、安全フィルタを構成するページをご覧ください。

Gemini に対してリクエストを行うと、コンテンツが分析され、安全性評価が割り当てられます。生成されたコンテンツの安全性評価は、モデルの回答をプリントすることによって確認できます。安全性設定はデフォルトで OFF になっており、デフォルトのブロックしきい値は BLOCK_NONE です。

safety_settings を使用すると、API に対して行うリクエストごとに安全性設定を調整できます。この例では、すべてのカテゴリでブロックのしきい値を BLOCK_LOW_AND_ABOVE に設定する方法を示しています。

  1. ノートブックの「Safety filters」(安全フィルタ)セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 モデル パラメータを構成する。

タスク 5. マルチモーダル プロンプトを送信する

Gemini は、マルチモーダル プロンプトに対応したマルチモーダル モデルです。

さまざまなソースから、次の種類のデータを含めることができます。以下の更新版 HTML テーブルでは、「音声」セクションの MIME タイプが追加されています。

データの種類 ソース MIME タイプ
テキスト インライン、ローカル ファイル、一般的な URL、Google Cloud Storage text/plain
コード インライン、ローカル ファイル、一般的な URL、Google Cloud Storage text/plain
ドキュメント ローカル ファイル、一般的な URL、Google Cloud Storage application/pdf
画像 ローカル ファイル、一般的な URL、Google Cloud Storage image/jpeg image/png image/webp
音声 ローカル ファイル、一般的な URL、Google Cloud Storage audio/aac audio/flac audio/mp3 audio/m4a audio/mpeg audio/mpga audio/mp4 audio/opus audio/pcm audio/wav audio/webm
動画 ローカル ファイル、一般的な URL、Google Cloud Storage、YouTube video/mp4 video/mpeg video/x-flv video/quicktime video/mpegps video/mpg video/webm video/wmv video/3gpp

このタスクでは、画像、音声、動画などの種類のデータとテキストを組み合わせて、さまざまな種類のマルチモーダル プロンプトをモデルに送信します。

  1. ノートブックの「Send local image」(ローカルの画像を送信する)セクションを実行します。
  2. ノートブックの「Send document from Google Cloud Storage」(Google Cloud Storage からドキュメントを送信する)セクションを実行します。
  3. ノートブックの「Send audio from General URL」(一般的な URL から音声を送信する)セクションを実行します。
  4. ノートブックの「Send video from YouTube URL」(YouTube の URL から動画を送信する)セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 マルチモーダル プロンプトを送信する。

タスク 6. 生成された出力を制御し、トークンを管理する

生成制御機能を使用すると、回答のスキーマを定義してモデル出力の構造、フィールド名、各フィールドのデータ型を指定できます。回答のスキーマは configresponse_schema パラメータで指定します。これにより、モデル出力が指定のスキーマに厳密に従うようになります。

スキーマは Pydantic モデルまたは JSON 文字列として指定できます。モデルは response_mime_type に設定された値に応じて、JSON または Enum として応答します。このタスクでは、モデルの出力を制御し、トークンの使用を管理するための手法について学習します。

前のタスクでは、パラメータを構成する方法を学びました。このタスクでは、モデルの出力形式をさらに細かく制御するために、回答のスキーマを定義します。

  1. ノートブックの「Control generated output」(生成された出力を制御する)セクションを実行します。

トークンをカウントして計算する

Gemini API にリクエストを送信する前に、count_tokens() メソッドを使用して入力トークンの数を計算できます。詳しくは、トークンの一覧表示とカウントをご覧ください。

  1. ノートブックの「Count tokens and compute tokens」(トークンをカウントして計算する)セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 生成された出力を制御し、トークンを管理する。

タスク 7. Google 検索をツールとして使用する(グラウンディング)

グラウンディングを行うと、実世界のデータと Gemini モデルを関連付けることができます。

Google 検索の検索結果でモデルの回答をグラウンディングすることで、モデルは実行時にトレーニング データ以外の情報にもアクセスできるようになります。そのため、より正確で最新、かつ関連性の高い回答が生成されます。

Google 検索によるグラウンディングを使用すると、より精度が高く新しい回答をモデルから得ることができます。Gemini 2.0 以降では、Google 検索がツールとして用意されています。つまり、モデルは Google 検索を必要に応じて自動的に使用します。

Google 検索

tools キーワード引数を追加し、GoogleSearch を含む Tool を指定すると、最初にプロンプトを使用して Google 検索を実行してから、ウェブ検索結果に基づいて回答を構築するようモデルに指示できます。

動的取得では、モデルの回答にグラウンディングを使用する条件のしきい値を設定できます。これは、プロンプトで Google 検索による回答のグラウンディングが不要で、サポートされているモデルがグラウンディングなしで独自の知識を基に回答を提供できる場合に便利です。これにより、レイテンシ、品質、コストをより効果的に管理できます。

  1. ノートブックの「Google Search」(Google 検索)セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Google 検索をツールとして使用する(グラウンディング)。

タスク 8. 関数呼び出しとコード実行を活用する

Gemini の関数呼び出しを使用すると、開発者はコード内に関数の説明を作成し、その説明をリクエスト時に言語モデルに渡すことができます。自動関数呼び出し用に Python 関数を送信すると、関数が実行され、Gemini によって生成された出力が自然言語で返されます。

OpenAPI 仕様を送信することもできます。この場合、説明に対応する関数の名前と、その関数を呼び出す引数が返されます。このタスクでは、関数呼び出しについて学び、モデルが外部システムとやり取りできるようにして、モデルによって生成されたコードを実行します。

  1. ノートブックの「Python Function (Automatic Function Calling)」(Python 関数(自動関数呼び出し))セクションを実行します。
  2. ノートブックの「OpenAPI Specification (Manual Function Calling)」(OpenAPI 仕様(手動関数呼び出し))セクションを実行します。

コード実行

Gemini API のコード実行機能を使用すると、モデルは Python コードを生成して実行し、最終的な出力に到達するまで結果から反復的に学習できるようになります。コードベースの推論を活用し、テキスト出力を生成するアプリケーションをこの機能を使って構築できます。たとえば、方程式を解くアプリケーションやテキストを処理するアプリケーションでコード実行を使用できます。

Gemini API は、関数呼び出しと同様に、コード実行をツールとして提供します。コード実行をツールとして追加すると、モデルが必要性を判断してコードを実行します。

  1. ノートブックの「Code Execution」(コード実行)セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 関数呼び出しとコード実行を活用する。

お疲れさまでした

これで完了です。このラボでは、Vertex AI の Gemini API を使用して、最先端の Gemini 2.0 Flash モデルを実際に操作しました。テキストとコードの生成、マルチモーダル データ処理、高度なモデル構成など、このモデルの多様な機能を確認しました。これで、革新的で洗練された AI アプリケーションを構築する際に、これらの優れた機能を活用できるようになりました。また、Gemini 2.0 で導入された新機能についても理解を深め、新しい SDK を活用した API 間の移行方法も学びました。

次のステップと詳細情報

以下のリソースで Gemini に関する理解を深めましょう。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 5 月 5 日

ラボの最終テスト日: 2025 年 5 月 5 日

Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。