使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件：挑戰實驗室

Image understanding across multiple images

Check my progress

/ 25

Similarity/Differences between the images

Check my progress

/ 25

Generate a video description and retrieve extra information beyond the video

Check my progress

/ 25

Multimodal retrieval augmented generation (RAG)

Check my progress

/ 25

This lab may incorporate AI tools to support your learning.

GSP520

Google Cloud 自學實驗室

總覽

在挑戰研究室中，您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明，您將運用從課程研究室學到的技巧，自行找出方法完成任務！自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。

在您完成任務的期間，挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧，例如變更預設值或詳讀並研究錯誤訊息，解決遇到的問題。

若想滿分達標，就必須在時限內成功完成所有任務！

本實驗室適合報名下列技能徽章課程的學員：使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件。準備好迎接挑戰了嗎？

測驗主題

使用 Gemini 的多模態功能，運用多模態提示從文字和影像資料擷取資訊、生成影片說明，並擷取影片以外的額外資訊
使用 Gemini 的多模態檢索增強生成 (RAG) 功能，為含有文字和圖片的文件建立中繼資料、取得所有相關文字分塊，並顯示引用資料

設定和需求

瞭解以下事項後，再點選「Start Lab」按鈕

請詳閱以下操作說明。實驗室活動會計時，且中途無法暫停。點選「Start Lab」後就會開始計時，顯示可使用 Google Cloud 資源的時間。

您將在真正的雲端環境完成實作實驗室活動，而不是模擬或示範環境。為此，我們會提供新的暫時憑證，供您在實驗室活動期間登入及存取 Google Cloud。

為了順利完成這個實驗室，請先確認：

可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。

注意事項：請使用無痕模式 (建議選項) 或私密瀏覽視窗執行此實驗室，這可以防止個人帳戶和學員帳戶之間的衝突，避免個人帳戶產生額外費用。

是時候完成實驗室活動了！別忘了，活動一旦開始將無法暫停。

注意事項：務必使用實驗室專用的學員帳戶。如果使用其他 Google Cloud 帳戶，可能會產生額外費用。

開啟 Vertex AI Workbench 中的筆記本

前往 Google Cloud 控制台，依序點按「導覽選單」圖示 >「Agent Platform」>「Notebooks」。
在左側導覽列中，點擊 Workbench。
找出執行個體，點按「Open JupyterLab」按鈕。

Workbench 執行個體的 JupyterLab 介面會在新瀏覽器分頁開啟。

注意：如果在 JupyterLab 沒有看見筆記本，請按照以下額外步驟重設執行個體：

1. 關閉 JupyterLab 的瀏覽器分頁，回到 Workbench 首頁。

2. 勾選執行個體名稱旁的核取方塊，然後點按「重設」。

3. 「開啟 JupyterLab」按鈕再次啟用後，等待一分鐘，然後點按「開啟 JupyterLab」。

設定筆記本

開啟檔案。
出現「Select Kernel」對話方塊時，從可用核心清單中選取「Python 3」。
執行筆記本的「Getting Started」部分，專案 ID 和位置已預先設定完成。

注意：如果執行筆記本儲存格後出現 429 回應，請稍候一分鐘再重新執行儲存格，應該就能繼續操作。

開始工作 1 前，請先執行筆記本中「設定和要求」部分的 4 個儲存格。

挑戰情境

您是某間媒體公司的行銷廣告活動統籌專員，與行銷經理密切合作，共同規劃、執行及評估廣告活動來達成行銷目標。您最近與 Google 簽訂了令人期待的新合約。身為行銷廣告活動統籌專員，您迫不及待想瞭解各項學習資源，盡快熟悉 Google 的品牌和品牌識別，因此打算運用 Gemini 的創新功能，更有效率地查看 Google 的品牌宣傳指南、過往的廣告活動、產品廣告、客戶見證和財務報表來進一步瞭解 Google。

在本挑戰中，您會先使用 Gemini 的多模態功能，運用多模態提示從文字和影像資料擷取資訊、生成影片說明，並擷取影片以外的額外資訊。此外，您也會使用 Gemini 的多模態檢索增強生成 (RAG) 功能，為含有文字和圖片的文件建立中繼資料、取得所有相關文字分塊，並顯示引用資料。

工作 1：透過 Gemini 生成多模態洞察資料

在這項工作，您會使用 Gemini 熟悉 Google 的品牌和品牌識別。Gemini 是支援多模態提示詞的多模態模型。您會在提示詞中加入文字、圖像和影片，並取得文字或程式碼形式的回覆。

請查看指定的筆記本部分，然後按照對應的指示完成這項工作。

注意：請先儲存筆記本指令碼，再點選每項工作的「Check my progress」按鈕。

按照「使用多張圖像推論」部分的指示操作，使用多模態模型研究多張圖像。

點選「Check my progress」，確認目標已達成。以多張圖像推論。

按照「圖片的異同處」部分的指示操作，使用多模態模型比較圖像。

點選「Check my progress」，確認目標已達成。圖片的異同處。

按照「生成影片說明」部分的指示操作，使用多模態模型生成影片說明。
使用 [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) 完成這項步驟。
按照「擷取整部影片中的物件標記」部分的指示操作，使用多模態模型擷取影片中的物件標記。
使用 [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) 完成這項步驟。
按照「詢問更多有關影片的問題」部分的指示操作，使用多模態模型進一步瞭解影片內容。
使用 [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) 完成這項步驟。
按照「擷取影片以外的額外資訊」部分的指示操作，使用多模態模型取得影像的延伸資訊。

點選「Check my progress」，確認目標已達成。生成影片說明並擷取影片以外的額外資訊。

工作 2：使用多模態檢索增強生成 (RAG) 功能擷取並整合資訊

請查看指定的筆記本部分，然後按照對應的指示完成這項工作。

以下是要用來完成工作 2 的資料和輔助函式：

Google 服務的服務條款文件，當中定義 Google 和使用者之間的關係。這份文件涵蓋 Google 能提供的服務、使用這些服務的規則、相關內容的智慧財產權，以及爭議解決流程。這份範例文件僅包含文字。
修改版 Google-10K：完整說明了 Google 的財務表現、業務營運、管理和風險因素等內容。由於原始文件相當龐大，您將改用只有 14 頁的修改版，內容分為第 1 部分和第 2 部分。雖然經過節錄，但除了文字，本範例文件仍有表格和圖表等圖像。

您也會使用下列輔助函式來完成之後的工作。(如需更多資訊，請參閱 GitHub 的說明)：

「檢查經過處理的文字中繼資料」函式說明：
- text：頁面原文。
- text_embedding_page：頁面原文的嵌入。
- chunk_text：拆解成多個小分塊的原文。
- chunk_number：各文字分塊的索引。
- text_embedding_chunk：各文字分塊的嵌入。
「檢查經過處理的圖像中繼資料」函式說明：
- img_desc：Gemini 根據圖像生成的文字說明。
- mm_embedding_from_text_desc_and_img：圖片及其說明的嵌入組合，當中擷取了影像和文字資訊。
- mm_embedding_from_img_only：不含說明的圖片嵌入，可與前述嵌入組合的分析結果做對比。
- text_embedding_from_image_description：圖像說明的獨立文字嵌入，用於分析與比較文字。
「匯入輔助函式來導入 RAG」函式說明：
- get_similar_text_from_query()：根據查詢的文字，使用餘弦相似度演算法找出文件中的相關文字。此函式運算時會使用中繼資料裡的文字嵌入，且運算結果可根據最高分數、頁面/分塊編號或嵌入大小篩選。
- print_text_to_text_citation()：根據 get_similar_text_from_query() 函式擷取的文字，顯示來源 (引用資料) 和詳細資訊。
- get_similar_image_from_query()：根據查詢的圖片路徑或圖片，找出文件中的相關圖片。此函式會使用中繼資料裡的圖片嵌入。
- print_text_to_image_citation()：根據 `get_similar_image_from_query()`` 函式擷取的圖片顯示來源 (引用資料) 和詳細資訊。
- get_gemini_response()：讓 Gemini 根據輸入的文字和圖片回答問題。
- display_images()：顯示一系列的圖像 (透過路徑或以 PIL 圖像物件形式提供)。

按照「為包含文字和圖片的文件建立中繼資料」部分的指示操作，匯入並執行輔助函式。
按照「建立使用者查詢」部分的指示操作，使用提供的變數。
按照「取得所有相關文字分塊」部分的指示操作，根據查詢擷取相關文字分塊。
按照「建立 context_text」部分的指示操作，整理文字分塊。
按照「將脈絡資訊傳送給 Gemini」部分的指示操作，將脈絡資訊傳送給 Gemini 並生成回覆。

點選「Check my progress」，確認目標已達成。使用多模態檢索增強生成 (RAG) 功能擷取並整合資訊。

恭喜！

完成本挑戰實驗室，代表您能運用 Gemini API 生成文字、建立函式呼叫並說明影片內容。您透過上述工作確認這些功能都符合預期標準，可部署至正式環境。非常好！

徽章：使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件

後續行動/瞭解詳情

歡迎參考下列資源，進一步瞭解 Gemini：

Gemini 簡介
Vertex AI 生成式 AI 說明文件
透過 YouTube 瞭解生成式 AI
探索 Vertex AI 教戰手冊，瀏覽及搜尋眾多精心挑選的生成式 AI 筆記本。
前往 Google Cloud 生成式 AI 存放區，查看其他筆記本和範例。

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法，讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程，並有隨選、線上和虛擬課程等選項，方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

使用手冊上次更新日期：2025 年 10 月 15 日

實驗室上次測試日期：2025 年 10 月 15 日

GSP520

總覽

測驗主題

設定和需求

瞭解以下事項後，再點選「Start Lab」按鈕

開啟 Vertex AI Workbench 中的筆記本

設定筆記本

挑戰情境

工作 1：透過 Gemini 生成多模態洞察資料

工作 2：使用多模態檢索增強生成 (RAG) 功能擷取並整合資訊

恭喜！

後續行動/瞭解詳情

Google Cloud 教育訓練與認證

Before you begin

Use private browsing

Sign in to the Console

Use private browsing to run the lab