
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Install GenAI SDK for Python and import libraries
/ 10
Download custom Python utilities & required files
/ 10
Building metadata of documents containing text and images
/ 10
Text Search
/ 10
Image Search
/ 20
Comparative Reasoning
/ 20
Print citations and references
/ 20
Gemini 是由 Google DeepMind 開發的一系列生成式 AI 模型,專為多模態用途而設計。
檢索增強生成 (RAG) 已成為大型語言模型用來存取外部資料的熱門方式,以此機制建立基準也有助於減少幻覺。RAG 模型經過訓練,會從大型語料庫檢索相關文件,然後依據檢索的文件生成回覆。本實驗室將說明如何透過多模態 RAG,針對圖文並茂的金融文件進行問與答。
與文字型 RAG 相比,多模態 RAG 提供更多優勢:
本實驗室說明如何透過 Vertex AI Gemini API 的 RAG、文字嵌入項目和多模態嵌入項目,建構文件搜尋引擎。
開始這個實驗室之前,您應已熟悉下列概念:
本實驗室的內容包括:
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
前往 Google Cloud 控制台,依序點按「導覽選單」圖示 >「Vertex AI」>「Workbench」。
找出
Workbench 執行個體的 JupyterLab 介面會在新瀏覽器分頁開啟。
1. 關閉 JupyterLab 的瀏覽器分頁,回到 Workbench 首頁。
2. 勾選執行個體名稱旁的核取方塊,然後點按「重設」。
3. 「開啟 JupyterLab」按鈕再次啟用後,等待一分鐘,然後點按「開啟 JupyterLab」。
開啟
出現「Select Kernel」對話方塊時,從可用核心清單中選取「Python 3」。
完成筆記本的「Getting Started」和「Import libraries」部分。
點選「Check my progress」,確認目標已達成。
在後續章節中,您需要執行各個筆記本儲存格,瞭解如何使用 Gemini API 建構多模態 RAG 系統。
Gemini 2.0 Flash (gemini-2.0-flash
) 模型可處理自然語言工作、進行多輪文字和程式碼對話,以及生成程式碼。在本節中,您將下載這個筆記本需要的輔助函式,藉此提高可讀性。您也可以直接在 GitHub 查看程式碼 (intro_multimodal_rag_utils.py
)。
點選「Check my progress」,確認目標已達成。
您在本實驗室使用的來源資料為修改版 Google-10K,當中完整說明了 Google 的財務表現、業務營運、管理和風險因素等。由於原始文件相當龐大,您將改用只有 14 頁的修改版,內容分為第 1 部分和第 2 部分。雖然經過節錄,但除了文字外,本範例文件仍含有表格和圖表等圖片。
點選「Check my progress」,確認目標已達成。
請先以簡單的問題進行搜尋,看看使用文字嵌入項目的簡易文字搜尋模型能否回答問題。目標是讓模型就不同類型的 Google 股票,顯示基本和稀釋每股淨收益。
點選「Check my progress」,確認目標已達成。
請試想這個情境:您希望用實際圖片當成搜尋圖片的線索,而不是輸入搜尋字詞。有個表格記錄了兩年的營業成本數據,而您想從同一份文件或多份文件中,找出與這個表格相似的其他圖片。
開發多模態 RAG 系統的重要基石,便是藉助 Gemini 和嵌入項目,讓該系統得以根據使用者輸入內容找出相似文字和圖片。我們會在下一項工作探討這點。
點選「Check my progress」,確認目標已達成。
假設您有一個圖表,當中顯示 Google 的 A 股與其他股票 (例如 S&P 500 或其他科技公司) 相比的表現。您想將 C 股與該圖表做比較,瞭解 C 股的表現如何。這時 Gemini 不只能找出另一張相似圖片,還可幫忙比較相關圖片,告訴您哪一支股票較值得投資,隨後再說明原因。
點選「Check my progress」,確認目標已達成。
現在來應用所學,開始導入多模態 RAG 吧!您需要使用前幾節探討的各項元素導入多模態 RAG,步驟如下:
文字搜尋
」一節探討的方法,使用類似做法進行搜尋,從文件的頁面中找出所有文字分塊。圖片搜尋
」一節探討的方法,使用相同做法進行搜尋,根據與 image_description
相符的使用者查詢,從頁面中找出所有相似圖片。context_text
和 context_images
。點選「Check my progress」,確認目標已達成。
在本實驗室中,您已瞭解如何建構採用多模態檢索增強生成 (RAG) 系統的強大文件搜尋引擎。這段期間,您學會了對含有文字和圖片的文件擷取及儲存中繼資料,並生成文件嵌入項目。此外,您也學到如何以文字和圖片查詢搜尋中繼資料,找出相似文字或圖片。最後,您學會如何將文字查詢做為輸入內容,比對相關文字和圖像來找出解答。
歡迎參考下列資源,進一步瞭解 Gemini:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 7 月 11 日
實驗室上次測試日期:2025 年 7 月 11 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验