Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Image understanding across multiple images
/ 25
Similarity/Differences between the images
/ 25
Generate a video description and retrieve extra information beyond the video
/ 25
Multimodal retrieval augmented generation (RAG)
/ 25
Image understanding across multiple images
/ 25
Similarity/Differences between the images
/ 25
Generate a video description and retrieve extra information beyond the video
/ 25
Multimodal retrieval augmented generation (RAG)
/ 25
在挑戰研究室中,您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明,您將運用從課程研究室學到的技巧,自行找出方法完成任務!自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。
在您完成任務的期間,挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧,例如變更預設值或詳讀並研究錯誤訊息,解決遇到的問題。
若想滿分達標,就必須在時限內成功完成所有任務!
本實驗室適合報名下列技能徽章課程的學員:使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件。準備好迎接挑戰了嗎?
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
前往 Google Cloud 控制台,依序點按「導覽選單」圖示
>「Agent Platform」>「Notebooks」。
在左側導覽列中,點擊 Workbench。
找出
Workbench 執行個體的 JupyterLab 介面會在新瀏覽器分頁開啟。
1. 關閉 JupyterLab 的瀏覽器分頁,回到 Workbench 首頁。
2. 勾選執行個體名稱旁的核取方塊,然後點按「重設」。
3. 「開啟 JupyterLab」按鈕再次啟用後,等待一分鐘,然後點按「開啟 JupyterLab」。
開啟
出現「Select Kernel」對話方塊時,從可用核心清單中選取「Python 3」。
執行筆記本的「Getting Started」部分,專案 ID 和位置已預先設定完成。
開始工作 1 前,請先執行筆記本中「設定和要求」部分的 4 個儲存格。
您是某間媒體公司的行銷廣告活動統籌專員,與行銷經理密切合作,共同規劃、執行及評估廣告活動來達成行銷目標。您最近與 Google 簽訂了令人期待的新合約。身為行銷廣告活動統籌專員,您迫不及待想瞭解各項學習資源,盡快熟悉 Google 的品牌和品牌識別,因此打算運用 Gemini 的創新功能,更有效率地查看 Google 的品牌宣傳指南、過往的廣告活動、產品廣告、客戶見證和財務報表來進一步瞭解 Google。
在本挑戰中,您會先使用 Gemini 的多模態功能,運用多模態提示從文字和影像資料擷取資訊、生成影片說明,並擷取影片以外的額外資訊。此外,您也會使用 Gemini 的多模態檢索增強生成 (RAG) 功能,為含有文字和圖片的文件建立中繼資料、取得所有相關文字分塊,並顯示引用資料。
在這項工作,您會使用 Gemini 熟悉 Google 的品牌和品牌識別。Gemini 是支援多模態提示詞的多模態模型。您會在提示詞中加入文字、圖像和影片,並取得文字或程式碼形式的回覆。
請查看指定的筆記本部分,然後按照對應的指示完成這項工作。
點選「Check my progress」,確認目標已達成。
點選「Check my progress」,確認目標已達成。
按照「生成影片說明」部分的指示操作,使用多模態模型生成影片說明。
按照「擷取整部影片中的物件標記」部分的指示操作,使用多模態模型擷取影片中的物件標記。
按照「詢問更多有關影片的問題」部分的指示操作,使用多模態模型進一步瞭解影片內容。
按照「擷取影片以外的額外資訊」部分的指示操作,使用多模態模型取得影像的延伸資訊。
點選「Check my progress」,確認目標已達成。
請查看指定的筆記本部分,然後按照對應的指示完成這項工作。
以下是要用來完成工作 2 的資料和輔助函式:
Google 服務的服務條款文件,當中定義 Google 和使用者之間的關係。這份文件涵蓋 Google 能提供的服務、使用這些服務的規則、相關內容的智慧財產權,以及爭議解決流程。這份範例文件僅包含文字。
修改版 Google-10K:完整說明了 Google 的財務表現、業務營運、管理和風險因素等內容。由於原始文件相當龐大,您將改用只有 14 頁的修改版,內容分為第 1 部分和第 2 部分。雖然經過節錄,但除了文字,本範例文件仍有表格和圖表等圖像。
您也會使用下列輔助函式來完成之後的工作。(如需更多資訊,請參閱 GitHub 的說明):
「檢查經過處理的文字中繼資料」函式說明:
「檢查經過處理的圖像中繼資料」函式說明:
「匯入輔助函式來導入 RAG」函式說明:
get_similar_text_from_query() 函式擷取的文字,顯示來源 (引用資料) 和詳細資訊。按照「為包含文字和圖片的文件建立中繼資料」部分的指示操作,匯入並執行輔助函式。
按照「建立使用者查詢」部分的指示操作,使用提供的變數。
按照「取得所有相關文字分塊」部分的指示操作,根據查詢擷取相關文字分塊。
按照「建立 context_text」部分的指示操作,整理文字分塊。
按照「將脈絡資訊傳送給 Gemini」部分的指示操作,將脈絡資訊傳送給 Gemini 並生成回覆。
點選「Check my progress」,確認目標已達成。
完成本挑戰實驗室,代表您能運用 Gemini API 生成文字、建立函式呼叫並說明影片內容。您透過上述工作確認這些功能都符合預期標準,可部署至正式環境。非常好!
歡迎參考下列資源,進一步瞭解 Gemini:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 10 月 15 日
實驗室上次測試日期:2025 年 10 月 15 日
Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one
Complete this quick step to start your lab.