Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create an API Key
/ 25
Upload an Image to a Cloud Storage bucket
/ 25
Upload an image for Face Detection to your bucket
/ 25
Upload an image for Landmark Annotation to your bucket
/ 25
Create an API Key
/ 25
Upload an Image to a Cloud Storage bucket
/ 25
Upload an image for Face Detection to your bucket
/ 25
Upload an image for Landmark Annotation to your bucket
/ 25
Cloud Vision API 是能分析圖片及擷取資訊的雲端式服務,可用來偵測圖片中的物件、臉孔和文字。Cloud Vision API 將強大的機器學習模型封裝於容易使用的 REST API 中,是解讀圖片內容的實用工具。
在本實驗室中,您將瞭解如何將圖片傳送至 Cloud Vision API,以及使用 API 偵測物件、臉孔和地標/特徵。
在本實驗室中,您將瞭解如何執行下列工作:
curl 指令呼叫 API。請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示 。
系統顯示視窗時,請按照下列步驟操作:
連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID:
gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
輸出內容:
輸出內容:
gcloud 的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南。
在這項工作中,您要產生 API 金鑰並用要求網址傳遞,以使用 curl 傳送要求至 Vision API。
在 Cloud 控制台的「導覽選單」中,依序前往「API 和服務」>「憑證」,建立 API 金鑰。
接著點按「建立憑證」並選取「API 金鑰」。
請點選下方的「Check my progress」,確認實驗室進度。
接著,將 API 金鑰儲存為環境變數,這樣就不必在每個要求插入金鑰值。
將圖片傳送至 Cloud Vision API 進行偵測的方式有兩種:將採用 base64 編碼的圖片字串傳送至 API,或是傳送儲存在 Cloud Storage 的檔案網址。
本實驗室採用 Cloud Storage 網址方法。首先,請建立 Cloud Storage bucket 來儲存圖片。
依序選取「導覽選單」>「Cloud Storage」>「Bucket」,然後點按「Bucket」旁邊的「建立」。
為 bucket 取一個不重複的名稱:
命名後,點按「選取如何控制物件的存取權」。
取消選取「強制禁止公開存取這個 bucket」核取方塊,然後選取「精細」圓形按鈕。
其他 bucket 設定則保留預設值。
檔案應該會出現在 bucket 中。
現在您需要公開這張圖片。
點按「新增項目」,然後輸入下列內容:
完成後點按「儲存」。
現在檔案已加入 bucket,您就可以建立 Cloud Vision API 要求,傳送甜甜圈圖片的網址了。
請點選下方的「Check my progress」,確認實驗室進度。
在 Cloud Shell 主目錄中建立 request.json 檔案。
或您常用的指令列編輯器 (nano、vim 或 emacs),建立 request.json 檔案。
request.json 檔案中:您可以在 Cloud Shell 等整合式開發環境 (IDE) 中使用 Gemini Code Assist,取得程式碼相關指引或解決程式碼問題。Gemini Code Assist 必須先啟用,才能開始使用。
點選畫面底部狀態列中的「Cloud Code - No Project」。
依指示授權外掛程式。如果系統未自動選取專案,請點按「選取 Google Cloud 專案」,然後選擇
確認狀態列的 Cloud Code 狀態訊息中已顯示 Google Cloud 專案 (
您要練習的第一項 Cloud Vision API 功能是標籤偵測,以下方法會傳回圖片內容的標籤 (字詞) 清單。
curl 指令,呼叫 Cloud Vision API 並將回應內容儲存至 label_detection.json 檔案:回應內容應如下所示:
輸出內容:
API 成功辨識出甜甜圈是糖霜口味,太酷了!Vision API 針對每個找到的標籤傳回了下列資訊:
description 為項目的描述。score 為介於 0 到 1 之間的數字,表示模型對於「項目描述與圖片內容相符」的信心程度。mid 值即為 Google 知識圖譜中的項目 mid 值。呼叫 Knowledge Graph API 時,可以使用 mid 取得項目詳細資訊。label_detection.json。這項動作會啟用 Gemini Code Assist。編輯器右上角出現 Gemini Code Assist 會直接在程式碼編輯器中提供 AI 輔助智慧動作,協助您提高工作效率,同時減少切換情境的次數。在本節中,您打算請 Gemini Code Assist 提供協助,瞭解如何向團隊成員說明 Cloud Vision API 回應。
點選「Gemini Code Assist: Smart Actions」 圖示,然後選取「Explain this」。
Gemini Code Assist 會開啟對話窗格,並預先填入提示詞 Explain this。在 Code Assist 對話的內嵌文字方塊中,將預先填入的提示詞改成下列內容,然後點選「Send」:
Gemini Code Assist 對話視窗中,您會看到 AI 對 label_detection.json 程式碼內 Cloud Vision API 回應的詳細說明。
除了擷取圖片內容的標籤,Cloud Vision API 還能搜尋網際網路,找出更多圖片的詳細資訊。您可以透過 API 的 WebDetection 方法取得許多有趣的資料:
執行網頁偵測時,可使用相同的甜甜圈圖片,並變更 request.json 檔案中的一行程式碼,或者以完全不同的圖片嘗試。
在 Cloud Shell 編輯器中,前往同一目錄中的 request.json 並開啟檔案。
點按工具列中的「Gemini Code Assist:智慧動作」 圖示。
除了詳細說明程式碼,您還可以使用 Gemini Code Assist 的 AI 功能,直接在編輯器中變更程式碼。在本例中,您決定讓 Gemini Code Assist 協助編輯 request.json 檔案的內容。
request.json 檔案。按下 Enter 鍵,提示 Gemini Code Assist 根據指示修改程式碼。
「Gemini Diff」檢視畫面出現提示時,點按「Apply all changes」。
request.json 檔案的內容應與下列類似。
curl 指令,呼叫 Cloud Vision API:webEntities 開始深入瞭解 API 的回應。這張圖片傳回的實體包括:這張圖片曾多次用於 Cloud ML API 簡報,因此 API 找到「Machine learning」和「Google Cloud Platform」實體。
查看 fullMatchingImages、partialMatchingImages 和 pagesWithMatchingImages 底下的網址時,會發現許多網址都指向這個實驗室網站 (打破第四道牆!)。
假設您想搜尋其他甜甜圈圖片,但不想找到完全相同的圖片,這時 API 回應中的 visuallySimilarImages 部分就能派上用場。以下是 API 找到的幾張相似圖片:
您可以前往這些網址查看類似圖片:
看到那麼多甜甜圈,肚子都餓了起來 (抱歉!)。其實這就像是在 Google 圖片以圖搜圖。
有了 Cloud Vision,您就能透過簡單易用的 REST API 使用這項功能,並將其整合至應用程式。
接著來看看 Vision API 的臉部偵測方法。
臉部偵測方法會傳回圖片中的臉部資料,包括情緒和臉孔在圖片中的位置。
請將含有臉孔的新圖片上傳至 Cloud Storage bucket,才能使用這種方法。
請點選下方的「Check my progress」,確認實驗室進度。
在 Cloud Shell 編輯器的同一目錄中,前往 request.json。
點按工具列中的「Gemini Code Assist:智慧動作」 圖示。
將下列提示詞貼到工具列開啟的 Gemini Code Assist 內嵌文字欄位,請 Gemini Code Assist 協助更新 request.json 檔案。
按下 Enter 鍵,提示 Gemini Code Assist 根據指示修改程式碼。
「Gemini Diff」檢視畫面出現提示時,點按「Apply all changes」。
更新後的要求檔案應如下所示:
curl 指令,呼叫 Cloud Vision API:faceAnnotations 物件。API 每在圖片中找到一張臉孔,就會傳回一個物件,因此本例傳回三個物件。以下是部分回應內容:boundingPoly 代表圖中臉部輪廓的 x 與 y 座標。fdBoundingPoly 是比 boundingPoly 更小的方塊,代表臉部皮膚座標。landmarks 是每個臉部特徵的物件陣列,有時候甚至會出現您從未注意過的特徵。這些資訊會告訴您特徵類型,以及該特徵在 3D 空間中的位置 (x、y、z 座標),z 座標代表深度。其餘值則提供更多表情詳細資訊,包括喜、悲、怒和驚訝的機率。您正在查看的回應是離鏡頭最遠的人,他做了一個有點俏皮的表情,這解釋了 joyLikelihood 為何是 LIKELY。
地標偵測功能可辨識常見 (和較不知名) 的地標,這項功能會傳回地標名稱、經緯度座標,以及地標在圖中的位置。
請上傳新圖片至 Cloud Storage bucket,才能使用這個方法。
圖片出處:聖瓦西里主教座堂,2019 年 12 月 19 日由 Adrien Wodey 攝於俄羅斯莫斯科,圖片由免費媒體圖庫 Unsplash 提供。取自:https://unsplash.com/photos/multicolored-dome-temple-yjyWCNx0J1U。檔案已取得 Unsplash 授權。
請點選下方的「Check my progress」,確認實驗室進度。
request.json 檔案,這段指令包含新圖片的網址,並要求 API 偵測地標:curl 指令,呼叫 Cloud Vision API:landmarkAnnotations 部分:Cloud Vision API 成功辨識出相片拍攝地點,並提供該地點的地圖座標 (位於俄羅斯莫斯科紅場的聖瓦西里主教座堂)。
這段回應中的值應與上方的 labelAnnotations 回應類似:
mid
description)分數
boundingPoly 代表圖中辨識出地標的區塊。locations 鍵代表相片拍攝地點的經緯度座標。Vision API 的物件定位功能可偵測並擷取圖片中多個物件的資訊,因此能辨識一張圖片中多個物件,並分別提供 LocalizedObjectAnnotation。每個 LocalizedObjectAnnotation 會識別物件資訊、物件位置,以及框住圖中物件的矩形區域。
物件定位功能可用來識別圖片中顯眼和不明顯的物件。
物件資訊僅會以英文傳回,不過您可以用 Cloud Translation 將英文標籤翻譯成多種語言。
請使用網路上現有的圖片,並更新 request.json 檔案,才能使用這個方法。
request.json 檔案,這段指令包含新圖片的網址,並要求 API 定位物件。curl 指令,呼叫 Cloud Vision API:localizedObjectAnnotations 部分:如您所見,Vision API 能辨識出這張圖片包含自行車和車輪。這段回應中的值應與上方的 labelAnnotations 回應類似:物件的 mid、名稱 (name)、可信度分數,boundingPoly 同樣代表圖中辨識出物件的區塊。
此外,boundingPoly 也提供了 normalizedVertices 鍵,代表圖中物件的座標。這些座標會正規化成 0 到 1 的範圍,0 代表圖片左上角,1 代表右下角。
恭喜!您已成功使用 Vision API 分析圖片,並擷取圖中物件的相關資訊。
本實驗室已帶您認識 Vision API 的標籤、臉部、地標/特徵偵測和物件定位方法,但還有三種方法尚未介紹。請參閱「images.annotate」方法說明文件,瞭解其他三種偵測類型:
您已瞭解如何使用 Vision API 分析圖片。在本實驗室中,您將不同圖片的 Cloud Storage URL 傳送至 API,並讓 API 傳回在圖片中找到的標籤、臉孔、地標/特徵和物件。如果是分析儲存在資料庫或記憶體中的圖片,您也可以將 base64 編碼字串傳送給 API。
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 10 月 14 日
實驗室上次測試日期:2025 年 10 月 14 日
Copyright 2026 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one
Complete this quick step to start your lab.