GSP1247

總覽
在本實驗室,您將瞭解如何使用「BigQuery 機器學習推論」功能,運用遠端模型 (Gemini AI 模型) 來分析電影海報圖片並生成摘要,做為概念驗證專案的一環。
BigQuery 是支援 AI 的全代管資料分析平台,專為多引擎、跨格式和多雲端的環境而設計,可充分發揮資料價值。「BigQuery 機器學習推論」是 BigQuery 的一項重要功能,讓您能使用 GoogleSQL 查詢建立及執行機器學習模型。
Gemini 是由 Google DeepMind 開發的一系列生成式 AI 模型,專為多模態用途而設計。您可以透過 Gemini API 使用 Gemini Pro Vision 和 Gemini Pro 模型。
使用 GoogleSQL 查詢執行機器學習模型
一般來說,要對大型資料集執行機器學習或人工智慧 (AI) 技術,需要進行大量程式設計,並具備機器學習框架的知識。因此每間公司只有少數人員能開發解決方案。這些人還不包含資料分析師,因為分析師雖然瞭解資料,但機器學習和程式設計專業知識有限。有了「BigQuery 機器學習推論」功能,SQL 使用者就能運用現有的 SQL 工具和技能來建構模型,並以 LLM 和 Cloud AI API 生成結果。
目標
本實驗室的內容包括:
- 為環境和帳戶進行使用 API 的相關設定。
- 在 BigQuery 建立 Cloud 資源連線。
- 在 BigQuery 為電影海報圖片建立資料集和物件資料表。
- 在 BigQuery 建立 Gemini 遠端模型。
- 提示 Gemini 為每張海報提供電影摘要。
- 根據每張海報代表的電影生成文字嵌入。
- 使用 BigQuery VECTOR_SEARCH 函式,找出資料集中與電影海報圖片高度相關的電影。
設定和需求
瞭解以下事項後,再點選「Start Lab」按鈕
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
- 可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意事項:請使用無痕模式 (建議選項) 或私密瀏覽視窗執行此實驗室,這可以防止個人帳戶和學員帳戶之間的衝突,避免個人帳戶產生額外費用。
- 是時候完成實驗室活動了!別忘了,活動一旦開始將無法暫停。
注意事項:務必使用實驗室專用的學員帳戶。如果使用其他 Google Cloud 帳戶,可能會產生額外費用。如何開始研究室及登入 Google Cloud 控制台
- 
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目: 
- 「Open Google Cloud console」按鈕
- 剩餘時間
- 必須在這個研究室中使用的臨時憑證
- 完成這個實驗室所需的其他資訊 (如有)
 
- 
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。 接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。 提示:您可以在不同的視窗中並排開啟分頁。 注意:如果頁面中顯示「選擇帳戶」對話方塊,請點選「使用其他帳戶」。
- 
如有必要,請將下方的 Username 貼到「登入」對話方塊。 {{{user_0.username | "Username"}}}您也可以在「Lab Details」窗格找到 Username。 
- 
點選「下一步」。 
- 
複製下方的 Password,並貼到「歡迎使用」對話方塊。 {{{user_0.password | "Password"}}}您也可以在「Lab Details」窗格找到 Password。 
- 
點選「下一步」。 重要事項:請務必使用實驗室提供的憑證,而非自己的 Google Cloud 帳戶憑證。
注意:如果使用自己的 Google Cloud 帳戶來進行這個實驗室,可能會產生額外費用。
- 
按過後續的所有頁面: 
- 接受條款及細則。
- 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
- 請勿申請免費試用。
 
Google Cloud 控制台稍後會在這個分頁開啟。
注意:如要使用 Google Cloud 產品和服務,請點選「導覽選單」,或在「搜尋」欄位輸入服務或產品名稱。 
工作 1:為環境和專案進行使用 API 的相關設定
在這項工作,您會設定實驗室環境,以便在專案使用 Gemini 的 Cloud AI Companion API 和 Vertex AI API。
注意:如果不熟悉 Cloud Shell,請參閱「使用 Cloud Shell」一文。
- 
使用實驗室憑證登入 Google Cloud 控制台,然後開啟 Cloud Shell 終端機視窗。 
- 
執行下列指令,在 Cloud Shell 設定專案 ID 和區域環境變數: PROJECT_ID=$(gcloud config get-value project)
 REGION={{{project_0.default_region|set at lab start}}}
 echo "PROJECT_ID=${PROJECT_ID}"
 echo "REGION=${REGION}"
- 
執行下列指令,將已登入的 Google 使用者帳戶儲存在環境變數中: USER=$(gcloud config get-value account 2> /dev/null)
 echo "USER=${USER}"
- 
啟用 Gemini 的 Cloud AI Companion API 和 Vertex AI API: gcloud services enable cloudaicompanion.googleapis.com --project ${PROJECT_ID}
 gcloud services enable aiplatform.googleapis.com --project ${PROJECT_ID}
- 
為您的 Google Cloud Qwiklabs 使用者帳戶授予必要的 IAM 角色,以便使用 Gemini: gcloud projects add-iam-policy-binding ${PROJECT_ID} --member user:${USER} --role=roles/cloudaicompanion.user
 gcloud projects add-iam-policy-binding ${PROJECT_ID} --member user:${USER} --role=roles/serviceusage.serviceUsageViewer新增角色後,使用者即可透過 Gemini 取得協助。 
點按「Check my progress」確認目標已達成。啟用相關 API 並設定 IAM 角色。
工作 2:建立 Cloud 資源連線
在這項工作,您會在 BigQuery 建立 Cloud 資源連線,以便使用 Gemini Pro 和 Gemini Pro Vision 模型。
- 
前往 Google Cloud 控制台,點選「導覽選單」中的「BigQuery」。 
- 
點選歡迎彈出式視窗中的「完成」。 
- 
依序點選「+ 新增」和「連線至外部資料來源」來建立連線。 
注意:如果沒有看到「+ 新增」和之後出現的「連線至外部資料來源」選項,可以點選「+ 新增資料」,使用資料來源的搜尋列尋找 Vertex AI。點選 Vertex AI 的搜尋結果。
- 
在「連線類型」清單中,選取「Vertex AI 遠端模型、遠端函式和 BigLake (Cloud 資源)」。 
- 
在「連線 ID」欄位為連線輸入 gemini_conn。 
- 
「位置類型」請選取「多區域」,然後從下拉式選單中選取「US」這個多區域。 
- 
其他設定均保留預設值。 
- 
點選「建立連線」。 
- 
點選「前往連線」。 
- 
在「連線資訊」窗格,將服務帳戶 ID 複製到文字檔案,方便在下一項工作中使用。在 BigQuery Explorer,您也會看到該連線已新增至專案的「外部連線」專區。 
點選「Check my progress」,確認目標已達成。
建立 Cloud 資源連線
工作 3:將 IAM 權限授予連線的服務帳戶
在這項工作,您會為 Cloud 資源連線的服務帳戶指定角色,讓帳戶具備 IAM 權限,以便使用 Vertex AI 服務。
- 
前往 Google Cloud 控制台,依序點選「導覽選單」和「IAM 與管理」, 
- 
點選「授予存取權」。 
- 
在「新增主體」欄位,輸入先前複製的服務帳戶 ID。 
- 
在「請選擇角色」欄位輸入「Vertex AI」,然後選取「Vertex AI 使用者」角色。 
- 
點選「儲存」。 現在服務帳戶 ID 具備 Vertex AI 使用者角色。 
點選「Check my progress」,確認目標已達成。
將 IAM 權限授予連線的服務帳戶。
工作 4:在 BigQuery 為電影海報圖片建立資料集和物件資料表
在這項工作,您會建立專案資料集,並在當中建立物件資料表來儲存海報圖片。
建立資料集
- 
前往 Google Cloud 控制台,依序選取「導覽選單」圖示  和「BigQuery」。 和「BigQuery」。
 
- 
在「Explorer」面板,請選取  的「查看動作」圖示  ,然後選擇「建立資料集」。 ,然後選擇「建立資料集」。
 建立資料集,即可儲存資料庫物件,包括資料表和模型。 
- 
在「建立資料集」窗格,輸入以下資訊: 
| 欄位 | 值 |  
| 資料集 ID | gemini_demo |  
| 位置類型 | 選取「多區域」 |  
| 多區域 | 選取「US」 |  
 其他欄位均保留預設值。 
- 
點選「建立資料集」。 系統就會建立 gemini_demo 資料集,並在 BigQuery Explorer 中列於專案下方。 
建立物件資料表
您會使用 SQL 查詢來建立物件資料表。
- 
點選「+」,建立新的 SQL 查詢。 
- 
在查詢編輯器貼上以下查詢。 CREATE OR REPLACE EXTERNAL TABLE
  `gemini_demo.movie_posters`
WITH CONNECTION `us.gemini_conn`
OPTIONS (
  object_metadata = 'SIMPLE',
  uris = ['gs://cloud-samples-data/vertex-ai/dataset-management/datasets/classic-movie-posters/*']
  );
- 
執行查詢。 系統就會將 movie_posters 物件資料表新增至 gemini_demo 資料集,並載入每張電影海報圖片的 URI (Cloud Storage 位置)。 
- 
在 Explorer 點選「movie_posters」,查看結構定義和詳細資料。如要查看特定記錄,可以查詢資料表。 
點選「Check my progress」,確認目標已達成。
在 BigQuery 為電影海報圖片建立資料集和物件資料表。
工作 5:在 BigQuery 建立 Gemini 遠端模型
建立物件資料表後,即可開始使用。在這項工作,您會在 BigQuery 建立 Gemini Pro 及 Gemini Pro Vision 的遠端模型。
建立 Gemini Pro 模型
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行下列查詢。 CREATE OR REPLACE MODEL `gemini_demo.gemini_pro`
REMOTE WITH CONNECTION `us.gemini_conn`
OPTIONS (endpoint = 'gemini-2.0-flash-001')系統會建立 gemini_pro 模型,並新增至模型專區的 gemini_demo 資料集。 
- 
在 Explorer 點選「gemini_pro」模型,查看詳細資料和結構定義。 
建立 Gemini Pro Vision 模型
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行下列查詢。 CREATE OR REPLACE MODEL `gemini_demo.gemini_pro_vision`
REMOTE WITH CONNECTION `us.gemini_conn`
OPTIONS (endpoint = 'gemini-2.0-flash-001')系統會建立 gemini_pro_vision 模型,並新增至模型專區的 gemini_demo 資料集。 
- 
在 Explorer 點選「gemini_pro_vision」模型,查看詳細資料和結構定義。 
點選「Check my progress」,確認目標已達成。
在 BigQuery 建立 Gemini 遠端模型。
工作 6:提示 Gemini 為每張海報提供電影摘要
在這項工作,您會使用 Gemini (您剛建立的 Gemini Pro 和 Vision 模型) 分析電影海報圖片,為每部電影生成摘要。
使用 Gemini Pro Vision 模型分析圖片
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行以下查詢。 CREATE OR REPLACE TABLE
`gemini_demo.movie_posters_results` AS (
SELECT
    uri,
    ml_generate_text_llm_result
FROM
    ML.GENERATE_TEXT( MODEL `gemini_demo.gemini_pro_vision`,
    TABLE `gemini_demo.movie_posters`,
    STRUCT( 0.2 AS temperature,
        'For the movie represented by this poster, what is the movie title and year of release? Answer in JSON format with two keys: title, year. title should be string, year should be integer.' AS PROMPT,
        TRUE AS FLATTEN_JSON_OUTPUT)));系統就會建立 movie_posters_results 資料表。 
- 
在 Explorer 點選「movie_posters_results」資料表,查看結構定義和詳細資料。 
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行以下查詢。 SELECT * FROM `gemini_demo.movie_posters_results`在產生的資料表中,每張電影海報都有一個資料列,其中顯示 URI (電影海報圖片的 Cloud Storage 位置) 和 JSON 結果,包含 Gemini Pro Vision 模型生成的片名和上映年份。 您可以使用下方查詢,以較方便人類閱讀的方式擷取資料: 
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行以下查詢。 CREATE OR REPLACE TABLE
  `gemini_demo.movie_posters_results_formatted` AS (
  SELECT
    uri,
    JSON_QUERY(RTRIM(LTRIM(results.ml_generate_text_llm_result, " ```json"), "```"), "$.title") AS title,
    JSON_QUERY(RTRIM(LTRIM(results.ml_generate_text_llm_result, " ```json"), "```"), "$.year") AS year
  FROM
    `gemini_demo.movie_posters_results` results )系統就會建立 movie_posters_result_formatted 資料表。 
- 
您可以對這個資料表執行以下查詢,查看建立的資料列。 SELECT * FROM `gemini_demo.movie_posters_results_formatted`您會發現每列的 URI 欄結果維持不變,但 JSON 現已轉為片名欄和上映年份欄。 
提示 Gemini Pro 提供電影摘要
- 
您可以使用 Gemini Pro 執行以下查詢,為每張海報提供電影摘要。 SELECT
  uri,
  title,
  year,
  prompt,
  ml_generate_text_llm_result
  FROM
 ML.GENERATE_TEXT( MODEL `gemini_demo.gemini_pro`,
   (
   SELECT
     CONCAT('Provide a short summary of movie titled ',title, ' from the year ',year,'.') AS prompt,
     uri,
     title,
     year
   FROM
     `gemini_demo.movie_posters_results_formatted`
   LIMIT
     20 ),
   STRUCT(0.2 AS temperature,
     TRUE AS FLATTEN_JSON_OUTPUT));請注意,結果與先前的查詢類似,但現在提示資料欄會顯示 Gemini 使用的提示,ml_generate_text_llm_result 欄位則含有該提示產生的結果,其中包括電影的簡短摘要。 
點選「Check my progress」,確認目標已達成。
提示 Gemini 為每張海報提供電影摘要
工作 7:使用遠端模型生成文字嵌入
在這項工作,您會使用遠端模型生成文字嵌入,以便進一步分析。
建立遠端模型
您將需要使用端點上託管的 text-multilingual-embedding-002 遠端模型,生成文字嵌入。
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行以下查詢。 CREATE OR REPLACE MODEL `gemini_demo.text_embedding`
REMOTE WITH CONNECTION `us.gemini_conn`
OPTIONS (endpoint = 'text-multilingual-embedding-002')系統就會建立 text_embedding 模型,並在 Explorer 中列於 gemini_demo 資料集下方。 
為片名和上映年份生成文字嵌入
您需要建立資料表來儲存結果。
- 
點選「+」圖示,建立新的 SQL 查詢。 
- 
在查詢編輯器,貼上並執行以下查詢。 CREATE OR REPLACE TABLE
  `gemini_demo.movie_posters_results_embeddings` AS (
  SELECT
    *
  FROM
    ML.GENERATE_EMBEDDING(
    MODEL `gemini_demo.text_embedding`,
    (
    SELECT
      CONCAT('The movie titled ', title, ' from the year ', year,'.') AS content,
      title,
      year,
      uri
    FROM
      `gemini_demo.movie_posters_results_formatted` ),
    STRUCT(TRUE AS flatten_json_output)));系統就會產生 movie_poster_results_embeddings 資料表,內含根據 gemini_demo.movie_posters_results_formatted 資料表文字內容 (URI、片名和上映年份) 建立的嵌入。 注意:ML.GENERATE_EMBEDDING 函式是用於生成嵌入,這個函式需要三個引數:
- 第一個引數是用來生成嵌入的模型名稱。這次使用的模型名為 gemini_demo.text_embedding。
- 第二個引數是子查詢,用來選取要嵌入的文字內容。本例中的子查詢會選取每部電影的名稱和上映年份,並將這些文字串連成一個字串。
- 第三個引數是 struct,用來指定嵌入的輸出格式。這個範例將 flatten_json_output 欄位設為 TRUE,代表嵌入會扁平化為單一 JSON 物件。
 
- 
您可以使用下面這個新查詢來查看結果: SELECT * FROM `gemini_demo.movie_posters_results_embeddings`您可以看到模型為每部電影生成的嵌入 (以數字表示的向量)。 
為 IMDb 資料集的部分資料生成文字嵌入
您會建立新的 view,其中只包含資料集裡 1935 年以前上映的電影。
- 
使用以下 SQL 陳述式建立及執行新的查詢。 CREATE OR REPLACE VIEW
  `gemini_demo.imdb_movies` AS (
  WITH
    reviews AS (
      SELECT
        reviews.movie_id AS movie_id,
        title.primary_title AS title,
        title.start_year AS year,
        reviews.review AS review
      FROM
        `bigquery-public-data.imdb.reviews` reviews
      LEFT JOIN
        `bigquery-public-data.imdb.title_basics` title
      ON
        reviews.movie_id = title.tconst)
  SELECT
    DISTINCT(movie_id),
    title,
    year
  FROM
    reviews
  WHERE
    year < 1935)系統就會生成新的 view,其中涵蓋 bigquery-public-data.imdb.reviews 資料表中 1935 年以前上映的所有電影,並顯示各電影的 ID、片名和上映年份。 
- 
使用以下 SQL 陳述式建立及執行新的查詢。 CREATE OR REPLACE TABLE
  `gemini_demo.imdb_movies_embeddings` AS (
  SELECT
    *
  FROM
    ML.GENERATE_EMBEDDING( MODEL `gemini_demo.text_embedding`,
      (
      SELECT
        CONCAT('The movie titled ', title, ' from the year ', year,'.') AS content,
        title,
        year,
        movie_id
      FROM
        `gemini_demo.imdb_movies` ),
      STRUCT(TRUE AS flatten_json_output) )
  WHERE
    ml_generate_embedding_status = '' );系統就會生成資料表,內含 gemini_demo.imdb_movies 資料表的文字內容嵌入。 
使用 BigQuery VECTOR_SEARCH 函式,為各電影海報圖片找出對應的 IMDb movie_id
- 
使用以下 SQL 陳述式建立及執行新的查詢。 SELECT
  query.uri AS poster_uri,
  query.title AS poster_title,
  query.year AS poster_year,
  base.title AS imdb_title,
  base.year AS imdb_year,
  base.movie_id AS imdb_movie_id,
  distance
FROM
 VECTOR_SEARCH( TABLE `gemini_demo.imdb_movies_embeddings`,
   'ml_generate_embedding_result',
   TABLE `gemini_demo.movie_posters_results_embeddings`,
   'ml_generate_embedding_result',
   top_k => 1,
   distance_type => 'COSINE');查詢會使用 VECTOR_SEARCH 函式,為 gemini_demo.movie_posters_results_embeddings 資料表中的每個資料列,在 gemini_demo.imdb_movies_embeddings 資料表找出最鄰近的項目。系統會使用餘弦距離指標來找出最鄰近的項目,這個指標用來表示兩個嵌入的相似度。 在前面的步驟,我們使用 Gemini Pro Vision 辨識出海報中的電影。這個查詢可根據 Gemini 辨識出的電影,在 IMDb 資料集找出最相似的電影。舉例來說,您可以使用這項查詢,根據 Gemini Pro Vision 從電影海報辨識出的片名《Au Secours!》,從 IMDb 公開資料集找出與最接近的電影。IMDb 是使用英文片名《Help!》來表示這部電影。 
- 
建立並執行新的查詢,以 join 的方式結合 IMDb 公開資料集裡額外的電影評分資訊。 SELECT
  query.uri AS poster_uri,
  query.title AS poster_title,
  query.year AS poster_year,
  base.title AS imdb_title,
  base.year AS imdb_year,
  base.movie_id AS imdb_movie_id,
  distance,
  imdb.average_rating,
  imdb.num_votes
FROM
  VECTOR_SEARCH( TABLE `gemini_demo.imdb_movies_embeddings`,
    'ml_generate_embedding_result',
    TABLE `gemini_demo.movie_posters_results_embeddings`,
    'ml_generate_embedding_result',
    top_k => 1,
    distance_type => 'COSINE') DATA
LEFT JOIN
  `bigquery-public-data.imdb.title_ratings` imdb
ON
  base.movie_id = imdb.tconst
ORDER BY
  imdb.average_rating DESC這項查詢與剛才類似,系統仍會使用向量嵌入這種特殊數值表示法,找出與某個電影海報相似的電影。不過,這個資料集也從 IMDb 公開資料集的另一個資料表,以 join 的方式結合每部最相似電影的平均評分和投票數。 
點選「Check my progress」,確認目標已達成。
為 IMDb 資料集的部分資料生成文字嵌入
恭喜!
您已成功在 BigQuery 建立海報圖片的物件資料表、建立遠端 Gemini 模型、使用模型提示 Gemini 分析圖片並提供電影摘要、為片名生成文字嵌入,並使用嵌入為圖片找出 IMDb 資料集裡的相關片名。
後續步驟/瞭解詳情
Google Cloud 教育訓練與認證
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 4 月 9 日
實驗室上次測試日期:2025 年 4 月 9 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。