
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Create the connection resource
/ 20
Set up access to a Cloud Storage data lake
/ 30
Create the BigLake table
/ 20
Create the external table
/ 10
Update external table to Biglake table
/ 20
BigLake 是一種整合式儲存引擎,能簡化 data warehouse 和 data lake 的資料存取作業。這項服務提供統一、精細的存取控管機制,且適用於各種多雲端儲存空間和開放格式。
BigLake 能將 BigQuery 精細的資料欄/列層級安全防護機制,擴展至資料落地物件儲存庫的資料表,像是 Amazon S3、Azure Data Lake Storage Gen2,以及 Google Cloud Storage。BigLake 具備存取權委派功能,因此能將資料表的存取權,與雲端儲存空間中的基礎資料分離開來。有了這項功能,您就能安全授予資料欄/列層級的存取權給組織中的使用者和 pipeline,不需提供資料表的完整存取權。
BigLake 資料表建立完後,就能進行查詢,方法與其他 BigQuery 資料表相同。BigQuery 採行資料欄/列層級存取控管機制,每位使用者只能查看自己有權限檢視的資料。所有資料存取權的管理政策是由 BigQuery API 強制執行。舉例來說,BigQuery Storage API 能讓使用者透過 Apache Spark 等開放原始碼查詢引擎,存取自己有權限存取的資料,如下圖所示:
本實驗室的學習內容如下:
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示 。
系統顯示視窗時,請按照下列步驟操作:
連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID:
gcloud
是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
輸出內容:
輸出內容:
gcloud
的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南。
BigLake 資料表會透過連線資源存取 Google Cloud Storage 資料,連線資源可與專案中的單一資料表或任何一組資料表建立關聯。
從「導覽選單」依序前往「BigQuery」>「BigQuery Studio」,接著點選「完成」。
依序點選「+ 新增」和「連線至外部資料來源」來建立連線。
在「連線 ID」欄位輸入 my-connection
。
「位置類型」請選擇「多區域」,然後從下拉式選單中選取「US (多個美國區域)」。
點選「建立連線」。
選取導覽選單中的連線即可查看連線資訊。
點選「Check my progress」,確認目標已達成。
在本節中,您將授予 Cloud Storage data lake 唯讀存取權給剛建立的連線資源,這樣 BigQuery 就能代替使用者存取 Cloud Storage 檔案。建議您為連線資源的服務帳戶,授予 Storage 物件檢視者這個 IAM 角色,這樣服務帳戶就能存取 Cloud Storage bucket。
從「導覽選單」依序前往「IAM 與管理」>「身分與存取權管理」。
點選「授予存取權」。
在「新主體」欄位,輸入先前複製的服務帳戶 ID。
在「請選擇角色」欄位中,依序選取「Cloud Storage」和「Storage 物件檢視者」。
點選「Check my progress」,確認目標已達成。
以下的例子使用 CSV 檔案格式,不過您可以使用 BigLake 支援的任何格式,詳情請見限制的相關說明。如果您知道如何在 BigQuery 建立資料表,這個步驟基本上大同小異,唯一的差別在於您可以指定要連結的 Cloud 資源連線。
如果您未提供結構定義,且上個步驟中未將 bucket 的存取權授予服務帳戶,這個步驟將會失敗,並顯示存取遭拒的訊息。
依序返回「BigQuery」>「BigQuery Studio」。
點選專案名稱旁的三點圖示,然後選取「建立資料集」。
「資料集 ID」請使用 demo_dataset
。
「位置類型」請選擇「多區域」,然後從下拉式選單中選取「US (多個美國區域)」。
其餘欄位保留預設值,然後點選「建立資料集」。
成功建立資料集後,您就能將現有的 Cloud Storage 資料集複製到 BigQuery。
點選「瀏覽」來選取資料集。依序找到名為「customer.csv
檔案,我們要將這個檔案匯入至 BigQuery。接著請點選「選取」。
在「目的地」底下,確認您已選取實驗室專案並使用 demo_dataset。
資料表名稱請使用 biglake_table
。
資料表類型請設為「外部資料表」。
勾選「使用 Cloud 資源連線建立 BigLake 資料表」旁的方塊。
確認已選取連線 ID「us.my-connection」。目前的設定應如下所示:
點選「Check my progress」,確認目標已達成。
成功建立 BigLake 資料表後,您就能使用任何 BigQuery 用戶端來提交查詢。
在「biglake_table」預覽工具列中,依序點選「查詢」>「在新分頁中開啟」。
在 BigQuery 編輯器中執行下列指令來查詢 BigLake 資料表:
點選「執行」。
確認您可以在輸出的資料表中看見所有欄位和資料。
成功建立 BigLake 資料表後,您可以比照 BigQuery 資料表進行管理。如要為 BigLake 資料表制定存取控管政策,首先必須在 BigQuery 建立政策標記分類,接著就能將政策標記套用到敏感資料列或資料欄。本節中您將建立資料欄層級的政策。如需設定資料列層級安全防護機制的指引,請參閱資料列層級的安全性指南。
為節省時間,系統已為您建立名為「
現在您將使用建立好的政策標記,對 BigQuery 資料表中的某些資料欄增設存取限制。在本例中,您將限制私密資訊的存取權,像是地址、郵遞區號和電話號碼。
從「導覽選單」依序前往「BigQuery」>「BigQuery Studio」。
依序點選「demo-dataset」>「biglake_table」,然後按一下資料表來開啟資料表結構定義頁面。
點選「編輯結構定義」。
勾選「address」、「postal_code」和「phone」欄位旁的方塊。
點選「新增政策標記」。
展開「
點選「選取」。
資料欄現在應該已附加政策標記。
點選「儲存」。
確認您的資料表結構定義是否與下圖相似。
開啟 biglake_table 的查詢編輯器。
在 BigQuery 編輯器中執行下列指令來查詢 BigLake 資料表:
點選「執行」。
您應該會看見一則存取遭拒的錯誤訊息:
查詢應該會正常執行,並傳回您有權存取的資料欄。這個例子顯示,透過 BigQuery 強制執行的資料欄層級安全防護機制,也能套用至 BigLake 資料表。
只要將現有的資料表連結至 Cloud 資源連線,就能升級成 BigLake 資料表。如需完整的旗標和引數清單,請查看 bq update
和 bq mkdef
。
點選「demo_dataset」旁的三點圖示,然後選擇「建立資料表」。
在「建立資料表來源」的「來源」底下,選擇「Google Cloud Storage」。
點選「瀏覽」來選取資料集。依序找到名為「invoice.csv
檔案,我們要將這個檔案匯入至 BigQuery。接著請點選「選取」。
在「目的地」底下,確認您已選取實驗室專案並使用 demo_dataset。
資料表名稱請使用 external_table
。
資料表類型請設為「外部資料表」。
點選「Check my progress」,確認目標已達成。
點選「Check my progress」,確認目標已達成。
從「導覽選單」依序前往「BigQuery」>「BigQuery Studio」。
前往「demo-dataset」> 按兩下「external_table」。
開啟「詳細資料」分頁。
在「外部資料設定」底下,確認資料表目前使用正確的連線 ID。
太好了!您已成功將現有的外部資料表連結至 Cloud 資源連線,並升級成 BigLake 資料表。
在本實驗室中,您建立了連線資源、設定 Cloud Storage data lake 的存取權,並使用該資源建立 BigLake 資料表。接著,您透過 BigQuery 查詢 BigLake 資料表,並設定資料欄層級的存取控管政策。最後,您使用連線資源,將現有的外部資料表更新成 BigLake 資料表。
請務必查看下列說明文件,獲得更多 BigLake 練習機會:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2024 年 1 月 16 日
實驗室上次測試日期:2024 年 1 月 16 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验