Mateus Oliveira dos Santos
Member since 2023
Diamond League
40229 points
Member since 2023
In this advanced challenge lab, you act as a Data Engineer for the Chicago Police Department. You will manage a high-stakes data integration project, moving IUCR reference data from Cloud Storage into BigQuery using code-free Dataproc Spark templates. Beyond simple ingestion, you will use BigQuery SQL to audit data quality, identify structural discrepancies like missing zero-padding, and reconcile mismatches between transaction records and reference tables to ensure analytical accuracy.
This lab tests your ability to develop a real-world Generative AI Q&A solution using a RAG framework. You will use Firestore as a vector database and deploy a Flask app as a user interface to query a food safety knowledge base.
In this advanced challenge lab, you act as a Data Engineer for Cymbal Direct, a retail company integrating real-time movie review data into a marketing pipeline. You are responsible for building two distinct streaming architectures. First, you will implement a direct, code-free ingestion path using Pub/Sub BigQuery subscriptions. Second, you will deploy a sophisticated Dataflow pipeline that uses JavaScript User-Defined Functions (UDFs) to transform raw text into numerical data before it reaches BigQuery, all while managing high-velocity data generated by a simulated stream.
In this course you will get hands-on in order to work through real-world challenges faced when building streaming data pipelines. The primary focus is on managing continuous, unbounded data with Google Cloud products.
本課程將示範如何在 BigQuery 運用 AI/機器學行模型,以執行生成式 AI 任務。透過涉及顧客關係管理的應用實例,您將瞭解運用 Gemini 模型解決業務問題的工作流程。為了便於理解,本課程還提供了採用 SQL 查詢和 Python 筆記本的程式設計解決方案,指導您逐步操作。
本課程會說明 Gemini in BigQuery,這是一套由 AI 輔助的功能,可協助「從資料到 AI」的工作流程。這些功能包含資料探索和準備、程式碼生成和疑難排解,以及工作流程探索和視覺化。本課程將透過概念解說、應用實例和實作實驗室,協助資料從業人員提升工作效率,並加速開發 pipeline。
在本課程中,您會學到 Google Cloud 上的資料工程、資料工程師的角色與職責,以及這些內容如何對應至 Google Cloud 提供的服務。您也將瞭解處理資料工程難題的許多方法。
完成 運用 Cloud Run 開發無伺服器應用程式 技能徽章中階課程, 即可證明您具備下列技能:整合 Cloud Run 和 Cloud Storage 以管理資料、 使用 Cloud Run 和 Pub/Sub 架構可復原的非同步系統、 使用 Cloud Run 建構 REST API 閘道,以及在 Cloud Run 建構及部署服務。
完成「管理 Google Cloud 中的 Kubernetes」技能徽章中階課程, 即可證明您具備下列技能:使用 kubectl 管理部署作業、 在 Google Kubernetes Engine (GKE) 監控應用程式與偵錯,以及運用技術持續推送軟體更新。
完成「使用 Agent Development Kit (ADK) 建造 AI 代理:工程設計」技能徽章中階課程,即可證明您具備下列技能: 提出實際的語言模型研究問題、建構簡單的權杖化工具、準備資料集來訓練 Transformer 語言模型,以及執行小型語言模型的訓練迴圈。
完成 雲端架構:設計、實作與管理 課程即可獲得 技能徽章,證明您具備下列技能: 使用 Apache 網路伺服器部署可公開存取的網站、使用開機指令碼設定 Compute Engine VM、 使用 Windows 防禦主機和防火牆規則設定安全的 RDP、建構 Docker 映像檔並部署至 Kubernetes 叢集,然後進行更新,以及建立 Cloud SQL 執行個體並匯入 MySQL 資料庫。 這個技能徽章課程是絕佳的 資源,可讓您瞭解Google Cloud 認證專業雲端架構師認證測驗涵蓋的主題。
完成 在 Google Cloud 實作 Cloud 安全防護措施:基礎知識 技能徽章中階課程, 即可證明您具備下列技能:運用 Identity and Access Management (IAM) 建立及指派角色、 建立及管理服務帳戶、啟用虛擬私有雲 (VPC) 網路中的私人連線、 運用 Identity-Aware Proxy 限制應用程式存取權、 運用 Cloud Key Management Service (KMS) 管理金鑰和已加密資料,以及建立私人 Kubernetes 叢集。
只要修完「在 Google Cloud 設定應用程式開發環境」課程,就能獲得技能徽章。 在本課程中,您將學會如何使用以下技術的基本功能,建構和連結以儲存空間為中心的雲端基礎架構:Cloud Storage、Identity and Access Management、Cloud Functions 和 Pub/Sub。
「生成式 AI 代理:實現組織轉型」是 Gen AI Leader 學習路徑的第五堂也是最後一堂課程。本課程將探討組織如何運用自訂生成式 AI 代理,解決特定的業務難題。您將動手練習建構基本的生成式 AI 代理,同時探索這類代理的各種元件,例如模型、推論迴圈和工具。
「生成式 AI 應用程式:徹底改變工作方式」是 Generative AI Leader 學習路徑的第四門課程。本課程將介紹 Google 的生成式 AI 應用程式,例如 Gemini for Workspace 和NotebookLM,也會引導您瞭解各種概念,像是建立基準、檢索增強生成、建構有效的提示詞,以及打造自動化工作流程等。
「生成式 AI:掌握幕後技術與環境」是 Generative AI Leader 學習路徑的第三門課程。生成式 AI 正在改變我們的工作方式,以及我們如何與周遭的世界互動。身為領導者,您要如何駕馭 AI 強大的功能,創造實際業務成果?在本課程中,您將認識建構生成式 AI 解決方案時的各個層面、Google Cloud 產品,以及選擇解決方案時應考量的因素。
「生成式 AI: 瞭解基礎概念」是 Generative AI Leader 學習路徑的第二門課程。在本課程中,您將瞭解 AI、機器學習和生成式 AI 的差異,以及各種資料類型如何協助生成式 AI 解決業務難題,進而掌握生成式 AI 的基礎概念。您還能深入瞭解 Google Cloud 應對基礎 模型限制的策略,以及開發、部署安全且負責任的 AI 技術時面臨的主要挑戰。
「生成式 AI:不只是聊天機器人」是 Generative AI Leader 學習路徑的第一門課程,沒有任何修課條件。本課程將帶您超越基本知識,進一步瞭解聊天機器人,探索如何在組織中充分發揮生成式 AI 的潛力。您將瞭解基礎模型和提示工程等概念,掌握善用生成式AI 的關鍵。本課程也會帶您瞭解擬定生成式 AI 策略時的多種重要考量,協助您為組織擬定出成功的策略。
完成建立及管理 PostgreSQL 適用的 Cloud SQL 執行個體技能徽章入門課程,證明您具備下列技能:遷移、設定和管理 PostgreSQL 適用的 Cloud SQL 執行個體和資料庫。
完成「建立及管理 Cloud Spanner 執行個體」技能徽章入門課程,即可證明自己具備下列技能: 建立 Cloud Spanner 執行個體和資料庫,並與其互動; 使用各種技術載入 Cloud Spanner 資料庫; 備份 Cloud Spanner 資料庫;定義結構定義及瞭解查詢計畫;以及 部署連線至 Cloud Spanner 執行個體的現代化網頁應用程式。
完成建立及管理 AlloyDB 執行個體技能徽章入門課程, 即可證明自己具備下列技能:執行主要 AlloyDB 作業 和工作、從 PostgreSQL 遷移至 AlloyDB、管理 AlloyDB 資料庫,以及 使用 AlloyDB 資料欄引擎加快數據分析查詢。
完成使用 BigQuery ML 為預測模型進行資料工程技能徽章中階課程, 即可證明自己具備下列知識與技能:運用 Dataprep by Trifacta 建構連至 BigQuery 的資料轉換 pipeline; 使用 Cloud Storage、Dataflow 和 BigQuery 建構「擷取、轉換及載入」(ETL) 工作負載, 以及使用 BigQuery ML 建構機器學習模型。
In the last installment of the Dataflow course series, we will introduce the components of the Dataflow operational model. We will examine tools and techniques for troubleshooting and optimizing pipeline performance. We will then review testing, deployment, and reliability best practices for Dataflow pipelines. We will conclude with a review of Templates, which makes it easy to scale Dataflow pipelines to organizations with hundreds of users. These lessons will help ensure that your data platform is stable and resilient to unanticipated circumstances.
完成「使用 Knowledge Catalog 建構資料網格」技能徽章入門課程,即可證明您具備下列技能:使用 Knowledge Catalog 建構資料網格, 以利在 Google Cloud 維護資料安全性,並協助治理和探索資料。您將練習並測試自己的技能,包括在 Knowledge Catalog 為資產加上標記、指派 IAM 角色,以及評估資料品質。
完成 透過 BigQuery 建構資料倉儲 技能徽章中階課程,即可證明您具備下列技能: 彙整資料以建立新資料表、排解彙整作業問題、利用聯集附加資料、建立依日期分區的資料表, 以及在 BigQuery 使用 JSON、陣列和結構體。
In this second installment of the Dataflow course series, we are going to be diving deeper on developing pipelines using the Beam SDK. We start with a review of Apache Beam concepts. Next, we discuss processing streaming data using windows, watermarks and triggers. We then cover options for sources and sinks in your pipelines, schemas to express your structured data, and how to do stateful transformations using State and Timer APIs. We move onto reviewing best practices that help maximize your pipeline performance. Towards the end of the course, we introduce SQL and Dataframes to represent your business logic in Beam and how to iteratively develop pipelines using Beam notebooks.
完成「在 Compute Engine 導入 Cloud Load Balancing」技能徽章入門課程,即可證明您具備下列技能: 在 Compute Engine 建立及部署虛擬機器, 以及設定網路和應用程式負載平衡器。
This course is part 1 of a 3-course series on Serverless Data Processing with Dataflow. In this first course, we start with a refresher of what Apache Beam is and its relationship with Dataflow. Next, we talk about the Apache Beam vision and the benefits of the Beam Portability framework. The Beam Portability framework achieves the vision that a developer can use their favorite programming language with their preferred execution backend. We then show you how Dataflow allows you to separate compute and storage while saving money, and how identity, access, and management tools interact with your Dataflow pipelines. Lastly, we look at how to implement the right security model for your use case on Dataflow.
Incorporating machine learning into data pipelines increases the ability to extract insights from data. This course covers ways machine learning can be included in data pipelines on Google Cloud. For little to no customization, this course covers AutoML. For more tailored machine learning capabilities, this course introduces Notebooks and BigQuery machine learning (BigQuery ML). Also, this course covers how to productionalize machine learning solutions by using Vertex AI.
This 1-week, accelerated on-demand course builds upon Google Cloud Platform Big Data and Machine Learning Fundamentals. Through a combination of video lectures, demonstrations, and hands-on labs, you'll learn to build streaming data pipelines using Google cloud Pub/Sub and Dataflow to enable real-time decision making. You will also learn how to build dashboards to render tailored output for various stakeholder audiences.
In this intermediate course, you will learn to design, build, and optimize robust batch data pipelines on Google Cloud. Moving beyond fundamental data handling, you will explore large-scale data transformations and efficient workflow orchestration, essential for timely business intelligence and critical reporting. Get hands-on practice using Dataflow for Apache Beam and Serverless for Apache Spark (Dataproc Serverless) for implementation, and tackle crucial considerations for data quality, monitoring, and alerting to ensure pipeline reliability and operational excellence. A basic knowledge of data warehousing, ETL/ELT, SQL, Python, and Google Cloud concepts is recommended.
完成「在 Compute Engine 導入 Cloud Load Balancing」技能徽章入門課程,即可證明您具備下列技能: 在 Compute Engine 建立及部署虛擬機器, 以及設定網路和應用程式負載平衡器。
完成 在 Google Cloud 為機器學習 API 準備資料 技能徽章入門課程,即可證明您具備下列技能: 使用 Dataprep by Trifacta 清理資料、在 Dataflow 執行資料管道、在 Managed Service for Apache Spark 建立叢集和執行 Apache Spark 工作,以及呼叫機器學習 API,包含 Cloud Natural Language API、Google Cloud Speech-to-Text API 和 Video Intelligence API。
While the traditional approaches of using data lakes and data warehouses can be effective, they have shortcomings, particularly in large enterprise environments. This course introduces the concept of a data lakehouse and the Google Cloud products used to create one. A lakehouse architecture uses open-standard data sources and combines the best features of data lakes and data warehouses, which addresses many of their shortcomings.
This course introduces the Google Cloud big data and machine learning products and services that support the data-to-AI lifecycle. It explores the processes, challenges, and benefits of building a big data pipeline and machine learning models with Vertex AI on Google Cloud.
This course helps learners create a study plan for the PDE (Professional Data Engineer) certification exam. Learners explore the breadth and scope of the domains covered in the exam. Learners assess their exam readiness and create their individual study plan.