Mateus Oliveira dos Santos
Date d'abonnement : 2023
Ligue de Diamant
40229 points
Date d'abonnement : 2023
In this advanced challenge lab, you act as a Data Engineer for the Chicago Police Department. You will manage a high-stakes data integration project, moving IUCR reference data from Cloud Storage into BigQuery using code-free Dataproc Spark templates. Beyond simple ingestion, you will use BigQuery SQL to audit data quality, identify structural discrepancies like missing zero-padding, and reconcile mismatches between transaction records and reference tables to ensure analytical accuracy.
This lab tests your ability to develop a real-world Generative AI Q&A solution using a RAG framework. You will use Firestore as a vector database and deploy a Flask app as a user interface to query a food safety knowledge base.
In this advanced challenge lab, you act as a Data Engineer for Cymbal Direct, a retail company integrating real-time movie review data into a marketing pipeline. You are responsible for building two distinct streaming architectures. First, you will implement a direct, code-free ingestion path using Pub/Sub BigQuery subscriptions. Second, you will deploy a sophisticated Dataflow pipeline that uses JavaScript User-Defined Functions (UDFs) to transform raw text into numerical data before it reaches BigQuery, all while managing high-velocity data generated by a simulated stream.
Dans ce cours, vous allez vous exercer à résoudre des problèmes concrets rencontrés lors de la création de pipelines de flux données. L'objectif principal est de gérer des données continues et illimitées avec les produits Google Cloud.
Ce cours montre comment utiliser des modèles d'IA/de ML pour des tâches d'IA générative dans BigQuery. À travers un cas d'utilisation pratique faisant intervenir la gestion de la relation client, vous étudierez le workflow de résolution d'un problème métier à l'aide de modèles Gemini. Pour faciliter la compréhension, le cours fournit également des instructions détaillées tout au long du codage des solutions à l'aide de requêtes SQL et de Notebooks Python.
Ce cours présente Gemini dans BigQuery, une suite de fonctionnalités basées sur l'IA conçue pour faciliter le workflow "des données à l'IA". Ces fonctionnalités incluent l'exploration et la préparation des données, la génération et le dépannage de code, ainsi que la découverte et la visualisation du workflow. Au moyen d'explications conceptuelles, d'un cas d'utilisation concret et d'ateliers pratiques, le cours explique aux professionnels des données comment booster leur productivité et accélérer le pipeline de développement.
Dans ce cours, vous allez explorer l'ingénierie de données sur Google Cloud, les rôles et responsabilités des ingénieurs de données, et la façon dont ces éléments se retrouvent dans les offres Google Cloud. Vous apprendrez également à relever les défis liés à l'ingénierie de données.
Terminez le cours intermédiaire Développer des applications sans serveur sur Cloud Run pour recevoir un badge démontrant vos compétences dans les domaines suivants : l'intégration de Cloud Run à Cloud Storage pour la gestion des données, la conception de systèmes asynchrones résilients à l'aide de Cloud Run et Pub/Sub, la construction de passerelles API REST reposant sur Cloud Run, et la création et le déploiement de services sur Cloud Run.
Terminez le cours intermédiaire Gérer Kubernetes dans Google Cloud pour recevoir un badge démontrant vos compétences dans les domaines suivants : la gestion des déploiements avec kubectl, la surveillance et le débogage d'applications sur Google Kubernetes Engine (GKE) et les techniques de livraison continue.
Terminez le cours intermédiaire Concevoir des agents IA avec Agent Development Kit (ADK) pour recevoir un badge démontrant les compétences suivantes : formuler des problèmes concrets de recherche sur les modèles de langage, créer un tokenizer simple, préparer un ensemble de données pour entraîner un modèle de langage Transformer, exécuter la boucle d'entraînement d'un petit modèle de langage.
Terminez le cours Architecture cloud : concevoir, implémenter et gérer pour recevoir un badge démontrant vos compétences dans les domaines suivants : le déploiement d'un site Web accessible publiquement à l'aide de serveurs Web Apache, la configuration d'une VM Compute Engine à l'aide de scripts de démarrage, la configuration d'une session RDP sécurisée à l'aide de règles de pare-feu et d'un hôte bastion Windows, la création d'une image Docker, son déploiement dans un cluster Kubernetes et sa mise à jour, et la création d'une instance Cloud SQL et l'importation d'une base de données MySQL. Le cours lié à ce badge de compétence est une excellente ressource pour comprendre les sujets qui seront abordés dans l'examen de certification Google Cloud Certified Professional Cloud Architect.
Terminez le cours intermédiaire Implémenter des pratiques de base pour la sécurité du cloud sur Google Cloud pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création et l'attribution de rôles avec Identity and Access Management (IAM) ; la création et la gestion de comptes de service ; l'activation d'une connectivité privée sur les réseaux de cloud privé virtuel (VPC) ; la restriction de l'accès aux applications avec Identity-Aware Proxy ; la gestion des clés et des données chiffrées avec Cloud Key Management Service (KMS) ; et la création d'un cluster Kubernetes privé.
Suivez le cours Configurer un environnement de développement d'applications sur Google Cloud et obtenez un badge de compétence. Dans ce cours, vous apprendrez à créer et connecter une infrastructure cloud axée sur le stockage à l'aide des fonctionnalités de base des technologies suivantes Cloud Storage, Identity and Access Management, Cloud Functions et Pub/Sub.
Agents d'IA générative : transformer l'entreprise est le cinquième et dernier cours du parcours de formation "Leader en IA générative". Il aborde la façon dont les entreprises peuvent utiliser des agents d'IA générative personnalisés pour relever des défis métier spécifiques. Des exercices pratiques vous apprendront à créer un agent d'IA générative de base tout en découvrant les composants de ces agents, comme les modèles, les boucles de raisonnement et les outils.
Le cours "Applications d'IA générative : changez votre façon de travailler" est le quatrième du parcours de formation "Leader en IA générative". Ce cours présente les applications d'IA générative de Google, telles que Gemini pour Workspace et NotebookLM. Il vous guide à travers des concepts comme l'ancrage, la génération augmentée par récupération, la création de requêtes efficaces et la conception de workflows automatisés.
Le cours "IA générative : se familiariser avec le domaine" est le troisième du parcours de formation "Leader en IA générative". L'IA générative change notre façon de travailler et d'interagir avec le monde autour de nous. En tant que responsable, comment pouvez-vous exploiter son potentiel pour obtenir des résultats commerciaux concrets ? Dans ce cours, vous allez découvrir les différentes couches qui composent une solution d'IA générative, les offres de Google Cloud et les facteurs à prendre en compte au moment de choisir une solution.
Le cours "IA générative : découvrir les concepts fondamentaux" est le deuxième du parcours de formation "Leader en IA générative". Ce cours vous permettra de découvrir les concepts fondamentaux de l'IA générative en examinant les différences entre l'IA, le ML et l'IA générative. Vous comprendrez également comment l'IA générative permet de relever les défis métier à l'aide des différents types de données. Enfin, vous découvrirez les stratégies de Google Cloud pour gérer les limites des modèles de fondation et quelles sont les grandes problématiques du développement et du déploiement d'une IA responsable et sécurisée.
Le cours "IA générative : au-delà du chatbot" est le premier du parcours de formation "Leader en IA générative" et n'a aucun prérequis. Ce cours vise à approfondir votre compréhension de base des chatbots afin de révéler le véritable potentiel de l'IA générative pour votre entreprise. Vous découvrirez des concepts tels que les modèles de fondation et le prompt engineering (ingénierie des requêtes), qui sont essentiels pour exploiter toute la puissance de l'IA générative. Ce cours vous aidera également à identifier les facteurs à prendre en compte pour développer une stratégie d'IA générative efficace pour votre entreprise.
Obtenez le badge de niveau Débutant Créer et gérer des instances Cloud SQL pour PostgreSQL pour démontrer vos compétences en matière de migration, de configuration et de gestion des instances et bases de données Cloud SQL pour PostgreSQL.
Terminez le cours d'introduction Créer et gérer des instances Cloud Spanner pour recevoir un badge démontrant vos compétences dans les domaines suivants : créer des instances et des bases de données Cloud Spanner et interagir avec elles ; charger des bases de données Cloud Spanner à l'aide de différentes techniques ; sauvegarder des bases de données Cloud Spanner, définir des schémas et comprendre les plans de requête ; déployer une application Web moderne connectée à une instance Cloud Spanner.
Terminez le cours d'introduction Créer et gérer des instances AlloyDB pour recevoir un badge démontrant vos compétences dans les domaines suivants : effectuer les principales tâches et opérations AlloyDB, migrer de PostgreSQL vers AlloyDB, administrer une base de données AlloyDB et accélérer les requêtes analytiques à l'aide du moteur de données en colonnes AlloyDB.
Terminez le cours intermédiaire Ingénierie des données pour la modélisation prédictive avec BigQuery ML pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création de pipelines de transformation des données dans BigQuery avec Dataprep by Trifacta ; l'utilisation de Cloud Storage, Dataflow et BigQuery pour créer des workflows ETL (Extract, Transform and Load) ; et la création de modèles de machine learning avec BigQuery ML.
Dans le dernier volet de la série de cours sur Dataflow, nous allons présenter les composants du modèle opérationnel de Dataflow. Nous examinerons les outils et techniques permettant de résoudre les problèmes et d'optimiser les performances des pipelines. Nous passerons ensuite en revue les bonnes pratiques en matière de test, de déploiement et de fiabilité pour les pipelines Dataflow. Nous terminerons par une présentation des modèles, qui permettent de faire évoluer facilement les pipelines Dataflow pour les adapter aux organisations comptant des centaines d'utilisateurs. Ces leçons vous aideront à vous assurer que votre plate-forme de données est stable et résiliente face aux imprévus.
Terminez le cours d'introduction Créer un maillage de données avec Knowledge Catalog pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création d'un maillage de données avec Knowledge Catalog pour faciliter la sécurité, la gouvernance et la découverte des données sur Google Cloud. Cela comprend l'ajout de tags à des éléments, l'attribution de rôles IAM et l'évaluation de la qualité des données dans Knowledge Catalog.
Terminez le cours intermédiaire Créer un entrepôt de données avec BigQuery pour recevoir un badge démontrant vos compétences dans les domaines suivants : la jointure de données pour créer des tables, la résolution des problèmes liés aux jointures, l'ajout de données avec des unions, la création de tables partitionnées par date, et l'utilisation d'objets JSON, ARRAY et STRUCT dans BigQuery.
Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.
Terminez le cours d'introduction Implémenter Cloud Load Balancing pour Compute Engine pour recevoir un badge démontrant vos compétences dans les domaines suivants : Créer et déployer des machines virtuelles dans Compute Engine Configurer des équilibreurs de charge réseau et d'application.
Ce cours est le premier d'une série en trois volets sur le traitement des données sans serveur avec Dataflow. Dans ce premier cours, nous allons commencer par rappeler ce qu'est Apache Beam et sa relation avec Dataflow. Ensuite, nous aborderons la vision d'Apache Beam et les avantages de son framework de portabilité, qui permet aux développeurs d'utiliser le langage de programmation et le backend d'exécution de leur choix. Nous vous montrerons aussi comment séparer le calcul du stockage et économiser de l'argent grâce à Dataflow, puis nous examinerons les interactions entre les outils de gestion de l'identification et des accès avec vos pipelines Dataflow. Enfin, nous verrons comment implémenter le modèle de sécurité adapté à votre cas d'utilisation sur Dataflow.
Intégrer le machine learning à des pipelines de données renforce la capacité à dégager des insights des données. Ce cours passera en revue plusieurs façons d'intégrer le machine learning à des pipelines de données sur Google Cloud. Vous découvrirez AutoML pour les cas ne nécessitant que peu de personnalisation (voire aucune), ainsi que Notebooks et BigQuery ML pour les situations qui requièrent des capacités de machine learning plus adaptées. Enfin, vous apprendrez à utiliser des solutions de machine learning en production avec Vertex AI.
This 1-week, accelerated on-demand course builds upon Google Cloud Platform Big Data and Machine Learning Fundamentals. Through a combination of video lectures, demonstrations, and hands-on labs, you'll learn to build streaming data pipelines using Google cloud Pub/Sub and Dataflow to enable real-time decision making. You will also learn how to build dashboards to render tailored output for various stakeholder audiences.
Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, créer et optimiser des pipelines de données en batch robustes sur Google Cloud. Au-delà des bases de la gestion des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour l'informatique décisionnelle et les rapports critiques. Vous vous entraînerez à utiliser Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et vous aborderez des considérations importantes concernant la qualité des données, la surveillance et les alertes pour assurer la fiabilité des pipelines et l'excellence opérationnelle. Il est recommandé d'avoir des connaissances de base sur l'entreposage de données, les processus ETL/ELT, SQL, Python et les concepts de Google Cloud.
Terminez le cours d'introduction Implémenter Cloud Load Balancing pour Compute Engine pour recevoir un badge démontrant vos compétences dans les domaines suivants : Créer et déployer des machines virtuelles dans Compute Engine Configurer des équilibreurs de charge réseau et d'application.
Terminez le cours d'introduction Préparer des données pour les API de ML sur Google Cloud pour recevoir un badge démontrant vos compétences dans les domaines suivants : le nettoyage des données avec Dataprep by Trifacta, l'exécution de pipelines de données dans Dataflow, la création de clusters et l'exécution de jobs Apache Spark dans Managed Service for Apache Spark, et l'appel d'API de ML comme l'API Cloud Natural Language, l'API Google Cloud Speech-to-Text et l'API Video Intelligence.
Bien que les approches traditionnelles utilisant des lacs de données et des entrepôts de données puissent être efficaces, elles présentent des inconvénients, en particulier dans les grands environnements d'entreprise. Ce cours présente le concept de data lakehouse et les produits Google Cloud utilisés pour en créer un. Une architecture de lakehouse utilise des sources de données basées sur des normes ouvertes et combine les meilleures fonctionnalités des lacs et des entrepôts de données, ce qui permet de pallier de nombreuses lacunes.
Ce cours présente les produits et services Google Cloud pour le big data et le machine learning compatibles avec le cycle de vie "des données à l'IA". Il explore les processus, défis et avantages liés à la création d'un pipeline de big data et de modèles de machine learning avec Vertex AI sur Google Cloud.
Ce cours a pour objectif d'aider les participants à créer un plan de formation pour l'examen de certification Professional Data Engineer. Les participants découvriront l'étendue et le champ d'application des domaines abordés lors de l'examen, puis évalueront leur niveau de préparation à l'examen et créeront leur propre plan de formation.