Sana Raheel
Date d'abonnement : 2022
Ligue d'Argent
27095 points
Date d'abonnement : 2022
Ce cours a pour objectif d'aider les participants à créer un plan de formation pour l'examen de certification Professional Data Engineer. Les participants découvriront l'étendue et le champ d'application des domaines abordés lors de l'examen, puis évalueront leur niveau de préparation à l'examen et créeront leur propre plan de formation.
Dans ce cours, vous allez vous exercer à résoudre des problèmes concrets rencontrés lors de la création de pipelines de flux données. L'objectif principal est de gérer des données continues et illimitées avec les produits Google Cloud.
Ce cours de micro-apprentissage, qui s'adresse aux débutants, explique ce qu'est l'IA responsable, souligne son importance et décrit comment Google l'implémente dans ses produits. Il présente également les sept principes de l'IA de Google.
Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, créer et optimiser des pipelines de données en batch robustes sur Google Cloud. Au-delà des bases de la gestion des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour l'informatique décisionnelle et les rapports critiques. Vous vous entraînerez à utiliser Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et vous aborderez des considérations importantes concernant la qualité des données, la surveillance et les alertes pour assurer la fiabilité des pipelines et l'excellence opérationnelle. Il est recommandé d'avoir des connaissances de base sur l'entreposage de données, les processus ETL/ELT, SQL, Python et les concepts de Google Cloud.
Terminez le cours d'introduction Créer un maillage de données avec Dataplex pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création d'un maillage de données avec Dataplex pour faciliter la sécurité, la gouvernance et la découverte des données sur Google Cloud. Cela comprend l'ajout de tags à des éléments, l'attribution de rôles IAM et l'évaluation de la qualité des données dans Dataplex.
Bien que les approches traditionnelles utilisant des lacs de données et des entrepôts de données puissent être efficaces, elles présentent des inconvénients, en particulier dans les grands environnements d'entreprise. Ce cours présente le concept de data lakehouse et les produits Google Cloud utilisés pour en créer un. Une architecture de lakehouse utilise des sources de données basées sur des normes ouvertes et combine les meilleures fonctionnalités des lacs et des entrepôts de données, ce qui permet de pallier de nombreuses lacunes.
Ce cours est le premier d'une série en trois volets sur le traitement des données sans serveur avec Dataflow. Dans ce premier cours, nous allons commencer par rappeler ce qu'est Apache Beam et sa relation avec Dataflow. Ensuite, nous aborderons la vision d'Apache Beam et les avantages de son framework de portabilité, qui permet aux développeurs d'utiliser le langage de programmation et le backend d'exécution de leur choix. Nous vous montrerons aussi comment séparer le calcul du stockage et économiser de l'argent grâce à Dataflow, puis nous examinerons les interactions entre les outils de gestion de l'identification et des accès avec vos pipelines Dataflow. Enfin, nous verrons comment implémenter le modèle de sécurité adapté à votre cas d'utilisation sur Dataflow.
Dans ce cours, vous découvrirez comment Gemini, un collaborateur de Google Cloud optimisé par l'IA générative, aide les ingénieurs à gérer l'infrastructure. Vous apprendrez à demander à Gemini de trouver et comprendre les journaux d'application, de créer un cluster GKE et d'étudier comment créer un environnement de compilation. À l'aide d'un atelier pratique, vous verrez en quoi Gemini améliore le workflow DevOps. Duet AI a été renommé Gemini, notre modèle nouvelle génération.
Dans ce cours, vous découvrirez comment Gemini, un collaborateur de Google Cloud optimisé par l'IA générative, aide les développeurs à créer des applications. Vous apprendrez à demander à Gemini d'expliquer du code, de recommander des services Google Cloud et de générer du code pour vos applications. À l'aide d'un atelier pratique, vous verrez en quoi Gemini améliore le workflow de développement d'applications. Duet AI a été renommé Gemini, notre modèle nouvelle génération.
Obtenez un badge de compétence en suivant le cours Partager des données avec Google Data Cloud. Vous pourrez ainsi acquérir une expérience pratique concernant les partenaires de partage de données Google Cloud, qui disposent d'ensembles de données propriétaires que les clients peuvent utiliser pour effectuer des analyses de données. Les clients s'abonnent à ces données et les interrogent dans leur propre plate-forme. Ils les enrichissent ensuite avec leurs propres ensembles de données et utilisent leurs outils de visualisation pour les tableaux de bord destinés à leur clientèle.
Obtenez un badge de compétence en suivant le cours Analyse de flux dans BigQuery, où vous utiliserez Pub/Sub, Dataflow et BigQuery ensemble pour diffuser des données afin de les analyser.
Terminez le cours intermédiaire Créer un entrepôt de données avec BigQuery pour recevoir un badge démontrant vos compétences dans les domaines suivants : la jointure de données pour créer des tables, la résolution des problèmes liés aux jointures, l'ajout de données avec des unions, la création de tables partitionnées par date, et l'utilisation d'objets JSON, ARRAY et STRUCT dans BigQuery.
Terminez le cours d'introduction Dégager des insights des données BigQuery pour recevoir un badge démontrant vos compétences dans les domaines suivants : l'écriture de requêtes SQL, l'interrogation de tables publiques, le chargement d'exemples de données dans BigQuery, la résolution d'erreurs de syntaxe courantes avec l'outil de validation des requêtes de BigQuery et la création de rapports dans Looker Studio en se connectant aux données BigQuery.
Terminez le cours d'introduction Préparer des données pour les API de ML sur Google Cloud pour recevoir un badge démontrant vos compétences dans les domaines suivants : le nettoyage des données avec Dataprep by Trifacta, l'exécution de pipelines de données dans Dataflow, la création de clusters et l'exécution de jobs Apache Spark dans Dataproc, et l'appel d'API de ML comme l'API Cloud Natural Language, l'API Google Cloud Speech-to-Text et l'API Video Intelligence.
Intégrer le machine learning à des pipelines de données renforce la capacité à dégager des insights des données. Ce cours passera en revue plusieurs façons d'intégrer le machine learning à des pipelines de données sur Google Cloud. Vous découvrirez AutoML pour les cas ne nécessitant que peu de personnalisation (voire aucune), ainsi que Notebooks et BigQuery ML pour les situations qui requièrent des capacités de machine learning plus adaptées. Enfin, vous apprendrez à utiliser des solutions de machine learning en production avec Vertex AI.
Terminez le cours intermédiaire Ingénierie des données pour la modélisation prédictive avec BigQuery ML pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création de pipelines de transformation des données dans BigQuery avec Dataprep by Trifacta ; l'utilisation de Cloud Storage, Dataflow et BigQuery pour créer des workflows ETL (Extract, Transform and Load) ; et la création de modèles de machine learning avec BigQuery ML.