Rejoindre Se connecter

El hadji MBOUP

Date d'abonnement : 2024

Ligue de Diamant

9716 points
Traitement des données sans serveur avec Dataflow : développer des pipelines Earned juin 6, 2026 EDT
Traitement des données sans serveur avec Dataflow : principes de base Earned juin 5, 2026 EDT
Créer des pipelines de données en batch sur Google Cloud Earned mai 31, 2026 EDT
Introduction à l'ingénierie des données sur Google Cloud Earned août 22, 2025 EDT
Créer un entrepôt de données avec BigQuery Earned oct. 30, 2024 EDT
Créer des lacs de données et des entrepôts de données sur Google Cloud Earned oct. 24, 2024 EDT
Se préparer à devenir Professional Data Engineer Earned sept. 26, 2024 EDT

Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.

En savoir plus

Ce cours est le premier d'une série en trois volets sur le traitement des données sans serveur avec Dataflow. Dans ce premier cours, nous allons commencer par rappeler ce qu'est Apache Beam et sa relation avec Dataflow. Ensuite, nous aborderons la vision d'Apache Beam et les avantages de son framework de portabilité, qui permet aux développeurs d'utiliser le langage de programmation et le backend d'exécution de leur choix. Nous vous montrerons aussi comment séparer le calcul du stockage et économiser de l'argent grâce à Dataflow, puis nous examinerons les interactions entre les outils de gestion de l'identification et des accès avec vos pipelines Dataflow. Enfin, nous verrons comment implémenter le modèle de sécurité adapté à votre cas d'utilisation sur Dataflow.

En savoir plus

Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, créer et optimiser des pipelines de données en batch robustes sur Google Cloud. Au-delà des bases de la gestion des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour l'informatique décisionnelle et les rapports critiques. Vous vous entraînerez à utiliser Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et vous aborderez des considérations importantes concernant la qualité des données, la surveillance et les alertes pour assurer la fiabilité des pipelines et l'excellence opérationnelle. Il est recommandé d'avoir des connaissances de base sur l'entreposage de données, les processus ETL/ELT, SQL, Python et les concepts de Google Cloud.

En savoir plus

Dans ce cours, vous allez explorer l'ingénierie de données sur Google Cloud, les rôles et responsabilités des ingénieurs de données, et la façon dont ces éléments se retrouvent dans les offres Google Cloud. Vous apprendrez également à relever les défis liés à l'ingénierie de données.

En savoir plus

Terminez le cours intermédiaire Créer un entrepôt de données avec BigQuery pour recevoir un badge démontrant vos compétences dans les domaines suivants : la jointure de données pour créer des tables, la résolution des problèmes liés aux jointures, l'ajout de données avec des unions, la création de tables partitionnées par date, et l'utilisation d'objets JSON, ARRAY et STRUCT dans BigQuery.

En savoir plus

Bien que les approches traditionnelles utilisant des lacs de données et des entrepôts de données puissent être efficaces, elles présentent des inconvénients, en particulier dans les grands environnements d'entreprise. Ce cours présente le concept de data lakehouse et les produits Google Cloud utilisés pour en créer un. Une architecture de lakehouse utilise des sources de données basées sur des normes ouvertes et combine les meilleures fonctionnalités des lacs et des entrepôts de données, ce qui permet de pallier de nombreuses lacunes.

En savoir plus

Ce cours a pour objectif d'aider les participants à créer un plan de formation pour l'examen de certification Professional Data Engineer. Les participants découvriront l'étendue et le champ d'application des domaines abordés lors de l'examen, puis évalueront leur niveau de préparation à l'examen et créeront leur propre plan de formation.

En savoir plus