06
Traitement des données sans serveur avec Dataflow : principes de base
06
Traitement des données sans serveur avec Dataflow : principes de base
Ce cours est le premier d'une série en trois volets sur le traitement des données sans serveur avec Dataflow. Dans ce premier cours, nous allons commencer par rappeler ce qu'est Apache Beam et sa relation avec Dataflow. Ensuite, nous aborderons la vision d'Apache Beam et les avantages de son framework de portabilité, qui permet aux développeurs d'utiliser le langage de programmation et le backend d'exécution de leur choix. Nous vous montrerons aussi comment séparer le calcul du stockage et économiser de l'argent grâce à Dataflow, puis nous examinerons les interactions entre les outils de gestion de l'identification et des accès avec vos pipelines Dataflow. Enfin, nous verrons comment implémenter le modèle de sécurité adapté à votre cas d'utilisation sur Dataflow.
- Montrer comment répondre aux besoins de traitement des données des organisations en associant Apache Beam et Dataflow
- Résumer les avantages du framework de portabilité Beam et l'activer pour les pipelines Dataflow
- Activer Shuffle et Streaming Engine pour les pipelines de traitement par lot et de traitement en flux continu, respectivement, afin d'optimiser les performances
- Activer la planification flexible des ressources pour optimiser le coût des performances
- Sélectionner la bonne combinaison d'autorisations IAM pour un job Dataflow
- Implémenter les bonnes pratiques pour sécuriser l'environnement de traitement des données
Ont terminé les cours à la demande suivants :
1) Créer des pipelines de données en batch sur Google Cloud
2) Concevoir des systèmes d'analyse de flux résilients sur Google Cloud