Traitement des flux de données : Pipelines de flux de données

Download a code repository

Vérifier ma progression

/ 5

Create a BigQuery Dataset

Vérifier ma progression

/ 5

Simulate traffic sensor data into Pub/Sub

Vérifier ma progression

/ 5

Launch Dataflow Pipeline

Vérifier ma progression

/ 5

Create an alert

Vérifier ma progression

/ 5

Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

Présentation

Dans cet atelier, vous utiliserez Dataflow pour recueillir des événements de trafic à partir de données de capteurs de trafic simulées disponibles dans Pub/Sub. Vous les traiterez ensuite de manière à obtenir une moyenne exploitable, puis vous stockerez les données brutes dans BigQuery pour les analyser par la suite. Vous apprendrez à démarrer un pipeline Dataflow, à le surveiller et, enfin, à l'optimiser.

Remarque : Au moment de la rédaction de ce document, les pipelines de traitement en flux continu ne sont pas disponibles dans le SDK Dataflow pour Python. Les ateliers impliquant des flux de données sont donc rédigés en Java.

Objectifs

Dans cet atelier, vous allez :

lancer Dataflow et exécuter un job Dataflow ;
étudier le parcours des éléments de données au fil des transformations d'un pipeline Dataflow ;
connecter Dataflow à Pub/Sub et à BigQuery ;
observer et étudier la manière dont l'autoscaling de Dataflow ajuste les ressources de calcul pour traiter les données entrées de façon optimale ;
découvrir où rechercher les données de journalisation créées par Dataflow ;
explorer les métriques, et créer des alertes et des tableaux de bord avec Cloud Monitoring.

Préparation

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Vérifier les autorisations du projet

Avant de commencer à travailler dans Google Cloud, vous devez vous assurer de disposer des autorisations adéquates pour votre projet dans IAM (Identity and Access Management).

Dans la console Google Cloud, accédez au menu de navigation (), puis sélectionnez IAM et administration > IAM.
Vérifiez que le compte de service Compute par défaut {project-number}-compute@developer.gserviceaccount.com existe et qu'il est associé au rôle editor (éditeur). Le préfixe du compte correspond au numéro du projet, disponible sur cette page : Menu de navigation > Présentation du cloud > Tableau de bord.

État de l'éditeur et nom du compte de service Compute Engine par défaut mis en évidence sur l'onglet "Autorisations"

Remarque : Si le compte n'est pas disponible dans IAM ou n'est pas associé au rôle editor (éditeur), procédez comme suit pour lui attribuer le rôle approprié.

Dans la console Google Cloud, accédez au menu de navigation et cliquez sur Présentation du cloud > Tableau de bord.
Copiez le numéro du projet (par exemple, 729328892908).
Dans le menu de navigation, sélectionnez IAM et administration > IAM.
Sous Afficher par compte principal, en haut de la table des rôles, cliquez sur Accorder l'accès.
Dans le champ Nouveaux comptes principaux, saisissez :

{project-number}-compute@developer.gserviceaccount.com

Remplacez {project-number} par le numéro de votre projet.
Dans le champ Rôle, sélectionnez Projet (ou Basique) > Éditeur.
Cliquez sur Enregistrer.

Tâche 1 : préparation

Vous allez exécuter un simulateur de capteurs depuis la VM d'entraînement. Au cours de l'atelier 1, vous avez configuré manuellement les composants de Pub/Sub. Cette fois, nous avons automatisé un certain nombre de processus.

Ouvrir le terminal SSH et se connecter à la VM d'entraînement

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Compute Engine > Instances de VM.
Repérez la ligne comportant l'instance nommée training-vm.
Tout à droite de la page, sous Connecter, cliquez sur SSH pour ouvrir une fenêtre de terminal.
Dans cet atelier, vous allez saisir les commandes CLI dans l'instance training-vm.

Vérifier que l'initialisation est terminée

L'instance training-vm installe des logiciels en arrière-plan.

Pour vérifier si la configuration est terminée, examinez le contenu du nouveau répertoire :

ls /training

La configuration est terminée lorsque votre commande de liste ("ls") génère le résultat suivant. Si la liste complète ne s'affiche pas, attendez quelques minutes, puis réessayez.

Dossier de la VM

Remarque : Il faut environ deux à trois minutes pour que toutes les actions s'exécutent en arrière-plan.

Télécharger le dépôt de code

Maintenant, vous allez actualiser le dépôt de code que vous utiliserez dans cet atelier :

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Définir des variables d'environnement

Dans le terminal SSH de l'instance training-vm, saisissez le script suivant :

source /training/project_env.sh

Ce script définit les variables d'environnement DEVSHELL_PROJECT_ID et BUCKET.

Cliquez sur Vérifier ma progression pour valider l'objectif. Télécharger un dépôt de code

Tâche 2 : créer un ensemble de données BigQuery et un bucket Cloud Storage

Le pipeline Dataflow sera créé ultérieurement et écrit dans une table de l'ensemble de données BigQuery.

Ouvrir la console BigQuery

Dans la console Google Cloud, sélectionnez le menu de navigation > BigQuery.

Le message Bienvenue sur BigQuery dans la console Cloud s'affiche. Il contient un lien vers le guide de démarrage rapide et liste les mises à jour de l'interface utilisateur.

Cliquez sur Done (OK).

Créer un ensemble de données BigQuery

Pour créer un ensemble de données, cliquez sur l'icône Afficher les actions à côté de votre ID de projet, puis sélectionnez Créer un ensemble de données.
Ensuite, saisissez demos pour l'ID de l'ensemble de données et conservez la valeur par défaut de toutes les autres options. Enfin, cliquez sur Créer un ensemble de données.

Vérifier le bucket Cloud Storage

Vous devez normalement disposer d'un bucket dont le nom est identique à l'ID du projet.

Dans la console Cloud, accédez au menu de navigation (), cliquez sur Cloud Storage > Buckets.
Examinez les valeurs suivantes :

Propriété	Valeur (saisissez une valeur ou sélectionnez une option)
Nom
Classe de stockage par défaut	Régional
Emplacement

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer un ensemble de données BigQuery

Tâche 3 : simuler les données de capteurs de trafic dans Pub/Sub

Dans le terminal SSH de l'instance training-vm, lancez le simulateur de capteurs. Le script lit des échantillons de données à partir d'un fichier CSV et les publie sur Pub/Sub :

/training/sensor_magic.sh

Cette commande enverra une heure de données en une minute. Laissez le script s'exécuter dans le terminal que vous avez ouvert.

Ouvrir un deuxième terminal SSH et le connecter à la VM d'entraînement

En haut à droite du terminal SSH de l'instance training-vm, cliquez sur le bouton en forme de roue dentée () et sélectionnez Nouvelle connexion à l'instance "training-vm" dans le menu déroulant. Une nouvelle fenêtre de terminal s'ouvre. Cliquez sur Se connecter.
La nouvelle session de terminal ne dispose pas des variables d'environnement requises. Exécutez la commande suivante pour les définir.
Dans le terminal SSH de la nouvelle instance training-vm, saisissez la commande suivante :

source /training/project_env.sh

Cliquez sur Vérifier ma progression pour valider l'objectif. Simuler les données de capteurs de trafic dans Pub/Sub

Tâche 4 : lancer le pipeline Dataflow

Vérifier que l'API Dataflow est activée pour ce projet

Pour vérifier que les API sont activées et que les autorisations appropriées sont définies, exécutez le bloc de code suivant dans Cloud Shell.

gcloud services disable dataflow.googleapis.com --force gcloud services enable dataflow.googleapis.com

Revenez au terminal SSH de la deuxième instance training-vm. Accédez au répertoire de cet atelier.

cd ~/training-data-analyst/courses/streaming/process/sandiego

Identifiez le script qui crée et exécute le pipeline Dataflow.

cat run_oncloud.sh

Copiez l'URL suivante et collez-la dans un nouvel onglet du navigateur pour afficher le code source dans GitHub :

https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/streaming/process/sandiego/run_oncloud.sh

Le script doit comprendre trois arguments : project id, bucket name et classname

Vous pouvez également utiliser l'argument facultatif options. Nous l'aborderons plus loin dans cet atelier.

project id
bucket name
classname	`<fichier java exécutant les agrégations>`
options	`<options>`

Pour l'argument classname, vous pouvez choisir parmi quatre fichiers Java. Chacun d'entre eux lit les données de trafic depuis Pub/Sub et exécute des agrégations/calculs différents.

Accédez au répertoire Java. Repérez le fichier source AverageSpeeds.java.

cd ~/training-data-analyst/courses/streaming/process/sandiego/src/main/java/com/google/cloud/training/dataanalyst/sandiego cat AverageSpeeds.java

Que fait le script ?

Pour poursuivre, fermez le fichier. Vous aurez besoin de vous reporter à ce code source lorsque vous exécuterez l'application. Ouvrez un nouvel onglet de navigateur pour pouvoir accéder facilement au fichier AverageSpeeds.java en l'affichant sur GitHub.

Pour afficher le code source sur GitHub, copiez l'URL suivante et collez-la dans un onglet de navigateur :

https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/streaming/process/sandiego/src/main/java/com/google/cloud/training/dataanalyst/sandiego/AverageSpeeds.java

Ne fermez pas cet onglet. Vous aurez besoin de reconsulter le code source plus tard.

Revenez au terminal SSH de l'instance training-vm. Exécutez les commandes suivantes pour que le pipeline Dataflow lise les données depuis Pub/Sub et les écrive dans BigQuery :

cd ~/training-data-analyst/courses/streaming/process/sandiego export REGION={{{project_0.startup_script.gcp_region|Lab GCP Region}}}

./run_oncloud.sh $DEVSHELL_PROJECT_ID $BUCKET AverageSpeeds

Ce script utilise Maven pour construire un pipeline de flux de données Dataflow avec Java.

Exemple d'exécution réussie :

[INFO] ------------------------------------------------------------------------ [INFO] BUILD SUCCESS [INFO] ------------------------------------------------------------------------ [INFO] Total time: 45.542 s [INFO] Finished at: 2018-06-08T16:51:30+00:00 [INFO] Final Memory: 56M/216M [INFO] ------------------------------------------------------------------------

Tâche 5 : explorer le pipeline

Ce pipeline Dataflow lit les messages d'un sujet Pub/Sub, analyse le JSON du message d'entrée, génère un résultat principal et écrit dans BigQuery.

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Afficher tous les produits > Analyse > Dataflow. Cliquez ensuite sur votre job pour surveiller sa progression.

Exemple :

Fenêtre de surveillance du job Dataflow

Remarque : Si le job Dataflow échoue, exécutez de nouveau la commande ./run_oncloud.sh $DEVSHELL_PROJECT_ID $BUCKET AverageSpeeds.

Une fois que le pipeline est en cours d'exécution, dans le menu de navigation (), cliquez sur Afficher tous les produits > Analyse > Pub/Sub.
Examinez la ligne Nom du sujet de sandiego.
Dans le menu de navigation (), cliquez sur Afficher tous les produits > Analyse > Dataflow, puis sur votre job.
Comparez le code contenu dans l'onglet du navigateur GitHub, dans le fichier AverageSpeeds.java et dans le graphique du pipeline affiché sur la page de votre job Dataflow.
Recherchez l'étape GetMessages du pipeline dans le graphique, puis le code correspondant dans le fichier AverageSpeeds.java. C'est cette étape qui lit les données depuis le sujet Pub/Sub. Elle crée une collection de chaînes correspondant aux messages Pub/Sub qui ont été lus.

Voyez-vous l'abonnement créé ?
Comment le code extrait-il les messages de Pub/Sub ?

Trouvez l'étape de pipeline Time Window (Fenêtre temporelle) dans le graphique et dans le code. Cette étape sert à créer une fenêtre de la durée spécifiée dans les paramètres du pipeline (dans ce cas-ci, une fenêtre glissante). Celle-ci accumule les données de trafic de l'étape précédente jusqu'à ce qu'elle se termine, puis les transmet aux étapes suivantes en vue d'autres transformations.

Quel est l'intervalle de la fenêtre ?
À quelle fréquence une nouvelle fenêtre est-elle créée ?

Recherchez les étapes BySensor et AvgBySensor du pipeline dans le graphique, puis l'extrait de code correspondant dans le fichier AverageSpeeds.java. L'étape BySensor effectue un regroupement de tous les événements de la fenêtre par ID de capteur, tandis que l'étape AvgBySensor calcule ensuite la vitesse moyenne de chaque regroupement.
Recherchez l'étape ToBQRow du pipeline dans le graphique et dans le code. Cette étape crée simplement une "ligne" contenant la moyenne calculée à partir de l'étape précédente et les informations sur les voies.

Remarque : Dans la pratique, l'étape ToBQRow vous permet d'effectuer d'autres actions. Par exemple, elle peut comparer la moyenne calculée avec un seuil prédéfini et consigner les résultats dans Cloud Logging.

Trouvez BigQueryIO.Write à la fois dans le graphique de pipeline et dans le code source. Cette étape reproduit la ligne du pipeline dans une table BigQuery. Dans la mesure où nous avons choisi la disposition d'écriture WriteDisposition.WRITE_APPEND, de nouveaux enregistrements seront ajoutés à la table.
Dans le menu de navigation (), cliquez sur BigQuery > Studio, puis actualisez votre navigateur.
Recherchez le nom de votre projet et l'ensemble de données "demos" que vous avez créé. La petite flèche qui s'affiche à gauche du nom de l'ensemble de données demos doit maintenant être active. Cliquez dessus pour afficher la table average_speeds.
La table average_speeds peut mettre quelques minutes à s'afficher dans BigQuery.

Exemple :

La nouvelle table "average_speeds" s'affiche

Cliquez sur Vérifier ma progression pour valider l'objectif. Lancer le pipeline Dataflow

Tâche 6 : déterminer les débits

Lorsque vous surveillez et améliorez des pipelines Dataflow, une activité courante consiste à déterminer le nombre d'éléments traités par le pipeline chaque seconde, le retard du système et le nombre d'éléments de données traités jusqu'à l'instant présent. Dans cette activité, vous apprendrez où trouver les informations sur les éléments traités et les durées dans la console Cloud.

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Afficher tous les produits > Analyse > Dataflow. Cliquez ensuite sur votre job pour surveiller sa progression (votre nom d'utilisateur figurera dans le nom du pipeline).
Sélectionnez le nœud de pipeline GetMessages dans le graphique et observez les métriques d'étape sur la droite.

La métrique Retard du système est importante pour les pipelines de flux de données. Elle correspond à la durée qui s'écoule entre le moment où les éléments "arrivent" à l'étape de transformation et celui où ils sont traités.
La métrique Éléments ajoutés située sous les collections de sortie indique le nombre d'éléments de données ayant quitté cette étape. (Pour l'étape Read PubSub Msg du pipeline, elle représente également le nombre de messages Pub/Sub lus depuis le sujet par le connecteur d'E/S Pub/Sub.)

Sélectionnez le nœud Time Window (Fenêtre temporelle) dans le graphique. Observez la correspondance entre la métrique "Éléments ajoutés" sous les collections d'entrée de l'étape Time Window et la métrique "Éléments ajoutés" sous les collections de sortie de l'étape précédente GetMessages.

Tâche 7 : examiner le résultat BigQuery

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur BigQuery > Studio.

Remarque : Il est possible que les flux de données et les tables n'apparaissent pas immédiatement, et que la fonctionnalité d'aperçu ne soit pas disponible pour les données figurant encore dans la mémoire tampon du flux de données.

Dans ce cas, si vous cliquez sur Aperçu, le message suivant s'affiche : "This table has records in the streaming buffer that may not be visible in the preview" (Cette table contient des enregistrements qui sont dans la mémoire tampon du flux et qui risquent de ne pas être visibles dans l'aperçu). Vous pouvez quand même exécuter des requêtes pour afficher les données.

Dans la fenêtre Éditeur de requête, saisissez (ou copiez-collez) la requête suivante, qui permet d'observer le résultat du job Dataflow. Cliquez sur Exécuter :

SELECT * FROM `demos.average_speeds` ORDER BY timestamp DESC LIMIT 100

Pour obtenir la dernière mise à jour de la table, exécutez la requête SQL suivante :

SELECT MAX(timestamp) FROM `demos.average_speeds`

Utilisez ensuite la fonction temporelle de BigQuery pour référencer l'état de la table à un moment précis.

La requête ci-dessous renvoie un sous-ensemble de lignes de la table average_speeds, telle qu'elle se présentait 10 minutes avant.

Si la table n'existait pas au moment précis demandé, le message d'erreur suivant s'affiche :

Invalid snapshot time 1633691170651 for Table PROJECT:DATASET.TABLE__

Dans ce cas, réduisez la plage temporelle en diminuant le nombre de minutes :

SELECT * FROM `demos.average_speeds` FOR SYSTEM_TIME AS OF TIMESTAMP_SUB(CURRENT_TIMESTAMP, INTERVAL 10 MINUTE) ORDER BY timestamp DESC LIMIT 100

Tâche 8 : observer et étudier l'autoscaling

Observez comment Dataflow adapte le nombre de nœuds de calcul pour traiter les messages Pub/Sub entrants en attente.

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Afficher tous les produits > Analyse > Dataflow et sur le job de votre pipeline.
Dans le volet du job, cliquez sur Autoscaling. Combien de nœuds de calcul sont actuellement utilisés afin de traiter les messages du sujet Pub/Sub ?
Cliquez sur Afficher davantage d'historique et vérifiez combien de nœuds de calcul ont été utilisés à différents moments de l'exécution du pipeline.
Les données provenant d'un simulateur de capteurs de trafic démarré au début de l'atelier créent des centaines de messages par seconde dans le sujet Pub/Sub. Dataflow augmente le nombre de nœuds de calcul en conséquence afin de minimiser le retard du système du pipeline.
Dans Plus d'historique, dans le pool de nœuds de calcul, vous pouvez voir les modifications apportées au nombre de nœuds de calcul par Dataflow. La colonne État indique le motif de la modification.

Détails du job Dataflow

Tâche 9 : actualiser le script de simulation des données de capteurs

Remarque : L'environnement de l'atelier de formation présente des limites de quota. Si le script de simulation des données de capteurs s'exécute trop longtemps, il dépassera la limite de quota, ce qui suspendra les identifiants de la session.

Revenez au terminal SSH de l'instance training-vm où s'exécute le script des données de capteurs.
Si vous voyez des messages qui indiquent INFO : Publication en cours, cela signifie que le script est toujours en cours d'exécution. Appuyez sur CTRL+C pour l'arrêter. Exécutez ensuite la commande ci-dessous pour redémarrer le script :

cd ~/training-data-analyst/courses/streaming/publish ./send_sensor_data.py --speedFactor=60 --project $DEVSHELL_PROJECT_ID

Les étapes 3 à 8 indiquées ci-après ne sont nécessaires que si vous ne parvenez pas à arrêter le script en appuyant sur CTRL+C. Si le script a dépassé la limite de quota, des messages d'erreur s'affichent plusieurs fois, indiquant qu'il est impossible d'actualiser les identifiants, et la combinaison CTRL+C ne fonctionne pas. Dans ce cas, fermez simplement le terminal SSH et suivez les étapes 3 à 8 ci-dessous.

Ouvrez un nouveau terminal SSH. La nouvelle session dispose alors d'un nouveau quota.
Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Compute Engine > Instances de VM.
Repérez la ligne comportant l'instance nommée training-vm.
Tout à droite de la page, sous Connecter, cliquez sur SSH pour ouvrir une nouvelle fenêtre de terminal.
Dans le terminal SSH de training-vm, saisissez la commande suivante pour créer des variables d'environnement :

source /training/project_env.sh

Exécutez les commandes suivantes pour démarrer un nouveau simulateur de capteurs :

cd ~/training-data-analyst/courses/streaming/publish ./send_sensor_data.py --speedFactor=60 --project $DEVSHELL_PROJECT_ID

Tâche 10 : intégration de Cloud Monitoring

L'intégration de Cloud Monitoring à Dataflow permet aux utilisateurs d'accéder à des métriques de jobs Dataflow telles que le retard du système (pour les jobs de traitement en flux continu), l'état du job (échec, succès), le nombre d'éléments et les compteurs utilisateur dans Cloud Monitoring.

Fonctionnalités d'intégration de Cloud Monitoring

Explorez les métriques Dataflow : parcourez les métriques des pipelines Dataflow disponibles et visualisez-les dans des graphiques.

Voici quelques métriques Dataflow courantes.

Métriques	Fonctionnalités
État du job	État du job (échec, succès), fourni sous forme d'énumération toutes les 30 secondes et lors des mises à jour.
Temps écoulé	Durée du job (en secondes), fournie toutes les 30 secondes.
Retard du système	Retard maximal sur l'ensemble du pipeline, exprimé en secondes.
Processeurs virtuels actuels	Nombre actuel de processeurs virtuels utilisés par le job, mis à jour en cas de modification de la valeur.
Estimation du nombre d'octets	Nombre d'octets traités par PCollection

Présentez les métriques Dataflow dans des graphiques au sein de tableaux de bord Monitoring : créez des tableaux de bord et des séries temporelles graphiques à partir de métriques Dataflow.
Configurez des alertes : définissez des seuils sur des métriques au niveau d'un job ou d'un groupe de ressources, et recevez une alerte lorsque les valeurs spécifiées sont atteintes. Les alertes Monitoring peuvent vous avertir de différentes conditions, comme un retard trop important du système de traitement en flux continu ou l'échec des jobs.
Surveillez des métriques définies par l'utilisateur : en plus de ses métriques propres, Dataflow expose des métriques définies par l'utilisateur (SDK Aggregators) sous forme de compteurs Monitoring personnalisés dans l'interface utilisateur de Monitoring pour créer des graphiques et des alertes. Tout agrégateur défini dans un pipeline Dataflow est transmis à Monitoring sous forme de métrique personnalisée. Dataflow définit une nouvelle métrique personnalisée pour le compte de l'utilisateur et fournit à Monitoring des mises à jour incrémentielles toutes les 30 secondes environ.

Tâche 11 : explorer les métriques

Cloud Monitoring est un service distinct de Google Cloud. Vous devrez donc procéder à quelques étapes de configuration afin d'initialiser le service pour votre compte d'atelier.

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Monitoring.
Dans le panneau de gauche, cliquez sur Explorateur de métriques.
Dans l'explorateur de métriques, cliquez sur Sélectionner une métrique.
Cliquez sur Job Dataflow > Job pour afficher la liste des métriques disponibles associées à Dataflow. Sélectionnez Watermark de données (retard) et cliquez sur Appliquer.
Cloud Monitoring trace un graphique sur le côté droit de la page.
Sous "Métrique", cliquez sur Réinitialiser pour supprimer la métrique Watermark de données (retard). Sélectionnez à présent la métrique Retard du système.

Remarque : Les métriques que Dataflow fournit à Monitoring sont listées dans la documentation sur les métriques Google Cloud. Recherchez-les sur la page qui concerne Dataflow. Les métriques que vous avez consultées sont des indicateurs utiles sur les performances du pipeline.

Watermark de données (retard) : âge (temps écoulé depuis le code temporel de l'événement) de l'élément de données le plus récent entièrement traité par le pipeline.

Retard du système : délai d'attente maximal actuellement enregistré pour le traitement d'un élément de données, exprimé en secondes.

Tâche 12 : créer des alertes

Si vous souhaitez être averti lorsqu'une métrique franchit un seuil spécifié (par exemple, lorsque le retard du système du pipeline de flux de données de notre atelier dépasse une valeur prédéfinie), vous pouvez utiliser les mécanismes d'alerte de Monitoring.

Créer une alerte

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Monitoring > Alertes.
Cliquez sur + Créer une règle.
Cliquez sur le menu déroulant Sélectionner une métrique. Décochez Active.
Saisissez Job Dataflow sous "Filtrer par nom de ressource ou de métrique", puis cliquez sur Job Dataflow > Job. Sélectionnez Retard du système et cliquez sur Appliquer.
Définissez Fenêtre glissante sur 1 min. Cliquez sur Suivant.
Cliquez sur Configurer un déclencheur.
Définissez Position du seuil sur Au-dessus du seuil, Valeur du seuil sur 5 et cliquez sur Suivant.

Ajouter une notification

Cliquez sur la flèche du menu déroulant à côté de Canaux de notification, puis sur Gérer les canaux de notification.

Une page Canaux de notification s'ouvre dans un nouvel onglet.

Faites défiler la page vers le bas, puis cliquez sur le bouton Ajouter associé à Adresse e-mail.
Dans la boîte de dialogue Créer un canal de messagerie, saisissez le nom d'utilisateur associé à l'atelier dans le champ Adresse e-mail, et spécifiez un Nom à afficher.

Remarque : Si vous saisissez votre propre adresse e-mail, vous risquez de recevoir des alertes jusqu'à la suppression de toutes les ressources du projet.

Cliquez sur Enregistrer.
Revenez à l'onglet Créer une règle d'alerte précédent.
Cliquez de nouveau sur Canaux de notification, puis sur l'icône Actualiser pour obtenir le nom à afficher que vous avez indiqué à l'étape précédente.
Sélectionnez ensuite votre nom à afficher, puis cliquez sur OK.
Dans le champ Nom de la règle d'alerte, saisissez ExempleRègleAlerte.
Cliquez sur Suivant.
Examinez l'alerte et cliquez sur Créer une règle.

Afficher des événements

Dans Monitoring, cliquez sur Alertes, puis affichez le volet Règles.
Chaque fois qu'une alerte est déclenchée par une condition de seuil de métrique, un incident et un événement correspondant sont créés dans Monitoring. Si vous avez spécifié un mécanisme de notification dans l'alerte (e-mail, SMS, bipeur, etc.), vous recevez également une notification.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer une alerte

Tâche 13 : configurer des tableaux de bord

Vous pouvez créer facilement des tableaux de bord contenant les graphiques liés à Dataflow les plus pertinents à l'aide de la fonction correspondante de Cloud Monitoring.

Dans la console Cloud, accédez au menu de navigation (), puis cliquez sur Monitoring > Tableaux de bord.
Cliquez sur Créer un tableau de bord personnalisé.
Dans le champ Nom du nouveau tableau de bord, saisissez Mon tableau de bord.
Cliquez sur Ajouter un widget, puis sur Graphique en courbes.
Cliquez sur le menu déroulant sous Sélectionner une métrique.
Sélectionnez Job Dataflow > Job > Retard du système et cliquez sur Appliquer.
Dans le panneau Filtres, cliquez sur + Ajouter un filtre.
Sélectionnez project_id dans le champ Étiquettes de ressources, puis sélectionnez ou saisissez votre dans le champ Valeur.
Cliquez sur Appliquer.

Exemple :

Capture d'écran d'un exemple de tableau de bord

Si vous le souhaitez, vous pouvez ajouter d'autres graphiques au tableau de bord, comme les taux de publication Pub/Sub sur le sujet ou les jobs d'abonnement en attente (qui sont un signal envoyé à l'autoscaler Dataflow).

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.

Le nombre d'étoiles correspond à votre degré de satisfaction :

1 étoile = très insatisfait(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.

Copyright 2026 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms de société et de produit peuvent être des marques des sociétés auxquelles ils sont associés.

Présentation

Objectifs

Préparation

Vérifier les autorisations du projet

Tâche 1 : préparation

Ouvrir le terminal SSH et se connecter à la VM d'entraînement

Vérifier que l'initialisation est terminée

Télécharger le dépôt de code

Définir des variables d'environnement

Tâche 2 : créer un ensemble de données BigQuery et un bucket Cloud Storage

Ouvrir la console BigQuery

Créer un ensemble de données BigQuery

Vérifier le bucket Cloud Storage

Tâche 3 : simuler les données de capteurs de trafic dans Pub/Sub

Ouvrir un deuxième terminal SSH et le connecter à la VM d'entraînement

Tâche 4 : lancer le pipeline Dataflow

Vérifier que l'API Dataflow est activée pour ce projet

Tâche 5 : explorer le pipeline

Tâche 6 : déterminer les débits

Tâche 7 : examiner le résultat BigQuery

Tâche 8 : observer et étudier l'autoscaling

Tâche 9 : actualiser le script de simulation des données de capteurs

Tâche 10 : intégration de Cloud Monitoring

Fonctionnalités d'intégration de Cloud Monitoring

Tâche 11 : explorer les métriques

Tâche 12 : créer des alertes

Créer une alerte

Ajouter une notification

Afficher des événements

Tâche 13 : configurer des tableaux de bord

Terminer l'atelier

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier