Instructions et exigences de configuration de l'atelier

Protégez votre compte et votre progression. Utilisez toujours une fenêtre de navigation privée et les identifiants de l'atelier pour exécuter cet atelier.

Pipeline Dataflow simple (Python) 2.5

Atelier 1 heure 30 minutes universal_currency_alt 5 crédits show_chart Débutant

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

Présentation
Objectif
Préparation
Tâche 1 : Vérifier que l'API Dataflow est activée
Tâche 2 : Préparation
Tâche 3 : Filtrer le pipeline
Tâche 4 : Exécuter le pipeline en local
Tâche 5 : Exécuter le pipeline dans le cloud
Terminer l'atelier

Ce contenu n'est pas encore optimisé pour les appareils mobiles.

Pour une expérience optimale, veuillez accéder à notre site sur un ordinateur de bureau en utilisant un lien envoyé par e-mail.

Présentation

Dans cet atelier, vous allez ouvrir un projet Dataflow, filtrer le pipeline et l'exécuter en local et dans le cloud.

Ouvrir un projet Dataflow
Filtrer le pipeline
Exécuter le pipeline en local et dans le cloud

Objectif

Dans cet atelier, vous allez découvrir comment écrire un pipeline Dataflow simple, et comment l'exécuter en local et dans le cloud.

Configurer un projet Dataflow en Python à l'aide d'Apache Beam
Créer un pipeline simple en Python
Exécuter la requête sur la machine locale
Exécuter la requête dans le cloud

Préparation

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Activer Google Cloud Shell

Google Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud.

Google Cloud Shell vous permet d'accéder à vos ressources Google Cloud grâce à une ligne de commande.

Dans la barre d'outils située en haut à droite dans la console Cloud, cliquez sur le bouton "Ouvrir Cloud Shell".
Cliquez sur Continuer.

Le provisionnement et la connexion à l'environnement prennent quelques instants. Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET. Par exemple :

ID de projet mis en évidence dans le terminal Cloud Shell

gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.

Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :

gcloud auth list

Résultat :

Credentialed accounts: - @.com (active)

Exemple de résultat :

Credentialed accounts: - google1623327_student@qwiklabs.net

Vous pouvez lister les ID de projet à l'aide de cette commande :

gcloud config list project

Résultat :

[core] project =

Exemple de résultat :

[core] project = qwiklabs-gcp-44776a13dea667a6

Remarque : Pour consulter la documentation complète sur gcloud, accédez au guide de présentation de la gcloud CLI.

Vérifier les autorisations du projet

Avant de commencer à travailler dans Google Cloud, vous devez vous assurer de disposer des autorisations adéquates pour votre projet dans IAM (Identity and Access Management).

Dans la console Google Cloud, accédez au menu de navigation (), puis sélectionnez IAM et administration > IAM.
Vérifiez que le compte de service Compute par défaut {project-number}-compute@developer.gserviceaccount.com existe et qu'il est associé au rôle editor (éditeur). Le préfixe du compte correspond au numéro du projet, disponible sur cette page : Menu de navigation > Présentation du cloud > Tableau de bord.

État de l'éditeur et nom du compte de service Compute Engine par défaut mis en évidence sur l'onglet "Autorisations"

Remarque : Si le compte n'est pas disponible dans IAM ou n'est pas associé au rôle editor (éditeur), procédez comme suit pour lui attribuer le rôle approprié.

Dans la console Google Cloud, accédez au menu de navigation et cliquez sur Présentation du cloud > Tableau de bord.
Copiez le numéro du projet (par exemple, 729328892908).
Dans le menu de navigation, sélectionnez IAM et administration > IAM.
Sous Afficher par compte principal, en haut de la table des rôles, cliquez sur Accorder l'accès.
Dans le champ Nouveaux comptes principaux, saisissez :

{project-number}-compute@developer.gserviceaccount.com

Remplacez {project-number} par le numéro de votre projet.
Dans le champ Rôle, sélectionnez Projet (ou Basique) > Éditeur.
Cliquez sur Enregistrer.

Tâche 1 : Vérifier que l'API Dataflow est activée

Exécutez le bloc de code suivant dans Cloud Shell :

gcloud services disable dataflow.googleapis.com --force gcloud services enable dataflow.googleapis.com

Tâche 2 : Préparation

Ouvrir le terminal SSH et se connecter à la VM d'entraînement

Vous exécuterez le code depuis une VM dédiée à l'entraînement.

Dans la console, accédez au menu de navigation (), puis cliquez sur Compute Engine > Instances de VM.
Repérez la ligne comportant l'instance nommée training-vm.
Tout à droite de la page, sous Connecter, cliquez sur SSH pour ouvrir une fenêtre de terminal.
Dans cet atelier, vous allez saisir les commandes CLI dans l'instance training_vm.

Télécharger le dépôt de code

Téléchargez le dépôt de code que vous utiliserez dans cet atelier. Dans le terminal SSH de l'instance training-vm, saisissez la commande suivante :

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Créer un bucket Cloud Storage

Suivez ces instructions pour créer un bucket.

Dans la console, accédez au menu de navigation, puis cliquez sur Cloud Storage > Buckets.
Cliquez sur + Créer.
Spécifiez les paramètres suivants et conservez les valeurs par défaut des autres paramètres :

Propriété	Valeur (saisissez la valeur ou sélectionnez l'option spécifiée)
Nom
Type d'emplacement	Multirégional

Cliquez sur Créer.
Si l'invite L'accès public sera bloqué s'affiche, sélectionnez Appliquer la protection contre l'accès public sur ce bucket et cliquez sur Confirmer.

Notez le nom de votre bucket. Vous en aurez besoin pour les tâches suivantes.

Dans le terminal SSH de l'instance training-vm, saisissez la commande suivante pour créer une variable d'environnement nommée "BUCKET" et vérifiez qu'elle existe à l'aide de la commande "echo" :

BUCKET="{{{project_0.project_id|project_place_holder_text}}}" echo $BUCKET

Vous pouvez utiliser $BUCKET dans les commandes du terminal. Si vous avez besoin de saisir le nom du bucket <votre-bucket> dans une zone de texte de la console, vous pouvez le récupérer rapidement grâce à la commande echo $BUCKET.

Tâche 3 : Filtrer le pipeline

L'objectif de cet atelier est de vous familiariser avec la structure d'un projet Dataflow et d'apprendre à exécuter un pipeline Dataflow.

Retournez dans le terminal SSH de l'instance training-vm, puis accédez au répertoire /training-data-analyst/courses/data_analysis/lab2/python et consultez le fichier grep.py.
Pour cela, utilisez Nano. Ne modifiez pas le code :

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

Appuyez sur CTRL+X pour quitter Nano.

Répondez aux questions ci-dessous à propos du fichier grep.py.

Quels sont les fichiers en cours de lecture ?
Quel est le terme de recherche ?
Où est placée la sortie ?

Le pipeline contient trois transformations :

Que fait la première transformation ?
Que fait la deuxième transformation ?
D'où viennent ses données d'entrée ?
Que fait-elle avec ces données d'entrée ?
Qu'écrit-elle dans sa sortie ?
Où est placée la sortie ?
Que fait la troisième transformation ?

Tâche 4 : Exécuter le pipeline en local

Dans le terminal SSH de l'instance training-vm, exécutez grep.py en local :

python3 grep.py

Remarque : Si un avertissement s'affiche, vous pouvez l'ignorer.

Le fichier de sortie est output.txt. Si la sortie est longue, elle sera divisée en plusieurs parties nommées par exemple output-00000-of-00001.

Localisez le fichier concerné d'après son heure de modification :

ls -al /tmp

Examinez le ou les fichiers de sortie.
Vous pouvez remplacer "-*" ci-dessous par le suffixe approprié :

cat /tmp/output-*

Le résultat semble-t-il logique ?

Tâche 5 : Exécuter le pipeline dans le cloud

Copiez des fichiers Java dans le cloud. Dans le terminal SSH de l'instance training-vm, saisissez la commande suivante :

gcloud storage cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

Modifiez le pipeline Dataflow dans grepc.py en utilisant nano :

nano grepc.py

Remplacez PROJECT, BUCKET et REGION par les valeurs indiquées ci-dessous. Conservez les guillemets simples extérieurs.

PROJECT='{{{project_0.project_id|project_place_holder_text}}}'

BUCKET='{{{project_0.project_id|project_place_holder_text}}}'

REGION='{{{project_0.startup_script.gcp_region|region_place_holder_text}}}'

Enregistrez le fichier et fermez Nano en appuyant sur CTRL+X, puis saisissez Y et appuyez sur Entrée.

Envoyez le job Dataflow dans le cloud :

python3 grepc.py

Ce job étant très petit, l'exécuter dans le cloud est bien plus long que l'exécuter en local (autour de sept à dix minutes).

Dans le navigateur, revenez à l'onglet de la console.
Dans le menu de navigation, cliquez sur Dataflow, puis sur votre job pour suivre son avancement.
Attendez que l'état du job soit Réussi.
Examinez la sortie dans le bucket Cloud Storage.
Dans le menu de navigation, cliquez sur Cloud Storage > Buckets, puis sur votre bucket.
Cliquez sur le répertoire javahelp.

Ce job génère le fichier output.txt. Si le fichier est long, il sera divisé en plusieurs parties nommées par exemple output-0000x-of-000y. Vous pouvez identifier le fichier le plus récent d'après son nom ou son champ Dernière modification.

Cliquez sur le fichier pour l'afficher.

Vous pouvez également télécharger le fichier via le terminal SSH de l'instance training-vm et l'afficher à l'aide de la commande suivante :

gcloud storage cp gs://$BUCKET/javahelp/output* . cat output*

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.

Le nombre d'étoiles correspond à votre degré de satisfaction :

1 étoile = très insatisfait(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.

Copyright 2026 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms de société et de produit peuvent être des marques des sociétés auxquelles ils sont associés.

Pipeline Dataflow simple (Python) 2.5

Présentation

Objectif

Préparation

Activer Google Cloud Shell

Vérifier les autorisations du projet

Tâche 1 : Vérifier que l'API Dataflow est activée

Tâche 2 : Préparation

Ouvrir le terminal SSH et se connecter à la VM d'entraînement

Télécharger le dépôt de code

Créer un bucket Cloud Storage

Tâche 3 : Filtrer le pipeline

Tâche 4 : Exécuter le pipeline en local

Tâche 5 : Exécuter le pipeline dans le cloud

Terminer l'atelier

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier