Instructions et exigences de configuration de l'atelier

Protégez votre compte et votre progression. Utilisez toujours une fenêtre de navigation privée et les identifiants de l'atelier pour exécuter cet atelier.

Analyse de données sans serveur avec Dataflow : Entrées secondaires (Python)

Atelier 1 heure 30 minutes universal_currency_alt 5 crédits show_chart Avancé

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

Présentation
Objectif
Préparation
Tâche 1 : Préparation
Tâche 2 : Essayer d'utiliser une requête BigQuery
Tâche 3 : Explorer le code du pipeline
Tâche 4 : Exécuter le pipeline
Terminer l'atelier

Ce contenu n'est pas encore optimisé pour les appareils mobiles.

Pour une expérience optimale, veuillez accéder à notre site sur un ordinateur de bureau en utilisant un lien envoyé par e-mail.

Présentation

Dans cet atelier, vous allez découvrir comment charger des données dans BigQuery et exécuter des requêtes complexes. Ensuite, vous exécuterez un pipeline Dataflow pouvant effectuer des opérations de mappage et de réduction, vous utiliserez des entrées secondaires et vous traiterez le flux des données dans BigQuery.

Objectif

Dans cet atelier, vous allez apprendre à utiliser BigQuery comme source de données dans Dataflow et à utiliser les résultats d'un pipeline comme entrée secondaire d'un autre pipeline.

Lire des données de BigQuery dans Dataflow
Utiliser le résultat d'un pipeline comme entrée secondaire d'un autre pipeline

Préparation

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Vérifier les autorisations du projet

Avant de commencer à travailler dans Google Cloud, vous devez vous assurer de disposer des autorisations adéquates pour votre projet dans IAM (Identity and Access Management).

Dans la console Google Cloud, accédez au menu de navigation (), puis sélectionnez IAM et administration > IAM.
Vérifiez que le compte de service Compute par défaut {project-number}-compute@developer.gserviceaccount.com existe et qu'il est associé au rôle editor (éditeur). Le préfixe du compte correspond au numéro du projet, disponible sur cette page : Menu de navigation > Présentation du cloud > Tableau de bord.

État de l'éditeur et nom du compte de service Compute Engine par défaut mis en évidence sur l'onglet "Autorisations"

Remarque : Si le compte n'est pas disponible dans IAM ou n'est pas associé au rôle editor (éditeur), procédez comme suit pour lui attribuer le rôle approprié.

Dans la console Google Cloud, accédez au menu de navigation et cliquez sur Présentation du cloud > Tableau de bord.
Copiez le numéro du projet (par exemple, 729328892908).
Dans le menu de navigation, sélectionnez IAM et administration > IAM.
Sous Afficher par compte principal, en haut de la table des rôles, cliquez sur Accorder l'accès.
Dans le champ Nouveaux comptes principaux, saisissez :

{project-number}-compute@developer.gserviceaccount.com

Remplacez {project-number} par le numéro de votre projet.
Dans le champ Rôle, sélectionnez Projet (ou Basique) > Éditeur.
Cliquez sur Enregistrer.

Tâche 1 : Préparation

Attribuer le rôle Développeur Dataflow

Si le compte ne dispose pas du rôle Développeur Dataflow, procédez comme suit pour le lui attribuer.

Dans le menu de navigation, cliquez sur IAM et administration > IAM.
Sélectionnez le compte de service Compute par défaut {project-number}-compute@developer.gserviceaccount.com.
Cliquez sur l'option Modifier (le crayon tout à droite de la page).
Cliquez sur Ajouter un autre rôle.
Cliquez dans la zone Sélectionnez un rôle. Dans le sélecteur Tapez du texte pour filtrer les résultats, saisissez et choisissez Développeur Dataflow.
Cliquez sur Enregistrer.

Page "Modifier les autorisations"

Vérifier que l'API Dataflow est activée

Dans la barre de titre de la console Google Cloud, cliquez sur Activer Cloud Shell. Cliquez sur Continuer si vous y êtes invité.
Exécutez les commandes suivantes pour vérifier que l'API Dataflow est bien activée dans votre projet. Cliquez sur Autoriser si vous y êtes invité :

gcloud services disable dataflow.googleapis.com

gcloud services enable dataflow.googleapis.com

Ouvrir le terminal SSH et se connecter à la VM d'entraînement

Vous exécuterez le code depuis une VM dédiée à l'entraînement.

Dans la console, accédez au menu de navigation (), puis cliquez sur Compute Engine > Instances de VM.
Repérez la ligne comportant l'instance nommée training-vm.
Tout à droite de la page, sous Connecter, cliquez sur SSH pour ouvrir une fenêtre de terminal. Cliquez sur Autoriser si vous y êtes invité.
Dans cet atelier, vous allez saisir les commandes CLI dans l'instance training-vm.

Télécharger le dépôt de code

Maintenant, vous allez télécharger le dépôt de code que vous utiliserez dans cet atelier. Dans le terminal SSH de l'instance training-vm, saisissez la commande suivante :

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Créer un bucket Cloud Storage

Suivez ces instructions pour créer un bucket.

Dans la console, accédez au menu de navigation, puis cliquez sur Cloud Storage > Buckets.
Cliquez sur + Créer.
Spécifiez les paramètres suivants et conservez les valeurs par défaut des autres paramètres :

Propriété	Valeur (saisissez la valeur ou sélectionnez l'option spécifiée)
Nom
Type d'emplacement > Région

Cliquez sur Créer.
Si l'invite L'accès public sera bloqué s'affiche, sélectionnez Appliquer la protection contre l'accès public sur ce bucket et cliquez sur Confirmer.
Dans le terminal SSH de training-vm, saisissez la commande suivante pour créer trois variables d'environnement : une variable "BUCKET", une variable "PROJECT" et une variable "REGION". Vérifiez qu'elles existent à l'aide de la commande "echo" :

BUCKET="{{{project_0.project_id|project_place_holder_text}}}" echo $BUCKET

PROJECT="{{{project_0.project_id|project_place_holder_text}}}" echo $PROJECT

REGION="{{{project_0.startup_script.gcp_region|region_place_holder_text}}}" echo $REGION

Tâche 2 : Essayer d'utiliser une requête BigQuery

Dans la console, accédez au menu de navigation (), puis cliquez sur BigQuery.
Si vous y êtes invité, cliquez sur OK.
Cliquez sur "+" (Requête SQL), puis saisissez la requête suivante :

SELECT content FROM `cloud-training-demos.github_repos.contents_java` LIMIT 10

Cliquez sur Exécuter.

Que renvoie-t-elle ?

La table BigQuery cloud-training-demos.github_repos.contents_java comprend le contenu (et des métadonnées) de tous les fichiers Java présents dans GitHub en 2016.

Pour connaître le nombre de fichiers Java de cette table, saisissez la requête suivante, puis cliquez sur Exécuter :

SELECT COUNT(*) FROM `cloud-training-demos.github_repos.contents_java`

Combien de fichiers cet ensemble de données contient-il ?

S'agit-il d'un ensemble de données à traiter plutôt en local ou dans le cloud ?

Tâche 3 : Explorer le code du pipeline

Retournez dans le terminal SSH de l'instance training-vm, accédez au répertoire /training-data-analyst/courses/data_analysis/lab2/python, puis consultez le fichier JavaProjectsThatNeedHelp.py.

Pour cela, utilisez Nano. Ne modifiez pas le code. Appuyez sur Ctrl+X pour quitter Nano.

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano JavaProjectsThatNeedHelp.py

Consultez ce schéma pendant que vous lisez le code. Voici à quoi ressemble le pipeline :

Diagramme du pipeline

Répondez aux questions suivantes :

D'après la documentation de la classe située tout en haut, quel est l'objectif de ce pipeline ?
D'où provient le contenu ?
Que fait la partie de gauche du pipeline ?
Que fait la partie de droite du pipeline ?
Que fait "ToLines" ? (Indice : regardez le champ "content" du résultat BigQuery.)
Pourquoi le résultat de "ReadFromBQ" est-il stocké dans une PCollection nommée au lieu d'être directement transféré vers une autre étape ?
Quelles sont les deux actions effectuées sur la PCollection générée à partir de "ReadFromBQ" ?
Si un fichier contient trois FIXME et deux TODO (sur des lignes différentes), combien d'appels à l'aide lui sont associés ?
Si un fichier se trouve dans le package "com.google.devtools.build", à quels packages est-il associé ?
"popular_packages" et "help_packages" correspondent à des PCollections nommées qui sont utilisées lors de l'étape "Scores" (entrées secondaires) du pipeline. Laquelle est l'entrée principale et laquelle est l'entrée secondaire ?
Quelle est la méthode utilisée lors de l'étape "Scores" ?
Dans quel type de données Python l'entrée secondaire est-elle convertie lors de l'étape "Scores" ?

Remarque : La version Java de ce programme est légèrement différente de la version Python. Le SDK Java est compatible avec AsMap, contrairement au SDK Python, qui est compatible avec AsDict. En Java, la PCollection est convertie en vue afin de préparer son utilisation. En Python, la conversion de la PCollection a lieu lors de l'étape où elle est utilisée.

Tâche 4 : Exécuter le pipeline

Pour utiliser le programme, vous devez indiquer les valeurs de BUCKET, PROJECT et REGION, et si le pipeline doit être exécuté en local avec --DirectRunner ou dans le cloud avec --DataFlowRunner.
Pour exécuter le pipeline en local, saisissez la commande suivante dans le terminal SSH de l'instance training-vm :

python3 JavaProjectsThatNeedHelp.py --bucket $BUCKET --project $PROJECT --region $REGION --DirectRunner

Remarque : Si vous voyez un avertissement, par exemple 'BeamDeprecationWarning', veuillez l'ignorer et continuer.

Une fois l'exécution du pipeline terminée, accédez au menu de navigation () et cliquez sur Cloud Storage > Buckets, puis sur votre bucket. Vous trouverez les résultats dans le dossier javahelp. Cliquez sur l'objet Result pour examiner le résultat.
Pour exécuter le pipeline dans le cloud, saisissez la commande suivante dans le terminal SSH de l'instance training-vm :

python3 JavaProjectsThatNeedHelp.py --bucket $BUCKET --project $PROJECT --region $REGION --DataFlowRunner

Remarque : Si vous voyez un avertissement, par exemple 'BeamDeprecationWarning', veuillez l'ignorer et continuer.

Dans le navigateur, revenez à l'onglet de la console. Dans le menu de navigation (), cliquez sur Afficher tous les produits, puis sélectionnez Dataflow dans la section "Analyse".
Cliquez sur votre job afin de suivre son avancement.
Une fois l'exécution du pipeline terminée, accédez au menu de navigation () et cliquez sur Cloud Storage > Buckets, puis sur votre bucket. Vous trouverez les résultats dans le dossier javahelp. Cliquez sur l'objet Result pour examiner le résultat. Le nom du fichier sera le même, mais son heure de création sera plus récente.

Cliquez sur Vérifier ma progression pour valider l'objectif. Exécuter le pipeline

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.

Le nombre d'étoiles correspond à votre degré de satisfaction :

1 étoile = très insatisfait(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.

Copyright 2026 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms de société et de produit peuvent être des marques des sociétés auxquelles ils sont associés.

Analyse de données sans serveur avec Dataflow : Entrées secondaires (Python)

Présentation

Objectif

Préparation

Vérifier les autorisations du projet

Tâche 1 : Préparation

Attribuer le rôle Développeur Dataflow

Vérifier que l'API Dataflow est activée

Ouvrir le terminal SSH et se connecter à la VM d'entraînement

Télécharger le dépôt de code

Créer un bucket Cloud Storage

Tâche 2 : Essayer d'utiliser une requête BigQuery

Tâche 3 : Explorer le code du pipeline

Tâche 4 : Exécuter le pipeline

Terminer l'atelier

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier