Instructions et exigences de configuration de l'atelier

Protégez votre compte et votre progression. Utilisez toujours une fenêtre de navigation privée et les identifiants de l'atelier pour exécuter cet atelier.

Créer des pipelines par lots dans Cloud Data Fusion

Atelier 1 heure 30 minutes universal_currency_alt 5 crédits show_chart Débutant

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

GSP807
Présentation
Préparation
Tâche 1 : Charger les données
Tâche 2 : Ajouter les autorisations nécessaires pour votre instance Cloud Data Fusion
Tâche 3 : Créer un pipeline par lot
Tâche 4 : Configurer le récepteur BigQuery
Tâche 5 : Configurer le pipeline
Tâche 6 : Tester le pipeline
Tâche 7 : Afficher les résultats
Félicitations !

Ce contenu n'est pas encore optimisé pour les appareils mobiles.

Pour une expérience optimale, veuillez accéder à notre site sur un ordinateur de bureau en utilisant un lien envoyé par e-mail.

GSP807

Logo des ateliers d'auto-formation Google Cloud

Présentation

L'ETL fait référence au processus d'extraction, de transformation et de chargement. Il existe d'autres variantes de ce concept, comme EL, ELT et ELTL.

Dans cet atelier, vous allez apprendre à utiliser Pipeline Studio dans Cloud Data Fusion pour créer un pipeline ETL. Pipeline Studio vous permet de créer votre pipeline par lot, nœud par nœud, à l'aide de composants de base et de plug-ins intégrés. Vous utiliserez également le plug-in Wrangler pour créer des transformations et les appliquer aux données qui transitent par le pipeline.

Les données stockées dans des fichiers texte au format CSV (valeurs séparées par une virgule) sont la source de données la plus courante pour les applications ETL, étant donné que de nombreux systèmes de base de données procèdent à l'importation et l'exportation des données via ce type de fichiers. Pour les besoins de cet atelier, vous utiliserez un fichier CSV, mais les mêmes techniques peuvent être appliquées aux sources de base de données et à toute autre source de données disponible.

Le résultat sera écrit dans une table BigQuery, et vous utiliserez le langage SQL standard pour effectuer des analyses de données sur cet ensemble de données cible.

Objectifs

Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :

Créer un pipeline par lots avec Pipeline Studio dans Cloud Data Fusion.
Utiliser Wrangler pour transformer des données de manière interactive.
Écrire la sortie dans BigQuery.

Préparation

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

Connectez-vous à Google Skills dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 02:00:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Remarque : Une fois que vous avez cliqué sur Démarrer l'atelier, il faut compter environ 15-20 minutes pour que les ressources nécessaires soient provisionnées et une instance Data Fusion créée. Pendant ce temps, vous pouvez parcourir les étapes ci-dessous pour vous familiariser avec les objectifs de l'atelier.
Les identifiants pour l'atelier (Username (Nom d'utilisateur) et Password (Mot de passe)) s'afficheront dans le volet de gauche une fois l'instance créée. Vous pourrez alors vous connecter à la console.
Notez ces identifiants (Username (Nom d'utilisateur) et Password (Mot de passe)). Ils vous serviront à vous connecter à la console Google Cloud.
Cliquez sur Open Google Console (Ouvrir la console Google).
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Remarque : Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer. Votre travail et le projet seront alors supprimés.

Se connecter à la console Google Cloud

Dans l'onglet ou la fenêtre de navigateur que vous utilisez pour cet atelier, copiez les données de Username (Nom d'utilisateur) indiqué dans le panneau Connection Details (Détails de connexion), puis cliquez sur le bouton Open Google Console (Ouvrir la console Google).

Remarque : Si vous êtes invité à choisir un compte, cliquez sur Use another account (Utiliser un autre compte).

Collez les données de Username (Nom d'utilisateur) et de Password (Mot de passe) lorsque vous y êtes invité :
Cliquez sur Next (Suivant).
Acceptez les conditions d'utilisation.

Comme il s'agit d'un compte temporaire auquel vous aurez accès uniquement pendant la durée de cet atelier :

n'ajoutez pas d'options de récupération ;
ne vous inscrivez pas à des essais sans frais.

Une fois la console ouverte, affichez la liste des services en cliquant sur le menu de navigation () en haut à gauche.

Menu de navigation

Activer Cloud Shell

Cloud Shell est une machine virtuelle qui contient des outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Google Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud. gcloud est l'outil de ligne de commande associé à Google Cloud. Il est préinstallé sur Cloud Shell et permet la saisie semi-automatique via la touche Tabulation.

Dans Google Cloud Console, dans le volet de navigation, cliquez sur Activer Cloud Shell ().
Cliquez sur Continuer.
Le provisionnement et la connexion à l'environnement prennent quelques instants. Une fois connecté, vous êtes en principe authentifié, et le projet est défini sur votre ID_PROJET. Exemple :

Terminal Cloud Shell

Exemples de commandes

Afficher le nom du compte actif :

gcloud auth list

(Résultat)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(Exemple de résultat)

Credentialed accounts: - google1623327_student@qwiklabs.net

Afficher l'ID du projet :

gcloud config list project

(Résultat)

[core] project = <ID_Projet>

(Exemple de résultat)

[core] project = qwiklabs-gcp-44776a13dea667a6

Pour en savoir plus sur gcloud, consultez la présentation de l'outil de ligne de commande gcloud.

Vérifier les autorisations du projet

Avant de commencer à travailler dans Google Cloud, vous devez vous assurer de disposer des autorisations adéquates pour votre projet dans IAM (Identity and Access Management).

Dans la console Google Cloud, accédez au menu de navigation (), puis cliquez sur IAM et administration > IAM.
Vérifiez que le compte de service Compute par défaut {project-number}-compute@developer.gserviceaccount.com existe et qu'il est associé au rôle Éditeur. Le préfixe du compte correspond au numéro du projet, disponible sur cette page : Menu de navigation > Présentation Cloud.

Compte de service Compute par défaut

Si le compte n'est pas disponible dans IAM ou n'est pas associé au rôle Éditeur, procédez comme suit pour lui attribuer le rôle approprié.

Dans la console Google Cloud, accédez au menu de navigation et cliquez sur Présentation Cloud.
Sur la carte Informations sur le projet, copiez le numéro du projet.
Dans le menu de navigation, cliquez sur IAM et administration > IAM.
En haut de la page IAM, cliquez sur Ajouter.
Dans le champ Nouveaux comptes principaux, saisissez :

{project-number}-compute@developer.gserviceaccount.com

Remplacez {project-number} par le numéro de votre projet.

Dans le champ Sélectionnez un rôle, sélectionnez De base (ou Projet) > Éditeur.
Cliquez sur Enregistrer.

Tâche 1 : Charger les données

Dans cette tâche, vous allez créer un bucket Cloud Storage dans votre projet et y préparer un fichier CSV. Cloud Data Fusion lira par la suite les données qui se trouvent dans ce bucket de stockage.

Dans Cloud Shell, exécutez les commandes suivantes pour créer un bucket et y copier les données pertinentes :

export BUCKET=$GOOGLE_CLOUD_PROJECT gcloud storage buckets create gs://$BUCKET

Le nom du bucket créé correspond à l'ID de votre projet.

Pour copier les fichiers de données (un fichier CSV et un fichier XML) dans votre bucket, exécutez la commande suivante :

gsutil cp gs://cloud-training/OCBL163/titanic.csv gs://$BUCKET

Cliquez sur Vérifier ma progression pour valider l'objectif. Charger les données

Tâche 2 : Ajouter les autorisations nécessaires pour votre instance Cloud Data Fusion

Dans cette tâche, vous allez attribuer les rôles IAM nécessaires au compte de service associé à l'instance Cloud Data Fusion.

Dans le menu de navigation de la console Google Cloud, cliquez sur Afficher tous les produits, puis sélectionnez Data Fusion > Instances dans la catégorie Analyse. Vous devriez voir une instance Cloud Data Fusion déjà configurée et prête à être utilisée.

Remarque : La création de l'instance prend environ 10 minutes. Attendez qu'elle soit prête avant de continuer.

Dans la console Google Cloud, accédez au menu de navigation, puis cliquez sur IAM et administration > IAM.
Recherchez le compte de service Compute Engine par défaut {project-number}-compute@developer.gserviceaccount.com, puis copiez le Compte de service dans votre presse-papiers.
Sur la page des autorisations IAM, cliquez sur +Accorder l'accès.
Collez le compte de service dans le champ "Nouveaux comptes principaux".
Dans Sélectionner un rôle, saisissez Agent de service de l'API Cloud Data Fusion, puis sélectionnez ce rôle.
Cliquez sur + Ajouter un autre rôle.
Dans Sélectionner un rôle, choisissez le rôle Administrateur Dataproc.
Cliquez sur Enregistrer.

Cliquez sur Vérifier ma progression pour valider l'objectif. Ajouter le rôle Agent de service de l'API Cloud Data Fusion au compte de service

Accorder l'autorisation Utilisateur du compte de service

Dans la console, accédez au menu de navigation et cliquez sur IAM et administration > IAM.
Cochez la case Inclure les attributions de rôles fournies par Google.
Faites défiler la liste jusqu'au compte de service Cloud Data Fusion géré par Google semblable à service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com. Copiez le nom du compte de service dans votre presse-papiers.

Liste des comptes de service Cloud Data Fusion gérés par Google

Ensuite, accédez à IAM et administration > Comptes de service.
Cliquez sur le compte Compute Engine par défaut, semblable à {project-number}-compute@developer.gserviceaccount.com, et sélectionnez l'onglet Comptes principaux avec accès dans la barre de navigation supérieure.
Cliquez sur le bouton Accorder l'accès.
Dans le champ Nouveaux comptes principaux, collez le nom du compte de service que vous avez copié plus tôt.
Dans le menu déroulant Rôle, sélectionnez Utilisateur du compte de service.
Cliquez sur Enregistrer.

Tâche 3 : Créer un pipeline par lot

Dans cette tâche, vous allez utiliser le composant Wrangler de Cloud Data Fusion pour préparer et nettoyer les données brutes. Ce processus itératif vous permet de visualiser les transformations en temps réel.

Dans le menu de navigation de la console Google Cloud, cliquez sur Data Fusion > Instances.
Cliquez sur Afficher l'instance pour votre instance. Si vous y êtes invité, connectez-vous à l'aide des identifiants de l'atelier. Si vous êtes invité à faire une visite guidée, cliquez sur Non, merci.
Dans l'interface utilisateur de Cloud Data Fusion, cliquez sur Wrangler dans le menu de navigation.
Dans le panneau de gauche, cliquez sur (GCS) Google Cloud Storage, puis sélectionnez Cloud Storage Default (Cloud Storage par défaut).
Cliquez sur le bucket correspondant à l'ID de votre projet.
Cliquez sur titanic.csv.
Dans la boîte de dialogue Parsing Options (Options d'analyse), sélectionnez text (texte) pour Format (Format), puis cliquez sur Confirm (Confirmer).

Boîte de dialogue "Parsing Options"

Les données sont chargées dans l'écran Wrangler. Vous pouvez maintenant commencer à appliquer les transformations de données de manière itérative.

Pour analyser les données CSV brutes et les convertir en format tabulaire, cliquez sur la flèche à côté de l'en-tête de la colonne body, sélectionnez Parse (Analyser), puis CSV.
Dans la boîte de dialogue Parse as CSV (Analyser en tant que CSV), cochez la case Set first row as header (Définir la première ligne comme en-tête), puis cliquez sur Apply (Appliquer).

Remarque : Vous pouvez ignorer l'avertissement d'abandon à côté de la case à cocher Set first row as header (Définir la première ligne comme en-tête).

À ce stade, les données brutes sont analysées et vous pouvez voir les colonnes générées par cette opération (colonnes à droite de la colonne body). Tout à droite s'affiche la liste de tous les noms de colonnes.

Interface utilisateur Wrangler de Cloud Data Fusion

Pour supprimer la colonne de données brutes, cliquez sur la flèche à côté de l'en-tête de colonne body, puis sur Delete column (Supprimer la colonne).

Sélection de l'option "Delete column" dans le menu

Remarque : Pour appliquer des transformations, vous pouvez également utiliser l'interface de ligne de commande (CLI). La CLI est la barre noire située en bas de l'écran (avec l'invite de commande $ affichée en vert). Dès que vous commencez à saisir des commandes, la fonction de saisie automatique s'active et vous présente une option correspondante. Par exemple, pour supprimer la colonne "body", vous auriez pu utiliser la directive suivante : drop: body.

Syntaxe de la commande CLI pour supprimer la colonne "body"

Sur la droite de l'interface utilisateur de Wrangler, cliquez sur l'onglet Transformation steps (Étapes de transformation) pour afficher votre recette actuelle.

Titanic.csv drop :body column

Remarque : Les sélections effectuées dans le menu et la CLI créent des directives qui sont visibles dans l'onglet Transformation steps (Étapes de transformation) situé à droite de l'écran. Les directives sont des transformations individuelles, qui sont collectivement désignées par le terme "recette".

Pour cet atelier, les deux transformations, ou la recette, suffisent à créer le pipeline ETL. L'étape suivante consiste à intégrer cette recette à l'étape de création de pipeline, où elle représentera la transformation (T) du processus ETL.

Cliquez sur le bouton Créer un pipeline pour passer à la section suivante et créer un pipeline. Vous y verrez comment le pipeline ETL prend forme.
Lorsque la boîte de dialogue suivante s'affiche, sélectionnez Batch pipeline (Pipeline de traitement par lot) pour continuer.

Sélection de l'option Batch pipeline

Remarque : Un pipeline de traitement par lot peut être exécuté de manière interactive, ou programmé pour s'exécuter à une fréquence allant de toutes les cinq minutes à une fois par an.

Tâche 4 : Configurer le récepteur BigQuery

Pour le reste des tâches de création de pipeline, vous allez utiliser Pipeline Studio, une interface qui vous permet de composer des pipelines de données de façon visuelle. Les principaux composants de base de votre pipeline ETL devraient maintenant s'afficher dans le studio.

À ce stade, votre pipeline comprend deux nœuds : le plug-in GCS File qui lit le fichier CSV depuis Google Cloud Storage et le plug-in Wrangler qui contient la recette avec les transformations.

Remarque : Dans un pipeline, un nœud est un objet connecté en séquence pour produire un graphe orienté acyclique. Ex. : source, récepteur, transformation, action, etc.

Ces deux plug-ins (nœuds) représentent les étapes d'extraction (E) et de transformation (T) de votre pipeline ETL. Pour terminer ce pipeline, ajoutez le récepteur BigQuery, qui correspond à l'étape de chargement de notre ETL.

Diagramme de l'architecture du pipeline

Pour ajouter le récepteur BigQuery au pipeline, accédez à la section Sink (Récepteur) du panneau de gauche et cliquez sur l'icône BigQuery afin de placer le récepteur sur le canevas.

Section "Sink" BigQuery

Une fois le récepteur BigQuery placé sur le canevas, connectez le nœud Wrangler au nœud BigQuery. Pour ce faire, faites glisser la flèche en partant du nœud Wrangler vers le nœud BigQuery, comme illustré ci-dessous. Il ne vous reste plus qu'à spécifier quelques options de configuration pour pouvoir écrire les données dans l'ensemble de données de votre choix.

Tâche 5 : Configurer le pipeline

Il est maintenant temps de configurer le pipeline. Pour cela, ouvrez les propriétés de chaque nœud afin de vérifier ses paramètres et/ou d'apporter des modifications supplémentaires.

Pointez sur le nœud GCS pour afficher le bouton Propriétés. Cliquez sur ce bouton pour ouvrir les paramètres de configuration.

Boîte de dialogue des propriétés du nœud GCS

Chaque plug-in comporte des champs obligatoires, qui doivent être présents et sont marqués d'un astérisque (*). Selon le plug-in que vous utilisez, vous pouvez voir un schéma d'entrée à gauche, une section de configuration au milieu et un schéma de sortie à droite.

Vous remarquerez que les plug-ins de récepteur n'ont pas de schéma de sortie et que les plug-ins de source n'ont pas de schéma d'entrée. Les plug-ins de récepteur et de source comportent également un champ Nom de la référence obligatoire pour identifier la source/le récepteur de données à des fins de traçabilité.

Chaque plug-in comporte un champ Étiquette. Il s'agit de l'étiquette du nœud que vous voyez sur le canevas où votre pipeline est affiché.

Cliquez sur X en haut à droite de la boîte de dialogue "Propriétés" pour la fermer.
Ensuite, pointez sur le nœud Wrangler et cliquez sur Propriétés.

Boîte de dialogue des propriétés du nœud Wrangler

Remarque : Les plug-ins comme Wrangler contiennent un schéma d'entrée. Ce sont les champs qui sont transmis au plug-in pour traitement. Une fois traitées par le plug-in, les données sortantes peuvent être envoyées dans le schéma de sortie au nœud suivant du pipeline ou, dans le cas d'un récepteur, être écrites dans un ensemble de données.

Cliquez sur X en haut à droite de la boîte de dialogue "Propriétés" pour la fermer.
Pointez sur votre nœud BigQuery, cliquez sur Propriétés et saisissez les paramètres de configuration suivants :
- Dans le champ Nom de la référence, saisissez Titanic_BQ.
- Dans le champ Ensemble de données, saisissez demo.
- Pour Table, saisissez titanic.
Cliquez sur X en haut à droite de la boîte de dialogue "Propriétés" pour la fermer.

Boîte de dialogue "Propriétés BigQuery"

Tâche 6 : Tester le pipeline

Il ne vous reste plus qu'à tester votre pipeline pour vérifier qu'il fonctionne comme prévu. Mais avant cela, assurez-vous de nommer et d'enregistrer votre brouillon pour ne pas perdre votre travail.

Cliquez sur Enregistrer dans le menu en haut à droite. Vous serez invité à donner un nom au pipeline et à ajouter une description.
- Saisissez ETL-batch-pipeline comme nom de votre pipeline.
- Saisissez Pipeline ETL pour analyser le fichier CSV, transformer les données et écrire le résultat dans BigQuery comme description.
Cliquez sur Enregistrer.
Pour tester votre pipeline, cliquez sur l'icône Aperçu. La barre de boutons affiche désormais une icône d'exécution sur laquelle vous pouvez cliquer pour exécuter le pipeline en mode Aperçu.
Cliquez sur l'icône Exécuter. Lorsque le pipeline s'exécute en mode Aperçu, aucune donnée n'est écrite dans la table BigQuery. Vous pouvez toutefois vérifier que les données sont lues correctement et qu'elles seront écrites comme prévu une fois le pipeline déployé. Le bouton "Aperçu" est un bouton bascule. Assurez-vous de cliquer à nouveau dessus pour quitter le mode Aperçu une fois que vous avez terminé.
Une fois l'exécution du pipeline terminée, pointez sur le nœud Wrangler et cliquez sur Propriétés, puis sur l'onglet Aperçu. Si tout s'est bien passé, vous devriez voir les données brutes issues de l'entrée (le nœud de gauche) et les enregistrements analysés qui seront émis en sortie (le nœud de droite). Cliquez sur X en haut à droite de la boîte de dialogue "Propriétés" pour la fermer.

Sortie du nœud Wrangler

Remarque : Chaque nœud qui traite des données doit afficher un résultat similaire. C'est un bon moyen de vérifier que vous êtes sur la bonne voie avant de déployer votre pipeline. Si vous rencontrez des erreurs, vous pouvez facilement les corriger en mode Brouillon.

Cliquez à nouveau sur l'icône Aperçu pour désactiver le mode Aperçu.
Si tout vous semble correct, vous pouvez déployer le pipeline. Cliquez sur l'icône Déployer en haut à droite pour déployer le pipeline.

Une boîte de dialogue de confirmation s'affiche pour indiquer que votre pipeline est en cours de déploiement :

Confirmation du déploiement du pipeline

Une fois votre pipeline déployé, vous êtes prêt à exécuter votre pipeline ETL et à charger des données dans BigQuery.
Cliquez sur l'icône Exécuter pour exécuter le job ETL.
Une fois l'opération terminée, l'état du pipeline doit passer à Réussi, ce qui indique que le pipeline s'est exécuté correctement.
À mesure que les données sont traitées par le pipeline, vous verrez des métriques émises par chaque nœud du pipeline indiquant le nombre d'enregistrements traités. L'opération d'analyse affiche 892 enregistrements, alors que la source en contenait 893. Que s'est-il passé ? L'opération d'analyse a utilisé la première ligne pour définir les en-têtes de colonne. Il restait donc 892 enregistrements à traiter.

Diagramme d'analyse CSV du pipeline

Cliquez sur Vérifier ma progression pour valider l'objectif. Déployer et exécuter un pipeline par lot

Tâche 7 : Afficher les résultats

Le pipeline écrit la sortie dans une table BigQuery. Vous pouvez le vérifier la table en procédant comme suit.

Dans un nouvel onglet, ouvrez l'interface BigQuery dans la console Cloud. Vous pouvez également effectuer un clic droit sur l'onglet de la console et sélectionner Dupliquer, puis utiliser le menu de navigation du nouvel onglet pour sélectionner BigQuery. Lorsque vous y êtes invité, cliquez sur OK.
Dans le volet de gauche, dans la section Explorateur classique, cliquez sur l'ID de votre projet (qui commence par qwiklabs).
Sous l'ensemble de données demo de votre projet, cliquez sur la table titanic, puis sur + (requête SQL). Exécutez ensuite une requête simple, telle que :

SELECT * FROM `demo.titanic` LIMIT 10

Résultats de la requête

Cliquez sur Vérifier ma progression pour valider l'objectif. Afficher les résultats

Félicitations !

Vous savez désormais utiliser les composants de base disponibles dans Pipeline Studio de Cloud Data Fusion pour créer un pipeline par lot. Vous avez également appris à utiliser Wrangler pour créer des étapes de transformation pour vos données.

Atelier suivant

Poursuivez avec Créer des transformations et préparer des données avec Wrangler dans Cloud Data Fusion.

Dernière mise à jour du manuel : 27 janvier 2026

Dernier test de l'atelier : 27 janvier 2026

Copyright 2026 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms de société et de produit peuvent être des marques des sociétés auxquelles ils sont associés.

Créer des pipelines par lots dans Cloud Data Fusion

GSP807

Présentation

Objectifs

Préparation

Se connecter à la console Google Cloud

Activer Cloud Shell

Exemples de commandes

Vérifier les autorisations du projet

Tâche 1 : Charger les données

Tâche 2 : Ajouter les autorisations nécessaires pour votre instance Cloud Data Fusion

Accorder l'autorisation Utilisateur du compte de service

Tâche 3 : Créer un pipeline par lot

Tâche 4 : Configurer le récepteur BigQuery

Tâche 5 : Configurer le pipeline

Tâche 6 : Tester le pipeline

Tâche 7 : Afficher les résultats

Félicitations !

Atelier suivant

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier