Instructions et exigences de configuration de l'atelier

Protégez votre compte et votre progression. Utilisez toujours une fenêtre de navigation privée et les identifiants de l'atelier pour exécuter cet atelier.

Premiers pas avec Cloud Data Fusion

Atelier 1 heure 30 minutes universal_currency_alt 5 crédits show_chart Débutant

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

Présentation
Configuration
Tâche 1 : Activer l'API Cloud Data Fusion
Tâche 2 : Créer une instance Cloud Data Fusion
Tâche 3 : Parcourir l'UI de Cloud Data Fusion
Tâche 4 : Déployer un exemple de pipeline
Tâche 5 : Afficher votre pipeline
Tâche 6 : Exécuter votre pipeline
Tâche 7 : Afficher les résultats
Félicitations !
Terminer l'atelier

Ce contenu n'est pas encore optimisé pour les appareils mobiles.

Pour une expérience optimale, veuillez accéder à notre site sur un ordinateur de bureau en utilisant un lien envoyé par e-mail.

Logo des ateliers d'auto-formation Google Cloud

Présentation

Dans cet atelier, vous allez apprendre à créer une instance Data Fusion et à déployer un exemple de pipeline qui vous est fourni. Le pipeline lit un fichier JSON dans Cloud Storage contenant les données sur les best-sellers du NYT. Le pipeline exécute ensuite des transformations sur le fichier pour analyser et nettoyer les données. Enfin, il charge un sous-ensemble des enregistrements dans BigQuery.

Objectifs

Dans cet atelier, vous allez apprendre à effectuer les tâches suivantes :

Créer une instance Data Fusion
Déployer un exemple de pipeline qui exécute des transformations sur un fichier JSON et filtre les résultats correspondants dans BigQuery

Configuration

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

Connectez-vous à Google Skills dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à la console Google Cloud.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Se connecter à la console Google Cloud

Dans l'onglet ou la fenêtre de navigateur que vous utilisez pour cet atelier, copiez les données de Username (Nom d'utilisateur) indiqué dans le panneau Connection Details (Détails de connexion), puis cliquez sur le bouton Open Google Console (Ouvrir la console Google).

Remarque : Si vous êtes invité à choisir un compte, cliquez sur Use another account (Utiliser un autre compte).

Collez les données de Username (Nom d'utilisateur) et de Password (Mot de passe) lorsque vous y êtes invité :
Cliquez sur Next (Suivant).
Acceptez les conditions d'utilisation.

Comme il s'agit d'un compte temporaire auquel vous aurez accès uniquement pendant la durée de cet atelier :

n'ajoutez pas d'options de récupération ;
ne vous inscrivez pas à des essais sans frais.

Une fois la console ouverte, affichez la liste des services en cliquant sur le menu de navigation () en haut à gauche.

Menu de navigation

Activer Cloud Shell

Cloud Shell est une machine virtuelle qui contient des outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Google Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud. gcloud est l'outil de ligne de commande associé à Google Cloud. Il est préinstallé sur Cloud Shell et permet la saisie semi-automatique via la touche Tabulation.

Dans Google Cloud Console, dans le volet de navigation, cliquez sur Activer Cloud Shell ().
Cliquez sur Continuer.
Le provisionnement et la connexion à l'environnement prennent quelques instants. Une fois connecté, vous êtes en principe authentifié, et le projet est défini sur votre ID_PROJET. Exemple :

Terminal Cloud Shell

Exemples de commandes

Afficher le nom du compte actif :

gcloud auth list

(Résultat)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(Exemple de résultat)

Credentialed accounts: - google1623327_student@qwiklabs.net

Afficher l'ID du projet :

gcloud config list project

(Résultat)

[core] project = <ID_Projet>

(Exemple de résultat)

[core] project = qwiklabs-gcp-44776a13dea667a6

Pour en savoir plus sur gcloud, consultez la présentation de l'outil de ligne de commande gcloud.

Vérifier les autorisations du projet

Avant de commencer à travailler dans Google Cloud, vous devez vous assurer de disposer des autorisations adéquates pour votre projet dans IAM (Identity and Access Management).

Dans la console Google Cloud, accédez au menu de navigation (), puis cliquez sur IAM et administration > IAM.
Vérifiez que le compte de service Compute par défaut {project-number}-compute@developer.gserviceaccount.com existe et qu'il est associé au rôle Éditeur. Le préfixe du compte correspond au numéro du projet, disponible sur cette page : Menu de navigation > Présentation Cloud.

Compte de service Compute par défaut

Si le compte n'est pas disponible dans IAM ou n'est pas associé au rôle Éditeur, procédez comme suit pour lui attribuer le rôle approprié.

Dans la console Google Cloud, accédez au menu de navigation et cliquez sur Présentation Cloud.
Sur la carte Informations sur le projet, copiez le numéro du projet.
Dans le menu de navigation, cliquez sur IAM et administration > IAM.
En haut de la page IAM, cliquez sur Ajouter.
Dans le champ Nouveaux comptes principaux, saisissez :

{project-number}-compute@developer.gserviceaccount.com

Remplacez {project-number} par le numéro de votre projet.

Dans le champ Sélectionnez un rôle, sélectionnez De base (ou Projet) > Éditeur.
Cliquez sur Enregistrer.

Tâche 1 : Activer l'API Cloud Data Fusion

Dans la console Cloud, accédez au menu de navigation (), puis sélectionnez API et services > Bibliothèque.
Dans le champ de recherche, saisissez Data Fusion pour trouver l'API Cloud Data Fusion, puis cliquez sur le lien hypertexte.
L'API est déjà activée. Cliquez sur Gérer, puis sur Désactiver l'API. Confirmez l'opération en cliquant sur Désactiver.
Une fois l'API désactivée, cliquez sur Activer pour la réactiver.

Tâche 2 : Créer une instance Cloud Data Fusion

Dans la console Google Cloud, accédez au menu de navigation (), puis cliquez sur Afficher tous les produits. Sous Analytics, cliquez sur Data Fusion.
Pour créer une instance Cloud Data Fusion, cliquez sur le lien Créer une instance en haut de la section.
Sur la page Créer une instance Data Fusion qui s'affiche :

a. Saisissez le nom de votre instance (par exemple, cdf-lab-instance).

b. Pour la région, sélectionnez us-central1.

c. Sous Édition, sélectionnez De base.

d. Dans la section Autorisation, cliquez sur Accorder l'autorisation si nécessaire.

e. Cliquez sur la flèche déroulante à côté d'Options avancées. Sous Surveillance et journalisation avancées, cochez la case Dataproc Cloud Logging.

f. Sans modifier les autres champs, cliquez sur Créer.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer une instance Cloud Data Fusion

Remarque : La création de l'instance prend environ 10 minutes. Pendant ce temps, regardez cette présentation de Cloud Data Fusion enregistrée lors de la conférence Next 2019 (à partir du code temporel 15:31). Vérifiez de temps à autre l'état de votre instance. Vous pourrez terminer de regarder la vidéo une fois l'atelier terminé.

Remarque : N'oubliez pas que cet atelier est limité dans le temps et que vous perdrez votre travail une fois le délai écoulé.

Vous allez à présent accorder des autorisations au compte de service associé à l'instance en suivant les étapes ci-dessous.

Cliquez sur le nom de l'instance. Sur la page "Détails de l'instance", copiez la valeur du champ Compte de service Dataproc dans votre presse-papiers.

Compte de service mis en évidence sur la page "Détails de l'instance"

Dans la console Cloud, accédez au menu de navigation (), puis sélectionnez IAM et administration > IAM.
Sur la page des autorisations IAM, cliquez sur +Accorder l'accès.
Collez la valeur du champ Compte de service Dataproc dans le champ "Nouveaux principaux".
Cliquez dans le champ "Sélectionner un rôle" et commencez à saisir Agent de service de l'API Cloud Data Fusion, puis sélectionnez ce rôle lorsqu'il apparaît.
Cliquez sur Enregistrer.

Cliquez sur Vérifier ma progression pour valider l'objectif. Ajouter le rôle Agent de service de l'API Cloud Data Fusion au compte de service

Tâche 3 : Parcourir l'UI de Cloud Data Fusion

Lorsque vous utilisez Cloud Data Fusion, vous utilisez à la fois la console Cloud et l'UI distincte de Cloud Data Fusion.

Dans la console Cloud, vous pouvez créer et supprimer des instances Cloud Data Fusion, et afficher les détails des instances Cloud Data Fusion.
Dans l'UI Web de Cloud Data Fusion, vous pouvez accéder à plusieurs pages, telles que Pipeline Studio ou encore Wrangler, qui permettent d'utiliser les différentes fonctionnalités de Cloud Data Fusion.

Pour ouvrir l'UI de Cloud Data Fusion, procédez comme suit :

Dans la console Google Cloud, accédez au menu de navigation (), puis cliquez sur Afficher tous les produits. Sous Analytics, cliquez sur Data Fusion.
Cliquez sur le lien Afficher l'instance à côté de votre instance Data Fusion. Utilisez les identifiants qui vous ont été attribués pour cet atelier afin de vous connecter et, si nécessaire, cochez la case à côté de Gérer vos données Google Service Control. Cliquez sur Continuer.

Lien "Afficher l'instance" mis en évidence

Si vous êtes invité à découvrir le service, cliquez sur Annuler. L'UI de Cloud Data Fusion s'ouvre.
Notez que l'UI Web de Cloud Data Fusion est dotée de son propre panneau de navigation (à gauche) qui permet d'accéder à la page souhaitée.

Tâche 4 : Déployer un exemple de pipeline

Des exemples de pipelines sont disponibles dans le hub Cloud Data Fusion, qui vous permet de partager des pipelines, des plug-ins et des solutions Cloud Data Fusion réutilisables.

Dans l'UI Web de Cloud Data Fusion, cliquez sur HUB en haut à droite.

Lien HUB mis en évidence

Dans le panneau de gauche, cliquez sur Pipelines.
Cliquez sur le pipeline Cloud Data Fusion Quickstart (Guide de démarrage rapide de Cloud Data Fusion), puis sur Create (Créer) dans le pop-up qui s'affiche.

Vignette "Cloud Data Fusion Quickstart" (Guide de démarrage rapide de Cloud Data Fusion) mise en évidence sur la page "Pipelines"

Dans le panneau de configuration du pipeline "Cloud Data Fusion Quickstart" (Guide de démarrage rapide de Cloud Data Fusion), cliquez sur Finish (Terminer).
Cliquez sur Customize Pipeline (Personnaliser le pipeline). Une représentation visuelle de votre pipeline s'affiche dans Pipeline Studio. Il s'agit d'une interface graphique permettant de développer des pipelines d'intégration de données. Les plug-ins de pipeline disponibles sont listés sur la gauche, et votre pipeline est affiché dans la zone principale du canevas. Vous pouvez l'explorer en maintenant le pointeur sur chaque nœud de pipeline et en cliquant sur le bouton Properties (Propriétés) qui s'affiche. Le menu "Properties" (Propriétés) de chaque nœud vous permet d'afficher les objets et les opérations associés au nœud.

Remarque : Dans un pipeline, un nœud est un objet connecté en séquence pour produire un graphe orienté acyclique. Ex. : source, récepteur, transformation, action, etc.

Représentation visuelle du pipeline affichée dans Pipeline Studio

Dans le menu situé en haut à droite, cliquez sur Deploy (Déployer). Le pipeline est alors envoyé à Cloud Data Fusion. Vous l'exécuterez dans la section suivante.

Icône Deploy (Déployer)

Tâche 5 : Afficher votre pipeline

Le pipeline déployé apparaît dans la vue détaillée du pipeline, où vous pouvez effectuer les opérations suivantes :

Afficher la structure et la configuration du pipeline
Exécuter le pipeline manuellement, ou configurer un calendrier ou un déclencheur
Afficher un résumé des exécutions historiques du pipeline, y compris les temps d'exécution, les journaux et les métriques

Vue détaillée du pipeline

Tâche 6 : Exécuter votre pipeline

Dans la vue détaillée du pipeline, cliquez sur Run (Exécuter) en haut au centre pour exécuter le pipeline.

Remarque : Lors de l'exécution d'un pipeline, Cloud Data Fusion provisionne un cluster Dataproc éphémère, exécute le pipeline sur le cluster à l'aide d'Apache Hadoop MapReduce ou d'Apache Spark, puis supprime le cluster. Lorsque le pipeline passe à l'état "Running" (En cours d'exécution), vous pouvez surveiller la création et la suppression du cluster Dataproc. Ce cluster n'existe que pendant la durée du pipeline.

Remarque : Si l'état du pipeline est "Failed" (Échec), réexécutez-le.

Au bout de quelques minutes, le pipeline se termine. Le pipeline passe à l'état Succeeded (Succès) et le nombre d'enregistrements traités par chaque nœud s'affiche.

Pipeline terminé avec l'état "Succeeded" (Succès) et le nombre d'enregistrements traités par chaque nœud

Cliquez sur Vérifier ma progression pour valider l'objectif. Déployer et exécuter un exemple de pipeline

Tâche 7 : Afficher les résultats

Le pipeline écrit la sortie dans une table BigQuery. Vous pouvez le vérifier en procédant comme suit.

Cliquez sur ce lien pour ouvrir l'UI BigQuery dans la console Cloud. Vous pouvez également effectuer un clic droit sur l'onglet de la console et sélectionner Dupliquer, puis utiliser le menu de navigation () pour sélectionner BigQuery.
Dans le volet Explorateur classique, cliquez sur l'ID de votre projet (qui commence par qwiklabs).
Sous l'ensemble de données GCPQuickstart de votre projet, cliquez sur la table top_rated_inexpensive.
Cliquez sur + Requête SQL, collez la requête ci-dessous, puis cliquez sur Exécuter.

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10

Attendez la fin de l'exécution de la requête. Une fenêtre de résultats similaire s'affiche.

Résultats de la requête

Cliquez sur Vérifier ma progression pour valider l'objectif. Afficher les résultats

Félicitations !

Dans cet atelier, vous avez appris à créer une instance Data Fusion et à déployer un exemple de pipeline qui lit un fichier d'entrée depuis Cloud Storage, transforme et filtre les données pour générer un sous-ensemble de données dans BigQuery.

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Skills supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.

Voici à quoi correspond le nombre d'étoiles que vous pouvez attribuer à un atelier :

1 étoile = très insatisfait(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.

Dernière mise à jour du manuel : 17 décembre 2025

Dernier test de l'atelier : 17 décembre 2025

Copyright 2026 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms de société et de produit peuvent être des marques des sociétés auxquelles ils sont associés.

Premiers pas avec Cloud Data Fusion

Présentation

Objectifs

Configuration

Se connecter à la console Google Cloud

Activer Cloud Shell

Exemples de commandes

Vérifier les autorisations du projet

Tâche 1 : Activer l'API Cloud Data Fusion

Tâche 2 : Créer une instance Cloud Data Fusion

Tâche 3 : Parcourir l'UI de Cloud Data Fusion

Tâche 4 : Déployer un exemple de pipeline

Tâche 5 : Afficher votre pipeline

Tâche 6 : Exécuter votre pipeline

Tâche 7 : Afficher les résultats

Félicitations !

Terminer l'atelier

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier