GSP522

Présentation
Dans un atelier challenge, vous devez suivre un scénario et effectuer une série de tâches. Aucune instruction détaillée n'est fournie : vous devez utiliser les compétences acquises au cours des ateliers du cours correspondant pour déterminer comment procéder par vous-même. Vous saurez si vous avez exécuté correctement les différentes tâches grâce au score calculé automatiquement (affiché sur cette page).
Lorsque vous participez à un atelier challenge, vous n'étudiez pas de nouveaux concepts Google Cloud. Vous allez approfondir les compétences précédemment acquises. Par exemple, vous devrez modifier les valeurs par défaut ou encore examiner des messages d'erreur pour corriger vous-même les problèmes.
Pour atteindre le score de 100 %, vous devez mener à bien l'ensemble des tâches dans le délai imparti.
Cet atelier est recommandé aux participants inscrits au cours Détecter et protéger les données sensibles de votre écosystème. Êtes-vous prêt pour le challenge ?
Scénario du challenge
Vous êtes ingénieur de données chez Cymbal Cars et vous avez pour mission d'identifier et de protéger les données sensibles de vos clients (propriétaires de voitures) dans l'écosystème de données de votre entreprise.
Vos collègues ont déjà commencé à identifier et à masquer les données sensibles dans les fichiers Cloud Storage et les tables BigQuery de votre entreprise (en particulier les numéros de sécurité sociale américains) ainsi que dans les réponses des modèles d'IA générative utilisés en interne.
Pour vous assurer que vos fichiers Cloud Storage et vos ressources BigQuery continuent d'être analysés et protégés régulièrement, vous devez configurer la découverte Sensitive Data Protection et exécuter des tâches pour identifier et masquer d'autres données sensibles, comme les numéros de carte de crédit.
Pour les modèles d’IA générative de votre entreprise, vous souhaitez aller plus loin que le travail effectué par vos collègues et masquer les réponses lorsqu’elles contiennent des identifiants ou des informations d’authentification.
Dans ce défi, vous allez mettre en pratique vos connaissances des outils Sensitive Data Protection pour implémenter la découverte et la protection des données dans Cloud Storage et BigQuery. Vous allez également utiliser le client Python pour l'API Cloud Data Loss Prevention (DLP) afin d'identifier et de masquer les réponses des modèles d'IA générative qui contiennent des identifiants.
Compétences évaluées
- Créer et planifier des configurations d'analyse de découverte pour Cloud Storage
- Créer des modèles d'anonymisation et exécuter des tâches d'anonymisation sur des fichiers Cloud Storage
- Créer des tags IAM pour les données sensibles et les appliquer aux données BigQuery afin de permettre un accès conditionnel
- Écrire des fonctions Python pour masquer et bloquer les réponses des modèles d'IA générative contenant des données sensibles identifiées par l'API Cloud Data Loss Prevention (DLP)
Préparation
Tout au long de l'atelier, utilisez les informations suivantes pour cet environnement :
- Connectez-vous à la console Google Cloud avec le nom d'utilisateur 1 ().
- Pour ID du projet, utilisez :
- Pour Emplacement, utilisez : (sauf indication contraire).
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- Vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome).
Remarque : Ouvrez une fenêtre de navigateur en mode incognito (recommandé) ou de navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
- Vous disposez d'un temps limité. N'oubliez pas qu'une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Utilisez uniquement le compte de participant pour cet atelier. Si vous utilisez un autre compte Google Cloud, des frais peuvent être facturés à ce compte.
Tâche 1 : Activer la protection des données sensibles pour Cloud Storage
Votre équipe dispose d'un bucket Cloud Storage nommé gs://-car-owners qui contient des fichiers relatifs aux interactions avec les propriétaires de voitures. La plupart de ces fichiers ont déjà été traités par vos collègues pour masquer les données sensibles, mais de nouveaux fichiers CSV (.csv) ont été ajoutés au bucket et contiennent des numéros de carte de crédit (par exemple, sample-chat-log-data-10.csv).
Votre objectif est d'identifier et de masquer les numéros de carte de crédit dans les nouveaux fichiers CSV, et d'activer la détection quotidienne pour le bucket afin de surveiller l'apparition de nouvelles données sensibles.
Pour atteindre ces objectifs, effectuez les sous-tâches suivantes.
Développez les astuces ci-dessous pour obtenir des conseils utiles pour bien démarrer.
Créer et planifier une configuration d'analyse de découverte quotidienne pour Cloud Storage
Conseil pour l'analyse de découverte :
| Propriété |
Valeur |
| Sélectionner un niveau d'accès |
Analyser le projet sélectionné |
| Planifications gérées |
Modifier Planification par défaut pour spécifier Reprofilage quotidien pour Selon une planification et Lors des modifications du modèle d’inspection
|
| Sélectionner un modèle d'inspection |
Créer un modèle d'inspection |
| Enregistrer des copies des profils de données dans BigQuery |
Définir ID de l'ensemble de données sur cs_discovery et ID de la table sur cs_data_profiles dans le projet actuel |
| Définir l'emplacement de stockage de la configuration |
Multirégional > États-Unis (plusieurs régions aux États-Unis)
|
| Nom à afficher pour la configuration |
Découverte quotidienne Cloud Storage |
Créer un modèle d'anonymisation pour masquer les numéros de carte de crédit dans des données structurées (par exemple, des fichiers CSV)
Conseil pour le modèle d'anonymisation :
| Propriété |
Valeur |
| ID du modèle |
us_ccn_deidentify |
| Type de transformation de données |
Enregistrer |
| Nom à afficher |
Anonymiser les numéros de carte de crédit |
| Type d'emplacement |
Multirégional > mondial
|
| Champ de la règle de transformation |
message |
| Type de transformation |
Correspondance par infoType |
| Méthode de transformation |
Remplacer par un nom d'infoType |
Utiliser le modèle d'anonymisation pour exécuter une tâche d'anonymisation sur les fichiers CSV du bucket Cloud Storage
Conseil pour la tâche d'anonymisation :
| Propriété |
Valeur |
| ID de la tâche |
us_ccn_deidentify |
| Type d'emplacement |
Multirégional > États-Unis (plusieurs régions aux États-Unis)
|
| URL |
gs://-car-owners/ |
| Analyse récurrente |
Activer cette option |
| Échantillonnage |
100 % |
| Méthode d'échantillonnage |
Aucun échantillonnage |
| Modèle d'anonymisation de données structurées |
Indiquer le chemin d'accès au modèle d'anonymisation créé à l'étape 2 |
| Exporter les détails de la transformation vers BigQuery |
Définir ID de l'ensemble de données sur cs_transformations et ID de la table sur deidentify_ccn dans le projet actuel |
| Emplacement de sortie Cloud Storage |
gs://-car-owners-transformed |
Cliquez sur Vérifier ma progression pour valider l'objectif.
Activer Sensitive Data Protection pour Cloud Storage
Tâche 2 : Activer Sensitive Data Protection pour BigQuery
Les données sur les propriétaires de voitures et leurs achats sont également stockées dans BigQuery à des fins d'analyse, et certains ensembles de données contiennent des informations sensibles. Vous avez pour mission de créer un tag IAM pour les informations personnelles sensibles afin d'accorder un accès conditionnel à certains utilisateurs, , qui ne pourront accéder qu’aux ensembles de données BigQuery ne contenant pas d'informations personnelles sensibles.
Pour atteindre cet objectif, effectuez les sous-tâches suivantes.
Développez les astuces ci-dessous pour obtenir des conseils utiles pour bien démarrer.
Créer un tag dans IAM pour les informations personnelles sensibles
Conseil pour créer le tag :
| Propriété |
Valeur |
| Clé de tag |
informations personnelles sensibles |
| Description de la clé de tag |
Signaler des informations personnelles sensibles |
| Tag clé-valeur 1 |
Oui |
| Description du tag clé-valeur 1 |
Contient des informations personnelles sensibles |
| Tag clé-valeur 2 |
Non |
| Description du tag clé-valeur 2 |
Ne contient pas d'informations personnelles sensibles |
Accorder au nom d'utilisateur 2 un accès conditionnel aux ensembles de données BigQuery qui comportent un tag indiquant qu'ils ne contiennent pas d'informations personnelles identifiables uniquement
Conseil pour accorder un accès conditionnel :
- Mettez à jour les paramètres IAM pour le nom d'utilisateur 2 () afin d'ajouter une condition (accès uniquement aux ensembles de données BigQuery avec le tag Non pour Informations personnelles sensibles).
| Propriété |
Valeur |
| Rôles IAM pour le nom d'utilisateur 2 |
Remplacez Lecteur par Navigateur et conservez Lecteur de données BigQuery pour ajouter une condition. |
| Titre de condition |
Accès uniquement aux données sans informations personnelles sensibles |
| Type de condition 1 et opérateur |
Sélectionnez tag et a une valeur
|
| Chemin de valeur pour le type de condition 1 |
/Informations personnelles sensibles/Non |
- Ajoutez le tag Informations personnelles sensibles avec la valeur Non à l'ensemble de données BigQuery commandes.
Contrairement à l'ensemble de données car_owners, l'ensemble de données commandes ne contient pas d'informations personnelles sensibles, mais uniquement des informations sur les commandes.
Test facultatif : Si vous souhaitez voir cet accès conditionnel en action, connectez-vous au projet avec le nom d'utilisateur 2 et accédez à BigQuery. Actualisez la page jusqu'à ce que l'ensemble de données commandes soit le seul visible dans la liste de l'explorateur, car le nom d'utilisateur 2 n'a désormais accès qu'aux ensembles de données avec le tag Non pour Informations personnelles sensibles.
Notez que l'application de la condition peut prendre quelques minutes.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Activer Sensitive Data Protection pour BigQuery
Tâche 3 : Protéger les données sensibles dans les réponses des modèles d'IA générative
Votre équipe dispose déjà d'une fonction Python qui identifie et masque ou bloque les types de données sensibles dans les réponses du modèle d'IA générative. On vous a demandé d'étendre la fonction pour bloquer les réponses des modèles d'IA générative qui contiennent des numéros d'identification de véhicules (VIN) américains, des données sensibles constituées d’un code unique de 17 chiffres attribué à chaque véhicule à moteur autorisé à circuler en Amérique du Nord.
Pour atteindre cet objectif, vous allez effectuer les sous-tâches suivantes à l'aide du notebook fourni dans l'environnement de cet atelier :
- Mettez à jour une fonction Python existante pour bloquer les réponses du modèle lorsqu'un VIN américain est présent.
- Générez un exemple de texte avec la requête suivante pour tester votre fonction mise à jour :
La valeur 4Y1SL65848Z411439 est-elle un exemple de VIN américain ?
- Lorsque vous générez la réponse, réglez la température sur 0 afin que les résultats les plus probables soient renvoyés pour le suivi de progression ci-dessous.
Veillez à utiliser le notebook pré-créé nommé deidentify-model-response-challenge-lab.ipynb dans l'instance Workbench vertex-ai-jupyterlab.
- Pour ID du projet, utilisez :
- Pour Emplacement, utilisez :
Remarque : Si vous ne voyez pas de notebooks dans JupyterLab, suivez la procédure ci-dessous pour réinitialiser l'instance.
1. Fermez l'onglet du navigateur pour JupyterLab, puis revenez à la page d'accueil de Workbench.
2. Cochez la case à côté du nom de l'instance, puis cliquez sur Réinitialiser.
3. Une fois que le bouton Ouvrir JupyterLab est à nouveau activé, patientez une minute, puis cliquez dessus.
Conseil pour mettre à jour et tester la fonction Python :
Conseil pour définir la température sur 0 :
Cliquez sur Vérifier ma progression pour valider l'objectif.
Protéger les données sensibles dans les réponses des modèles d'IA générative.
Félicitations !
Dans cet atelier, vous avez créé et planifié une configuration d'analyse de découverte pour Cloud Storage. Vous avez ensuite créé un modèle d'anonymisation et l'avez utilisé pour exécuter une tâche d'anonymisation sur des fichiers Cloud Storage. Vous avez également créé des tags IAM et les avez appliqués aux données BigQuery pour accorder un accès conditionnel. Enfin, vous avez mis à jour une fonction Python pour masquer et bloquer les réponses du modèle d'IA générative contenant des données sensibles identifiées par l'API Cloud Data Loss Prevention (DLP).

Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 30 octobre 2025
Dernier test de l'atelier : 30 octobre 2025
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.