Instructions et exigences de configuration de l'atelier
Protégez votre compte et votre progression. Utilisez toujours une fenêtre de navigation privée et les identifiants de l'atelier pour exécuter cet atelier.

Interroger des données externes et des tables Iceberg

Atelier 30 minutes universal_currency_alt 5 crédits show_chart Débutant
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Ce contenu n'est pas encore optimisé pour les appareils mobiles.
Pour une expérience optimale, veuillez accéder à notre site sur un ordinateur de bureau en utilisant un lien envoyé par e-mail.

Présentation

Interroger des tables Iceberg dans Cloud Storage avec BigQuery Dans cet atelier, vous allez découvrir comment les tables BigLake de BigQuery permettent d'interroger des données dans des formats Open Source directement dans Cloud Storage. Vous apprendrez à créer une table BigLake qui pointe vers une table Iceberg existante, ce qui vous permettra d'analyser les données sans les déplacer ni les dupliquer. Cette fonctionnalité puissante vous permet de conserver une source de vérité unique dans un format ouvert tout en exploitant le moteur d'analyse hautes performances de BigQuery. Cette expérience pratique illustre une des pierres angulaires des data lakehouses modernes, dans lesquels vous pouvez unifier vos données, quel que soit leur format ou leur emplacement.

Vous commencerez par créer une connexion qui permettra à BigQuery d'accéder de façon sécurisée aux données dans Cloud Storage. Ensuite, vous définirez une table BigLake liée à un exemple de table Iceberg contenant des données brutes de journaux Web. Iceberg est un format de table ouvert conçu pour les ensembles de données analytiques volumineux. Il est souvent utilisé avec des moteurs de traitement comme Apache Spark.

Enfin, vous exécuterez une requête qui joint de manière transparente les données Iceberg dans Cloud Storage à une table BigQuery native contenant des informations sur les clients. En maîtrisant ces techniques, Cymbal E-commerce peut répondre à des questions essentielles qui couvrent différentes sources de données. Par exemple : "Quels produits sont le plus souvent consultés par nos clients à forte valeur juste avant leur achat ?"

Objectifs de l'atelier

  • Créer une table Iceberg à partir d'un fichier CSV dans Cloud Storage à l'aide de BigQuery et BigLake
  • Interroger la table Iceberg pour analyser des données stockées dans Cloud Storage
  • Joindre la table BigLake à une table BigQuery native pour combiner les ensembles de données
  • Créer une connexion de ressource cloud à Cloud Storage

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Conditions requises

Pour réaliser cet atelier, vous devez :

  • avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
  • disposer de suffisamment de temps pour effectuer l'atelier en une fois.
Remarque : Si vous possédez votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier. Remarque : Si vous utilisez un Pixelbook, veuillez exécuter cet atelier dans une fenêtre de navigation privée.

Se connecter à la console Google Cloud

  1. Dans l'onglet ou la fenêtre de navigateur que vous utilisez pour cet atelier, copiez les données de Username (Nom d'utilisateur) indiqué dans le panneau Connection Details (Détails de connexion), puis cliquez sur le bouton Open Google Console (Ouvrir la console Google).
Remarque : Si vous êtes invité à choisir un compte, cliquez sur Use another account (Utiliser un autre compte).
  1. Collez les données de Username (Nom d'utilisateur) et de Password (Mot de passe) lorsque vous y êtes invité :
  2. Cliquez sur Next (Suivant).
  3. Acceptez les conditions d'utilisation.

Comme il s'agit d'un compte temporaire auquel vous aurez accès uniquement pendant la durée de cet atelier :

  • n'ajoutez pas d'options de récupération ;
  • ne vous inscrivez pas à des essais sans frais.
  1. Une fois la console ouverte, affichez la liste des services en cliquant sur le menu de navigation (Icône du menu de navigation) en haut à gauche.

Menu de navigation

Vérifier ou activer les API requises

  1. Dans la console Google Cloud, saisissez API BigLake dans la barre de recherche en haut de l'écran.

  2. Dans les résultats, cliquez sur API BigLake sous "Marketplace".

  3. Si l'API n'est pas déjà activée, cliquez sur Activer.

Vérifier les autorisations IAM

  1. Dans le menu de navigation, sélectionnez IAM et administration, puis IAM dans le sous-menu qui s'affiche.

  2. Recherchez votre entrée, qui doit ressembler à student-xx-xxxxxxxxxxxx@qwiklabs.net.

  3. Vérifiez que vous disposez des rôles Administrateur de connexion BigQuery et Utilisateur de connexion BigQuery.

Tâche 1 : Créer une connexion à Cloud Storage

Dans cette tâche, vous allez créer une connexion à Cloud Storage que BigQuery utilisera pour lire les données d'un fichier CSV dans Cloud Storage en tant que table externe.

Créer la connexion

  1. Dans la console Google Cloud, accédez au menu de navigation (Menu de navigation), puis à BigQuery > Studio.

  2. Dans le volet en haut à gauche, cliquez sur Explorateur, puis sur + Ajouter des données.

  3. Pour Type de source de données, sélectionnez Stockage/Lacs de données.

  4. Pour Sources de données les plus populaires, cliquez sur la fiche Google Cloud Storage.

  5. Dans la sélection de fiches qui s'affiche sous Accéder aux données externes en place, cliquez sur Table externe ou BigLake.

  6. Sur l'écran Créer une table, utilisez les valeurs suivantes :

Propriété Valeur
Créer une table à partir de Google Cloud Storage
Sélectionner un fichier du bucket GCS ou utiliser un modèle d'URI cloud-training/OCBL462/cymbal_synthetic_weblog_data.csv
Format de fichier CSV
Partitionnement des données sources Ne cochez pas cette case
Projet {{{project_0.project_id | Project ID}}}
Ensemble de données Cliquez sur "Ensemble de données", puis dans "Ensembles de données chargés", sélectionnez
cymbal_lake
Table web_log
Type de table Table externe
Créer une table BigLake à l'aide d'une connexion de ressource cloud Cochez la case correspondante
Cliquez sur le menu déroulant ID de connexion et sélectionnez Créer une connexion à une ressource cloud
Type de connexion Modèles distants Vertex AI, fonctions à distance, BigLake et Spanner (ressource Cloud)
ID de connexion gcs-bucket-{{{project_0.project_id | Project ID}}}_eds
Type d'emplacement Région
Région {{{project_0.default_region | Region}}}
Nom descriptif Laissez le champ vide
Description Laissez le champ vide
Cliquez sur Créer une connexion
Schéma, détection automatique Cochez la case correspondante
  1. Conservez les autres valeurs par défaut, puis cliquez sur Créer une table.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer une connexion à Cloud Storage

Tâche 2 : Créer et charger la table Iceberg dans Cloud Storage avec BigQuery

Dans cette tâche, vous allez ingérer les données de la table externe que vous venez de créer et les charger au format Iceberg dans un bucket Cloud Storage.

  1. Dans la console Google Cloud, accédez au menu de navigation (Menu de navigation), puis à BigQuery > Studio.

  2. Si ce n'est pas déjà fait, cliquez sur Explorateur classique et développez votre projet. Il se présentera sous la forme qwiklabs-gcp-xx-xxxxxxxxxxxx.

  3. Développez l'entrée correspondant à cymbal_lake.

  4. Cliquez sur les trois points verticaux à droite de l'entrée correspondant à web_log. Sélectionnez Requête dans le menu pop-up.

  5. Fermez le panneau Référence en cliquant sur le bouton X en haut à droite.

  6. Remplacez la requête SQL par le code suivant :

    CREATE TABLE cymbal_lake.iceberg_web_log WITH CONNECTION `projects/{{{project_0.project_id | Project ID}}}/locations/{{{project_0.default_region | Region}}}/connections/gcs-bucket-{{{project_0.project_id | Project ID}}}_eds` OPTIONS ( table_format = 'ICEBERG', storage_uri = 'gs://gcs-bucket-{{{project_0.project_id | Project ID}}}') AS SELECT * FROM `cymbal_lake.web_log`;
  7. Cliquez sur le bouton Exécuter. Après le traitement, vous recevrez un message d'erreur. Ne le fermez pas, car vous aurez besoin de l'ID du compte de service BigQuery pour définir les autorisations appropriées. Le message d'erreur ressemblera à cet exemple :

Access Denied: BigQuery BigQuery: Permission denied while writing data. bqcx-542604010272-n24h@gcp-sa-bigquery-condel.iam.gserviceaccount.com does not have storage.objects.create access to the Google Cloud Storage object. Permission 'storage.objects.create' denied on resource (or it may not exist). Please make sure gs://gcs-bucket-qwiklabs-gcp-00-333263c4c0ba/data/46d259a5-5da4-4e66-afa8-ae849d1bef50-17da16d07142b039-f-00000-of-00001.parquet is accessible via appropriate IAM roles, e.g. Storage Object Viewer or Storage Object Creator
  1. Copiez l'ID utilisateur qui figure dans le message d'erreur. Il est au format bqcx-xxxxxxxxxxxx-xxxx@gcp-sa-bigquery-condel.iam.gserviceaccount.com.

  2. Dans la console Google Cloud, accédez au menu de navigation (Menu de navigation), puis à Cloud Storage > Buckets.

  3. Cliquez sur les trois points verticaux à droite de la ligne contenant votre bucket gcs-bucket-, puis sélectionnez Modifier l'accès.

  4. Dans la zone Contrôle des accès, cliquez sur le lien Passer aux autorisations uniformes.

  5. Dans le pop-up, sélectionnez Uniforme. Cliquez sur Enregistrer.

  6. Cliquez sur Ajouter un compte principal.

  7. Dans Nouveau compte principal, collez l'ID utilisateur que vous avez copié dans le message d'erreur BigQuery.

  8. Cliquez sur Sélectionner un rôle*.

  9. Dans la section Filtrer, saisissez Utilisateur d'objets Storage et sélectionnez Utilisateur d'objets Storage dans la liste de résultats, puis cliquez sur Enregistrer.

  10. Revenez dans BigQuery et réexécutez la requête de création de table en répétant l'étape 6 de la tâche 2.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer et charger la table Iceberg dans Cloud Storage avec BigQuery

Tâche 3 : Interroger la table Iceberg depuis BigQuery

Vous allez maintenant utiliser BigQuery pour accéder aux données de la table Iceberg que vous venez de créer dans Cloud Storage.

  1. Dans la console Google Cloud, accédez au menu de navigation (Menu de navigation), puis à BigQuery > Studio.

  2. Si ce n'est pas déjà fait, développez l'entrée de votre projet dans l'Explorateur classique. Il se présentera sous la forme qwiklabs-gcp-xx-xxxxxxxxxxxx.

  3. Développez l'entrée correspondant à cymbal_lake.

  4. Cliquez sur les trois points verticaux à droite de l'entrée correspondant à iceberg_web_log. Sélectionnez Requête dans le menu pop-up.

  5. Fermez le panneau Référence en cliquant sur le bouton X en haut à droite.

  6. Remplacez la requête SQL par le code suivant :

    SELECT * FROM cymbal_lake.iceberg_web_log LIMIT 1000;
  7. Cliquez sur le bouton Exécuter. Les données renvoyées proviennent de votre table Iceberg dans Cloud Storage.

  8. Remplacez la requête SQL par le code suivant :

    SELECT * FROM cymbal_lake.iceberg_web_log AS WL INNER JOIN customers.customer_details AS CD ON WL.customer_id = CD.id LIMIT 1000;
  9. Cliquez sur le bouton Exécuter. Les données renvoyées proviennent de votre table Iceberg dans Cloud Storage, jointe aux données client dans une table BigQuery native.

Cliquez sur Vérifier ma progression pour valider l'objectif. Interroger la table Iceberg depuis BigQuery

Félicitations !

Vous avez configuré une table externe dans BigQuery pour accéder aux données d'un fichier CSV dans Cloud Storage. Vous avez ensuite créé une table Iceberg dans Cloud Storage et vous y avez ajouté les données du fichier CSV à l'aide de BigQuery. Enfin, vous avez exécuté une requête combinant les données de la table Iceberg avec celles d'une table BigQuery native. Cet exemple est simple, mais il illustre la puissance et la flexibilité que le lakehouse BigQuery et BigLake de Cymbal offre pour transformer les données en un outil métier performant.

Avant de commencer

  1. Les ateliers créent un projet Google Cloud et des ressources pour une durée déterminée.
  2. Les ateliers doivent être effectués dans le délai imparti et ne peuvent pas être mis en pause. Si vous quittez l'atelier, vous devrez le recommencer depuis le début.
  3. En haut à gauche de l'écran, cliquez sur Démarrer l'atelier pour commencer.

Utilisez la navigation privée

  1. Copiez le nom d'utilisateur et le mot de passe fournis pour l'atelier
  2. Cliquez sur Ouvrir la console en navigation privée

Connectez-vous à la console

  1. Connectez-vous à l'aide des identifiants qui vous ont été attribués pour l'atelier. L'utilisation d'autres identifiants peut entraîner des erreurs ou des frais.
  2. Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
  3. Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer, car cela effacera votre travail et supprimera le projet.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible

Un atelier à la fois

Confirmez pour mettre fin à tous les ateliers existants et démarrer celui-ci

Utilisez la navigation privée pour effectuer l'atelier

Le meilleur moyen d'exécuter cet atelier consiste à utiliser une fenêtre de navigation privée. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.