Instructions et exigences de configuration de l'atelier

Protégez votre compte et votre progression. Utilisez toujours une fenêtre de navigation privée et les identifiants de l'atelier pour exécuter cet atelier.

Interroger des données externes et des tables Iceberg

Atelier 30 minutes universal_currency_alt 5 crédits show_chart Débutant

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

Présentation
Préparation
Tâche 1 : Créer une connexion à Cloud Storage
Tâche 2 : Créer et charger la table Iceberg dans Cloud Storage avec BigQuery
Tâche 3 : Interroger la table Iceberg depuis BigQuery
Félicitations !

Ce contenu n'est pas encore optimisé pour les appareils mobiles.

Pour une expérience optimale, veuillez accéder à notre site sur un ordinateur de bureau en utilisant un lien envoyé par e-mail.

Présentation

Interroger des tables Iceberg dans Cloud Storage avec BigQuery Dans cet atelier, vous allez découvrir comment les tables BigLake de BigQuery permettent d'interroger des données dans des formats Open Source directement dans Cloud Storage. Vous apprendrez à créer une table BigLake qui pointe vers une table Iceberg existante, ce qui vous permettra d'analyser les données sans les déplacer ni les dupliquer. Cette fonctionnalité puissante vous permet de conserver une source de vérité unique dans un format ouvert tout en exploitant le moteur d'analyse hautes performances de BigQuery. Cette expérience pratique illustre une des pierres angulaires des data lakehouses modernes, dans lesquels vous pouvez unifier vos données, quel que soit leur format ou leur emplacement.

Vous commencerez par créer une connexion qui permettra à BigQuery d'accéder de façon sécurisée aux données dans Cloud Storage. Ensuite, vous définirez une table BigLake liée à un exemple de table Iceberg contenant des données brutes de journaux Web. Iceberg est un format de table ouvert conçu pour les ensembles de données analytiques volumineux. Il est souvent utilisé avec des moteurs de traitement comme Apache Spark.

Enfin, vous exécuterez une requête qui joint de manière transparente les données Iceberg dans Cloud Storage à une table BigQuery native contenant des informations sur les clients. En maîtrisant ces techniques, Cymbal E-commerce peut répondre à des questions essentielles qui couvrent différentes sources de données. Par exemple : "Quels produits sont le plus souvent consultés par nos clients à forte valeur juste avant leur achat ?"

Objectifs de l'atelier

Créer une table Iceberg à partir d'un fichier CSV dans Cloud Storage à l'aide de BigQuery et BigLake
Interroger la table Iceberg pour analyser des données stockées dans Cloud Storage
Joindre la table BigLake à une table BigQuery native pour combiner les ensembles de données
Créer une connexion de ressource cloud à Cloud Storage

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Conditions requises

Pour réaliser cet atelier, vous devez :

avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
disposer de suffisamment de temps pour effectuer l'atelier en une fois.

Remarque : Si vous possédez votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier.

Remarque : Si vous utilisez un Pixelbook, veuillez exécuter cet atelier dans une fenêtre de navigation privée.

Se connecter à la console Google Cloud

Dans l'onglet ou la fenêtre de navigateur que vous utilisez pour cet atelier, copiez les données de Username (Nom d'utilisateur) indiqué dans le panneau Connection Details (Détails de connexion), puis cliquez sur le bouton Open Google Console (Ouvrir la console Google).

Remarque : Si vous êtes invité à choisir un compte, cliquez sur Use another account (Utiliser un autre compte).

Collez les données de Username (Nom d'utilisateur) et de Password (Mot de passe) lorsque vous y êtes invité :
Cliquez sur Next (Suivant).
Acceptez les conditions d'utilisation.

Comme il s'agit d'un compte temporaire auquel vous aurez accès uniquement pendant la durée de cet atelier :

n'ajoutez pas d'options de récupération ;
ne vous inscrivez pas à des essais sans frais.

Une fois la console ouverte, affichez la liste des services en cliquant sur le menu de navigation () en haut à gauche.

Menu de navigation

Vérifier ou activer les API requises

Dans la console Google Cloud, saisissez API BigLake dans la barre de recherche en haut de l'écran.
Dans les résultats, cliquez sur API BigLake sous "Marketplace".
Si l'API n'est pas déjà activée, cliquez sur Activer.

Vérifier les autorisations IAM

Dans le menu de navigation, sélectionnez IAM et administration, puis IAM dans le sous-menu qui s'affiche.
Recherchez votre entrée, qui doit ressembler à student-xx-xxxxxxxxxxxx@qwiklabs.net.
Vérifiez que vous disposez des rôles Administrateur de connexion BigQuery et Utilisateur de connexion BigQuery.

Tâche 1 : Créer une connexion à Cloud Storage

Dans cette tâche, vous allez créer une connexion à Cloud Storage que BigQuery utilisera pour lire les données d'un fichier CSV dans Cloud Storage en tant que table externe.

Créer la connexion

Dans la console Google Cloud, accédez au menu de navigation (), puis à BigQuery > Studio.
Dans le volet en haut à gauche, cliquez sur Explorateur, puis sur + Ajouter des données.
Pour Type de source de données, sélectionnez Stockage/Lacs de données.
Pour Sources de données les plus populaires, cliquez sur la fiche Google Cloud Storage.
Dans la sélection de fiches qui s'affiche sous Accéder aux données externes en place, cliquez sur Table externe ou BigLake.
Sur l'écran Créer une table, utilisez les valeurs suivantes :

Propriété

Valeur

Créer une table à partir de

Google Cloud Storage

Sélectionner un fichier du bucket GCS ou utiliser un modèle d'URI

cloud-training/OCBL462/cymbal_synthetic_weblog_data.csv

Format de fichier

CSV

Partitionnement des données sources

Ne cochez pas cette case

Projet

{{{project_0.project_id | Project ID}}}

Ensemble de données

Cliquez sur "Ensemble de données", puis dans "Ensembles de données chargés", sélectionnez
cymbal_lake

Table

web_log

Type de table

Table externe

Créer une table BigLake à l'aide d'une connexion de ressource cloud

Cochez la case correspondante

Cliquez sur le menu déroulant ID de connexion et sélectionnez Créer une connexion à une ressource cloud
Type de connexion	Modèles distants Vertex AI, fonctions à distance, BigLake et Spanner (ressource Cloud)
ID de connexion	gcs-bucket-{{{project_0.project_id \| Project ID}}}_eds
Type d'emplacement	Région
Région	{{{project_0.default_region \| Region}}}
Nom descriptif	Laissez le champ vide
Description	Laissez le champ vide
Cliquez sur Créer une connexion

Schéma, détection automatique

Cochez la case correspondante

Conservez les autres valeurs par défaut, puis cliquez sur Créer une table.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer une connexion à Cloud Storage

Tâche 2 : Créer et charger la table Iceberg dans Cloud Storage avec BigQuery

Dans cette tâche, vous allez ingérer les données de la table externe que vous venez de créer et les charger au format Iceberg dans un bucket Cloud Storage.

Dans la console Google Cloud, accédez au menu de navigation (), puis à BigQuery > Studio.
Si ce n'est pas déjà fait, cliquez sur Explorateur classique et développez votre projet. Il se présentera sous la forme qwiklabs-gcp-xx-xxxxxxxxxxxx.
Développez l'entrée correspondant à cymbal_lake.
Cliquez sur les trois points verticaux à droite de l'entrée correspondant à web_log. Sélectionnez Requête dans le menu pop-up.
Fermez le panneau Référence en cliquant sur le bouton X en haut à droite.
Remplacez la requête SQL par le code suivant :
CREATE TABLE cymbal_lake.iceberg_web_log WITH CONNECTION `projects/{{{project_0.project_id | Project ID}}}/locations/{{{project_0.default_region | Region}}}/connections/gcs-bucket-{{{project_0.project_id | Project ID}}}_eds` OPTIONS ( table_format = 'ICEBERG', storage_uri = 'gs://gcs-bucket-{{{project_0.project_id | Project ID}}}') AS SELECT * FROM `cymbal_lake.web_log`;
Cliquez sur le bouton Exécuter. Après le traitement, vous recevrez un message d'erreur. Ne le fermez pas, car vous aurez besoin de l'ID du compte de service BigQuery pour définir les autorisations appropriées. Le message d'erreur ressemblera à cet exemple :

Access Denied: BigQuery BigQuery: Permission denied while writing data. bqcx-542604010272-n24h@gcp-sa-bigquery-condel.iam.gserviceaccount.com does not have storage.objects.create access to the Google Cloud Storage object. Permission 'storage.objects.create' denied on resource (or it may not exist). Please make sure gs://gcs-bucket-qwiklabs-gcp-00-333263c4c0ba/data/46d259a5-5da4-4e66-afa8-ae849d1bef50-17da16d07142b039-f-00000-of-00001.parquet is accessible via appropriate IAM roles, e.g. Storage Object Viewer or Storage Object Creator

Copiez l'ID utilisateur qui figure dans le message d'erreur. Il est au format bqcx-xxxxxxxxxxxx-xxxx@gcp-sa-bigquery-condel.iam.gserviceaccount.com.
Dans la console Google Cloud, accédez au menu de navigation (), puis à Cloud Storage > Buckets.
Cliquez sur les trois points verticaux à droite de la ligne contenant votre bucket gcs-bucket-, puis sélectionnez Modifier l'accès.
Dans la zone Contrôle des accès, cliquez sur le lien Passer aux autorisations uniformes.
Dans le pop-up, sélectionnez Uniforme. Cliquez sur Enregistrer.
Cliquez sur Ajouter un compte principal.
Dans Nouveau compte principal, collez l'ID utilisateur que vous avez copié dans le message d'erreur BigQuery.
Cliquez sur Sélectionner un rôle*.
Dans la section Filtrer, saisissez Utilisateur d'objets Storage et sélectionnez Utilisateur d'objets Storage dans la liste de résultats, puis cliquez sur Enregistrer.
Revenez dans BigQuery et réexécutez la requête de création de table en répétant l'étape 6 de la tâche 2.

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer et charger la table Iceberg dans Cloud Storage avec BigQuery

Tâche 3 : Interroger la table Iceberg depuis BigQuery

Vous allez maintenant utiliser BigQuery pour accéder aux données de la table Iceberg que vous venez de créer dans Cloud Storage.

Dans la console Google Cloud, accédez au menu de navigation (), puis à BigQuery > Studio.
Si ce n'est pas déjà fait, développez l'entrée de votre projet dans l'Explorateur classique. Il se présentera sous la forme qwiklabs-gcp-xx-xxxxxxxxxxxx.
Développez l'entrée correspondant à cymbal_lake.
Cliquez sur les trois points verticaux à droite de l'entrée correspondant à iceberg_web_log. Sélectionnez Requête dans le menu pop-up.
Fermez le panneau Référence en cliquant sur le bouton X en haut à droite.
Remplacez la requête SQL par le code suivant :
SELECT * FROM cymbal_lake.iceberg_web_log LIMIT 1000;
Cliquez sur le bouton Exécuter. Les données renvoyées proviennent de votre table Iceberg dans Cloud Storage.
Remplacez la requête SQL par le code suivant :
SELECT * FROM cymbal_lake.iceberg_web_log AS WL INNER JOIN customers.customer_details AS CD ON WL.customer_id = CD.id LIMIT 1000;
Cliquez sur le bouton Exécuter. Les données renvoyées proviennent de votre table Iceberg dans Cloud Storage, jointe aux données client dans une table BigQuery native.

Cliquez sur Vérifier ma progression pour valider l'objectif. Interroger la table Iceberg depuis BigQuery

Félicitations !

Vous avez configuré une table externe dans BigQuery pour accéder aux données d'un fichier CSV dans Cloud Storage. Vous avez ensuite créé une table Iceberg dans Cloud Storage et vous y avez ajouté les données du fichier CSV à l'aide de BigQuery. Enfin, vous avez exécuté une requête combinant les données de la table Iceberg avec celles d'une table BigQuery native. Cet exemple est simple, mais il illustre la puissance et la flexibilité que le lakehouse BigQuery et BigLake de Cymbal offre pour transformer les données en un outil métier performant.

Interroger des données externes et des tables Iceberg

Présentation

Objectifs de l'atelier

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Conditions requises

Se connecter à la console Google Cloud

Vérifier ou activer les API requises

Vérifier les autorisations IAM

Tâche 1 : Créer une connexion à Cloud Storage

Créer la connexion

Tâche 2 : Créer et charger la table Iceberg dans Cloud Storage avec BigQuery

Tâche 3 : Interroger la table Iceberg depuis BigQuery

Félicitations !

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier