Accédez à plus de 700 ateliers et cours

Ingérer de nouveaux ensembles de données dans BigQuery v1.5

Atelier 1 heure 30 minutes universal_currency_alt 5 crédits show_chart Débutant
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Accédez à plus de 700 ateliers et cours

Présentation

BigQuery est la base de données d'analyse NoOps, économique et entièrement gérée de Google. Avec BigQuery, vous pouvez interroger plusieurs téraoctets de données sans avoir à gérer d'infrastructure ni faire appel à un administrateur de base de données. Basé sur le langage SQL et le modèle de paiement à l'usage, BigQuery vous permet de vous concentrer sur l'analyse des données pour en dégager des informations pertinentes.

Vous allez utiliser un ensemble de données d'e-commerce comprenant des millions d'enregistrements Google Analytics pour le Google Merchandise Store, chargé dans BigQuery. Pour cet atelier, vous disposez d'une copie de cet ensemble de données, et vous allez explorer les champs et les lignes qu'il contient afin d'obtenir des renseignements.

Dans cet atelier, vous allez ingérer plusieurs types d'ensemble de données dans des tables BigQuery.

Préparation

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

  1. Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.

  2. Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
    Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.

  3. Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.

  4. Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.

  5. Cliquez sur Ouvrir la console Google.

  6. Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
    Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.

  7. Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Ouvrir la console BigQuery

  1. Dans la console Google Cloud, sélectionnez le menu de navigation > BigQuery.

Le message Bienvenue sur BigQuery dans la console Cloud s'affiche. Il contient un lien vers le guide de démarrage rapide et liste les mises à jour de l'interface utilisateur.

  1. Cliquez sur Done (OK).

Tâche 1 : Créer un ensemble de données pour stocker les tables

  1. Dans la console BigQuery, cliquez sur les trois points verticaux à côté de votre projet, puis sur Créer un ensemble de données.

Option "Créer un ensemble de données" mise en évidence dans l'UI

  1. Définissez le champ ID de l'ensemble de données sur ecommerce (e-commerce). Conservez les valeurs par défaut des autres champs.

  2. Cliquez sur Créer un ensemble de données.

L'ensemble de données "e-commerce" s'affiche à présent sous le nom de votre projet.

Tâche 2 : Ingérer un nouvel ensemble de données à partir d'un fichier CSV

Scénario : Votre équipe marketing vous sollicite pour l'aider à déterminer quels produits doivent être inclus dans les promotions en fonction des niveaux de stock. Elle souhaite aussi savoir comment est perçu chaque produit par les consommateurs sur la base des avis sur les produits.

Votre ensemble de données transactionnelles d'e-commerce existant ne contient pas de données sur les niveaux de stock ou d'avis sur les produits, mais vos équipes en charge des opérations et du marketing vous ont fourni de nouveaux ensembles de données à analyser.

Pour vous lancer :

  1. Téléchargez l'ensemble de données des niveaux de stock produit sur votre ordinateur.

  2. Sélectionnez l'ensemble de données ecommerce, puis cliquez sur Créer une table.

Bouton "Créer une table" et ensemble de données "ecommerce" en surbrillance

  1. Spécifiez les options suivantes pour la table :

Source :

  • Créer une table à partir de : Importer
  • Sélectionner un fichier : sélectionnez le fichier que vous avez téléchargé précédemment
  • Format de fichier : CSV

Destination :

  • Nom de la table : produits

  • Conservez la valeur par défaut des autres paramètres.

Schéma :

  • Cochez la case Détection automatique pour le schéma et les paramètres de saisie.

Astuce : Vous ne voyez pas la case à cocher ? Vérifiez que le format du fichier est CSV, et non Avro.

  • Paramètres de partitionnement et de clustering : conservez les paramètres par défaut.

Options avancées :

  • Conservez les paramètres par défaut.
  1. Cliquez sur Créer une table.

La table products doit s'afficher sous l'ensemble de données "e-commerce".

  1. Sélectionnez la table "products" et affichez les détails :

Onglet "Détails" de la table "products"

  1. Sélectionnez Aperçu et vérifiez que toutes les colonnes ont été chargées (voir échantillon ci-dessous) :

SKU

name

orderedQuantity

stockLevel

restockingLeadTime

GGOEGDHQ014899

Thermos en acier inoxydable 20 onces

499

652

2

GGOEGOAB022499

Stylo à bille noir satin

403

477

2

GGOEYHPB072210

Casquette en sergé

1429

1997

2

GGOEGEVB071799

Enceinte Bluetooth de poche

214

246

2

Vous venez de charger un fichier CSV dans une nouvelle table BigQuery.

Explorer les données récemment téléchargées avec SQL

Maintenant, entraînez-vous avec une requête de base afin d'extraire des informations pertinentes de la nouvelle table "products".

  • Dans l'éditeur de requête, écrivez une requête pour lister les cinq produits ayant le plus haut niveau de stock :
#standardSQL SELECT * FROM ecommerce.products ORDER BY stockLevel DESC LIMIT 5

Tâche 3 : Ingérer des données à partir de Google Cloud Storage

  1. Sélectionnez l'ensemble de données "e-commerce", puis cliquez sur Créer une table.

  2. Spécifiez les options suivantes pour la table :

Source :

  • Créer une table à partir de : Google Cloud Storage
  • Sélectionnez un fichier du bucket GCS : cloud-training/data-insights-course/exports/products.csv
  • Format de fichier : CSV

Destination :

  • Nom de la table : produits

  • Conservez les valeurs par défaut pour tous les autres paramètres.

Schéma :

  • Cochez la case Auto Detect (Détection automatique) pour le schéma et les paramètres de saisie.

Options avancées :

  • Conservez les paramètres par défaut.
  1. Cliquez sur Créer une table.

Cela fonctionne-t-il ? Non

  1. Cliquez sur Fermer pour fermer le message, puis cliquez sur Annuler dans la boîte de dialogue Créer une table.

  2. Dans le menu de gauche, cliquez sur Historique du projet, puis sélectionnez le message d'erreur.

Onglet "Historique du projet" montrant le message d'erreur mis en surbrillance

  1. Cliquez sur le bouton Répéter le chargement de la tâche.

  2. Dans le formulaire "Créer la table", cliquez sur Options avancées, et dans le menu déroulant Préférence d'écriture, sélectionnez Écraser la table.

  3. Cliquez maintenant sur Créer une table.

  4. Confirmez que la table a bien été exécutée.

Tâche 4 : Ingérer un nouvel ensemble de données à partir d'une feuille de calcul Google Sheets

  1. Sélectionnez Saisir une nouvelle requête.

  2. Exécutez la requête suivante pour indiquer pour quels produits le besoin de réapprovisionnement est le plus important, sur la base de la rotation des stocks et des délais de réapprovisionnement :

#standardSQL SELECT *, SAFE_DIVIDE(orderedQuantity,stockLevel) AS ratio FROM ecommerce.products WHERE # include products that have been ordered and # are 80% through their inventory orderedQuantity > 0 AND SAFE_DIVIDE(orderedQuantity,stockLevel) >= .8 ORDER BY restockingLeadTime DESC Remarque : Si vous indiquez un chemin de nom de projet relatif, par exemple ecommerce.products au lieu de project_id.ecommerce.products, BigQuery supposera qu'il s'agit du projet actuel.

Tâche 5 : Enregistrer des données dans Google Sheets

Scénario : Vous souhaitez fournir à votre équipe de gestion de la chaîne d'approvisionnement un moyen de noter si elle a ou non contacté le fournisseur pour réapprovisionner les stocks, et d'ajouter des commentaires sur les articles. Vous décidez d'utiliser une feuille de calcul Google Sheets pour réaliser un sondage rapide.

Créez-la maintenant :

  1. Dans "Résultats de la requête", sélectionnez Enregistrer les résultats > Google Sheets.

Menu déroulant "Enregistrer les résultats" développé

  1. Un pop-up s'affiche. Il contient un lien permettant d'ouvrir la feuille de calcul. Sélectionnez Ouvrir.

  2. Dans la colonne G de votre feuille de calcul, ajoutez un nouveau champ nommé Comments (Commentaires), et pour la première ligne de produit, saisissez new shipment on the way (nouvelle commande en cours d'expédition).

Colonne G mise en surbrillance

  1. Dans Google Sheets, sélectionnez Partager et Obtenir un lien partageable, puis copiez le lien.

  2. Revenez dans l'onglet BigQuery.

  3. Cliquez sur l'ensemble de données ecommerce, puis sur Créer une table.

  4. Spécifiez les options suivantes pour la table :

Source :

  • Créer une table à partir de : Drive
  • Sélectionner l'URI du fichier Drive : indiquez l'URL de la feuille de calcul
  • Format de fichier : Google Sheet

Destination :

  • Type de table : conserver le paramètre par défaut (table externe)
  • Nom de la table : products_comments

Schéma :

  • Cochez la case Détection automatique pour le schéma et les paramètres de saisie.

Boîte de dialogue "Créer une table"

Options avancées :

  • Définissez Lignes d'en-tête à ignorer sur 1.
  • Conservez les valeurs par défaut pour toutes les options.
  1. Cliquez sur Créer une table.
Remarque : Aucun job de chargement n'est disponible pour créer une table avec un lien externe, étant donné que les données n'ont pas été ingérées.

Interroger les données d'une feuille de calcul externe

  1. Cliquez sur Saisir une nouvelle requête.

  2. Ajoutez la requête ci-dessous, puis cliquez sur Exécuter :

#standardSQL SELECT * FROM ecommerce.products_comments WHERE comments IS NOT NULL

Attendez que la requête s'exécute. Vous verrez que le nouveau champ Commentaires est ajouté.

SKU

name

orderedQuantity

stockLevel

restockingLeadTime

ratio

comments

GGOENEBB078899

Cam Indoor Security Camera - USA

2139

2615

42

0.8179732314

new shipment on the way

  1. Revenez à l'onglet de votre feuille de calcul Google Sheets.

  2. Saisissez d'autres commentaires dans le champ "Commentaires".

  3. Revenez dans BigQuery et réexécutez la requête en cliquant sur Exécuter.

  4. Vérifiez que les nouvelles données s'affichent correctement dans les résultats.

Vous avez créé un lien vers une table externe dans BigQuery à partir d'une feuille de calcul Google Sheets.

Tâche 6 : Performances des tables externes et considérations liées à la qualité des données

La liaison de tables externes à BigQuery (à partir d'une feuille de calcul Google Sheets ou directement à partir de Google Cloud Storage, par exemple) présente plusieurs limites. En voici deux parmi les principales :

  • La cohérence des données n'est pas garantie si les valeurs de données de la source sont modifiées pendant l'interrogation.
  • Les sources de données stockées en dehors de BigQuery ne bénéficient pas des avantages de performance liés au fait que BigQuery gère le stockage de données (y compris l'optimisation automatique du chemin d'exécution de votre requête, la désactivation de certaines fonctions de caractère générique, etc.).

Félicitations !

Vous avez créé un nouvel ensemble de données et ingéré de nouvelles sources de données externes dans BigQuery à partir d'un fichier CSV, de Google Cloud Storage et de Google Drive.

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.

Le nombre d'étoiles correspond à votre degré de satisfaction :

  • 1 étoile = très insatisfait(e)
  • 2 étoiles = insatisfait(e)
  • 3 étoiles = ni insatisfait(e), ni satisfait(e)
  • 4 étoiles = satisfait(e)
  • 5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.

Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.

Avant de commencer

  1. Les ateliers créent un projet Google Cloud et des ressources pour une durée déterminée.
  2. Les ateliers doivent être effectués dans le délai imparti et ne peuvent pas être mis en pause. Si vous quittez l'atelier, vous devrez le recommencer depuis le début.
  3. En haut à gauche de l'écran, cliquez sur Démarrer l'atelier pour commencer.

Utilisez la navigation privée

  1. Copiez le nom d'utilisateur et le mot de passe fournis pour l'atelier
  2. Cliquez sur Ouvrir la console en navigation privée

Connectez-vous à la console

  1. Connectez-vous à l'aide des identifiants qui vous ont été attribués pour l'atelier. L'utilisation d'autres identifiants peut entraîner des erreurs ou des frais.
  2. Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
  3. Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer, car cela effacera votre travail et supprimera le projet.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible

Un atelier à la fois

Confirmez pour mettre fin à tous les ateliers existants et démarrer celui-ci

Utilisez la navigation privée pour effectuer l'atelier

Ouvrez une fenêtre de navigateur en mode navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.