BigQuery est la base de données d'analyse NoOps, économique et entièrement gérée de Google. Avec BigQuery, vous pouvez interroger plusieurs téraoctets de données sans avoir à gérer d'infrastructure ni faire appel à un administrateur de base de données. Basé sur le langage SQL et le modèle de paiement à l'usage, BigQuery vous permet de vous concentrer sur l'analyse des données pour en dégager des informations pertinentes.
Vous allez utiliser un ensemble de données d'e-commerce comprenant des millions d'enregistrements Google Analytics pour le Google Merchandise Store, chargé dans BigQuery. Pour cet atelier, vous disposez d'une copie de cet ensemble de données, et vous allez explorer les champs et les lignes qu'il contient afin d'obtenir des renseignements.
Dans cet atelier, vous allez ingérer plusieurs types d'ensemble de données dans des tables BigQuery.
Préparation
Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.
Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
Ouvrir la console BigQuery
Dans la console Google Cloud, sélectionnez le menu de navigation > BigQuery.
Le message Bienvenue sur BigQuery dans la console Cloud s'affiche. Il contient un lien vers le guide de démarrage rapide et liste les mises à jour de l'interface utilisateur.
Cliquez sur Done (OK).
Tâche 1 : Créer un ensemble de données pour stocker les tables
Dans la console BigQuery, cliquez sur les trois points verticaux à côté de votre projet, puis sur Créer un ensemble de données.
Définissez le champ ID de l'ensemble de données sur ecommerce (e-commerce). Conservez les valeurs par défaut des autres champs.
Cliquez sur Créer un ensemble de données.
L'ensemble de données "e-commerce" s'affiche à présent sous le nom de votre projet.
Tâche 2 : Ingérer un nouvel ensemble de données à partir d'un fichier CSV
Scénario : Votre équipe marketing vous sollicite pour l'aider à déterminer quels produits doivent être inclus dans les promotions en fonction des niveaux de stock. Elle souhaite aussi savoir comment est perçu chaque produit par les consommateurs sur la base des avis sur les produits.
Votre ensemble de données transactionnelles d'e-commerce existant ne contient pas de données sur les niveaux de stock ou d'avis sur les produits, mais vos équipes en charge des opérations et du marketing vous ont fourni de nouveaux ensembles de données à analyser.
Sélectionnez l'ensemble de données ecommerce, puis cliquez sur Créer une table.
Spécifiez les options suivantes pour la table :
Source :
Créer une table à partir de : Importer
Sélectionner un fichier : sélectionnez le fichier que vous avez téléchargé précédemment
Format de fichier : CSV
Destination :
Nom de la table : produits
Conservez la valeur par défaut des autres paramètres.
Schéma :
Cochez la case Détection automatique pour le schéma et les paramètres de saisie.
Astuce : Vous ne voyez pas la case à cocher ? Vérifiez que le format du fichier est CSV, et non Avro.
Paramètres de partitionnement et de clustering : conservez les paramètres par défaut.
Options avancées :
Conservez les paramètres par défaut.
Cliquez sur Créer une table.
La table products doit s'afficher sous l'ensemble de données "e-commerce".
Sélectionnez la table "products" et affichez les détails :
Sélectionnez Aperçu et vérifiez que toutes les colonnes ont été chargées (voir échantillon ci-dessous) :
SKU
name
orderedQuantity
stockLevel
restockingLeadTime
GGOEGDHQ014899
Thermos en acier inoxydable 20 onces
499
652
2
GGOEGOAB022499
Stylo à bille noir satin
403
477
2
GGOEYHPB072210
Casquette en sergé
1429
1997
2
GGOEGEVB071799
Enceinte Bluetooth de poche
214
246
2
Vous venez de charger un fichier CSV dans une nouvelle table BigQuery.
Explorer les données récemment téléchargées avec SQL
Maintenant, entraînez-vous avec une requête de base afin d'extraire des informations pertinentes de la nouvelle table "products".
Dans l'éditeur de requête, écrivez une requête pour lister les cinq produits ayant le plus haut niveau de stock :
#standardSQL
SELECT
*
FROM
ecommerce.products
ORDER BY
stockLevel DESC
LIMIT 5
Tâche 3 : Ingérer des données à partir de Google Cloud Storage
Sélectionnez l'ensemble de données "e-commerce", puis cliquez sur Créer une table.
Spécifiez les options suivantes pour la table :
Source :
Créer une table à partir de : Google Cloud Storage
Sélectionnez un fichier du bucket GCS : cloud-training/data-insights-course/exports/products.csv
Format de fichier : CSV
Destination :
Nom de la table : produits
Conservez les valeurs par défaut pour tous les autres paramètres.
Schéma :
Cochez la case Auto Detect (Détection automatique) pour le schéma et les paramètres de saisie.
Options avancées :
Conservez les paramètres par défaut.
Cliquez sur Créer une table.
Cela fonctionne-t-il ? Non
Cliquez sur Fermer pour fermer le message, puis cliquez sur Annuler dans la boîte de dialogue Créer une table.
Dans le menu de gauche, cliquez sur Historique du projet, puis sélectionnez le message d'erreur.
Cliquez sur le bouton Répéter le chargement de la tâche.
Dans le formulaire "Créer la table", cliquez sur Options avancées, et dans le menu déroulant Préférence d'écriture, sélectionnez Écraser la table.
Cliquez maintenant sur Créer une table.
Confirmez que la table a bien été exécutée.
Tâche 4 : Ingérer un nouvel ensemble de données à partir d'une feuille de calcul Google Sheets
Sélectionnez Saisir une nouvelle requête.
Exécutez la requête suivante pour indiquer pour quels produits le besoin de réapprovisionnement est le plus important, sur la base de la rotation des stocks et des délais de réapprovisionnement :
#standardSQL
SELECT
*,
SAFE_DIVIDE(orderedQuantity,stockLevel) AS ratio
FROM
ecommerce.products
WHERE
# include products that have been ordered and
# are 80% through their inventory
orderedQuantity > 0
AND SAFE_DIVIDE(orderedQuantity,stockLevel) >= .8
ORDER BY
restockingLeadTime DESC
Remarque : Si vous indiquez un chemin de nom de projet relatif, par exemple ecommerce.products au lieu de project_id.ecommerce.products, BigQuery supposera qu'il s'agit du projet actuel.
Tâche 5 : Enregistrer des données dans Google Sheets
Scénario : Vous souhaitez fournir à votre équipe de gestion de la chaîne d'approvisionnement un moyen de noter si elle a ou non contacté le fournisseur pour réapprovisionner les stocks, et d'ajouter des commentaires sur les articles. Vous décidez d'utiliser une feuille de calcul Google Sheets pour réaliser un sondage rapide.
Créez-la maintenant :
Dans "Résultats de la requête", sélectionnez Enregistrer les résultats > Google Sheets.
Un pop-up s'affiche. Il contient un lien permettant d'ouvrir la feuille de calcul. Sélectionnez Ouvrir.
Dans la colonne G de votre feuille de calcul, ajoutez un nouveau champ nommé Comments (Commentaires), et pour la première ligne de produit, saisissez new shipment on the way (nouvelle commande en cours d'expédition).
Dans Google Sheets, sélectionnez Partager et Obtenir un lien partageable, puis copiez le lien.
Revenez dans l'onglet BigQuery.
Cliquez sur l'ensemble de données ecommerce, puis sur Créer une table.
Spécifiez les options suivantes pour la table :
Source :
Créer une table à partir de : Drive
Sélectionner l'URI du fichier Drive : indiquez l'URL de la feuille de calcul
Format de fichier : Google Sheet
Destination :
Type de table : conserver le paramètre par défaut (table externe)
Nom de la table : products_comments
Schéma :
Cochez la case Détection automatique pour le schéma et les paramètres de saisie.
Options avancées :
Définissez Lignes d'en-tête à ignorer sur 1.
Conservez les valeurs par défaut pour toutes les options.
Cliquez sur Créer une table.
Remarque : Aucun job de chargement n'est disponible pour créer une table avec un lien externe, étant donné que les données n'ont pas été ingérées.
Interroger les données d'une feuille de calcul externe
Cliquez sur Saisir une nouvelle requête.
Ajoutez la requête ci-dessous, puis cliquez sur Exécuter :
#standardSQL
SELECT * FROM ecommerce.products_comments WHERE comments IS NOT NULL
Attendez que la requête s'exécute. Vous verrez que le nouveau champ Commentaires est ajouté.
SKU
name
orderedQuantity
stockLevel
restockingLeadTime
ratio
comments
GGOENEBB078899
Cam Indoor Security Camera - USA
2139
2615
42
0.8179732314
new shipment on the way
Revenez à l'onglet de votre feuille de calcul Google Sheets.
Saisissez d'autres commentaires dans le champ "Commentaires".
Revenez dans BigQuery et réexécutez la requête en cliquant sur Exécuter.
Vérifiez que les nouvelles données s'affichent correctement dans les résultats.
Vous avez créé un lien vers une table externe dans BigQuery à partir d'une feuille de calcul Google Sheets.
Tâche 6 : Performances des tables externes et considérations liées à la qualité des données
La liaison de tables externes à BigQuery (à partir d'une feuille de calcul Google Sheets ou directement à partir de Google Cloud Storage, par exemple) présente plusieurs limites. En voici deux parmi les principales :
La cohérence des données n'est pas garantie si les valeurs de données de la source sont modifiées pendant l'interrogation.
Les sources de données stockées en dehors de BigQuery ne bénéficient pas des avantages de performance liés au fait que BigQuery gère le stockage de données (y compris l'optimisation automatique du chemin d'exécution de votre requête, la désactivation de certaines fonctions de caractère générique, etc.).
Félicitations !
Vous avez créé un nouvel ensemble de données et ingéré de nouvelles sources de données externes dans BigQuery à partir d'un fichier CSV, de Google Cloud Storage et de Google Drive.
Terminer l'atelier
Une fois l'atelier terminé, cliquez sur Terminer l'atelier. Google Cloud Skills Boost supprime les ressources que vous avez utilisées, puis efface le compte.
Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez un nombre d'étoiles, saisissez un commentaire, puis cliquez sur Envoyer.
Le nombre d'étoiles correspond à votre degré de satisfaction :
1 étoile = très insatisfait(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)
Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.
Pour soumettre des commentaires, suggestions ou corrections, veuillez accéder à l'onglet Assistance.
Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Les ateliers créent un projet Google Cloud et des ressources pour une durée déterminée.
Les ateliers doivent être effectués dans le délai imparti et ne peuvent pas être mis en pause. Si vous quittez l'atelier, vous devrez le recommencer depuis le début.
En haut à gauche de l'écran, cliquez sur Démarrer l'atelier pour commencer.
Utilisez la navigation privée
Copiez le nom d'utilisateur et le mot de passe fournis pour l'atelier
Cliquez sur Ouvrir la console en navigation privée
Connectez-vous à la console
Connectez-vous à l'aide des identifiants qui vous ont été attribués pour l'atelier. L'utilisation d'autres identifiants peut entraîner des erreurs ou des frais.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer, car cela effacera votre travail et supprimera le projet.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
Un atelier à la fois
Confirmez pour mettre fin à tous les ateliers existants et démarrer celui-ci
Utilisez la navigation privée pour effectuer l'atelier
Ouvrez une fenêtre de navigateur en mode navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
Cet atelier a pour objectif de vous apprendre à ingérer de nouveaux ensembles de données dans des tables BigQuery.
Durée :
0 min de configuration
·
Accessible pendant 90 min
·
Terminé après 60 min