GSP1055

Présentation
Bigtable est le service de base de données NoSQL entièrement géré et évolutif de Google. C'est l'outil idéal pour stocker de grandes quantités de données dans un magasin de paires clé-valeur. Il est également très utile pour des cas d'utilisation comme la personnalisation, l'adtech, la fintech, les médias numériques et l'Internet des objets (IoT). Bigtable permet de lire et d'écrire à haut débit et à faible latence, permettant un accès rapide à de grandes quantités de données pour le traitement et l’analyse.
Dans le cas de données en flux continu provenant de capteurs, Bigtable peut gérer un grand nombre d'écritures afin de capturer de grands volumes de données en temps réel.
Dans cet atelier, vous allez utiliser des commandes pour créer une instance Bigtable, avec une table pour stocker des données de capteurs de trafic simulées. Ensuite, vous allez lancer un pipeline Dataflow pour charger les données de flux simulées depuis Pub/Sub vers Bigtable. Pendant que le job Dataflow fait ce travail, vous vérifierez que la table est correctement remplie. Pour terminer l'atelier, vous devrez arrêter le job de traitement et supprimer les données Bigtable.
Objectifs de l'atelier
Dans cet atelier, vous allez apprendre à créer une instance et une table Bigtable à l'aide de commandes, et à utiliser Dataflow pour charger un flux de données.
- Créez une instance Bigtable à l'aide des commandes Google Cloud CLI (CLI
gcloud).
- Créez une table Bigtable avec des familles de colonnes à l'aide des commandes Cloud Bigtable CLI (CLI
cbt).
- Lancez un pipeline Dataflow pour lire des données en flux continu depuis Pub/Sub et les écrire dans Bigtable.
- Vérifiez que les données en flux continu ont été chargées dans Bigtable.
- Supprimez la table Bigtable et l'instance Bigtable à l'aide de commandes.
Prérequis
- Vous devez posséder des connaissances de base sur les concepts et termes liés aux bases de données, tels que les instances, les schémas et les clés.
- Vous devez avoir suivi l'atelier Concevoir et interroger des schémas Bigtable.
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- Vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome).
Remarque : Ouvrez une fenêtre de navigateur en mode incognito (recommandé) ou de navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
- Vous disposez d'un temps limité. N'oubliez pas qu'une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Utilisez uniquement le compte de participant pour cet atelier. Si vous utilisez un autre compte Google Cloud, des frais peuvent être facturés à ce compte.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, une boîte de dialogue s'affiche pour vous permettre de sélectionner un mode de paiement.
Sur la gauche, vous trouverez le panneau "Détails concernant l'atelier", qui contient les éléments suivants :
- Le bouton "Ouvrir la console Google Cloud"
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page "Se connecter" dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
-
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}}
Vous trouverez également le nom d'utilisateur dans le panneau "Détails concernant l'atelier".
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}}
Vous trouverez également le mot de passe dans le panneau "Détails concernant l'atelier".
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud.
Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
-
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais sans frais.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Remarque : Pour accéder aux produits et services Google Cloud, cliquez sur le menu de navigation ou saisissez le nom du service ou du produit dans le champ Recherche.
Activer Cloud Shell
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
-
Cliquez sur Activer Cloud Shell
en haut de la console Google Cloud.
-
Passez les fenêtres suivantes :
- Accédez à la fenêtre d'informations de Cloud Shell.
- Autorisez Cloud Shell à utiliser vos identifiants pour effectuer des appels d'API Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET : . Le résultat contient une ligne qui déclare l'ID_PROJET pour cette session :
Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}
gcloud est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
gcloud auth list
- Cliquez sur Autoriser.
Résultat :
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
To set the active account, run:
$ gcloud config set account `ACCOUNT`
- (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
gcloud config list project
Résultat :
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Remarque : Pour consulter la documentation complète sur gcloud, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Tâche 1 : Créer une instance et une table Bigtable à l'aide de commandes
Pour créer une table dans Bigtable, vous devez d'abord créer une instance Bigtable pour stocker votre table. Pour créer une instance Bigtable, vous pouvez utiliser la console Google Cloud, les commandes CLI gcloud ou les commandes CLI cbt.
Dans cette tâche, vous allez utiliser Cloud Shell pour exécuter des commandes CLI gcloud afin de créer une instance Bigtable, puis des commandes CLI cbt pour vous connecter à Bigtable et créer une table.
Pour savoir comment accéder à Cloud Shell, cliquez sur Préparation dans le menu de droite de cette page.
Créer une instance Bigtable
- Pour créer une instance Bigtable, exécutez la commande suivante dans Cloud Shell :
gcloud bigtable instances create sandiego \
--display-name="San Diego Traffic Sensors" \
--cluster-storage-type=SSD \
--cluster-config=id=sandiego-traffic-sensors-c1,zone={{{project_0.default_zone | ZONE}}},nodes=1
Cette commande crée une instance Bigtable avec les propriétés suivantes :
| Propriété |
Valeur |
| ID d'instance |
sandiego |
| Nom à afficher de l'instance |
San Diego Traffic Sensors |
| Type de stockage |
SSD |
| ID du cluster |
sandiego-traffic-sensors-c1 |
| Zone |
|
| Mode de scaling des nœuds |
Attribution manuelle |
| Nombre de nœuds |
1 |
Lorsque vous recevez le message de résultat, passez à l'étape suivante.
Creating bigtable instance sandiego...done.
Configurer la CLI Bigtable
Pour vous connecter à Bigtable à l'aide des commandes CLI cbt, vous devez d'abord utiliser Cloud Shell pour mettre à jour le fichier de configuration .cbtrc avec votre ID de projet et votre ID d'instance Bigtable.
- Pour modifier le fichier
.cbtrc avec l'ID du projet et l'ID de l'instance, exécutez les commandes suivantes :
echo project = `gcloud config get-value project` \
>> ~/.cbtrc
echo instance = sandiego \
>> ~/.cbtrc
- Pour vérifier que vous avez bien modifié le fichier
.cbtrc, exécutez la commande suivante :
cat ~/.cbtrc
La sortie doit ressembler à ceci :
project = <project-id>
instance = sandiego
Créer une table Bigtable avec des familles de colonnes
Après avoir configuré le fichier de configuration .cbtrc dans Cloud Shell, vous pouvez exécuter une simple commande CLI cbt pour créer une table Bigtable avec des familles de colonnes.
- Pour créer une table nommée current_conditions avec une famille de colonnes nommée lane, exécutez la commande suivante :
cbt createtable current_conditions \
families="lane"
Cliquez sur Vérifier ma progression pour valider l'objectif. Créer l'instance et la table Bigtable
Tâche 2 : Simuler les données de capteurs de trafic dans Pub/Sub
Dans cette tâche, vous allez exécuter un simulateur de flux de données à partir d'une machine virtuelle (VM) Compute Engine créée pour cet atelier. Pour commencer cette tâche, vous allez saisir des commandes sur une VM nommée training-vm afin de configurer votre environnement et de télécharger les fichiers nécessaires pour le simulateur de données en flux continu.
Se connecter à la VM
-
Dans la console Google Cloud, accédez au menu de navigation, puis cliquez sur Compute Engine > Instances de VM.
-
Repérez la ligne de l'instance nommée training-vm, puis, sous Connexion, cliquez sur SSH.
Une fenêtre de terminal pour training-vm s'ouvre.
L'instance training-vm installe des logiciels en arrière-plan. À l'étape suivante, vous allez vérifier si la configuration est terminée en examinant le contenu du nouveau répertoire.
-
Pour afficher le contenu du répertoire nommé training, exécutez la commande suivante :
ls /training
La VM est prête lorsque la commande ls génère le résultat suivant :
bq_magic.sh project_env.sh sensor_magic.sh
Si les trois scripts n'apparaissent pas, attendez quelques minutes et réessayez.
Remarque : Il faut environ deux à trois minutes pour que toutes les actions s'exécutent en arrière-plan.
Exécuter un script pour simuler un flux de données
- Pour télécharger le dépôt de code que vous utiliserez dans cet atelier, exécutez la commande suivante :
git clone https://github.com/GoogleCloudPlatform/training-data-analyst
- Pour configurer les variables d'environnement requises, exécutez la commande suivante :
source /training/project_env.sh
Ce script définit les variables d'environnement $DEVSHELL_PROJECT_ID et $BUCKET. Vous n'avez donc pas à définir manuellement ces variables pour l'ID du projet et le nom du bucket Cloud Storage.
Un bucket Cloud Storage a été créé pour vous lors de l'initialisation des ressources de l'atelier.
- Pour démarrer le simulateur de données en flux continu, exécutez la commande suivante :
/training/sensor_magic.sh
Ce script lit des échantillons de données à partir d'un fichier CSV et les publie sur Pub/Sub. Il enverra une heure de données en une minute.
Laissez le script s'exécuter dans le terminal que vous avez ouvert, et passez aux tâches suivantes.
Cliquez sur Vérifier ma progression pour valider l'objectif. Simuler un flux de données de capteurs de trafic dans Pub/Sub
Tâche 3 : Lancer un pipeline Dataflow pour écrire des données depuis Pub/Sub vers Bigtable
Dans cette tâche, vous allez ouvrir un deuxième terminal SSH sur training_vm et exécuter des commandes pour lancer un job Dataflow qui écrira les données en flux continu depuis Pub/Sub vers Bigtable.
Ouvrir un deuxième terminal SSH
- Dans la fenêtre de terminal actuelle, cliquez sur Paramètres du terminal (
), puis sur Nouvelle connexion.
Une deuxième fenêtre de terminal s'ouvre. La nouvelle session de terminal ne dispose pas des variables d'environnement requises. Dans l'étape suivante, vous allez définir ces variables.
- Pour définir les variables d'environnement dans le nouveau terminal, exécutez la commande suivante :
source /training/project_env.sh
Ce script définit les variables d'environnement $DEVSHELL_PROJECT_ID et $BUCKET dans la nouvelle fenêtre de terminal.
Lancer un pipeline Dataflow
- Pour accéder au répertoire du code dans le nouveau terminal, exécutez la commande suivante :
cd ~/training-data-analyst/courses/streaming/process/sandiego
- Pour examiner le script à l'aide de nano, exécutez la commande suivante :
nano run_oncloud.sh
Ne modifiez pas le code.
Ce script utilise trois arguments obligatoires pour exécuter un job Dataflow :
- ID du projet
- Nom du bucket Cloud Storage
- Nom de la classe Java
- Quatrième argument facultatif pour les options
Dans les étapes suivantes, vous utiliserez l'option --bigtable pour amener le pipeline Dataflow à écrire les données dans Bigtable.
-
Pour quitter nano, appuyez sur CTRL+X.
-
Pour configurer le script run_oncloud.sh afin qu'il utilise la région par défaut du projet, exécutez la commande suivante :
sed -i 's/\$REGION/{{{project_0.default_region | REGION}}}/' run_oncloud.sh
- Pour lancer le pipeline Dataflow afin de lire les données depuis Pub/Sub et de les écrire dans Bigtable, exécutez la commande suivante :
./run_oncloud.sh $DEVSHELL_PROJECT_ID $BUCKET CurrentConditions --bigtable
Une fois le pipeline lancé, un message semblable à celui-ci s'affiche :
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 01:09 min
[INFO] Finished at: 2022-06-01T17:21:29+00:00
[INFO] Final Memory: 60M/220M
[INFO] ------------------------------------------------------------------------
Examiner le pipeline Dataflow
-
Dans la console Google Cloud, accédez au menu de navigation, puis cliquez sur Afficher tous les produits. Sous Analytics, cliquez sur Dataflow > Jobs.
-
Cliquez sur le nom du nouveau job de pipeline.
-
Recherchez l'étape write:cbt dans le graphique du pipeline. Pour afficher les détails du rédacteur, cliquez sur la flèche vers le bas à côté de write:cbt.
-
Cliquez sur le rédacteur fourni et examinez les détails fournis dans Informations sur l'étape.
Cliquez sur Vérifier ma progression pour valider l'objectif. Lancer un pipeline Dataflow
Tâche 4 : Vérifier que le flux de données a été chargé dans Bigtable
Dans une tâche précédente, vous avez déjà configuré le fichier de configuration .cbtrc dans Cloud Shell. Vous pouvez maintenant exécuter une simple commande CLI cbt pour interroger les cinq premiers enregistrements de la table.
- Pour afficher les cinq premières lignes de données et leurs valeurs dans la famille de colonnes lane, exécutez la commande suivante :
cbt read current_conditions count=5 \
columns="lane:.*"
Le résultat est structuré comme suit :
----------------------------------------------
ROW KEY
COLUMN_FAMILY:COLUMN_QUALIFIER @ TIMESTAMP
VALUE
Les valeurs de sortie ressembleront à ce qui suit :
----------------------------------------------
15#S#1#9223370811310975807
lane:direction @ 1970/01/15-04:25:43.800000
"S"
lane:highway @ 1970/01/15-04:25:43.800000
"15"
lane:lane @ 1970/01/15-04:25:43.800000
"1.0"
lane:latitude @ 1970/01/15-04:25:43.800000
"32.706184"
lane:longitude @ 1970/01/15-04:25:43.800000
"-117.120565"
lane:sensorId @ 1970/01/15-04:25:43.800000
"32.706184,-117.120565,15,S,1"
lane:speed @ 1970/01/15-04:25:43.800000
"71.4"
lane:timestamp @ 1970/01/15-04:25:43.800000
"2008-11-01 12:50:00"
Tâche 5 : Arrêter le job de traitement par flux et supprimer les données Bigtable
Dans cette dernière tâche, vous allez arrêter le job de traitement de flux et supprimer l'instance et la table Bigtable à l'aide de commandes.
Arrêter la simulation de flux de données
- Dans le premier terminal SSH contenant le simulateur de flux de données, appuyez sur Ctrl+C pour arrêter la simulation.
Arrêter la tâche Dataflow
-
Dans le menu de navigation de la console Google Cloud, cliquez sur Dataflow > Jobs.
-
Cliquez sur le nom du job de pipeline.
-
Cliquez sur Arrêter.
-
Sélectionnez Annuler, puis Arrêter le job.
Supprimer la table et l'instance Bigtable
- Pour supprimer la table Bigtable, exécutez la commande suivante dans Cloud Shell :
cbt deletetable current_conditions
- Pour supprimer l'instance Bigtable, exécutez la commande suivante :
gcloud bigtable instances delete sandiego
Si vous êtes invité à confirmer l'opération, saisissez Y.
Cliquez sur Vérifier ma progression pour valider l'objectif. Arrêter le job de traitement et supprimer les données Bigtable
Félicitations !
Dans cet atelier, vous avez utilisé des commandes pour créer une instance et une table Bigtable, transféré un flux de données dans la table à l'aide de Dataflow, et vérifié que les données étaient bien transférées dans Bigtable en exécutant des commandes CLI cbt simples. Vous avez terminé l'atelier en utilisant des commandes pour arrêter le job et supprimer la table et l'instance Bigtable.
Étapes suivantes et informations supplémentaires
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 19 août 2025
Dernier test de l'atelier : 19 août 2025
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.