GSP1055

Übersicht
Bigtable ist der vollständig verwaltete, skalierbare NoSQL-Datenbankdienst von Google. Er eignet sich ideal zum Speichern großer Datenmengen in einem Schlüssel/Wert-Speicher und für Anwendungsfälle wie Personalisierung, AdTech, Finanztechnologie, digitale Medien und das Internet der Dinge (Internet of Things, IoT). Bigtable unterstützt einen hohen Durchsatz an Lese- und Schreibvorgängen bei niedriger Latenz und ermöglicht so einen schnellen Zugriff auf große Datenmengen für Verarbeitung und Analyse.
Bei Streamingdaten von Sensoren kann Bigtable eine hohe Anzahl von Schreibvorgängen verarbeiten, um große Mengen von Echtzeitdaten zu erfassen.
In diesem Lab verwenden Sie Befehle, um eine Bigtable-Instanz mit einer Tabelle zu erstellen, in der simulierte Verkehrssensordaten gespeichert werden. Anschließend starten Sie eine Dataflow-Pipeline, um die simulierten Streamingdaten aus Pub/Sub in Bigtable zu laden. Während der Dataflow-Job Streamingdaten aus Pub/Sub in Bigtable lädt, prüfen Sie, ob die Dateien in der Tabelle gespeichert werden. Zum Abschluss werden Sie den Streamingjob stoppen und die Bigtable-Daten löschen.
Aufgaben
In diesem Lab erfahren Sie, wie Sie mit Befehlen eine Bigtable-Instanz und ‑Tabelle erstellen und mit Dataflow Streamingdaten laden.
- Erstellen Sie eine Bigtable-Instanz über die Google Cloud CLI (
gcloud-Befehlszeile).
- Erstellen Sie mit Cloud Bigtable-Befehlszeilenbefehlen (
cbt-Befehlszeile) eine Bigtable-Tabelle mit Spaltenfamilien.
- Starten Sie eine Dataflow-Pipeline, um Streamingdaten aus Pub/Sub zu lesen und in Bigtable zu schreiben.
- Prüfen Sie, ob die Streamingdaten in Bigtable geladen wurden.
- Löschen Sie die Bigtable-Tabelle und -Instanz mithilfe von Befehlen.
Vorbereitung
Einrichtung und Anforderungen
Vor dem Klick auf „Start Lab“ (Lab starten)
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
- Einen Standardbrowser (empfohlen wird Chrome)
Hinweis: Nutzen Sie den privaten oder Inkognitomodus (empfohlen), um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.
- Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Hinweis: Verwenden Sie für dieses Lab nur das Teilnehmerkonto. Wenn Sie ein anderes Google Cloud-Konto verwenden, fallen dafür möglicherweise Kosten an.
Lab starten und bei der Google Cloud Console anmelden
-
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Dialogfeld geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können.
Auf der linken Seite befindet sich der Bereich „Details zum Lab“ mit diesen Informationen:
- Schaltfläche „Google Cloud Console öffnen“
- Restzeit
- Temporäre Anmeldedaten für das Lab
- Ggf. weitere Informationen für dieses Lab
-
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite „Anmelden“ geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden.
-
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
{{{user_0.username | "Username"}}}
Sie finden den Nutzernamen auch im Bereich „Details zum Lab“.
-
Klicken Sie auf Weiter.
-
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
{{{user_0.password | "Password"}}}
Sie finden das Passwort auch im Bereich „Details zum Lab“.
-
Klicken Sie auf Weiter.
Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos.
Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen.
-
Klicken Sie sich durch die nachfolgenden Seiten:
- Akzeptieren Sie die Nutzungsbedingungen.
- Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
- Melden Sie sich nicht für kostenlose Testversionen an.
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Hinweis: Wenn Sie auf Google Cloud-Produkte und ‑Dienste zugreifen möchten, klicken Sie auf das Navigationsmenü oder geben Sie den Namen des Produkts oder Dienstes in das Feld Suchen ein.
Cloud Shell aktivieren
Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.
-
Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren
.
-
Klicken Sie sich durch die folgenden Fenster:
- Fahren Sie mit dem Informationsfenster zu Cloud Shell fort.
- Autorisieren Sie Cloud Shell, Ihre Anmeldedaten für Google Cloud API-Aufrufe zu verwenden.
Wenn eine Verbindung besteht, sind Sie bereits authentifiziert und das Projekt ist auf Project_ID, eingestellt. Die Ausgabe enthält eine Zeile, in der die Project_ID für diese Sitzung angegeben ist:
Ihr Cloud-Projekt in dieser Sitzung ist festgelegt als {{{project_0.project_id | "PROJECT_ID"}}}
gcloud ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.
- (Optional) Sie können den aktiven Kontonamen mit diesem Befehl auflisten:
gcloud auth list
- Klicken Sie auf Autorisieren.
Ausgabe:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
Um das aktive Konto festzulegen, führen Sie diesen Befehl aus:
$ gcloud config set account `ACCOUNT`
- (Optional) Sie können die Projekt-ID mit diesem Befehl auflisten:
gcloud config list project
Ausgabe:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Hinweis: Die vollständige Dokumentation für gcloud finden Sie in Google Cloud in der Übersicht zur gcloud CLI.
Aufgabe 1: Bigtable-Instanz und -Tabelle mit Befehlen erstellen
Wenn Sie eine neue Tabelle in Bigtable erstellen möchten, müssen Sie zuerst eine Bigtable-Instanz erstellen, in der die Tabelle gespeichert werden soll. Sie können eine Bigtable-Instanz mit der Google Cloud Console, gcloud-Befehlszeilenbefehlen oder cbt-Befehlszeilenbefehlen erstellen.
In dieser Aufgabe verwenden Sie Cloud Shell, um zuerst gcloud-Befehlszeilenbefehle zum Erstellen einer neuen Bigtable-Instanz und dann cbt-Befehlszeilenbefehle zum Herstellen einer Verbindung zu Bigtable und zum Erstellen einer neuen Tabelle auszuführen.
Eine Anleitung zum Zugriff auf Cloud Shell finden Sie im Menü auf der rechten Seite unter Einrichtung und Anforderungen.
Bigtable-Instanz erstellen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um eine neue Bigtable-Instanz zu erstellen:
gcloud bigtable instances create sandiego \
--display-name="San Diego Traffic Sensors" \
--cluster-storage-type=SSD \
--cluster-config=id=sandiego-traffic-sensors-c1,zone={{{project_0.default_zone | ZONE}}},nodes=1
Mit diesem Befehl wird eine neue Bigtable-Instanz mit den folgenden Eigenschaften erstellt:
| Attribut |
Wert |
| Instanz-ID |
sandiego |
| Anzeigename der Instanz |
San Diego Traffic Sensors |
| Speichertyp |
SSD |
| Cluster-ID |
sandiego-traffic-sensors-c1 |
| Zone |
|
| Knotenskalierungsmodus |
Manuelle Zuweisung |
| Anzahl der Knoten |
1 |
Wenn Sie die Ausgabe erhalten, fahren Sie mit dem nächsten Schritt fort.
Creating bigtable instance sandiego...done.
Bigtable-Befehlszeile konfigurieren
Wenn Sie mit cbt-Befehlszeilenbefehlen eine Verbindung zu Bigtable herstellen möchten, müssen Sie zuerst mit Cloud Shell die Konfigurationsdatei .cbtrc mit Ihrer Projekt-ID und Ihrer Bigtable-Instanz-ID aktualisieren.
- Führen Sie die folgenden Befehle aus, um die Projekt-ID und Instanz-ID in der Datei
.cbtrc zu ändern:
echo project = `gcloud config get-value project` \
>> ~/.cbtrc
echo instance = sandiego \
>> ~/.cbtrc
- Führen Sie den folgenden Befehl aus, um zu prüfen, ob Sie die Datei
.cbtrc erfolgreich geändert haben:
cat ~/.cbtrc
Die Ausgabe sollte in etwa so aussehen:
project = <project-id>
instance = sandiego
Bigtable-Tabelle mit Spaltenfamilien erstellen
Nachdem Sie die Konfigurationsdatei .cbtrc in Cloud Shell konfiguriert haben, können Sie mit einem einfachen cbt-Befehlszeilenbefehl eine neue Bigtable-Tabelle mit Spaltenfamilien erstellen.
- Führen Sie den folgenden Befehl aus, um eine neue Tabelle namens current_conditions mit einer Spaltenfamilie namens lane zu erstellen:
cbt createtable current_conditions \
families="lane"
Klicken Sie auf Fortschritt prüfen. Bigtable-Instanz und -Tabelle erstellen
Aufgabe 2: Verkehrssensor-Streamingdaten in Pub/Sub simulieren
In dieser Aufgabe führen Sie einen Streaming-Datensimulator von einer Compute Engine-VM aus, die für dieses Lab erstellt wurde. Dazu geben Sie Befehle auf einer VM mit dem Namen training-vm ein, um Ihre Umgebung einzurichten und die erforderlichen Dateien für den Simulator für Streamingdaten herunterzuladen.
Verbindung zur VM herstellen
-
Klicken Sie in der Google Cloud Console im Navigationsmenü auf Compute Engine > VM‑Instanzen.
-
Suchen Sie die Zeile mit der Instanz training-vm und klicken Sie unter Verbinden auf SSH.
Ein Terminalfenster für training-vm wird geöffnet.
Auf der training-vm wird im Hintergrund Software installiert. Im nächsten Schritt vergewissern Sie sich, ob die Einrichtung abgeschlossen ist, indem Sie den Inhalt des neuen Verzeichnisses überprüfen.
-
Führen Sie den folgenden Befehl aus, um den Inhalt des Verzeichnisses training aufzulisten:
ls /training
Die VM ist bereit, wenn die Ausgabe des Befehls ls das folgende Ergebnis liefert:
bq_magic.sh project_env.sh sensor_magic.sh
Wenn die drei Scripts nicht aufgeführt sind, warten Sie ein paar Minuten und versuchen Sie es dann noch einmal.
Hinweis: Es kann 2 bis 3 Minuten dauern, bis alle Hintergrundaktionen abgeschlossen sind.
Script ausführen, um Streamingdaten zu simulieren
- Führen Sie den folgenden Befehl aus, um ein Code-Repository zur Verwendung in diesem Lab herunterzuladen:
git clone https://github.com/GoogleCloudPlatform/training-data-analyst
- Führen Sie den folgenden Befehl aus, um die erforderlichen Umgebungsvariablen einzurichten:
source /training/project_env.sh
Mit diesem Script werden die Umgebungsvariablen $DEVSHELL_PROJECT_ID und $BUCKET festgelegt, sodass Sie diese Variablen für die Projekt-ID und den Cloud Storage-Bucket-Namen nicht manuell festlegen müssen.
Beim Initialisieren der Lab-Ressourcen wurde ein Cloud Storage-Bucket für Sie erstellt.
- Führen Sie den folgenden Befehl aus, um den Simulator für Streamingdaten zu starten:
/training/sensor_magic.sh
Das Script liest Beispieldaten aus einer CSV-Datei und veröffentlicht sie in Pub/Sub. Durch dieses Script werden innerhalb einer Minute Daten für eine gesamte Stunde gesendet.
Lassen Sie das Script im aktuellen Terminal weiterlaufen und fahren Sie mit den nächsten Aufgaben fort.
Klicken Sie auf Fortschritt prüfen. Streaming-Verkehrssensordaten in Pub/Sub simulieren
Aufgabe 3: Dataflow-Pipeline starten, um Daten aus Pub/Sub in Bigtable zu schreiben
In dieser Aufgabe öffnen Sie ein zweites SSH-Terminal auf training_vm und führen Befehle aus, um einen Dataflow-Job zu starten, der Streamingdaten aus Pub/Sub in Bigtable schreibt.
Zweites SSH-Terminal öffnen
- Klicken Sie im aktuellen Terminalfenster auf Terminaleinstellungen (
) und dann auf Neue Verbindung.
Ein zweites Terminalfenster wird geöffnet. In der neuen Terminalsitzung fehlen noch die erforderlichen Umgebungsvariablen. Im nächsten Schritt legen Sie diese Variablen in der neuen Terminalsitzung fest.
- Führen Sie folgenden Befehl aus, um die Umgebungsvariablen im neuen Terminal festzulegen:
source /training/project_env.sh
Mit diesem Script werden die Umgebungsvariablen $DEVSHELL_PROJECT_ID und $BUCKET im neuen Terminalfenster festgelegt.
Dataflow-Pipeline starten
- Führen Sie den folgenden Befehl aus, um im neuen Terminal zum Codeverzeichnis zu wechseln:
cd ~/training-data-analyst/courses/streaming/process/sandiego
- Führen Sie den folgenden Befehl aus, um das Script mit nano zu überprüfen:
nano run_oncloud.sh
Ändern Sie den Code nicht.
Dieses Script benötigt drei Argumente, um einen Dataflow-Job auszuführen:
- Projekt-ID
- Name des Cloud Storage-Buckets
- Java-Klassenname
- Optionales viertes Argument für Optionen
In den nächsten Schritten verwenden Sie die Option --bigtable, um die Dataflow-Pipeline anzuweisen, Daten in Bigtable zu schreiben.
-
Drücken Sie Strg + X, um nano zu beenden.
-
Führen Sie den folgenden Befehl aus, um das run_oncloud.sh-Script so zu konfigurieren, dass die Standardregion des Projekts verwendet wird:
sed -i 's/\$REGION/{{{project_0.default_region | REGION}}}/' run_oncloud.sh
- Führen Sie den folgenden Befehl aus, um die Dataflow-Pipeline zu starten, die Daten aus Pub/Sub liest und in Bigtable schreibt:
./run_oncloud.sh $DEVSHELL_PROJECT_ID $BUCKET CurrentConditions --bigtable
Wenn die Pipeline erfolgreich gestartet wurde, wird eine Meldung wie die folgende angezeigt:
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 01:09 min
[INFO] Finished at: 2022-06-01T17:21:29+00:00
[INFO] Final Memory: 60M/220M
[INFO] ------------------------------------------------------------------------
Dataflow-Pipeline prüfen
-
Klicken Sie in der Google Cloud Console im Navigationsmenü auf Alle Produkte ansehen. Klicken Sie unter Analyse auf Dataflow > Jobs.
-
Klicken Sie auf den Namen des neuen Pipelinejobs.
-
Suchen Sie den Schritt write:cbt in der Pipelinegrafik und klicken Sie auf den Abwärtspfeil neben write:cbt, um die Details des Writers zu sehen.
-
Klicken Sie auf den angegebenen Writer und prüfen Sie die Details unter Details zum Schritt.
Klicken Sie auf Fortschritt prüfen. Dataflow-Pipeline starten
Aufgabe 4: Prüfen, ob Streamingdaten in Bigtable geladen wurden
In einer vorherigen Aufgabe haben Sie bereits die Konfigurationsdatei .cbtrc in Cloud Shell konfiguriert. Sie können jetzt einen einfachen cbt-Befehlszeilenbefehl ausführen, um die ersten fünf Datensätze der Tabelle abzufragen.
- Führen Sie den folgenden Befehl aus, um die ersten fünf Datenzeilen und ihre Werte in der Spaltenfamilie lane aufzurufen:
cbt read current_conditions count=5 \
columns="lane:.*"
Die Ausgabe ist so strukturiert:
----------------------------------------------
ROW KEY
COLUMN_FAMILY:COLUMN_QUALIFIER @ TIMESTAMP
VALUE
Die Ausgabewerte sollten in etwa so aussehen:
----------------------------------------------
15#S#1#9223370811310975807
lane:direction @ 1970/01/15-04:25:43.800000
"S"
lane:highway @ 1970/01/15-04:25:43.800000
"15"
lane:lane @ 1970/01/15-04:25:43.800000
"1.0"
lane:latitude @ 1970/01/15-04:25:43.800000
"32.706184"
lane:longitude @ 1970/01/15-04:25:43.800000
"-117.120565"
lane:sensorId @ 1970/01/15-04:25:43.800000
"32.706184,-117.120565,15,S,1"
lane:speed @ 1970/01/15-04:25:43.800000
"71.4"
lane:timestamp @ 1970/01/15-04:25:43.800000
"2008-11-01 12:50:00"
Aufgabe 5: Streamingjobs beenden und Bigtable-Daten löschen
In dieser letzten Aufgabe beenden Sie den Streamingdatenjob und löschen die Bigtable-Instanz und ‑Tabelle mit Befehlen.
Simulierte Streamingdaten stoppen
- Drücken Sie im ersten SSH-Terminal mit dem Simulator für Streamingdaten STRG + C, um die Simulation zu beenden.
Dataflow-Job beenden
-
Klicken Sie in der Google Cloud Console im Navigationsmenü auf Dataflow > Jobs.
-
Klicken Sie auf den Namen des Pipelinejobs.
-
Klicken Sie auf Beenden.
-
Wählen Sie Abbrechen und klicken Sie dann auf Job anhalten.
Bigtable-Tabelle und ‑Instanz löschen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um die Bigtable-Tabelle zu löschen:
cbt deletetable current_conditions
- Führen Sie den folgenden Befehl aus, um die Bigtable-Instanz zu löschen:
gcloud bigtable instances delete sandiego
Wenn Sie zur Bestätigung aufgefordert werden, geben Sie Y ein.
Klicken Sie auf Fortschritt prüfen. Streamingjobs beenden und Bigtable-Daten löschen
Glückwunsch!
In diesem Lab haben Sie mit Befehlen eine neue Bigtable-Instanz und ‑Tabelle erstellt, Daten mit Dataflow in die Tabelle gestreamt und mit einfachen cbt-Befehlen geprüft, ob das Streaming in Bigtable erfolgreich war. Zum Abschluss haben Sie Befehle verwendet, um den Job zu stoppen und die Bigtable-Tabelle und -Instanz zu löschen.
Weitere Informationen
Google Cloud-Schulungen und -Zertifizierungen
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 19. August 2025 aktualisiert
Lab zuletzt am 19. August 2025 getestet
© 2025 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.