GSP1144

Übersicht
Dataplex ist eine intelligente Datenstruktur, mit der Organisationen ihre Daten in Data Lakes, Data Warehouses und Data-Marts zentral erfassen, verwalten, überwachen und steuern können. Sie unterstützt Analysen in großem Maßstab. Mit Dataplex können Sie insbesondere eine Data-Mesh-Architektur erstellen. Das ist ein organisatorischer und technischer Ansatz, der die Inhaberschaft von Daten dezentralisiert und auf die Domain-Dateninhaber verteilt.
Dataplex verwaltet Daten, ohne dass diese verschoben oder dupliziert werden müssen. Wenn Sie neue Daten-Assets hinzufügen, erfasst Dataplex die Metadaten sowohl von strukturierten als auch von unstrukturierten Daten und registriert automatisch alle Metadaten in einem sicheren, einheitlichen Metastore. Daten und Metadaten können dann über Google Cloud-Dienste wie Data Catalog und BigQuery ausgewertet werden.
In diesem Lab erfahren Sie, wie Sie mit dem Aufbau Ihres eigenen Data Mesh beginnen, indem Sie mit der Befehlszeile in Dataplex Lakes, Zonen und Assets erstellen und entfernen.
Aufgaben
- Dataplex API aktivieren
- Lake erstellen
- Zone zum Lake hinzufügen
- Assets anhängen und trennen
- Zonen und Lakes löschen
Einrichtung und Anforderungen
Vor dem Klick auf „Start Lab“ (Lab starten)
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
- Einen Standardbrowser (empfohlen wird Chrome)
Hinweis: Nutzen Sie den privaten oder Inkognitomodus (empfohlen), um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.
- Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Hinweis: Verwenden Sie für dieses Lab nur das Teilnehmerkonto. Wenn Sie ein anderes Google Cloud-Konto verwenden, fallen dafür möglicherweise Kosten an.
Lab starten und bei der Google Cloud Console anmelden
-
Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Dialogfeld geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können.
Auf der linken Seite befindet sich der Bereich „Details zum Lab“ mit diesen Informationen:
- Schaltfläche „Google Cloud Console öffnen“
- Restzeit
- Temporäre Anmeldedaten für das Lab
- Ggf. weitere Informationen für dieses Lab
-
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).
Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite „Anmelden“ geöffnet.
Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden.
-
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
{{{user_0.username | "Username"}}}
Sie finden den Nutzernamen auch im Bereich „Details zum Lab“.
-
Klicken Sie auf Weiter.
-
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
{{{user_0.password | "Password"}}}
Sie finden das Passwort auch im Bereich „Details zum Lab“.
-
Klicken Sie auf Weiter.
Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos.
Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen.
-
Klicken Sie sich durch die nachfolgenden Seiten:
- Akzeptieren Sie die Nutzungsbedingungen.
- Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
- Melden Sie sich nicht für kostenlose Testversionen an.
Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.
Hinweis: Wenn Sie auf Google Cloud-Produkte und ‑Dienste zugreifen möchten, klicken Sie auf das Navigationsmenü oder geben Sie den Namen des Produkts oder Dienstes in das Feld Suchen ein.
Cloud Shell aktivieren
Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.
-
Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren
.
-
Klicken Sie sich durch die folgenden Fenster:
- Fahren Sie mit dem Informationsfenster zu Cloud Shell fort.
- Autorisieren Sie Cloud Shell, Ihre Anmeldedaten für Google Cloud API-Aufrufe zu verwenden.
Wenn eine Verbindung besteht, sind Sie bereits authentifiziert und das Projekt ist auf Project_ID, eingestellt. Die Ausgabe enthält eine Zeile, in der die Project_ID für diese Sitzung angegeben ist:
Ihr Cloud-Projekt in dieser Sitzung ist festgelegt als {{{project_0.project_id | "PROJECT_ID"}}}
gcloud ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.
- (Optional) Sie können den aktiven Kontonamen mit diesem Befehl auflisten:
gcloud auth list
- Klicken Sie auf Autorisieren.
Ausgabe:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
Um das aktive Konto festzulegen, führen Sie diesen Befehl aus:
$ gcloud config set account `ACCOUNT`
- (Optional) Sie können die Projekt-ID mit diesem Befehl auflisten:
gcloud config list project
Ausgabe:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Hinweis: Die vollständige Dokumentation für gcloud finden Sie in Google Cloud in der Übersicht zur gcloud CLI.
Dataplex API aktivieren und Variablen festlegen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um die Dataplex API zu aktivieren:
gcloud services enable \
dataplex.googleapis.com
- Führen Sie den folgenden Befehl aus, um eine Variable für die Projekt-ID zu erstellen:
export PROJECT_ID=$(gcloud config get-value project)
- Führen Sie den folgenden Befehl aus, um eine Variable für die Region zu erstellen:
export REGION={{{project_0.default_region | "filled in at lab start"}}}
gcloud config set compute/region $REGION
Aufgabe 1: Lake erstellen
In Dataplex ist ein Lake die höchste Organisations-Domain, die einen bestimmten Datenbereich oder eine bestimmte Geschäftseinheit repräsentiert. Sie können beispielsweise für jede Abteilung bzw. Data Domain in Ihrem Unternehmen einen eigenen Data Lake erstellen, um so Daten für bestimmte Nutzergruppen zu organisieren und bereitzustellen.
In dieser Aufgabe verwenden Sie die Befehlszeile, um einen Lake zu erstellen und mit dem Aufbau eines Data Mesh zu beginnen.
- Führen Sie in Cloud Shell den folgenden Befehl aus, um einen neuen Lake namens Ecommerce zu erstellen:
gcloud dataplex lakes create ecommerce \
--location=$REGION \
--display-name="Ecommerce" \
--description="Ecommerce Domain"
Es kann bis zu 3 Minuten dauern, bis der Data Lake erstellt ist.
Wenn Sie die Fehlermeldung Statuscode: 403. Permission 'dataplex.lakes.create' denied erhalten, warten Sie ein paar Minuten und versuchen Sie es dann noch einmal. Nachdem Sie die Dataplex API im vorherigen Abschnitt „Einrichtung“ aktiviert haben, kann es einige Zeit dauern, bis die Berechtigungen gewährt werden.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Created [ecommerce] Lake created in [projects/$PROJECT_ID/locations/$REGION].
Create a Dataplex lake
Aufgabe 2: Zone zum Lake hinzufügen
Nachdem Sie einen Lake erstellt haben, können Sie ihm Zonen hinzufügen. Zonen sind Subdomains innerhalb eines Lakes, mit denen Sie Daten weiter kategorisieren können. Sie können Daten beispielsweise nach Phase, Nutzung oder Einschränkungen kategorisieren.
Es gibt zwei Arten von Zonen:
- Rohdatenzonen enthalten Daten in Rohformaten (z. B. Dateien in Cloud Storage-Buckets) und unterliegen keiner strikten Typ-Prüfung.
- Kuratierte Zonen enthalten Daten, die bereinigt und formatiert wurden und für Analysen wie mit BigQuery-Datasets bereitstehen.
In dieser Aufgabe erstellen Sie über die Befehlszeile eine kuratierte Zone für die Arbeit mit BigQuery-Datasets.
- Führen Sie in Cloud Shell den folgenden Befehl aus, um eine neue kuratierte Zone namens Orders Curated Zone zu erstellen, bei der die Metadatenerkennung aktiviert ist:
gcloud dataplex zones create orders-curated-zone \
--location=$REGION \
--lake=ecommerce \
--display-name="Orders Curated Zone" \
--resource-location-type=SINGLE_REGION \
--type=CURATED \
--discovery-enabled \
--discovery-schedule="0 * * * *"
Es kann bis zu 2 Minuten dauern, bis die Zone erstellt ist.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Created [orders-curated-zone] Zone created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce].
Add a zone to your lake
Aufgabe 3: Asset an eine Zone anhängen
In Cloud Storage-Buckets oder BigQuery-Datasets gespeicherte Daten können an Zonen in einem Dataplex-Lake als Assets angehängt werden.
In dieser Aufgabe erstellen Sie über die Befehlszeile ein BigQuery-Dataset und hängen es dann an die zuvor erstellte Zone an.
BigQuery-Dataset erstellen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um ein neues BigQuery-Dataset mit dem Namen orders zu erstellen:
bq mk --location=$REGION --dataset orders
Dieses Dataset enthält zwar noch keine Tabellen oder Daten, Sie können es aber jetzt an die Zone anhängen. Neu erstellte Tabellen und geladene Daten werden dann automatisch in die Zone eingebunden.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Dataset '$PROJECT_ID:orders' successfully created.
BigQuery-Dataset an die Zone anhängen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um das BigQuery-Dataset als Asset mit dem Namen Orders Curated Data an die Zone anzuhängen und die Metadatenerkennung zu aktivieren:
gcloud dataplex assets create orders-curated-dataset \
--location=$REGION \
--lake=ecommerce \
--zone=orders-curated-zone \
--display-name="Orders Curated Dataset" \
--resource-type=BIGQUERY_DATASET \
--resource-name=projects/$PROJECT_ID/datasets/orders \
--discovery-enabled
Es kann bis zu 2 Minuten dauern, bis das Asset erstellt ist.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Created [orders-curated-dataset] Asset created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce/zones/orders-curated-zone].
Attach an asset to a zone
Aufgabe 4: Assets, Zonen und Lakes löschen
Um einen Lake zu löschen, müssen Sie zuerst dessen Assets trennen und dann die Zonen löschen.
In dieser Aufgabe verwenden Sie die Befehlszeile, um das Asset von der Zone zu trennen, dann die Zone und schließlich den Lake zu löschen.
Asset trennen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um das BigQuery-Dataset von der Zone zu trennen:
gcloud dataplex assets delete orders-curated-dataset --location=$REGION --zone=orders-curated-zone --lake=ecommerce
Wenn Sie zur Bestätigung aufgefordert werden, geben Sie Y ein.
Die zugrunde liegenden Daten im BigQuery-Dataset werden dadurch nicht gelöscht. Es wird lediglich dafür gesorgt, dass das BigQuery-Dataset nicht mehr mithilfe des Lakes in Dataplex zugänglich und auffindbar ist.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Deleted asset [orders-curated-dataset].
Zone löschen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um die Zone zu löschen:
gcloud dataplex zones delete orders-curated-zone --location=$REGION --lake=ecommerce
Wenn Sie zur Bestätigung aufgefordert werden, geben Sie Y ein.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Deleted zone [orders-curated-zone].
Lake löschen
- Führen Sie in Cloud Shell den folgenden Befehl aus, um den Lake zu löschen:
gcloud dataplex lakes delete ecommerce --location=$REGION
Wenn Sie zur Bestätigung aufgefordert werden, geben Sie Y ein.
Die endgültige Ausgabe sollte ungefähr so aussehen:
Deleted lake [ecommerce].
Assets, Zone und Dataplex-Lake löschen
Das wars! Sie haben das Lab erfolgreich abgeschlossen.
Sie haben über die Befehlszeile Lakes, Zonen und Assets in Dataplex erstellt und gelöscht.
Google Cloud-Schulungen und -Zertifizierungen
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Anleitung zuletzt am 23. April 2025 aktualisiert
Lab zuletzt am 23. April 2025 getestet
© 2025 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.