Anleitung und Anforderungen für Lab-Einrichtung

Schützen Sie Ihr Konto und Ihren Fortschritt. Verwenden Sie immer den privaten Modus und Lab-Anmeldedaten, um dieses Lab auszuführen.

Erste Schritte mit Cloud Data Fusion

Lab 1 Stunde 30 Minuten universal_currency_alt 5 Guthabenpunkte show_chart Einsteiger

info Dieses Lab kann KI-Tools enthalten, die den Lernprozess unterstützen.

Übersicht
Einrichtung
Aufgabe 1: Cloud Data Fusion API aktivieren
Aufgabe 2: Cloud Data Fusion-Instanz erstellen
Aufgabe 3: Benutzeroberfläche von Cloud Data Fusion verwenden
Aufgabe 4: Beispielpipeline bereitstellen
Aufgabe 5: Pipeline anzeigen
Aufgabe 6: Pipeline ausführen
Aufgabe 7: Ergebnisse aufrufen
Glückwunsch!
Lab beenden

Dieser Inhalt ist noch nicht für Mobilgeräte optimiert.

Die Lernumgebung funktioniert am besten, wenn Sie auf einem Computer über einen per E‑Mail gesendeten Link darauf zugreifen.

Logo: Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

In diesem Lab erfahren Sie, wie Sie eine Data Fusion-Instanz erstellen und eine zur Verfügung gestellte Beispielpipeline bereitstellen. Die Pipeline liest eine JSON-Datei mit Daten zu NYT-Bestsellern aus Cloud Storage. Die Pipeline führt dann Transformationen an der Datei aus, um die Daten zu analysieren und zu bereinigen. Schließlich wird eine Teilmenge der Datensätze in BigQuery geladen.

Ziele

Aufgaben in diesem Lab:

Data Fusion-Instanz erstellen
Eine Beispielpipeline bereitstellen, die einige Transformationen an einer JSON-Datei ausführt, und übereinstimmende Ergebnisse in BigQuery herausfiltern

Einrichtung

Für jedes Lab werden Ihnen ein neues Google Cloud-Projekt und die entsprechenden Ressourcen für eine bestimmte Zeit kostenlos zur Verfügung gestellt.

Melden Sie sich über ein Inkognitofenster bei Google Skills an.
Beachten Sie die Zugriffszeit (z. B. 1:15:00). Das Lab muss in dieser Zeit abgeschlossen werden.
Es gibt keine Pausenfunktion. Sie können bei Bedarf neu starten, müssen dann aber von vorn beginnen.
Wenn Sie bereit sind, klicken Sie auf Lab starten.
Notieren Sie sich Ihre Anmeldedaten (Nutzername und Passwort). Mit diesen Daten melden Sie sich in der Google Cloud Console an.
Klicken Sie auf Google Console öffnen.
Klicken Sie auf Anderes Konto verwenden. Kopieren Sie den Nutzernamen und das Passwort für dieses Lab und fügen Sie beides in die entsprechenden Felder ein.
Wenn Sie andere Anmeldedaten verwenden, tritt ein Fehler auf oder es fallen Kosten an.
Akzeptieren Sie die Nutzungsbedingungen und überspringen Sie die Seite zur Wiederherstellung der Ressourcen.

Bei der Google Cloud Console anmelden

Kopieren Sie im Browsertab oder Fenster für diese Lab-Sitzung im Bereich Verbindungsdetails den Nutzernamen und klicken Sie auf den Button Google Console öffnen.

Hinweis: Wenn die Eingabeaufforderung „Konto auswählen“ angezeigt wird, klicken Sie auf Anderes Konto verwenden.

Fügen Sie den Nutzernamen und das Passwort ein, wenn Sie dazu aufgefordert werden.
Klicken Sie auf Weiter.
Akzeptieren Sie die Nutzungsbedingungen.

Da es sich um ein temporäres Konto handelt, das nur für die Dauer dieses Labs verfügbar ist, beachten Sie bitte Folgendes:

Fügen Sie keine Wiederherstellungsoptionen hinzu.
Melden Sie sich nicht für kostenlose Testversionen an.

Wenn die Console geöffnet wurde, klicken Sie oben links auf das Navigationsmenü (), um die Liste der Dienste aufzurufen.

Navigationsmenü

Cloud Shell aktivieren

Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Cloud Shell bietet Ihnen Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen. gcloud ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.

Klicken Sie in der Google Cloud Console im Navigationsbereich auf Cloud Shell aktivieren ().
Klicken Sie auf Weiter.
Die Bereitstellung und Verbindung mit der Umgebung dauert einen kleinen Moment. Wenn Sie verbunden sind, sind Sie auch authentifiziert und das Projekt ist auf Ihre PROJECT_ID eingestellt. Beispiel:

Bild: Cloud Shell-Terminal

Beispielbefehle

Namen für das aktive Konto angeben:

gcloud auth list

(Ausgabe)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(Beispielausgabe)

Credentialed accounts: - google1623327_student@qwiklabs.net

Projekt-ID angeben:

gcloud config list project

(Ausgabe)

[core] project = <project_ID>

(Beispielausgabe)

[core] project = qwiklabs-gcp-44776a13dea667a6

Die vollständige Dokumentation für gcloud finden Sie in der Übersicht für das gcloud-Befehlszeilentool.

Projektberechtigungen prüfen

Bevor Sie mit der Arbeit in Google Cloud beginnen, müssen Sie sicherstellen, dass für Ihr Projekt im Rahmen von Identity and Access Management (IAM) die nötigen Berechtigungen vorliegen.

Klicken Sie in der Google Cloud Console im Navigationsmenü () auf IAM und Verwaltung > IAM.
Prüfen Sie, ob das standardmäßige Compute-Dienstkonto {project-number}-compute@developer.gserviceaccount.com vorhanden und ihm die Rolle Bearbeiter zugewiesen ist. Das Kontopräfix ist die Projektnummer. Sie finden sie im Navigationsmenü unter Cloud-Übersicht.

Compute-Standarddienstkonto

Wenn das Konto nicht in IAM vorhanden ist oder nicht über die Bearbeiter-Rolle verfügt, weisen Sie die erforderliche Rolle so zu:

Klicken Sie in der Google Cloud Console im Navigationsmenü auf Cloud-Übersicht.
Kopieren Sie auf der Karte Projektinformationen die Projektnummer.
Klicken Sie im Navigationsmenü auf IAM und Verwaltung > IAM.
Klicken Sie oben auf der Seite IAM auf Hinzufügen.
Geben Sie unter Neue Hauptkonten ein:

{project-number}-compute@developer.gserviceaccount.com

Ersetzen Sie {project-number} durch die entsprechende Projektnummer.

Wählen Sie unter Rolle auswählen die Option Basic (oder „Projekt“) > Editor aus.
Klicken Sie auf Speichern.

Aufgabe 1: Cloud Data Fusion API aktivieren

Klicken Sie in der Cloud Console im Navigationsmenü () auf APIs & Dienste > Bibliothek.
Geben Sie im Suchfeld den Begriff Data Fusion ein, um die Cloud Data Fusion API zu suchen. Klicken Sie dann auf den Hyperlink.
Die API ist bereits aktiviert. Klicken Sie auf Verwalten und dann auf API deaktivieren. Bestätigen Sie Deaktivieren.
Nachdem die API deaktiviert wurde, klicken Sie auf Aktivieren, um sie wieder zu aktivieren.

Aufgabe 2: Cloud Data Fusion-Instanz erstellen

Klicken Sie in der Google Cloud Console im Navigationsmenü () auf Alle Produkte ansehen. Klicken Sie unter Analytics auf Data Fusion.
Klicken Sie oben im Abschnitt auf den Link Instanz erstellen, um eine Cloud Data Fusion-Instanz zu erstellen.
Führen Sie auf der daraufhin angezeigten Seite Data Fusion-Instanz erstellen die folgenden Schritte aus:

a. Geben Sie einen Namen für die Instanz ein (z. B. cdf-lab-instance).

b. Wählen Sie unter Region den Eintrag us-central1 aus.

c. Wählen Sie unter Version die Option Einfach aus.

d. Klicken Sie im Abschnitt Autorisierung auf Berechtigung gewähren, falls erforderlich.

e. Klicken Sie auf das Drop-down-Symbol neben Erweiterte Optionen. Aktivieren Sie unter Erweitertes Monitoring und Logging das Kästchen für Dataproc Cloud Logging.

f. Lassen Sie alle anderen Felder unverändert und klicken Sie auf Erstellen.

Klicken Sie auf Fortschritt prüfen. Cloud Data Fusion-Instanz erstellen

Hinweis: Das Erstellen der Instanz dauert etwa 10 Minuten. Während Sie warten, können Sie sich diese Präsentation zu Cloud Data Fusion von der Next '19 ansehen (ab 15:31). Sehen Sie regelmäßig nach der Instanz. Sie können sich den Rest des Videos auch nach Abschluss des Labs ansehen.

Hinweis: Dieses Lab hat ein Zeitlimit. Wenn die Zeit abläuft, gehen Ihre Änderungen verloren.

Als Nächstes gewähren Sie dem Dienstkonto, das der Instanz zugeordnet ist, Berechtigungen. Gehen Sie dazu so vor:

Klicken Sie auf den Instanznamen. Kopieren Sie auf der Seite „Instanzdetails“ das Dataproc-Dienstkonto in die Zwischenablage.

Hervorgehobenes Dienstkonto auf der Seite „Instanzdetails“

Klicken Sie in der Cloud Console im Navigationsmenü () auf IAM und Verwaltung > IAM.
Klicken Sie auf der Seite „IAM-Berechtigungen“ auf Zugriff erlauben.
Fügen Sie im Feld „Neue Hauptkonten“ das Dataproc-Dienstkonto ein.
Klicken Sie in das Feld „Rolle auswählen“ und geben Sie Cloud Data Fusion API-Dienst-Agent ein. Wählen Sie dann die Rolle aus.
Klicken Sie auf Speichern.

Klicken Sie auf Fortschritt prüfen. Rolle „Cloud Data Fusion API-Dienst-Agent“ zum Dienstkonto hinzufügen

Aufgabe 3: Benutzeroberfläche von Cloud Data Fusion verwenden

Wenn Sie mit Cloud Data Fusion arbeiten, verwenden Sie sowohl die Cloud Console als auch die separate Benutzeroberfläche von Cloud Data Fusion.

In der Cloud Console können Sie Cloud Data Fusion-Instanzen erstellen und löschen sowie Details zu Cloud Data Fusion-Instanzen aufrufen.
In der Benutzeroberfläche von Cloud Data Fusion können Sie auf verschiedenen Seiten wie Pipeline Studio oder Wrangler die Funktionen von Cloud Data Fusion nutzen.

So verwenden Sie die Benutzeroberfläche von Cloud Data Fusion:

Klicken Sie in der Google Cloud Console im Navigationsmenü () auf Alle Produkte ansehen. Klicken Sie unter Analytics auf Data Fusion.
Klicken Sie neben Ihrer Data Fusion-Instanz auf den Link Instanz aufrufen. Wählen Sie die Anmeldedaten des Labs aus, um sich anzumelden. Aktivieren Sie gegebenenfalls das Kästchen neben Verwaltung Ihrer Google Service Control-Daten. Klicken Sie auf Weiter.

Hervorgehobener Link „Instanz aufrufen“

Wenn Ihnen eine Tour zum Dienst angeboten wird, klicken Sie auf Abbrechen. Sie sollten sich jetzt in der Cloud Data Fusion-Benutzeroberfläche befinden.
Die Web-Benutzeroberfläche von Cloud Data Fusion hat einen eigenen Navigationsbereich (links), über den Sie die gewünschte Seite aufrufen können.

Aufgabe 4: Beispielpipeline bereitstellen

Beispielpipelines sind über den Hub von Cloud Data Fusion verfügbar, über den Sie wiederverwendbare Pipelines, Plug-ins und Lösungen für Cloud Data Fusion teilen können.

Klicken Sie in der Web-Benutzeroberfläche von Cloud Data Fusion rechts oben auf HUB.

Hervorgehobener Link zu „HUB“

Klicken Sie im linken Bereich auf Pipelines.
Klicken Sie auf die Pipeline Cloud Data Fusion Quickstart und dann im eingeblendeten Pop-up auf Create.

Hervorgehobene Kachel „Cloud Data Fusion Quickstart“ auf der Seite „Pipelines“

Klicken Sie im Konfigurationsbereich für „Cloud Data Fusion Quickstart“ auf Finish.
Klicken Sie auf Customize Pipeline. Eine visuelle Darstellung Ihrer Pipeline wird in Pipeline Studio angezeigt. Dies ist eine grafische Benutzeroberfläche zur Entwicklung von Pipelines für die Datenintegration. Auf der linken Seite sind die Pipeline-Plug-ins aufgelistet und Ihre Pipeline wird im Hauptbereich angezeigt. Sie können Ihre Pipeline untersuchen, indem Sie den Mauszeiger auf die einzelnen Knoten der Pipeline bewegen und auf den Button Properties klicken. Über das Menü „Properties“ für jeden Knoten können Sie die mit dem Knoten verknüpften Objekte und Vorgänge aufrufen.

Hinweis: Ein Knoten in einer Pipeline ist ein Objekt, das in einer Sequenz verbunden ist, um einen gerichteten azyklischen Graphen zu erzeugen. Beispiele: Quelle, Senke, Transformation, Aktion usw.

Pipeline Studio mit einer visuellen Darstellung der Pipeline

Klicken Sie im Menü rechts oben auf Deploy. Dadurch wird die Pipeline an Cloud Data Fusion gesendet. Im nächsten Abschnitt führen Sie die Pipeline aus.

Symbol „Deploy“

Aufgabe 5: Pipeline anzeigen

Die bereitgestellte Pipeline wird in der Ansicht der Pipelinedetails angezeigt. Hier können Sie Folgendes tun:

Struktur und Konfiguration der Pipeline anzeigen
Pipeline manuell ausführen oder einen Zeitplan bzw. Trigger einrichten
Eine Zusammenfassung des Ausführungsverlaufs der Pipeline ansehen, einschließlich Ausführungszeiten, Logs und Messwerten

Ansicht der Pipelinedetails

Aufgabe 6: Pipeline ausführen

Klicken Sie in der Ansicht der Pipelinedetails oben in der Mitte auf Run, um die Pipeline auszuführen.

Hinweis: Wenn Sie eine Pipeline ausführen, stellt Cloud Data Fusion einen sitzungsspezifischen Dataproc-Cluster bereit, führt die Pipeline auf dem Cluster mit Apache Hadoop MapReduce oder Apache Spark aus und löscht den Cluster anschließend. Wenn der Status der Pipeline in „Running“ wechselt, können Sie das Erstellen und Löschen des Dataproc-Clusters beobachten. Dieser Cluster ist nur für die Dauer der Pipeline vorhanden.

Hinweis: Wenn die Pipeline fehlschlägt, führen Sie sie Pipeline noch einmal aus.

Nach einigen Minuten ist die Pipelineausführung abgeschlossen. Der Pipelinestatus ändert sich in Succeeded und die Anzahl der von jedem Knoten verarbeiteten Datensätze wird angezeigt.

Abgeschlossene Pipeline mit dem Status „Succeeded“ und der Anzahl der von jedem Knoten verarbeiteten Datensätze

Klicken Sie auf Fortschritt prüfen. Beispielpipeline bereitstellen und ausführen

Aufgabe 7: Ergebnisse aufrufen

Die Pipeline schreibt die Ausgabe in eine BigQuery-Tabelle. Sie können dies mit den folgenden Schritten überprüfen.

Klicken Sie auf diesen Link zur BigQuery-Benutzeroberfläche in der Cloud Console oder klicken Sie mit der rechten Maustaste auf den Console-Tab und wählen Sie Duplizieren aus. Wählen Sie dann im Navigationsmenü () BigQuery aus.
Klicken Sie im Bereich Klassischer Explorer auf Ihre Projekt-ID (beginnt mit qwiklabs).
Klicken Sie unter dem Dataset GCPQuickstart in Ihrem Projekt auf die Tabelle top_rated_inexpensive.
Klicken Sie auf + SQL-Abfrage, fügen Sie die folgende Abfrage ein und klicken Sie auf Ausführen:

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10

Warten Sie, bis die Abfrage abgeschlossen ist. Es werden ähnliche Ergebnisse wie diese angezeigt:

Abfrageergebnisse

Klicken Sie auf Fortschritt prüfen. Ergebnisse aufrufen

Glückwunsch!

In diesem Lab haben Sie gelernt, wie Sie eine Data Fusion-Instanz erstellen und eine Beispielpipeline bereitstellen, die eine Eingabedatei aus Cloud Storage liest, die Daten transformiert und filtert und eine Teilmenge der Daten in BigQuery ausgibt.

Lab beenden

Wenn Sie das Lab abgeschlossen haben, klicken Sie auf Lab beenden. Google Skills entfernt daraufhin die von Ihnen genutzten Ressourcen und bereinigt das Konto.

Anschließend erhalten Sie die Möglichkeit, das Lab zu bewerten. Wählen Sie die entsprechende Anzahl von Sternen aus, schreiben Sie einen Kommentar und klicken Sie anschließend auf Senden.

Die Anzahl der Sterne hat folgende Bedeutung:

1 Stern = Sehr unzufrieden
2 Sterne = Unzufrieden
3 Sterne = Neutral
4 Sterne = Zufrieden
5 Sterne = Sehr zufrieden

Wenn Sie kein Feedback geben möchten, können Sie das Dialogfeld einfach schließen.

Verwenden Sie für Feedback, Vorschläge oder Korrekturen den Tab Support.

Anleitung zuletzt am 17. Dezember 2025 aktualisiert

Lab zuletzt am 17. Dezember 2025 getestet

© 2026 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.

Erste Schritte mit Cloud Data Fusion

Übersicht

Ziele

Einrichtung

Bei der Google Cloud Console anmelden

Cloud Shell aktivieren

Beispielbefehle

Projektberechtigungen prüfen

Aufgabe 1: Cloud Data Fusion API aktivieren

Aufgabe 2: Cloud Data Fusion-Instanz erstellen

Aufgabe 3: Benutzeroberfläche von Cloud Data Fusion verwenden

Aufgabe 4: Beispielpipeline bereitstellen

Aufgabe 5: Pipeline anzeigen

Aufgabe 6: Pipeline ausführen

Aufgabe 7: Ergebnisse aufrufen

Glückwunsch!

Lab beenden

Vorbereitung

Privates Surfen verwenden

In der Konsole anmelden

Privates Surfen für das Lab verwenden