Anleitung und Anforderungen für Lab-Einrichtung
Schützen Sie Ihr Konto und Ihren Fortschritt. Verwenden Sie immer den privaten Modus und Lab-Anmeldedaten, um dieses Lab auszuführen.

Batchpipelines in Cloud Data Fusion erstellen

Lab 1 Stunde 30 Minuten universal_currency_alt 5 Guthabenpunkte show_chart Einsteiger
info Dieses Lab kann KI-Tools enthalten, die den Lernprozess unterstützen.
Dieser Inhalt ist noch nicht für Mobilgeräte optimiert.
Die Lernumgebung funktioniert am besten, wenn Sie auf einem Computer über einen per E‑Mail gesendeten Link darauf zugreifen.

GSP807

Logo: Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

ETL steht für Extract, Transform und Load. Es gibt verschiedene andere Varianten dieses Konzepts, darunter EL, ELT und ELTL.

In diesem Lab lernen Sie, wie Sie mit dem Pipeline Studio in Cloud Data Fusion eine ETL-Pipeline erstellen. Pipeline Studio bietet die Bausteine und integrierten Plug-ins, mit denen Sie Ihre Batchpipeline Knoten für Knoten erstellen können. Außerdem verwenden Sie das Wrangler-Plug-in, um Transformationen für Daten zu erstellen und anzuwenden, die durch die Pipeline geleitet werden.

Die häufigste Datenquelle für ETL-Anwendungen sind in der Regel Daten, die in Textdateien im CSV-Format (Comma Separated Value) gespeichert sind. Viele Datenbanksysteme exportieren und importieren Daten auf diese Weise. In diesem Lab verwenden Sie eine CSV-Datei, aber die gleichen Techniken können auch auf Datenbankquellen sowie auf jede andere verfügbare Datenquelle angewendet werden.

Die Ausgabe wird in eine BigQuery-Tabelle geschrieben und Sie führen Datenanalysen für dieses Ziel-Dataset mit Standard-SQL durch.

Ziele

Aufgaben in diesem Lab:

  • Batchpipeline mit Pipeline Studio in Cloud Data Fusion erstellen
  • Mit Wrangler Daten interaktiv transformieren
  • Ausgabe in BigQuery schreiben

Einrichtung und Anforderungen

Für jedes Lab werden Ihnen ein neues Google Cloud-Projekt und die entsprechenden Ressourcen für eine bestimmte Zeit kostenlos zur Verfügung gestellt.

  1. Melden Sie sich über ein Inkognitofenster bei Google Skills an.

  2. Beachten Sie die Zugriffszeit (z. B. 02:00:00) und achten Sie darauf, dass Sie das Lab innerhalb dieser Zeit abschließen.
    Es gibt keine Pausenfunktion. Sie können bei Bedarf neu starten, müssen dann aber von vorn beginnen.

  3. Wenn Sie bereit sind, klicken Sie auf Lab starten.

    Hinweis: Nachdem Sie auf Lab starten geklickt haben, dauert es etwa 15 bis 20 Minuten, bis die erforderlichen Ressourcen für das Lab bereitgestellt und eine Data Fusion-Instanz erstellt wurden. In der Zwischenzeit können Sie sich anhand der unten aufgeführten Schritte mit den Zielen des Labs vertraut machen.

    Wenn im linken Bereich Lab-Anmeldedaten (Nutzername und Passwort) angezeigt werden, ist die Instanz erstellt und Sie können sich in der Console anmelden.
  4. Notieren Sie sich Ihre Anmeldedaten (Nutzername und Passwort). Mit diesen Daten melden Sie sich in der Google Cloud Console an.

  5. Klicken Sie auf Google Console öffnen.

  6. Klicken Sie auf Anderes Konto verwenden. Kopieren Sie den Nutzernamen und das Passwort für dieses Lab und fügen Sie beides in die entsprechenden Felder ein.
    Wenn Sie andere Anmeldedaten verwenden, tritt ein Fehler auf oder es fallen Kosten an.

  7. Akzeptieren Sie die Nutzungsbedingungen und überspringen Sie die Seite zur Wiederherstellung der Ressourcen.

Hinweis: Über den Button Lab beenden wird Ihre Arbeit gelöscht und das Projekt entfernt. Sie sollten daher nur darauf klicken, wenn Sie das Lab abgeschlossen haben oder es neu starten möchten.

Bei der Google Cloud Console anmelden

  1. Kopieren Sie im Browsertab oder Fenster für diese Lab-Sitzung im Bereich Verbindungsdetails den Nutzernamen und klicken Sie auf den Button Google Console öffnen.
Hinweis: Wenn die Eingabeaufforderung „Konto auswählen“ angezeigt wird, klicken Sie auf Anderes Konto verwenden.
  1. Fügen Sie den Nutzernamen und das Passwort ein, wenn Sie dazu aufgefordert werden.
  2. Klicken Sie auf Weiter.
  3. Akzeptieren Sie die Nutzungsbedingungen.

Da es sich um ein temporäres Konto handelt, das nur für die Dauer dieses Labs verfügbar ist, beachten Sie bitte Folgendes:

  • Fügen Sie keine Wiederherstellungsoptionen hinzu.
  • Melden Sie sich nicht für kostenlose Testversionen an.
  1. Wenn die Console geöffnet wurde, klicken Sie oben links auf das Navigationsmenü (Symbol für Navigationsmenü), um die Liste der Dienste aufzurufen.

Navigationsmenü

Cloud Shell aktivieren

Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Cloud Shell bietet Ihnen Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen. gcloud ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.

  1. Klicken Sie in der Google Cloud Console im Navigationsbereich auf Cloud Shell aktivieren (Bild: Cloud Shell-Symbol).

  2. Klicken Sie auf Weiter.
    Die Bereitstellung und Verbindung mit der Umgebung dauert einen kleinen Moment. Wenn Sie verbunden sind, sind Sie auch authentifiziert und das Projekt ist auf Ihre PROJECT_ID eingestellt. Beispiel:

Bild: Cloud Shell-Terminal

Beispielbefehle

  • Namen für das aktive Konto angeben:

gcloud auth list

(Ausgabe)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(Beispielausgabe)

Credentialed accounts: - google1623327_student@qwiklabs.net
  • Projekt-ID angeben:

gcloud config list project

(Ausgabe)

[core] project = <project_ID>

(Beispielausgabe)

[core] project = qwiklabs-gcp-44776a13dea667a6

Projektberechtigungen prüfen

Bevor Sie mit der Arbeit in Google Cloud beginnen, müssen Sie sicherstellen, dass für Ihr Projekt im Rahmen von Identity and Access Management (IAM) die nötigen Berechtigungen vorliegen.

  1. Klicken Sie in der Google Cloud Console im Navigationsmenü (Symbol für Navigationsmenü) auf IAM und Verwaltung > IAM.

  2. Prüfen Sie, ob das standardmäßige Compute-Dienstkonto {project-number}-compute@developer.gserviceaccount.com vorhanden und ihm die Rolle Bearbeiter zugewiesen ist. Das Kontopräfix ist die Projektnummer. Sie finden sie im Navigationsmenü unter Cloud-Übersicht.

Compute-Standarddienstkonto

Wenn das Konto nicht in IAM vorhanden ist oder nicht über die Bearbeiter-Rolle verfügt, weisen Sie die erforderliche Rolle so zu:

  1. Klicken Sie in der Google Cloud Console im Navigationsmenü auf Cloud-Übersicht.

  2. Kopieren Sie auf der Karte Projektinformationen die Projektnummer.

  3. Klicken Sie im Navigationsmenü auf IAM und Verwaltung > IAM.

  4. Klicken Sie oben auf der Seite IAM auf Hinzufügen.

  5. Geben Sie unter Neue Hauptkonten ein:

{project-number}-compute@developer.gserviceaccount.com

Ersetzen Sie {project-number} durch die entsprechende Projektnummer.

  1. Wählen Sie unter Rolle auswählen die Option Basic (oder „Projekt“) > Editor aus.

  2. Klicken Sie auf Speichern.

Aufgabe 1: Daten laden

In dieser Aufgabe erstellen Sie einen Cloud Storage-Bucket in Ihrem Projekt und stellen eine CSV-Datei bereit. Cloud Data Fusion liest später Daten aus diesem Storage-Bucket.

  1. Führen Sie in Cloud Shell die folgenden Befehle aus, um einen neuen Bucket zu erstellen, und kopieren Sie die relevanten Daten dorthin:
export BUCKET=$GOOGLE_CLOUD_PROJECT gcloud storage buckets create gs://$BUCKET

Der erstellte Bucket-Name ist Ihre Projekt-ID.

  1. Führen Sie den folgenden Befehl aus, um die Datendateien (eine CSV- und eine XML-Datei) in Ihren Bucket zu kopieren:
gsutil cp gs://cloud-training/OCBL163/titanic.csv gs://$BUCKET

Klicken Sie auf Fortschritt prüfen. Daten laden

Aufgabe 2: Erforderliche Berechtigungen für Ihre Cloud Data Fusion-Instanz hinzufügen

In dieser Aufgabe weisen Sie dem Dienstkonto, das der Cloud Data Fusion-Instanz zugeordnet ist, die erforderlichen IAM-Rollen zu.

  1. Klicken Sie in der Google Cloud Console im Navigationsmenü auf Alle Produkte ansehen und wählen Sie unter der Kategorie Analytics die Option Data Fusion > Instanzen aus. Sie sollten eine Cloud Data Fusion-Instanz sehen, die bereits eingerichtet und einsatzbereit ist.
Hinweis: Das Erstellen der Instanz dauert etwa 10 Minuten. Bitte warten Sie, bis der Vorgang abgeschlossen ist.
  1. Klicken Sie in der Google Cloud Console im Navigationsmenü auf IAM und Verwaltung > IAM.

  2. Suchen Sie das Compute Engine-Standarddienstkonto {project-number}-compute@developer.gserviceaccount.com und kopieren Sie das Dienstkonto in die Zwischenablage.

  3. Klicken Sie auf der Seite „IAM-Berechtigungen“ auf + Zugriff erlauben.

  4. Fügen Sie im Feld „Neue Hauptkonten“ das Dienstkonto ein.

  5. Geben Sie unter Rolle auswählen den Text Cloud Data Fusion API-Dienst-Agent ein und wählen Sie die Rolle aus.

  6. Klicken Sie auf + Weitere Rolle hinzufügen.

  7. Wählen Sie unter Rolle auswählen die Rolle Dataproc-Administrator aus.

  8. Klicken Sie auf Speichern.

Klicken Sie auf Fortschritt prüfen. Rolle „Cloud Data Fusion API-Dienst-Agent“ zum Dienstkonto hinzufügen

Dienstkontonutzerin/Dienstkontonutzer die Berechtigung erteilen

  1. Klicken Sie in der Console im Navigationsmenü auf IAM & Verwaltung > IAM.

  2. Klicken Sie auf das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen.

  3. Suchen Sie in der Liste nach dem von Google verwalteten Cloud Data Fusion-Dienstkonto, das so aussieht: service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com. Kopieren Sie dann den Namen des Dienstkontos in die Zwischenablage.

Von Google verwaltete Cloud Data Fusion-Dienstkonten

  1. Rufen Sie als Nächstes IAM & Verwaltung > Dienstkonten auf.

  2. Klicken Sie auf das Compute Engine-Standardkonto, das so aussieht: {project-number}-compute@developer.gserviceaccount.com, und wählen Sie in der oberen Navigationsleiste den Tab Hauptkonten mit Zugriff aus.

  3. Klicken Sie auf den Button Zugriff gewähren.

  4. Fügen Sie im Feld Neue Hauptkonten das zuvor kopierte Dienstkonto ein.

  5. Wählen Sie im Drop‑down-Menü Rolle die Option Dienstkontonutzer aus.

  6. Klicken Sie auf Speichern.

Aufgabe 3: Batchpipeline erstellen

In dieser Aufgabe verwenden Sie die Wrangler-Komponente in Cloud Data Fusion, um Rohdaten vorzubereiten und zu bereinigen. Mit diesem iterativen Prozess können Sie Transformationen in Echtzeit visualisieren.

  1. Klicken Sie in der Google Cloud Console im Navigationsmenü auf Data Fusion > Instanzen.

  2. Klicken Sie für Ihre Instanz auf Instanz aufrufen. Melden Sie sich bei Aufforderung mit den Anmeldedaten des Labs an. Wenn Ihnen eine Tour angeboten wird, klicken Sie auf Nein danke.

  3. Klicken Sie in der Cloud Data Fusion-UI im Navigationsmenü auf Wrangler.

  4. Klicken Sie im linken Bereich auf (GCS) Google Cloud Storage und wählen Sie Cloud Storage – Standard aus.

  5. Klicken Sie auf den Bucket mit der entsprechenden Projekt-ID.

  6. Klicken Sie auf titanic.csv.

    Cloud Storage-Bucket „titanic1“ in Cloud Data Fusion

  7. Wählen Sie im Dialogfeld Parsing-Optionen für Format die Option Text aus und klicken Sie auf Bestätigen.

Dialogfeld „Parsing-Optionen“

Die Daten werden in den Wrangler-Bildschirm geladen. Sie können jetzt mit der iterativen Anwendung der Datentransformationen beginnen.

  1. Klicken Sie zum Parsen der CSV-Rohdaten in ein Tabellenformat auf den Pfeil neben der Spaltenüberschrift body, wählen Sie Parsen und dann CSV aus.

    Menüauswahl „Google Cloud Storage – Parsen > CSV“

  2. Wählen Sie im Dialogfeld Als CSV-Datei parsen das Kästchen Erste Zeile als Header festlegen aus und klicken Sie auf Anwenden.

    Dialogfeld „Als CSV-Datei parsen“

Hinweis: Sie können die Warnung zur Einstellung neben dem Kästchen Erste Zeile als Header festlegen ignorieren.
  1. In dieser Phase werden die Rohdaten geparst und Sie sehen die Spalten, die durch diesen Vorgang generiert wurden (Spalten rechts neben der Spalte body). Ganz rechts sehen Sie die Liste aller Spaltennamen.

Cloud Data Fusion – Wrangler-UI

  1. Klicken Sie auf den Pfeil neben der Spaltenüberschrift body und dann auf Spalte löschen, um die Spalte mit den Rohdaten zu entfernen.

Menüauswahl „Spalte löschen“

Hinweis: Sie können Transformationen auch über die Befehlszeile anwenden. Die Befehlszeile ist die schwarze Leiste am unteren Bildschirmrand (mit dem grünen Prompt $). Wenn Sie mit der Eingabe von Befehlen beginnen, wird die Autofill-Funktion aktiviert und zeigt Ihnen eine passende Option an. Um beispielsweise die Spalte „body“ zu entfernen, hätten Sie alternativ die Anweisung drop :body verwenden können.

Befehlszeilensyntax zum Löschen der Spalte „body“

  1. Klicken Sie rechts in der Wrangler-Benutzeroberfläche auf den Tab Transformationsschritte, um Ihr aktuelles Schema aufzurufen.

Spalte „titanic.csv drop :body“

Hinweis: Sowohl die Menüauswahl als auch die Befehlszeile erstellen Anweisungen, die auf dem Tab Transformationsschritte rechts auf dem Bildschirm sichtbar sind. Anweisungen sind einzelne Transformationen, die zusammen als Schema bezeichnet werden.

Für dieses Lab reichen die beiden Transformationen oder das Schema aus, um die ETL-Pipeline zu erstellen. Im nächsten Schritt wird dieses Schema in einen Pipeline-Erstellungsschritt eingebunden, wobei das Schema für das „T“ in ETL steht.

  1. Klicken Sie auf den Button Pipeline erstellen, um zum nächsten Abschnitt zu gelangen und eine Pipeline zu erstellen. Dort sehen Sie, wie die ETL-Pipeline zusammengesetzt wird.

    Button „Pipeline erstellen“

  2. Wählen Sie dann im angezeigten Dialogfeld die Option Batchpipeline aus.

Auswahl „Batchpipeline“

Hinweis: Eine Batchpipeline kann interaktiv ausgeführt oder so geplant werden, dass sie alle 5 Minuten oder nur einmal im Jahr ausgeführt wird.

Aufgabe 4: BigQuery-Senke konfigurieren

Die restlichen Aufgaben zum Erstellen der Pipeline werden im Pipeline Studio ausgeführt, der Benutzeroberfläche, mit der Sie Datenpipelines visuell zusammenstellen können. Sie sollten jetzt die wichtigsten Bausteine Ihrer ETL-Pipeline im Studio sehen.

An diesem Punkt sehen Sie zwei Knoten in Ihrer Pipeline: das GCS-Datei-Plug-in, das die CSV-Datei aus Google Cloud Storage liest, und das Wrangler-Plug-in, das das Schema mit den Transformationen enthält.

Hinweis: Ein Knoten in einer Pipeline ist ein Objekt, das in einer Sequenz verbunden ist, um einen gerichteten azyklischen Graphen zu erzeugen. Beispiele: Quelle, Senke, Transformation, Aktion usw.

Diese beiden Plug-ins (Knoten) stehen für die E- und T-Phase in Ihrer ETL-Pipeline. Fügen Sie zum Vervollständigen dieser Pipeline die BigQuery-Senke hinzu, den L-Teil unseres ETL-Vorgangs.

Diagramm der Pipelinearchitektur

  1. Um die BigQuery-Senke zur Pipeline hinzuzufügen, rufen Sie im linken Bereich den Abschnitt Senke auf und klicken Sie auf das Symbol BigQuery, um es auf den Canvas zu platzieren.

Abschnitt „BigQuery-Senke“

  1. Sobald die BigQuery-Senke auf dem Canvas platziert wurde, verbinden Sie den Wrangler-Knoten mit dem BigQuery-Knoten. Ziehen Sie dazu den Pfeil vom Wrangler-Knoten zum BigQuery-Knoten, wie unten dargestellt. Jetzt müssen Sie nur noch einige Konfigurationsoptionen festlegen, damit Sie die Daten in das gewünschte Dataset schreiben können.

    Verbindung des Wrangler-Knotens mit dem BigQuery-Knoten

Aufgabe 5: Pipeline konfigurieren

Jetzt konfigurieren Sie die Pipeline. Dazu öffnen Sie die Attribute der einzelnen Knoten, um die Einstellungen zu überprüfen und/oder zusätzliche Änderungen vorzunehmen.

  1. Bewegen Sie den Mauszeiger auf den Knoten GCS. Daraufhin wird der Button Attribute angezeigt. Klicken Sie auf diesen Button, um die Konfigurationseinstellungen zu öffnen.

Dialogfeld „Attribute“ des GCS-Knotens

Jedes Plug-in hat einige Pflichtfelder, die vorhanden sein müssen und mit einem Sternchen (*) gekennzeichnet sind. Je nach Plug-in sehen Sie links ein Eingabeschema, in der Mitte den Abschnitt Konfiguration und rechts ein Ausgabeschema.

Senken-Plug-ins haben kein Ausgabeschema und Quell-Plug-ins haben kein Eingabeschema. Sowohl Senken- als auch Quell-Plug-ins haben das Pflichtfeld Referenzname, um die Datenquelle/Senke für die Herkunft zu identifizieren.

Jedes Plug-in hat ein Feld vom Typ Label. Dies ist das Label des Knotens, der im Canvas angezeigt wird, in dem Ihre Pipeline dargestellt ist.

  1. Klicken Sie zum Schließen oben rechts im Feld „Attribute“ auf das X.

  2. Bewegen Sie den Mauszeiger auf den Knoten Wrangler und klicken Sie auf Attribute.

Dialogfeld „Attribute“ des Wrangler-Knotens

Hinweis: Plugins wie Wrangler, die ein Eingabeschema enthalten. Diese Felder werden zur Verarbeitung an das Plug-in übergeben. Nach der Verarbeitung durch das Plug-in können ausgehende Daten im Ausgabeschema an den nächsten Knoten in der Pipeline gesendet oder im Fall einer Senke in ein Dataset geschrieben werden.
  1. Klicken Sie zum Schließen oben rechts im Feld „Attribute“ auf das X.

  2. Bewegen Sie den Mauszeiger über den BigQuery-Knoten, klicken Sie auf Attribute und geben Sie die folgenden Konfigurationseinstellungen ein:

    • Geben Sie unter Referenzname Titanic_BQ ein.

    • Geben Sie unter Dataset demo ein.

    • Geben Sie für Tabelle titanic ein.

  3. Klicken Sie zum Schließen oben rechts im Feld „Attribute“ auf das X.

Dialogfeld „Attribute“ in BigQuery

Aufgabe 6: Pipeline testen

Jetzt müssen Sie nur noch Ihre Pipeline testen, um zu sehen, ob sie wie erwartet funktioniert. Vorher sollten Sie Ihrem Entwurf einen Namen geben und ihn speichern, damit Ihr Fortschritt nicht verloren geht.

  1. Klicken Sie nun im Menü oben rechts auf Speichern. Sie werden aufgefordert, einen Namen und eine Beschreibung für die Pipeline einzugeben.

    • Geben Sie ETL-batch-pipeline als Namen der Pipeline ein.
    • Geben Sie ETL-Pipeline zum Parsen von CSV-Dateien, Transformieren und Schreiben der Ausgabe in BigQuery als Beschreibung ein.
  2. Klicken Sie anschließend auf Speichern.

  3. Klicken Sie zum Testen der Pipeline auf das Symbol Vorschau. In der Symbolleiste wird jetzt ein Ausführungssymbol angezeigt. Klicken Sie darauf, um die Pipeline im Vorschaumodus auszuführen.

  4. Klicken Sie auf das Symbol Ausführen. Während die Pipeline im Vorschaumodus ausgeführt wird, werden keine Daten in die BigQuery-Tabelle geschrieben. Sie können aber prüfen, ob die Daten richtig gelesen und wie erwartet geschrieben werden, sobald die Pipeline bereitgestellt ist. Der Button „Vorschau“ ist ein Schalter. Wenn Sie die Vorschau beenden möchten, klicken Sie einfach noch einmal darauf.

    Pipeline, die für die Ausführung vorbereitet wird

  5. Wenn die Pipeline ausgeführt wurde, bewegen Sie den Mauszeiger auf den Knoten Wrangler und klicken Sie auf Attribute. Klicken Sie dann auf den Tab Vorschau. Wenn alles geklappt hat, sollten Sie die Rohdaten sehen, die von der Eingabe, dem Knoten links, stammen, und die geparsten Datensätze, die als Ausgabe an den Knoten rechts ausgegeben werden. Klicken Sie oben rechts im Feld „Attribute“ auf X, um es zu schließen.

Ausgabe des Wrangler-Knotens

Hinweis: Jeder Knoten, der Daten verarbeitet, sollte eine ähnliche Ausgabe liefern. So können Sie Ihre Arbeit überprüfen und dafür sorgen, dass Sie auf dem richtigen Weg sind, bevor Sie Ihre Pipeline bereitstellen. Wenn Fehler auftreten, können Sie diese im Entwurfsmodus ganz einfach beheben.
  1. Klicken Sie noch einmal auf das Symbol Vorschau, um den Vorschaumodus zu beenden.

  2. Wenn alles in Ordnung ist, können Sie die Pipeline bereitstellen. Klicken Sie oben rechts auf das Symbol Bereitstellen Symbol „Bereitstellen“, um die Pipeline bereitzustellen.

Es wird ein Dialogfeld zur Bestätigung angezeigt, dass Ihre Pipeline bereitgestellt wird:

Bestätigung der Pipelinebereitstellung

  1. Nachdem Ihre Pipeline erfolgreich bereitgestellt wurde, können Sie Ihre ETL-Pipeline ausführen und Daten in BigQuery laden.

  2. Klicken Sie auf das Symbol Ausführen, um den ETL-Job auszuführen.

  3. Wenn die Pipeline erfolgreich ausgeführt wurde, ändert sich der Status in Erfolgreich.

    Erfolgreich ausgeführte Cloud Data Fusion-Pipeline

  4. Während die Daten von der Pipeline verarbeitet werden, gibt jeder Knoten in der Pipeline Messwerte aus, die angeben, wie viele Datensätze verarbeitet wurden. Beim Parsing-Vorgang werden 892 Datensätze angezeigt, in der Quelle waren es aber 893. Was ist passiert? Der Parsing-Vorgang hat die erste Zeile verwendet, um die Spaltenüberschriften festzulegen. Die verbleibenden 892 Datensätze wurden verarbeitet.

Diagramm: CSV-Datei mit Pipeline parsen

Klicken Sie auf Fortschritt prüfen. Batchpipeline bereitstellen und ausführen

Aufgabe 7: Ergebnisse aufrufen

Die Pipeline schreibt die Ausgabe in eine BigQuery-Tabelle. Sie können dies mit den folgenden Schritten überprüfen.

  1. Öffnen Sie in einem neuen Tab die BigQuery-UI in der Cloud Console oder rechtsklicken Sie auf den Console-Tab und wählen Sie Duplizieren aus. Wählen Sie dann im Navigationsmenü die Option BigQuery aus. Wenn Sie dazu aufgefordert werden, klicken Sie auf Weiter.

  2. Klicken Sie im linken Bereich im Abschnitt Klassischer Explorer auf Ihre Projekt-ID (beginnt mit qwiklabs).

  3. Klicken Sie im Dataset demo in Ihrem Projekt auf die Tabelle titanic und dann auf + (SQL-Abfrage). Führen Sie eine einfache Abfrage aus, z. B.:

SELECT * FROM `demo.titanic` LIMIT 10

Abfrageergebnisse

Klicken Sie auf Fortschritt prüfen. Ergebnisse ansehen

Glückwunsch!

Sie haben gelernt, wie Sie mit den Bausteinen, die in Pipeline Studio von Cloud Data Fusion verfügbar sind, eine Batch-Pipeline erstellen. Außerdem haben Sie gelernt, wie Sie mit Wrangler Transformationsschritte für Ihre Daten erstellen.

Nächstes Lab absolvieren

Fahren Sie mit Transformationen erstellen und Daten mit Wrangler in Cloud Data Fusion vorbereiten fort.

Anleitung zuletzt am 27. Januar 2026 aktualisiert

Lab zuletzt am 27. Januar 2026 getestet

© 2026 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.

Vorbereitung

  1. Labs erstellen ein Google Cloud-Projekt und Ressourcen für einen bestimmten Zeitraum
  2. Labs haben ein Zeitlimit und keine Pausenfunktion. Wenn Sie das Lab beenden, müssen Sie von vorne beginnen.
  3. Klicken Sie links oben auf dem Bildschirm auf Lab starten, um zu beginnen

Privates Surfen verwenden

  1. Kopieren Sie den bereitgestellten Nutzernamen und das Passwort für das Lab
  2. Klicken Sie im privaten Modus auf Konsole öffnen

In der Konsole anmelden

  1. Melden Sie sich mit Ihren Lab-Anmeldedaten an. Wenn Sie andere Anmeldedaten verwenden, kann dies zu Fehlern führen oder es fallen Kosten an.
  2. Akzeptieren Sie die Nutzungsbedingungen und überspringen Sie die Seite zur Wiederherstellung der Ressourcen
  3. Klicken Sie erst auf Lab beenden, wenn Sie das Lab abgeschlossen haben oder es neu starten möchten. Andernfalls werden Ihre bisherige Arbeit und das Projekt gelöscht.

Diese Inhalte sind derzeit nicht verfügbar

Bei Verfügbarkeit des Labs benachrichtigen wir Sie per E-Mail

Sehr gut!

Bei Verfügbarkeit kontaktieren wir Sie per E-Mail

Es ist immer nur ein Lab möglich

Bestätigen Sie, dass Sie alle vorhandenen Labs beenden und dieses Lab starten möchten

Privates Surfen für das Lab verwenden

Am besten führen Sie dieses Lab in einem Inkognito- oder privaten Browserfenster aus. So vermeiden Sie Konflikte zwischen Ihrem privaten Konto und dem Teilnehmerkonto, die zusätzliche Kosten für Ihr privates Konto verursachen könnten.