Anleitung und Anforderungen für Lab-Einrichtung

Schützen Sie Ihr Konto und Ihren Fortschritt. Verwenden Sie immer den privaten Modus und Lab-Anmeldedaten, um dieses Lab auszuführen.

Document AI-Prozessor erstellen und testen

Lab 20 Minuten universal_currency_alt 1 Guthabenpunkt show_chart Einsteiger

info Dieses Lab kann KI-Tools enthalten, die den Lernprozess unterstützen.

GSP924
Übersicht
Einrichtung und Anforderungen
Aufgabe 1: Cloud Document AI API aktivieren
Aufgabe 2: Allgemeinen Formularprozessor erstellen und testen
Aufgabe 3: Lab-Instanz einrichten
Aufgabe 4: Anfrage zur synchronen Dokumentverarbeitung mit curl stellen
Aufgabe 5: Document AI-Formularprozessor mit Python-Clientbibliotheken testen
Aufgabe 6: Document AI-Python-Code ausführen
Glückwunsch!

Dieser Inhalt ist noch nicht für Mobilgeräte optimiert.

Die Lernumgebung funktioniert am besten, wenn Sie auf einem Computer über einen per E‑Mail gesendeten Link darauf zugreifen.

GSP924

Logo: Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

Die Document AI API ist eine Dokumenterkennungslösung. Sie ermöglicht es, unstrukturierte Daten wie Dokumente und E‑Mails leichter zu verstehen, zu analysieren und zu nutzen. Mit dem allgemeinen Formularprozessor, der in diesem Lab verwendet wird, können Sie aus einem einfachen Dokument Schlüssel/Wert-Paare extrahieren.

In diesem Lab erfahren Sie, wie Sie mit Document AI Dokumentparser erstellen, Dokumente über die Cloud Console und die Befehlszeile zur Verarbeitung über Google Cloud einreichen und mit Python synchrone API-Aufrufe durchführen.

Lerninhalte

Aufgaben in diesem Lab:

Mit der Console einen Document AI-Prozessor erstellen und testen
Document AI-Prozessoren über die Befehlszeile testen
Synchrone Document AI API-Aufrufe mit Python testen

Einrichtung und Anforderungen

Vor dem Klick auf „Start Lab“ (Lab starten)

Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.

In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.

Für dieses Lab benötigen Sie Folgendes:

Einen Standardbrowser (empfohlen wird Chrome)

Hinweis: Nutzen Sie den privaten oder Inkognitomodus (empfohlen), um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.

Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.

Hinweis: Verwenden Sie für dieses Lab nur das Teilnehmerkonto. Wenn Sie ein anderes Google Cloud-Konto verwenden, fallen dafür möglicherweise Kosten an.

Lab starten und bei der Google Cloud Console anmelden

Klicken Sie auf Lab starten. Wenn Sie für das Lab bezahlen müssen, wird ein Dialogfeld geöffnet, in dem Sie Ihre Zahlungsmethode auswählen können. Auf der linken Seite befindet sich der Bereich „Details zum Lab“ mit diesen Informationen:
- Schaltfläche „Google Cloud Console öffnen“
- Restzeit
- Temporäre Anmeldedaten für das Lab
- Ggf. weitere Informationen für dieses Lab
Klicken Sie auf Google Cloud Console öffnen (oder klicken Sie mit der rechten Maustaste und wählen Sie Link in Inkognitofenster öffnen aus, wenn Sie Chrome verwenden).

Im Lab werden Ressourcen aktiviert. Anschließend wird ein weiterer Tab mit der Seite „Anmelden“ geöffnet.

Tipp: Ordnen Sie die Tabs nebeneinander in separaten Fenstern an.
Hinweis: Wird das Dialogfeld Konto auswählen angezeigt, klicken Sie auf Anderes Konto verwenden.
Kopieren Sie bei Bedarf den folgenden Nutzernamen und fügen Sie ihn in das Dialogfeld Anmelden ein.
{{{user_0.username | "Username"}}}
Sie finden den Nutzernamen auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Kopieren Sie das folgende Passwort und fügen Sie es in das Dialogfeld Willkommen ein.
{{{user_0.password | "Password"}}}
Sie finden das Passwort auch im Bereich „Details zum Lab“.
Klicken Sie auf Weiter.
Wichtig: Sie müssen die für das Lab bereitgestellten Anmeldedaten verwenden. Nutzen Sie nicht die Anmeldedaten Ihres Google Cloud-Kontos. Hinweis: Wenn Sie Ihr eigenes Google Cloud-Konto für dieses Lab nutzen, können zusätzliche Kosten anfallen.
Klicken Sie sich durch die nachfolgenden Seiten:
- Akzeptieren Sie die Nutzungsbedingungen.
- Fügen Sie keine Wiederherstellungsoptionen oder Zwei-Faktor-Authentifizierung hinzu (da dies nur ein temporäres Konto ist).
- Melden Sie sich nicht für kostenlose Testversionen an.

Nach wenigen Augenblicken wird die Google Cloud Console in diesem Tab geöffnet.

Hinweis: Wenn Sie auf Google Cloud-Produkte und ‑Dienste zugreifen möchten, klicken Sie auf das Navigationsmenü oder geben Sie den Namen des Produkts oder Dienstes in das Feld Suchen ein. Symbol für das Navigationsmenü und Suchfeld

Symbol für das Navigationsmenü und Suchfeld

Cloud Shell aktivieren

Cloud Shell ist eine virtuelle Maschine, auf der Entwicklertools installiert sind. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft auf Google Cloud. Mit Cloud Shell erhalten Sie Befehlszeilenzugriff auf Ihre Google Cloud-Ressourcen.

Klicken Sie oben in der Google Cloud Console auf Cloud Shell aktivieren .
Klicken Sie sich durch die folgenden Fenster:
- Fahren Sie mit dem Informationsfenster zu Cloud Shell fort.
- Autorisieren Sie Cloud Shell, Ihre Anmeldedaten für Google Cloud API-Aufrufe zu verwenden.

Wenn eine Verbindung besteht, sind Sie bereits authentifiziert und das Projekt ist auf Project_ID, eingestellt. Die Ausgabe enthält eine Zeile, in der die Project_ID für diese Sitzung angegeben ist:

Ihr Cloud-Projekt in dieser Sitzung ist festgelegt als {{{project_0.project_id | "PROJECT_ID"}}}

gcloud ist das Befehlszeilentool für Google Cloud. Das Tool ist in Cloud Shell vorinstalliert und unterstützt die Tab-Vervollständigung.

(Optional) Sie können den aktiven Kontonamen mit diesem Befehl auflisten:

gcloud auth list

Klicken Sie auf Autorisieren.

Ausgabe:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} Um das aktive Konto festzulegen, führen Sie diesen Befehl aus: $ gcloud config set account `ACCOUNT`

(Optional) Sie können die Projekt-ID mit diesem Befehl auflisten:

gcloud config list project

Ausgabe:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}}

Hinweis: Die vollständige Dokumentation für gcloud finden Sie in Google Cloud in der Übersicht zur gcloud CLI.

Aufgabe 1: Cloud Document AI API aktivieren

In dieser Aufgabe aktivieren Sie die Document AI API und erstellen und testen einen allgemeinen Formularprozessor. Der allgemeine Formularprozessor verarbeitet beliebige Arten von Dokumenten und extrahiert den gesamten Textinhalt, den er in einem Dokument finden kann. Er ist nicht auf gedruckten Text beschränkt, sondern kann auch handschriftlichen Text und Text in beliebiger Ausrichtung verarbeiten. Er unterstützt mehrere Sprachen und weiß, wie Datenelemente in Formularen miteinander in Beziehung stehen. Sie können damit also Schlüssel/Wert-Paare für Formularfelder mit Textlabels extrahieren.

Cloud Document AI API aktivieren

Bevor Sie mit Document AI arbeiten können, müssen Sie die API aktivieren.

Klicken Sie im Navigationsmenü () auf APIs und Dienste > Bibliothek.
Suchen Sie nach der Cloud Document AI API und klicken Sie auf Aktivieren, um die API in Ihrem Google Cloud-Projekt zu verwenden.

Falls die Cloud Document AI API bereits aktiviert ist, sehen Sie den Button Verwalten. Sie können mit dem Rest des Labs fortfahren.

Klicken Sie auf Fortschritt prüfen.

Cloud Document AI API aktiviert

Aufgabe 2: Allgemeinen Formularprozessor erstellen und testen

Als Nächstes erstellen Sie mit dem Document AI-Formularparser einen Document AI-Prozessor.

Prozessor erstellen

Klicken Sie in der Console im Navigationsmenü () auf Document AI > Übersicht.
Klicken Sie auf Prozessoren ansehen.
Klicken Sie neben Formularparser auf Prozessor erstellen. Der Formularparser ist ein allgemeiner Prozessor.
Geben Sie dem Prozessor den Namen form-parser und wählen Sie aus der Liste die Region US (United States) aus.
Klicken Sie auf Erstellen, um den allgemeinen Prozessor form-parser zu erstellen.

Dadurch wird der Prozessor erstellt und Sie kehren zur Prozessordetailseite zurück, auf der die Prozessor-ID, der Status und der Vorhersageendpunkt angezeigt werden.

Notieren Sie sich die Prozessor-ID, da Sie diese in einer späteren Aufgabe mit curl verwenden, um einen POST-Aufruf an die API zu senden.

Beispielformular herunterladen

In dieser Aufgabe laden Sie das Beispielformular aus Cloud Storage herunter. Damit Sie dieses Formular in der nächsten Aufgabe hochladen können, müssen Sie es zuerst auf Ihren lokalen Computer herunterladen.

Laden Sie die Datei form.pdf auf Ihren lokalen Computer herunter.

Die Datei sollte direkt heruntergeladen werden. Wenn die Datei stattdessen im Browser geöffnet wird, laden Sie sie über die Dateisteuerung im Browser herunter. Die Datei form.pdf ist ein MEDIZINISCHES AUFNAHMEFORMULAR mit handgeschriebenen Beispieldaten.

Formular für die Verarbeitung mit Document AI hochladen

Als Nächstes laden Sie das heruntergeladene Beispielformular in den form-parser-Prozessor hoch. Anschließend wird es analysiert und die Ergebnisse werden in der Console angezeigt.

Klicken Sie auf der Seite form-parser auf den Button Testdokument hochladen. Ein Dialogfeld wird eingeblendet. Wählen Sie die Datei aus, die Sie in der vorherigen Aufgabe heruntergeladen haben, und laden Sie sie hoch.

Eine Fortschrittsanzeige gibt an, wie weit die Analyse fortgeschritten ist. Zum Schluss werden die Ergebnisse angezeigt. Sie sehen, dass der allgemeine Prozessor die Daten aus dem Formular in einer Reihe von Schlüssel/Wert-Paaren erhoben hat.

Die aus dem Quelldokument geparsten Schlüssel/Wert-Paare werden in der Console angezeigt. Im linken Bereich werden die Daten aufgelistet und im rechten Bereich werden mit blauen Rechtecken die Quellpositionen im geparsten Dokument hervorgehoben. Sehen Sie sich die Ausgabe an und vergleichen Sie die Ergebnisse mit den Quelldaten.

Parseranalyse mit den resultierenden Daten im linken Bereich

In dieser Aufgabe testen Sie einen allgemeinen Formularprozessor von Document AI, indem Sie über die Befehlszeile API-Aufrufe durchführen.

Klicken Sie auf Fortschritt prüfen.

Allgemeinen Formularprozessor erstellen und testen

Aufgabe 3: Lab-Instanz einrichten

In diesem Abschnitt richten Sie die Lab-Instanz für die Verwendung der Document AI API ein.

Stellen Sie eine SSH-Verbindung zur Lab-VM-Instanz her.

Die restlichen Aufgaben des Labs führen Sie in der Lab-VM mit dem Namen document-ai-dev aus.

Klicken Sie im Navigationsmenü () auf Compute Engine > VM-Instanzen.
Klicken Sie für die VM-Instanz mit dem Namen document-ai-dev den Link SSH.

Sie brauchen für diesen Schritt die ID des Document AI-Prozessors, den Sie in Aufgabe 1 erstellt haben. Wenn Sie sie nicht gespeichert haben, gehen Sie auf dem Tab der Cloud Console so vor:

Öffnen Sie das Navigationsmenü ().
Klicken Sie auf Document AI > Prozessoren.
Klicken Sie auf den Namen des Prozessors, um die Detailseite zu öffnen.
Dort können Sie die Prozessor-ID kopieren.

Erstellen Sie in der SSH-Sitzung eine Umgebungsvariable, die die Document AI-Prozessor-ID enthält. Sie müssen den Platzhalter [your processor id] ersetzen:

export PROCESSOR_ID=[your processor id]

Prüfen Sie in der SSH-Sitzung, ob die Umgebungsvariable die Document AI-Prozessor-ID enthält:

echo Your processor ID is:$PROCESSOR_ID

Die Ausgabe sollte in etwa so aussehen:

Your processor ID is:4897d834d2f4415d

Diese SSH-Sitzung verwenden Sie auch für die restlichen Aufgaben in diesem Lab.

API-Anfragen authentifizieren

Für Anfragen an die Document AI API benötigen Sie gültige Anmeldedaten. In dieser Aufgabe erstellen Sie ein Dienstkonto, beschränken die Berechtigungen, die diesem Dienstkonto gewährt werden, auf die für das Lab erforderlichen Berechtigungen und generieren dann Anmeldedaten für dieses Konto, die zur Authentifizierung von Document AI API-Anfragen verwendet werden können.

Legen Sie mit Ihrer Projekt-ID eine Umgebungsvariable fest, die Sie im gesamten Lab verwenden werden:

export PROJECT_ID=$(gcloud config get-value core/project)

Erstellen Sie ein neues Dienstkonto für den Zugriff auf die Document AI API:

export SA_NAME="document-ai-service-account" gcloud iam service-accounts create $SA_NAME --display-name $SA_NAME

Binden Sie das Dienstkonto an die Document AI API-Nutzerrolle:

gcloud projects add-iam-policy-binding ${PROJECT_ID} \ --member="serviceAccount:$SA_NAME@${PROJECT_ID}.iam.gserviceaccount.com" \ --role="roles/documentai.apiUser"

Erstellen Sie die Anmeldedaten, die für die Anmeldung als neues Dienstkonto verwendet werden, und speichern Sie sie in einer JSON-Datei mit dem Namen key.json in Ihrem Arbeitsverzeichnis:

gcloud iam service-accounts keys create key.json \ --iam-account $SA_NAME@${PROJECT_ID}.iam.gserviceaccount.com

Legen Sie die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS fest, die von der Bibliothek verwendet wird, um Ihre Anmeldedaten zu finden. Sie muss auf die Anmeldedatendatei verweisen:

export GOOGLE_APPLICATION_CREDENTIALS="$PWD/key.json"

Prüfen Sie, ob die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf den vollständigen Pfad der zuvor erstellten JSON-Datei mit den Anmeldedaten gesetzt ist:

echo $GOOGLE_APPLICATION_CREDENTIALS

Diese Umgebungsvariable wird vom gcloud-Befehlszeilentool verwendet, um anzugeben, welche Anmeldedaten beim Ausführen von Befehlen verwendet werden sollen. Weitere Informationen zu dieser Form der Authentifizierung finden Sie in der Anleitung zu Standardanmeldedaten für Anwendungen.

Beispielformular auf die VM-Instanz herunterladen

Jetzt können Sie ein Beispielformular herunterladen und es dann mit base64 codieren, um es an die Document AI API zu senden.

Geben Sie im SSH-Fenster den folgenden Befehl ein, um das Beispielformular in Ihr Arbeitsverzeichnis herunterzuladen:

gsutil cp gs://spls/gsp924/health-intake-form.pdf .

Erstellen Sie eine JSON-Anfragedatei, um das base64-codierte Formular zur Verarbeitung einzureichen:

echo '{"inlineDocument": {"mimeType": "application/pdf","content": "' > temp.json base64 health-intake-form.pdf >> temp.json echo '"}}' >> temp.json cat temp.json | tr -d \\n > request.json

Klicken Sie auf Fortschritt prüfen.

API-Anfragen authentifizieren und Beispielformular herunterladen

Aufgabe 4: Anfrage zur synchronen Dokumentverarbeitung mit curl stellen

In dieser Aufgabe lassen Sie das Beispieldokument verarbeiten, indem Sie mit curl einen Aufruf an den synchronen Document AI API-Endpunkt senden.

Reichen Sie das Formular über curl zur Verarbeitung ein. Das Ergebnis wird in output.json gespeichert:

export LOCATION="us" export PROJECT_ID=$(gcloud config get-value core/project) curl -X POST \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ -d @request.json \ https://${LOCATION}-documentai.googleapis.com/v1beta3/projects/${PROJECT_ID}/locations/${LOCATION}/processors/${PROCESSOR_ID}:process > output.json

Die Datei output.json sollte die Ergebnisse des API-Aufrufs enthalten:

cat output.json

Wenn Sie einen Authentifizierungsfehler erhalten, prüfen Sie, ob die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf die JSON-Datei mit den Anmeldedaten verweist, die Sie zuvor erstellt haben. Es kann einige Minuten dauern, bis die IAM-Richtlinie wirksam wird. Wenn Sie eine Fehlermeldung erhalten, versuchen Sie es später noch einmal.

Das Zugriffstoken für das Cloud IAM-Dienstkonto wird dynamisch generiert und mit dem HTTP-Header Authorization: an die API übergeben. Die Antwort enthält Daten im JSON-Format, die in der Datei output.json gespeichert werden.

Formularentitäten extrahieren

Sehen Sie sich als Nächstes einige der Informationen an, die aus dem Beispielformular extrahiert wurden.

Extrahieren Sie den im Dokument erkannten Rohtext:

sudo apt-get update sudo apt-get install jq cat output.json | jq -r ".document.text"

Dadurch wird der gesamte im hochgeladenen Dokument erkannte Text aufgelistet.

Extrahieren Sie die Liste der Formularfelder, die vom Formularprozessor erkannt wurden:

cat output.json | jq -r ".document.pages[].formFields"

Dadurch werden die Objektdaten für alle im Dokument erkannten Formularfelder aufgelistet. Die Werte textAnchor.startIndex und textAnchor.endIndex für jedes Formular können verwendet werden, um die Namen der erkannten Formularfelder im Feld document.text zu finden. Das Python-Script, das Sie in der nächsten Aufgabe verwenden, übernimmt diese Zuordnung für Sie.

Die JSON-Datei ist recht groß, da sie das base64-codierte Quelldokument sowie den gesamten erkannten Text und alle Dokumenteigenschaften enthält. Sie können die JSON-Datei in einem Texteditor öffnen oder sie mit einem JSON-Abfragetool wie jq untersuchen.

Prüfen, ob ein Dokument mit der Document AI API verarbeitet wurde

Aufgabe 5: Document AI-Formularprozessor mit Python-Clientbibliotheken testen

Senden Sie mit den Python-Clientbibliotheken für Document AI einen synchronen Aufruf an die Document AI API.

Jetzt verarbeiten Sie ein Dokument über den synchronen Endpunkt. Zur gleichzeitigen Verarbeitung einer großen Zahl von Dokumenten können Sie die asynchrone API verwenden. Weitere Informationen zur Verwendung der Document AI-APIs finden Sie in diesem Leitfaden.

Wenn Sie Python-Scripts direkt ausführen möchten, müssen Sie für diese Scripts die entsprechenden Anmeldedaten bereitstellen, damit sie mit einem Dienstkonto, das mit den richtigen Berechtigungen konfiguriert wurde, Aufrufe an die API senden können. Weitere Informationen zum Konfigurieren dieser Art der Authentifizierung finden Sie in der Dokumentation zur Authentifizierung als Dienstkonto.

VM-Instanz für die Verwendung des Document AI-Python-Clients konfigurieren

Installieren Sie nun die Python-Google Cloud-Clientbibliotheken in der VM-Instanz.

Geben Sie in der SSH-Terminal-Shell den folgenden Befehl ein, um die Lab-Dateien in die VM-Instanz zu importieren:

gsutil cp gs://spls/gsp924/synchronous_doc_ai.py .

Geben Sie den folgenden Befehl ein, um die Python-Clientbibliotheken für Document AI und die anderen in diesem Lab erforderlichen Bibliotheken zu installieren:

sudo apt install python3-pip python3 -m pip install --upgrade google-cloud-documentai google-cloud-storage prettytable

Der Ausgabe sollte sich entnehmen lassen, dass die Bibliotheken installiert wurden.

Python-Code der Document AI API ansehen

Nehmen Sie sich kurz Zeit, um sich den Python-Code in der Beispieldatei anzusehen. Sie können einen Editor Ihrer Wahl verwenden, z. B. vi oder nano, um den Code in der SSH-Sitzung zu öffnen. Alternativ können Sie den Befehl aus dem vorherigen Abschnitt verwenden, um den Beispielcode in die Cloud Shell zu kopieren und sich den Quellcode mit dem Code-Editor anzusehen.

Die ersten beiden Codeblöcke importieren die erforderlichen Bibliotheken und parsen Parameter, um Variablen zu initialisieren, die den Document AI-Prozessor und die Eingabedaten identifizieren.

import argparse from google.cloud import documentai_v1beta3 as documentai from google.cloud import storage from prettytable import PrettyTable parser = argparse.ArgumentParser() parser.add_argument("-P", "--project_id", help="Google Cloud Project ID") parser.add_argument("-D", "--processor_id", help="Document AI Processor ID") parser.add_argument("-F", "--file_name", help="Input file name", default="form.pdf") parser.add_argument("-L", "--location", help="Processor Location", default="us") args = parser.parse_args()

Die Funktion process_document wird verwendet, um einen synchronen Aufruf an einen Document AI-Prozessor zu senden. Durch die Funktion wird ein Document AI API-Clientobjekt erstellt.

Der für den API-Aufruf erforderliche Prozessorname wird mithilfe der Parameter project_id, location und processor_id erstellt. Das zu verarbeitende Dokument wird in eine mime_type-Struktur eingelesen und darin gespeichert.

Der Prozessorname und das Dokument werden dann an das Document API-Clientobjekt übergeben und es wird ein synchroner Aufruf an die API gesendet. Wenn die Anfrage erfolgreich ist, enthält das zurückgegebene Dokumentobjekt Attribute, die die vom Document AI-Prozessor erkannten Daten beinhalten.

def process_document(project_id, location, processor_id, file_path ): # Instantiates a client client = documentai.DocumentProcessorServiceClient() # The full resource name of the processor, e.g.: # projects/project-id/locations/location/processor/processor-id # You must create new processors in the Cloud Console first name = f"projects/{project_id}/locations/{location}/processors/{processor_id}" # Read the file into memory with open(file_path, "rb") as image: image_content = image.read() # Create the document object document = {"content": image_content, "mime_type": "application/pdf"} # Configure the process request request = {"name": name, "document": document} # Use the Document AI client synchronous endpoint to process the request result = client.process_document(request=request) return result.document

Das Script ruft dann die Funktion process_document mit den erforderlichen Parametern auf und speichert die Antwort in der Variablen document.

document = process_document(args.project_id,args.location,args.processor_id,args.file_name )

Der letzte Codeblock gibt das Attribut .text aus, das den gesamten im Dokument erkannten Text enthält, und zeigt dann die Formularinformationen mithilfe der Textankerdaten für jedes der vom Formularparser erkannten Formularfelder an.

print("Document processing complete.") # print the raw text print("Text: \n{}\n".format(document.text)) # Define a function to retrieve an object dictionary for a named element def get_text(doc_element: dict, document: dict): """ Document AI identifies form fields by their offsets in document text. This function converts offsets to text snippets. """ response = "" # If a text segment spans several lines, it will # be stored in different text segments. for segment in doc_element.text_anchor.text_segments: start_index = ( int(segment.start_index) if segment in doc_element.text_anchor.text_segments else 0 ) end_index = int(segment.end_index) response += document.text[start_index:end_index] return response # Grab each key/value pair and their corresponding confidence scores. document_pages = document.pages print("Form data detected:\n") # For each page fetch each form field and display fieldname, value and confidence scores for page in document_pages: print("Page Number:{}".format(page.page_number)) for form_field in page.form_fields: fieldName=get_text(form_field.field_name,document) nameConfidence = round(form_field.field_name.confidence,4) fieldValue = get_text(form_field.field_value,document) valueConfidence = round(form_field.field_value.confidence,4) print(fieldName+fieldValue +" (Confidence Scores: (Name) "+str(nameConfidence)+", (Value) "+str(valueConfidence)+")\n")

Klicken Sie auf Fortschritt prüfen.

Document AI-Formularprozessor testen

Aufgabe 6: Document AI-Python-Code ausführen

Führen Sie den Beispielcode aus und verarbeiten Sie dieselbe Datei wie zuvor.

Erstellen Sie Umgebungsvariablen für die Projekt-ID und die Datei mit den Anmeldedaten des IAM-Dienstkontos:

export PROJECT_ID=$(gcloud config get-value core/project) export GOOGLE_APPLICATION_CREDENTIALS="$PWD/key.json"

Rufen Sie das Python-Programm synchronous_doc_ai.py mit den erforderlichen Parametern auf:

python3 synchronous_doc_ai.py \ --project_id=$PROJECT_ID \ --processor_id=$PROCESSOR_ID \ --location=us \ --file_name=health-intake-form.pdf | tee results.txt

Es wird der folgende Textblock ausgegeben: FakeDoc M.D. HEALTH INTAKE FORM Please fill out the questionnaire carefully. The information you provide will be used to complete your health profile and will be kept confidential. Date: Sally Walker Name: 9/14/19 ...

Der erste Textblock ist ein einzelnes Textelement, das den gesamten Text des Dokuments enthält. Dieser Textblock berücksichtigt nicht die Formularstruktur, sodass einige Elemente wie die Einträge Date und Name in diesem Rohtextwert nicht getrennt sind.

Der Code gibt dann eine strukturiertere Ansicht der Daten aus, wobei die Formulardaten verwendet werden, die der form-parser aus der Dokumentstruktur abgeleitet hat. Diese strukturierte Ausgabe enthält auch den Konfidenzwert für die Namen und Werte der Formularfelder. Die Ausgabe dieses Abschnitts liefert eine viel nützlichere Zuordnung zwischen den Namen der Formularfelder und den Werten, wie man an der Verknüpfung zwischen den Formularfeldern Date und Name und ihren korrekten Werten sehen kann.

Form data detected: Page Number:1 Phone #: (906) 917-3486 (Confidence Scores: (Name) 1.0, (Value) 1.0) ... Date: 9/14/19 (Confidence Scores: (Name) 0.9999, (Value) 0.9999) ... Name: Sally Walker (Confidence Scores: (Name) 0.9973, (Value) 0.9973) ...

Klicken Sie auf Fortschritt prüfen.

Document AI-Python-Code ausführen

Glückwunsch!

Sie haben mit der Document AI API unter Verwendung eines allgemeinen Formularprozessors erfolgreich Daten aus Dokumenten mit extrahiert. In diesem Lab haben Sie über die Console und die Befehlszeile einen Document AI-Prozessor erstellt und getestet und mit Python synchrone Document AI API-Aufrufe durchgeführt.

Weitere Informationen

Weitere Informationen finden Sie in der Dokumentation zur Cloud Document AI API.

Google Cloud-Schulungen und -Zertifizierungen

In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.

Anleitung zuletzt am 17. April 2024 aktualisiert

Lab zuletzt am 7. Dezember 2023 getestet

© 2026 Google LLC. Alle Rechte vorbehalten. Google und das Google-Logo sind Marken von Google LLC. Alle anderen Unternehmens- und Produktnamen können Marken der jeweils mit ihnen verbundenen Unternehmen sein.

Document AI-Prozessor erstellen und testen

GSP924

Übersicht

Lerninhalte

Einrichtung und Anforderungen

Vor dem Klick auf „Start Lab“ (Lab starten)

Lab starten und bei der Google Cloud Console anmelden

Cloud Shell aktivieren

Aufgabe 1: Cloud Document AI API aktivieren

Cloud Document AI API aktivieren

Aufgabe 2: Allgemeinen Formularprozessor erstellen und testen

Prozessor erstellen

Beispielformular herunterladen

Formular für die Verarbeitung mit Document AI hochladen

Aufgabe 3: Lab-Instanz einrichten

Stellen Sie eine SSH-Verbindung zur Lab-VM-Instanz her.

API-Anfragen authentifizieren

Beispielformular auf die VM-Instanz herunterladen

Aufgabe 4: Anfrage zur synchronen Dokumentverarbeitung mit curl stellen

Formularentitäten extrahieren

Aufgabe 5: Document AI-Formularprozessor mit Python-Clientbibliotheken testen

VM-Instanz für die Verwendung des Document AI-Python-Clients konfigurieren

Python-Code der Document AI API ansehen

Aufgabe 6: Document AI-Python-Code ausführen

Glückwunsch!

Weitere Informationen

Google Cloud-Schulungen und -Zertifizierungen

Vorbereitung

Privates Surfen verwenden

In der Konsole anmelden

Privates Surfen für das Lab verwenden