실습 설정 안내 및 요구사항
계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

Document AI로 데이터 캡처 자동화하기: 챌린지 실습

실습 20분 universal_currency_alt 크레딧 5개 show_chart 중급
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
이 콘텐츠는 아직 휴대기기에 최적화되지 않음
최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

GSP367

Google Cloud 사용자 주도형 실습 로고

개요

챌린지 실습에서는 특정 시나리오와 일련의 작업이 주어집니다. 단계별 안내를 따르는 대신, 과정의 실습에서 배운 기술을 사용하여 스스로 작업을 완료하는 방법을 알아내 보세요. 이 페이지에 표시되어 있는 자동 채점 시스템에서 작업을 올바르게 완료했는지 피드백을 제공합니다.

챌린지 실습을 진행할 때는 새로운 Google Cloud 개념에 대한 정보가 제공되지 않습니다. 학습한 기술을 응용하여 기본값을 변경하거나 오류 메시지를 읽고 조사하여 실수를 바로잡아야 합니다.

100점을 받으려면 시간 내에 모든 작업을 성공적으로 완료해야 합니다.

이 실습은 Document AI로 데이터 캡처 자동화하기 기술 배지 과정에 등록한 학습자에게 권장됩니다. 챌린지에 도전할 준비가 되셨나요?

챌린지 시나리오

여러분은 대규모 인프라 관리 회사의 데이터 엔지니어이며, 회사의 재무 부서와 함께 내부 프로젝트를 진행하게 되었습니다. 회사는 점점 늘어나는 엄청난 양의 문서를 처리해야 하며, 이러한 문서는 모두 개별적인 검증과 승인이 필요하기 때문에 인력과 비용이 많이 듭니다. 이 회사는 Google Cloud 도구를 활용하여 문서를 효율적이고 노동력이 많이 들지 않는 방식으로 수집, 분류, 검증 프로세스를 자동화할 계획입니다.

챌린지

Cloud Storage에 업로드된 문서를 자동으로 처리하는 문서 처리 파이프라인을 만들어야 합니다. 이 파이프라인은 Document AI 양식 프로세서로 새 파일을 처리하여 문서에서 데이터를 추출하는 기본 Cloud Run Functions로 이루어집니다. 그런 다음 이 함수는 파일에서 감지된 양식 데이터를 BigQuery에 저장합니다.

처리 과정을 수행할 Cloud Run Functions의 소스 코드가 제공되며, 아래 아키텍처에 표시된 대로 문서 처리 파이프라인을 배포하고 구체적인 파이프라인에 맞춰 구성요소를 올바르게 구성해야 합니다.

Document AI 챌린지 실습 솔루션 아키텍처

작업 1. Cloud Document AI API 사용 설정 및 실습 소스 파일 복사

이 작업에서는 Cloud Document AI API를 사용 설정하고 시작 파일을 Cloud Shell에 복사합니다.

Cloud Document AI API 사용 설정

  • Cloud Document AI API를 사용 설정합니다.
Cloud Document AI API 사용 설정

Cloud Shell에 실습 소스 파일 복사

코드가 사전 정의된 Cloud Run Functions는 원격 Cloud Storage 버킷에 호스팅됩니다. 이 소스 파일을 Cloud Shell에 복사합니다. 이러한 파일에는 Cloud Run Functions의 소스 코드와 실습에서 만들 BigQuery 테이블의 스키마가 포함되어 있습니다.

  • Cloud Shell에 다음 명령어를 입력하여 실습용 소스 저장소를 클론합니다.
mkdir ./document-ai-challenge gsutil -m cp -r gs://spls/gsp367/* \ ~/document-ai-challenge/

작업 2. 양식 프로세서 만들기

일반(비전문) 섹션에서 Document AI 양식 파서 프로세서를 사용하여 일반 양식 프로세서의 인스턴스를 만듭니다. 일반적인 양식 프로세서는 어떤 유형의 문서도 처리 가능하며, 문서 내에서 식별할 수 있는 모든 텍스트 콘텐츠와 레이아웃에서 추론한 양식 정보를 추출합니다.

  • 다음 구성 세부정보를 사용하여 프로세서를 만듭니다.
속성
프로세서 유형 양식 파서
프로세서 이름
리전 미국
참고: 이 실습의 뒷부분에서 Cloud Run Functions가 이 특정 프로세서를 사용하여 인보이스를 처리하도록 이 프로세서의 PROCESSOR IDPARSER LOCATION을 사용하여 Cloud Run Functions를 구성합니다. 생성된 프로세서를 클릭하고 PROCESSOR ID를 기록해 두세요. 하지만 프로세서 리전은 PARSER LOCATION입니다. 양식 프로세서 만들기

작업 3. Google Cloud 리소스 만들기

문서 처리 파이프라인에 필요한 Google Cloud Storage 및 BigQuery 리소스를 만들어 환경을 준비합니다.

입력, 출력, 보관 Cloud Storage 버킷 만들기

  • 이 단계에서는 균일한 버킷 수준 액세스가 사용 설정된 아래의 3가지 Cloud Storage 버킷을 만들어야 합니다.
버킷 이름 목적 스토리지 클래스 위치
입력 인보이스용 Standard
처리된 데이터 저장용 Standard
인보이스 보관용 Standard
참고: gsutil 도구와 -mb 파라미터를 스토리지 클래스를 설정하는 -c 파라미터, (리전) 위치를 설정하는 -l 파라미터, on 또는 off 값으로 균일한 버킷 수준 액세스를 설정하는 -b 플래그를 함께 사용하여 버킷을 만들 수 있습니다. gsutil을 사용하여 버킷을 만드는 방법을 자세히 알아보려면 mb - 버킷 참조 만들기를 읽어보세요.

BigQuery 데이터 세트와 테이블 만들기

  • 이 단계에서는 데이터 처리 파이프라인에 필요한 BigQuery 데이터 세트와 출력 테이블을 만들어야 합니다.

데이터 세트

데이터 세트 이름 위치
invoice_parser_results 미국
참고: bq mk를 사용하여 BigQuery 리소스를 만듭니다. 명령줄 스위치 파라미터 -d는 데이터 세트를 만드는 데 사용되고 --location은 리소스의 위치를 설정하는 데 사용됩니다. bq 명령줄 도구를 사용하여 데이터 세트를 만드는 방법을 자세히 알아보려면 데이터 세트 만들기 가이드를 참고하세요.

테이블

추출된 정보의 테이블 스키마는 JSON 파일(document-ai-challenge/scripts/table-schema/doc_ai_extracted_entities.json)에 제공되어 있습니다. 이 스키마를 사용하여 invoice_parser_results 데이터 세트에 doc_ai_extracted_entities라는 이름의 테이블을 만듭니다.

참고: bq mk를 사용하여 BigQuery 리소스를 만듭니다. --table 명령줄 스위치는 테이블을 만드는 데 사용됩니다. bq 명령줄 도구를 사용하여 스키마 정의로 테이블을 만드는 방법을 자세히 알아보려면 테이블 만들기 및 사용 가이드를 참고하세요.

Cloud 콘솔에서 BigQuery로 이동하고 BigQuery SQL 작업공간을 사용하여 invoice_parser_results 데이터 세트의 테이블 스키마를 검사할 수 있습니다.

Google Cloud 리소스 만들기

작업 4. 문서 처리 Cloud Run Functions 배포

이 작업을 완료하려면 데이터 처리 파이프라인에서 Cloud Storage에 업로드된 인보이스를 처리하는 데 사용할 Cloud Run Functions를 배포해야 합니다. 이 함수는 Document AI API 일반 양식 프로세서를 사용하여 원시 문서에서 양식 데이터를 추출합니다.

코드 편집기 또는 원하는 다른 편집기를 사용하여 Cloud Run Functions의 소스 코드를 검사할 수 있습니다. Cloud Run Functions는 Cloud Shell의 다음 폴더에 저장됩니다.

  • Process Invoices - scripts/cloud-functions/process-invoices

Cloud Run Functions인 process-invoices는 파일이 이전에 만든 입력 파일 스토리지 버킷에 업로드될 때 트리거되어야 합니다.

Cloud Run Functions를 배포하여 Cloud Storage에 업로드된 문서 처리

Document AI 양식 프로세서를 사용하여 Cloud Storage 버킷에 업로드된 양식 문서를 파싱하는 Cloud Run Functions를 배포합니다.

  1. scripts 디렉터리로 이동합니다.
cd ~/document-ai-challenge/scripts
  1. Artifact Registry 리더 역할을 Compute Engine 서비스 계정에 할당합니다.
PROJECT_ID=$(gcloud config get-value project) PROJECT_NUMBER=$(gcloud projects list --filter="project_id:$PROJECT_ID" --format='value(project_number)') SERVICE_ACCOUNT=$(gcloud storage service-agent --project=$PROJECT_ID) gcloud projects add-iam-policy-binding $PROJECT_ID \ --member serviceAccount:$SERVICE_ACCOUNT \ --role roles/pubsub.publisher
  1. Cloud Run Functions를 배포합니다.
export CLOUD_FUNCTION_LOCATION={{{ project_0.default_region | "REGION" }}} gcloud functions deploy process-invoices \ --gen2 \ --region=${CLOUD_FUNCTION_LOCATION} \ --entry-point=process_invoice \ --runtime=python313 \ --service-account=${PROJECT_ID}@appspot.gserviceaccount.com \ --source=cloud-functions/process-invoices \ --timeout=400 \ --env-vars-file=cloud-functions/process-invoices/.env.yaml \ --trigger-resource=gs://${PROJECT_ID}-input-invoices \ --trigger-event=google.storage.object.finalize\ --service-account $PROJECT_NUMBER-compute@developer.gserviceaccount.com \ --allow-unauthenticated 참고: 함수를 배포하는 동안 권한 오류가 발생하면 2~3분 정도 기다렸다가 명령어를 다시 실행하세요.

Cloud Run Functions 소스 코드를 살펴보면 함수가 두 개의 런타임 환경 변수를 통해 Document AI 프로세서 세부정보를 가져오는 것을 확인할 수 있습니다.

  • 이전 단계에서 배포한 Form Parser 프로세서에 대해 환경 변수 PROCESSOR_IDPARSER_LOCATION에 올바른 값이 포함되도록 Cloud Run Functions 배포를 재구성해야 합니다.
  • PARSER_LOCATION 값은 소문자여야 합니다.
  • PROJECT_ID 환경 변수를 프로젝트 ID로 업데이트해야 합니다.

함수가 완전히 재배포될 때까지 기다립니다.

문서 처리 Cloud Run Functions 배포

작업 5. 엔드 투 엔드 솔루션 테스트 및 검증

마지막 작업으로 파이프라인을 사용하여 ~/document-ai-challenge/invoices 폴더에서 제공되는 인보이스 세트를 성공적으로 처리해야 합니다.

  1. 이러한 인보이스를 입력 Cloud Storage 버킷에 업로드하고 파이프라인의 진행 상황을 모니터링합니다.

  2. 함수 실행이 OK 상태로 완료되었음을 나타내는 최종 이벤트가 표시될 때까지 이벤트를 지켜봅니다.

파이프라인이 문서를 완전히 처리하면 Document AI 프로세서가 인보이스에서 추출한 양식 정보가 BigQuery 테이블에 기록된 것을 확인할 수 있습니다.

참고: 진행 상황을 모니터링하려면 Cloud Run Functions의 관리 섹션에서 로그를 클릭하여 로그를 확인합니다. 참고: 이 실습에서는 문서 처리에 큰 영향을 미치지 않는 일부 오류(특히 시간 초과)가 발생할 수 있습니다. 데이터가 BigQuery에 기록된 것으로 보고되지 않으면 Cloud Run 콘솔의 변수 및 보안 비밀 탭에 설정된 파라미터가 올바른지 다시 확인하고 다시 시도하세요.

특히 설정한 프로세서 ID와 위치 변수가 유효한지 확인해야 하며, 위치 파라미터는 반드시 소문자여야 합니다. 이벤트 목록은 자동으로 새로고침되지 않습니다.
파이프라인에서 처리된 데이터 검증

수고하셨습니다

수고하셨습니다. 이 실습에서 Document AI API를 사용하여 Cloud Storage에 업로드된 문서를 자동으로 처리하는 문서 처리 파이프라인을 성공적으로 만들었습니다. 양식 프로세서를 만들고, 문서를 처리하는 Cloud Run Functions를 배포하고, 인보이스 세트를 처리하여 엔드 투 엔드 솔루션을 검증했습니다.

Document AI로 데이터 캡처 자동화하기 과정 배지

Google Cloud 교육 및 자격증

Google Cloud 기술을 최대한 활용하는 데 도움이 됩니다. Google 강의에는 빠른 습득과 지속적인 학습을 지원하는 기술적인 지식과 권장사항이 포함되어 있습니다. 기초에서 고급까지 수준별 학습을 제공하며 바쁜 일정에 알맞은 주문형, 실시간, 가상 옵션이 포함되어 있습니다. 인증은 Google Cloud 기술에 대한 역량과 전문성을 검증하고 입증하는 데 도움이 됩니다.

설명서 최종 업데이트: 2025년 11월 14일

실습 최종 테스트: 2025년 11월 14일

Copyright 2026 Google LLC. All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

시크릿 브라우징 사용

  1. 실습에 입력한 사용자 이름비밀번호를 복사합니다.
  2. 비공개 모드에서 콘솔 열기를 클릭합니다.

콘솔에 로그인

    실습 사용자 인증 정보를 사용하여
  1. 로그인합니다. 다른 사용자 인증 정보를 사용하면 오류가 발생하거나 요금이 부과될 수 있습니다.
  2. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
  3. 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 이 버튼을 클릭하면 작업 내용이 지워지고 프로젝트가 삭제됩니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하는 가장 좋은 방법은 시크릿 모드 또는 시크릿 브라우저 창을 사용하는 것입니다. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.