실습 설정 안내 및 요구사항

계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

Cloud Data Fusion에서 일괄 파이프라인 빌드

실습 1시간 30분 universal_currency_alt 크레딧 5개 show_chart 입문

info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.

GSP807
개요
설정 및 요건
작업 1. 데이터 로드
작업 2. Cloud Data Fusion 인스턴스에 필요한 권한 추가
작업 3. 일괄 파이프라인 빌드
작업 4. Pipeline Studio 살펴보기
작업 5. 파이프라인 구성
작업 6. 파이프라인 테스트
작업 7. 결과 보기
수고하셨습니다

이 콘텐츠는 아직 휴대기기에 최적화되지 않음

최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

GSP807

Google Cloud 사용자 주도형 실습 로고

개요

ETL은 추출(Extract), 변환(Transform), 로드(Load)를 나타냅니다. EL, ELT, ELTL 등 이 개념의 다양한 변형이 있습니다.

이 실습에서는 Cloud Data Fusion의 Pipeline Studio를 사용하여 ETL 파이프라인을 빌드하는 방법을 배웁니다. Pipeline Studio는 구성요소와 기본 제공 플러그인을 노출하여 일괄 파이프라인을 한 번에 하나의 노드로 빌드할 수 있도록 합니다. 또한 Wrangler 플러그인을 사용하여 파이프라인을 통과하는 데이터에 변환을 빌드하고 적용합니다.

ETL 애플리케이션의 가장 일반적인 데이터 소스는 일반적으로 쉼표로 구분된 값(CSV) 형식의 텍스트 파일에 저장된 데이터입니다. 많은 데이터베이스 시스템이 이러한 방식으로 데이터를 내보내고 가져옵니다. 이 실습에서는 CSV 파일을 사용하지만 동일한 기법을 DB 소스뿐만 아니라 사용 가능한 다른 데이터 소스에도 적용할 수 있습니다.

출력은 BigQuery 테이블에 작성되며 표준 SQL을 사용하여 이 타겟 데이터 세트에 대해 데이터 분석을 수행합니다.

목표

이 실습에서는 다음 작업을 수행하는 방법을 배웁니다.

Cloud Data Fusion의 Pipeline Studio를 사용하여 일괄 파이프라인을 만듭니다.
Wrangler를 사용하여 대화형으로 데이터를 변환합니다.
BigQuery에 출력을 작성합니다.

설정 및 요건

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

시크릿 창을 사용해 Google Cloud Skills Boost에 로그인합니다.
실습 사용 가능 시간(예: 02:00:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
참고: 실습 시작을 클릭하고 나면 실습에서 필요한 리소스를 프로비저닝하고 Data Fusion 인스턴스를 만드는 데 약 15~20분이 걸립니다. 이 시간 동안 아래의 단계를 읽으면서 실습 목표를 숙지하세요.
왼쪽 패널에 실습 사용자 인증 정보(사용자 이름 및 비밀번호)가 보이면 인스턴스가 생성된 것이므로 콘솔에 계속 로그인할 수 있습니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud 콘솔에 로그인할 때 이 정보를 사용해야 합니다.
Google 콘솔 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

참고: 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 클릭하면 작업이 지워지고 프로젝트가 삭제됩니다.

Google Cloud 콘솔에 로그인

이 실습 세션에 사용하는 브라우저 탭 또는 창을 활용해 연결 세부정보 패널에서 사용자 이름을 복사하고 Google 콘솔 열기 버튼을 클릭합니다.

참고: 계정을 선택하라는 메시지가 표시되면 다른 계정 사용을 클릭합니다.

안내에 따라 사용자 이름과 비밀번호를 붙여넣습니다.
다음을 클릭합니다.
이용약관에 동의합니다.

임시 계정이므로 이 실습이 진행되는 동안만 계정이 유지됩니다.

복구 옵션을 추가하지 않습니다.
무료 체험판을 신청하지 않습니다.

콘솔이 열리면 왼쪽 상단의 탐색 메뉴()를 클릭해 서비스 목록을 확인합니다.

탐색 메뉴

Cloud Shell 활성화

Cloud Shell은 여러 개발 도구가 포함된 가상 머신입니다. 5GB의 영구적인 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다. Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다. gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 탭 자동 완성을 지원합니다.

Google Cloud Console의 탐색창에서 Cloud Shell 활성화()를 클릭합니다.
계속을 클릭합니다.
환경을 프로비저닝하고 연결하는 데는 몇 분 정도 소요됩니다. 연결되면 사용자 인증도 처리되어 프로젝트가 PROJECT_ID로 설정됩니다. 예를 들면 다음과 같습니다.

Cloud Shell 터미널

샘플 명령어

활성 계정 이름을 나열합니다.

gcloud auth list

(출력)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(출력 예시)

Credentialed accounts: - google1623327_student@qwiklabs.net

프로젝트 ID를 나열합니다.

gcloud config list project

(출력)

[core] project = <project_ID>

(출력 예시)

[core] project = qwiklabs-gcp-44776a13dea667a6

gcloud 전체 문서는 gcloud 명령줄 도구 개요를 참조하세요.

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 클릭합니다.
기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요에서 확인할 수 있습니다.

기본 컴퓨팅 서비스 계정

계정이 IAM에 없거나 editor 역할이 없는 경우 아래의 단계에 따라 필요한 역할을 할당합니다.

Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요를 클릭합니다.
프로젝트 정보 카드에서 프로젝트 번호를 복사합니다.
탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.
IAM 페이지 상단에서 추가를 클릭합니다.
새 주 구성원 필드에 다음을 입력합니다.

{project-number}-compute@developer.gserviceaccount.com

{project-number}는 프로젝트 번호로 바꿉니다.

역할 선택에서 기본 (또는 프로젝트) > 편집자를 선택합니다.
저장을 클릭합니다.

작업 1. 데이터 로드

다음으로 프로젝트에서 GCS 버킷을 만들고 CSV 파일을 스테이징합니다. Cloud Data Fusion은 나중에 이 스토리지 버킷에서 데이터를 읽습니다.

Cloud Shell에서 다음 명령어를 실행하여 새 버킷을 만들고 관련 데이터를 버킷에 복사합니다.

export BUCKET=$GOOGLE_CLOUD_PROJECT gcloud storage buckets create gs://$BUCKET

생성된 버킷의 이름은 프로젝트 ID입니다.

아래 명령어를 실행하여 데이터 파일(CSV 및 XML 파일)을 버킷에 복사합니다.

gsutil cp gs://cloud-training/OCBL163/titanic.csv gs://$BUCKET

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 데이터 로드

작업 2. Cloud Data Fusion 인스턴스에 필요한 권한 추가

이제 다음 단계를 사용하여 인스턴스와 연결된 서비스 계정에 권한을 부여합니다.

Cloud 콘솔의 탐색 메뉴에서 모든 제품 보기를 클릭하고 Data Fusion > 인스턴스를 선택합니다. Cloud Data Fusion 인스턴스가 이미 설정되어 있고 사용할 준비가 된 것을 확인할 수 있습니다.

참고: 인스턴스를 만드는 데 10분 정도 걸립니다. 준비될 때까지 기다려 주세요.

Google Cloud 콘솔에서 IAM 및 관리자 > IAM으로 이동합니다.
Compute Engine 기본 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있는지 확인하고 서비스 계정을 클립보드에 복사합니다.
IAM 권한 페이지에서 +액세스 권한 부여를 클릭합니다.
새 주 구성원 필드에 서비스 계정을 붙여넣습니다.
역할 선택 필드를 클릭하고 Cloud Data Fusion API 서비스 에이전트를 입력한 다음 선택합니다.
다른 역할 추가를 클릭합니다.
Dataproc Administrator 역할을 추가합니다.
저장을 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 서비스 계정에 Cloud Data Fusion API 서비스 에이전트 역할 추가

서비스 계정 사용자 권한 부여

콘솔의 탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.
Google 제공 역할 부여 포함 체크박스를 선택합니다.
목록을 아래로 스크롤하여 service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com과 같은 Google 관리 Cloud Data Fusion 서비스 계정을 찾은 후 서비스 계정 이름을 클립보드에 복사합니다.

Google 관리 Cloud Data Fusion 서비스 계정 목록

다음으로 IAM 및 관리자 > 서비스 계정으로 이동합니다.
{project-number}-compute@developer.gserviceaccount.com과 같은 기본 Compute Engine 계정을 클릭하고 상단 탐색 메뉴에서 액세스 권한이 있는 주 구성원 탭을 선택합니다.
액세스 권한 부여 버튼을 클릭합니다.
새 주 구성원 필드에 앞서 복사한 서비스 계정을 붙여넣습니다.
역할 드롭다운 메뉴에서 서비스 계정 사용자를 선택합니다.
저장을 클릭합니다.

작업 3. 일괄 파이프라인 빌드

데이터로 작업할 때는 변환의 시작점으로 사용할 수 있도록 원시 데이터가 어떤 모습인지 확인할 수 있으면 항상 편리합니다. 이를 위해 Data Fusion의 Wrangler 구성요소를 사용하여 데이터를 준비하고 정리합니다. 이러한 데이터 중심 접근방식을 통해 변환을 빠르게 시각화할 수 있으며 실시간 피드백을 통해 올바른 방향으로 진행되고 있는지 확인할 수 있습니다.

콘솔에서 탐색 메뉴 > Data Fusion > 인스턴스로 돌아간 다음 Data Fusion 인스턴스 옆에 있는 인스턴스 보기 링크를 클릭합니다. 실습 사용자 인증 정보를 선택하여 로그인합니다. 서비스를 둘러볼지 묻는 메시지가 나타나면 아니요를 클릭합니다. 이제 Cloud Data Fusion UI가 나타날 것입니다.

Data Fusion 인스턴스 보기 메뉴 선택

Cloud Data Fusion 웹 UI에는 필요한 페이지로 이동할 수 있는 자체 탐색 패널(왼쪽)이 있습니다. Cloud Data UI에서 왼쪽 상단의 탐색 메뉴를 클릭하여 탐색 패널을 표시한 다음 Wrangler를 선택합니다.
왼쪽에 Cloud Storage 연결을 포함하여 데이터에 대한 사전 구성된 연결이 있는 패널이 표시됩니다. (GCS) Google Cloud Storage에서 Cloud Storage 기본값을 선택합니다.
프로젝트 이름에 해당하는 버킷을 클릭합니다.
titanic.csv를 클릭합니다.
표시되는 파싱 옵션 대화상자의 형식 드롭다운 목록에서 텍스트를 선택합니다.
그런 다음 확인을 클릭합니다.

파싱 옵션 대화상자

데이터가 Wrangler 화면에 로드됩니다. 이제 데이터 변환을 반복적으로 적용할 수 있습니다.

첫 번째 작업은 원시 CSV 데이터를 행과 열로 분할된 테이블 형식으로 파싱하는 것입니다. 이렇게 하려면 첫 번째 열 제목(body)에서 드롭다운 아이콘을 선택하고 파싱 메뉴 항목과 하위 메뉴에서 CSV를 선택합니다.
원시 데이터에서 첫 번째 행이 열 제목으로 구성되어 있으므로 표시되는 CSV로 파싱 대화상자에서 첫 번째 행을 헤더로 설정 옵션을 선택합니다.
그런 다음 적용을 클릭합니다.

CSV로 파싱 대화상자

참고: 첫 번째 행을 헤더로 설정 체크박스 옆에 있는 지원 중단 경고는 무시해도 됩니다.

이 단계에서는 원시 데이터가 파싱되며 해당 작업으로 생성된 열(body 열의 오른쪽 열)을 볼 수 있습니다. 맨 오른쪽에는 모든 열 이름의 목록이 표시됩니다.

Cloud Data Fusion Wrangler UI

이제 정리할 시간입니다. 원시 CSV 데이터를 나타내는 body 열은 더 이상 필요하지 않으므로 메뉴 옵션을 사용하여 삭제합니다. 첫 번째 열 제목 body에서 드롭다운 아이콘을 선택하고 열 삭제 메뉴 항목을 선택합니다.

열 삭제 메뉴 선택

참고: 명령줄 인터페이스(CLI)를 사용하여 변환을 적용할 수도 있습니다. CLI는 화면 하단에 있는 검은색 막대입니다(녹색 $ 프롬프트 포함). 명령어를 입력하기 시작하면 자동 완성 기능이 작동하여 일치하는 옵션을 제시합니다. 예를 들어 body 열을 삭제하려면 drop :body 지시문을 사용할 수도 있습니다.

CLI drop body 열 문법

Wrangler UI의 맨 오른쪽에 있는 변환 단계 탭을 클릭합니다. 지금까지 적용한 두 가지 변환이 표시됩니다.

Titanic.csv drop :body 열

참고: 메뉴 선택과 CLI 모두 화면 오른쪽에 있는 변환 단계 탭에서 볼 수 있는 지시문을 생성합니다. 지시문은 개별 변환으로, 이를 통칭하여 레시피라고 합니다.

이 실습의 목적에 맞게 두 가지 변환 또는 레시피로 ETL 파이프라인을 만들 수 있습니다. 다음 단계는 이 레시피를 파이프라인 빌드 단계로 가져오는 것입니다. 여기서 레시피는 ETL의 T를 나타냅니다.

파이프라인 만들기 버튼을 클릭하여 다음 섹션으로 이동하여 파이프라인을 만듭니다. 여기에서 ETL 파이프라인이 어떻게 구성되는지 확인할 수 있습니다.
다음 대화상자가 표시되면 일괄 파이프라인을 선택하여 계속합니다.

일괄 파이프라인 선택

참고: 일괄 파이프라인은 대화형으로 실행하거나 5분마다 또는 1년에 한 번 등 원하는 빈도로 실행되도록 예약할 수 있습니다.

작업 4. Pipeline Studio 살펴보기

나머지 파이프라인 빌드 작업은 데이터 파이프라인을 시각적으로 구성할 수 있는 UI인 Pipeline Studio에서 진행됩니다. 이제 스튜디오에서 ETL 파이프라인의 기본 구성요소를 확인할 수 있습니다.

이 시점에서 파이프라인에 두 개의 노드가 표시됩니다. 하나는 Google Cloud Storage에서 CSV 파일을 읽는 GCS 파일 플러그인이고 다른 하나는 변환이 포함된 레시피가 있는 Wrangler 플러그인입니다.

참고: 파이프라인의 노드는 순서대로 연결되어 방향성 비순환 그래프를 생성하는 객체입니다. 예: 소스, 싱크, 변환, 작업 등

이 두 플러그인(노드)은 ETL 파이프라인에서 E와 T를 나타냅니다. 이 파이프라인을 완료하려면 ETL의 L 부분인 BigQuery 싱크를 추가합니다.

파이프라인 아키텍처 다이어그램

BigQuery 싱크를 파이프라인에 추가하려면 왼쪽 패널의 싱크 섹션으로 이동한 다음 BigQuery 아이콘을 클릭하여 캔버스에 배치합니다.

BigQuery 싱크 섹션

BigQuery 싱크가 캔버스에 배치되면 Wrangler 노드를 BigQuery 노드에 연결합니다. 아래 그림과 같이 Wrangler 노드에서 BigQuery 노드로 화살표를 드래그하여 연결합니다. 이제 원하는 데이터 세트에 데이터를 쓸 수 있도록 몇 가지 구성 옵션을 지정하기만 하면 됩니다.

작업 5. 파이프라인 구성

이제 파이프라인을 구성할 차례입니다. 각 노드의 속성을 열어 설정을 확인하거나 추가 변경을 수행하면 됩니다.

GCS 노드 위로 마우스를 가져가면 속성 버튼이 표시됩니다. 이 버튼을 클릭하여 구성 설정을 엽니다.

GCS 노드 속성 대화상자

각 플러그인에는 반드시 있어야 하는 몇 가지 필수 필드가 있으며, 이 필드는 별표( * )로 표시됩니다. 사용 중인 플러그인에 따라 왼쪽에는 입력 스키마, 가운데에는 구성 섹션, 오른쪽에는 출력 스키마가 표시될 수 있습니다.

싱크 플러그인에는 출력 스키마가 없고 소스 플러그인에는 입력 스키마가 없습니다. 싱크 플러그인과 소스 플러그인 모두 계보의 데이터 소스/싱크를 식별하기 위한 필수 참조 이름 필드가 있습니다.

각 플러그인에는 라벨 필드가 있습니다. 파이프라인이 표시되는 캔버스에 있는 노드의 라벨입니다.

속성 상자의 오른쪽 상단에서 X를 클릭하여 닫습니다.
다음으로 Wrangler 노드 위로 마우스를 가져가 속성을 클릭합니다.

Wrangler 노드 속성 대화상자

참고: 입력 스키마가 포함된 Wrangler와 같은 플러그인. 플러그인에 전달되어 처리되는 필드입니다. 플러그인에서 처리된 후에는 출력 스키마에서 파이프라인의 다음 노드로 전송되거나 싱크의 경우 데이터 세트에 기록될 수 있습니다.

속성 상자의 오른쪽 상단에서 X를 클릭하여 닫습니다.
BigQuery 노드에 마우스를 가져간 다음 속성을 클릭하고 다음 구성 설정을 입력합니다.
- 참조 이름에 Titanic_BQ를 입력합니다.
- 데이터 세트에 demo를 입력합니다.
- 테이블에 titanic을 입력합니다.
속성 상자의 오른쪽 상단에서 X를 클릭하여 닫습니다.

BigQuery 속성 대화상자

작업 6. 파이프라인 테스트

이제 파이프라인이 예상대로 작동하는지 테스트하기만 하면 됩니다. 하지만 그 전에 작업이 손실되지 않도록 초안의 이름을 지정하고 저장해야 합니다.

이제 오른쪽 상단 메뉴에서 저장을 클릭합니다. 이름을 지정하고 파이프라인에 설명을 추가하라는 메시지가 표시됩니다.
- 파이프라인 이름으로 ETL-batch-pipeline을 입력합니다.
- 설명에 ETL pipeline to parse CSV, transform and write output to BigQuery를 입력합니다.
저장을 클릭합니다.
파이프라인을 테스트하려면 미리보기 아이콘을 클릭합니다. 이제 버튼 모음에 실행 아이콘이 표시됩니다. 이 아이콘을 클릭하면 미리보기 모드에서 파이프라인을 실행할 수 있습니다.
실행 아이콘을 클릭합니다. 파이프라인이 미리보기 모드로 실행되는 동안에는 실제로 BigQuery 테이블에 데이터가 기록되지 않지만, 데이터가 올바르게 읽히고 파이프라인이 배포되면 예상대로 기록되는지 확인할 수 있습니다. 미리보기 버튼은 전환 버튼이므로 미리보기를 마쳤으면 버튼을 다시 클릭하여 미리보기 모드를 종료해야 합니다.
파이프라인 실행이 완료되면 Wrangler 노드 위로 마우스를 가져간 다음 속성을 클릭합니다. 그런 다음 미리보기 탭을 클릭합니다. 모든 것이 정상적으로 진행되었다면 입력에서 들어온 원시 데이터, 왼쪽의 노드, 출력으로 내보내져 오른쪽 노드로 전송될 파싱된 레코드가 표시됩니다. 속성 상자의 오른쪽 상단에 있는 X를 클릭하여 닫습니다.

Wrangler 노드 출력

참고: 데이터에 대해 작동하는 각 노드에서 비슷한 출력이 표시됩니다. 파이프라인을 배포하기 전에 작업을 증명하여 올바른 방향으로 작업하고 있는지 확인하는 것이 좋습니다. 오류가 발생하면 초안 모드에서 쉽게 수정할 수 있습니다.

이번에는 미리보기 아이콘을 다시 클릭하여 미리보기 모드를 끕니다.
지금까지 모든 것이 예상한 대로 작동한다면 파이프라인을 배포할 수 있습니다. 오른쪽 상단의 배포 아이콘()을 클릭하여 파이프라인을 배포합니다.

파이프라인이 배포 중이라는 확인 대화상자가 표시됩니다.

파이프라인 배포 확인

파이프라인이 성공적으로 배포되면 이제 ETL 파이프라인을 실행하고 일부 데이터를 BigQuery에 로드할 준비가 된 것입니다.
실행 아이콘을 클릭하여 ETL 작업을 실행합니다.
완료되면 파이프라인 상태가 성공으로 변경되어 파이프라인이 성공적으로 실행되었음을 알려줍니다.
파이프라인에서 데이터가 처리되면 파이프라인의 각 노드에서 처리된 레코드 수를 나타내는 측정항목을 볼 수 있습니다. 파싱 작업에서는 892개의 레코드가 표시되지만 소스에는 893개의 레코드가 있습니다. 무슨 일이 일어난 걸까요? 파싱 작업은 첫 번째 행을 가져와서 열 제목을 설정하는 데 사용했으므로 나머지 892개의 레코드가 처리할 데이터입니다.

파이프라인 CSV 파싱 다이어그램

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 일괄 파이프라인 배포 및 실행

작업 7. 결과 보기

파이프라인은 출력을 BigQuery 테이블에 씁니다. 다음 단계를 통해 이를 확인할 수 있습니다.

새 탭에서 Cloud 콘솔의 BigQuery UI를 열거나 콘솔 탭을 마우스 오른쪽 버튼으로 클릭하고 복제를 선택한 다음 탐색 메뉴를 사용하여 BigQuery를 선택합니다. 메시지가 표시되면 완료를 클릭합니다.
왼쪽 창의 탐색기 섹션에서 Project ID(qwiklabs로 시작됨)를 클릭합니다.
프로젝트의 demo 데이터 세트에서 titanic 테이블을 클릭하고 '+'(SQL 쿼리)를 클릭한 후 다음과 같은 간단한 쿼리를 실행합니다.

SELECT * FROM `demo.titanic` LIMIT 10

쿼리 결과

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 결과 보기

수고하셨습니다

이제 Cloud Data Fusion의 Pipeline Studio에서 제공되는 구성요소를 사용하여 일괄 파이프라인을 빌드하는 방법을 배웠습니다. 또한 Wrangler를 사용하여 데이터의 변환 단계를 만드는 방법도 배웠습니다.

다음 실습 참여하기

Cloud Data Fusion에서 Wrangler를 사용해 변환 빌드 및 데이터 준비를 계속 진행합니다.

설명서 최종 업데이트: 2025년 5월 6일

실습 최종 테스트: 2025년 5월 6일

Cloud Data Fusion에서 일괄 파이프라인 빌드

GSP807

개요

목표

설정 및 요건

Google Cloud 콘솔에 로그인

Cloud Shell 활성화

샘플 명령어

프로젝트 권한 확인

작업 1. 데이터 로드

작업 2. Cloud Data Fusion 인스턴스에 필요한 권한 추가

서비스 계정 사용자 권한 부여

작업 3. 일괄 파이프라인 빌드

작업 4. Pipeline Studio 살펴보기

작업 5. 파이프라인 구성

작업 6. 파이프라인 테스트

작업 7. 결과 보기

수고하셨습니다

다음 실습 참여하기

시작하기 전에

시크릿 브라우징 사용

콘솔에 로그인

시크릿 브라우징을 사용하여 실습 실행하기