시작하기 전에
- 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
- 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
- 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.
Add Cloud Data Fusion API Service Agent role to service account
/ 25
Load the data
/ 25
Ingestion into BigQuery
/ 50
데이터 통합은 결국 데이터 자체를 다루는 작업입니다. 데이터를 다룰 때는 원시 데이터가 어떤 모습인지 확인해 이를 변환의 출발점으로 삼는 것이 좋습니다. Wrangler를 사용하면 데이터를 중심으로 데이터 통합 워크플로를 구성할 수 있습니다.
ETL(추출-변환-로드) 애플리케이션의 가장 일반적인 데이터 소스는 대개 CSV(쉼표로 구분된 값) 형식의 텍스트 파일에 저장된 데이터입니다. 많은 데이터베이스 시스템이 이 방식으로 데이터를 내보내고 가져옵니다. 이 실습에서는 CSV 파일을 사용하지만 여기서 다루는 기법은 데이터베이스 소스뿐 아니라 Cloud Data Fusion에 저장된 다른 데이터 소스에도 적용할 수 있습니다.
이 실습에서는 다음 작업을 수행하는 방법을 알아봅니다.
이 실습의 대부분에서는 Wrangler 플러그인에서 사용하는 Wrangler 변환 단계를 활용합니다. 즉 변환을 한곳에 모아 관리하기 쉬운 블록 단위로 변환 작업을 구성할 수 있습니다. 이 데이터 중심 접근방식은 변환 결과를 빠르게 시각화합니다.
각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.
시크릿 창을 사용하여 Google Skills에 로그인합니다.
실습 사용 가능 시간(예: 02:00:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud 콘솔에 로그인할 때 이 정보를 사용해야 합니다.
Google 콘솔 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
임시 계정이므로 이 실습이 진행되는 동안만 계정이 유지됩니다.
Cloud Shell은 여러 개발 도구가 포함된 가상 머신입니다. 5GB의 영구적인 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다. Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다. gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 탭 자동 완성을 지원합니다.
Google Cloud Console의 탐색창에서 Cloud Shell 활성화()를 클릭합니다.
계속을 클릭합니다.
환경을 프로비저닝하고 연결하는 데는 몇 분 정도 소요됩니다. 연결되면 사용자 인증도 처리되어 프로젝트가 PROJECT_ID로 설정됩니다. 예를 들면 다음과 같습니다.
활성 계정 이름을 나열합니다.
(출력)
(출력 예시)
프로젝트 ID를 나열합니다.
(출력)
(출력 예시)
Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.
Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 클릭합니다.
기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요에서 확인할 수 있습니다.
계정이 IAM에 없거나 editor 역할이 없는 경우 아래의 단계에 따라 필요한 역할을 할당합니다.
Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요를 클릭합니다.
프로젝트 정보 카드에서 프로젝트 번호를 복사합니다.
탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.
IAM 페이지 상단에서 추가를 클릭합니다.
새 주 구성원 필드에 다음을 입력합니다.
{project-number}는 프로젝트 번호로 바꿉니다.
역할 선택에서 기본 (또는 프로젝트) > 편집자를 선택합니다.
저장을 클릭합니다.
Google Cloud 콘솔 제목 표시줄의 검색창에 Data Fusion을 입력하고 검색을 클릭한 다음 Data Fusion을 클릭합니다.
Data Fusion 옆에 있는 고정 아이콘을 클릭합니다.
이제 다음 단계를 따라 인스턴스와 연결된 서비스 계정에 권한을 부여합니다.
Google Cloud 콘솔에서 IAM 및 관리자 > IAM으로 이동합니다.
Compute Engine 기본 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있는지 확인하고 서비스 계정을 클립보드에 복사합니다.
IAM 권한 페이지에서 +액세스 권한 부여를 클릭합니다.
새 보안 주체 필드에 서비스 계정을 붙여넣습니다.
역할 선택 필드를 클릭하고 'Cloud Data Fusion API 서비스 에이전트'를 입력한 다음 선택합니다.
다른 역할 추가를 클릭합니다.
Dataproc 관리자 역할을 추가합니다.
저장을 클릭합니다.
내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
콘솔의 탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.
Google 제공 역할 부여 포함 체크박스를 선택합니다.
목록을 아래로 스크롤하여 service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com과 같은 Google 관리 Cloud Data Fusion 서비스 계정을 찾은 후 서비스 계정 이름을 클립보드에 복사합니다.
다음으로 IAM 및 관리자 > 서비스 계정으로 이동합니다.
{project-number}-compute@developer.gserviceaccount.com과 같은 기본 Compute Engine 계정을 클릭하고 상단 탐색 메뉴에서 액세스 권한이 있는 주 구성원 탭을 선택합니다.
액세스 권한 부여 버튼을 클릭합니다.
새 주 구성원 필드에 앞서 복사한 서비스 계정을 붙여넣습니다.
역할 드롭다운 메뉴에서 서비스 계정 사용자를 선택합니다.
저장을 클릭합니다.
다음으로 랭글링을 위한 샘플 데이터를 로드하기 위해 프로젝트에 Cloud Storage 버킷을 생성합니다. 이후 Cloud Data Fusion이 해당 스토리지 버킷에서 데이터를 읽습니다.
프로젝트 ID의 이름으로 버킷이 생성됩니다.
내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
이제 다음 단계를 진행할 준비가 되었습니다.
Cloud Data Fusion UI에서는 Pipeline Studio 또는 Wrangler와 같은 다양한 페이지를 통해 Cloud Data Fusion 기능을 사용할 수 있습니다.
Cloud Data Fusion UI를 탐색하려면 다음 단계를 따르세요.
Cloud Data Fusion 웹 UI에는 필요한 페이지로 이동할 수 있는 자체 탐색 패널(왼쪽)이 있습니다.
Wrangler는 대화형의 시각적 도구로, 전체 데이터 세트를 대상으로 대규모 병렬 처리 작업을 적용하기 전에 소량의 데이터 하위 집합에 변환을 적용하여 그 영향을 확인할 수 있게 해줍니다.
Wrangler가 로드되면 왼쪽에 Cloud Storage 연결을 포함하여 사전에 구성된 데이터 연결 패널이 표시됩니다.
GCS에서 Cloud Storage 기본값을 선택합니다.
프로젝트 ID에 해당하는 버킷을 클릭합니다.
titanic.csv를 클릭합니다.
파싱 옵션의 드롭다운에서 텍스트 형식을 선택합니다.
원시 데이터를 보면 첫 번째 행이 열 제목이므로 표시되는 CSV로 파싱 대화상자에서 첫 번째 행을 헤더로 설정 옵션을 선택한 후 적용을 클릭합니다.
이 단계에서 원시 데이터가 파싱되며 해당 작업으로 생성된 열을 body 열의 오른쪽에서 볼 수 있습니다.
body 열은 더 이상 필요하지 않으므로 body 열 제목 옆에 있는 드롭다운 아이콘을 선택하고 열 삭제 메뉴 항목을 선택하여 삭제합니다.
실습의 후반부에서는 CLI를 사용하여 변환 단계를 더 추가합니다.
변환 단계를 데이터 세트에 적용하면 샘플링된 데이터에 변환이 영향을 미치고 Insights 브라우저를 통해 시각적으로 탐색할 수 있습니다.
Pipeline Studio가 열리면 Wrangler 노드를 가리키고 속성을 클릭합니다.
지시어 섹션에서 이전에 추가한 지시어의 레시피를 검토합니다. 다음 섹션에서는 CLI를 사용하여 변환 단계를 추가합니다.
이 섹션에서는 Wrangler UI에서 계속 작업하면서 CSV 데이터 세트를 살펴보고 CLI를 통해 변환을 적용합니다.
Wrangler 노드의 속성 상자에서 지시어 섹션 아래에 있는 Wrangle 버튼을 클릭합니다. 그러면 Wrangler UI로 돌아갑니다.
Wrangler UI의 오른쪽에 있는 변환 단계를 클릭하여 지시어를 표시합니다. 현재 2개의 변환 단계가 있는지 확인합니다.
이제 CLI를 사용하여 변환 단계를 추가하고 데이터가 어떻게 수정되는지 확인합니다. CLI는 화면 하단에 있는 (녹색 $ 프롬프트가 표시된) 검은색 막대입니다.
다음은 지시어가 데이터에 미치는 영향에 대한 설명입니다. 이미 입력했으므로 CLI에 다시 입력할 필요는 없습니다.
a. fill-null-or-empty :Cabin 'none'은 Cabin 열을 100% 채워줍니다.
b. send-to-error empty(Age)는 Age 열에 빈 셀이 없도록 수정합니다.
c. parse-as-csv :Name ',' false는 Name 열을 이름과 성이 포함된 두 개의 열로 분할합니다.
d. rename Name_1 Last_Name 및 rename Name_2 First_Name은 새로 생성된 열 Name_1과 Name_2의 이름을 Last_Name과 First_Name으로 변경합니다.
e. drop Name은 더 이상 필요하지 않은 Name 열을 삭제합니다.
f. set-type :PassengerId integer는 PassengerId 열을 정수로 변환합니다.
g. 지시어는 First_Name 열에서 인사말을 추출하고, 중복된 열을 삭제하고, 새로 생성된 열의 이름을 적절하게 바꿉니다.
h. send-to-error !dq:isNumber(Age) || !dq:isInteger(Age) || (Age == 0 || Age > 125) 지시어는 Age 열에 대한 데이터 품질 검사를 수행하고 set-type :Age integer는 이를 정수 열로 설정합니다.
i. set-type :Fare double은 Fare 열을 Double로 변환하여 열 값으로 산술 연산을 수행할 수 있도록 합니다.
j. set-column Today_Fare (Fare * 23.4058)+1은 1912년 이후 달러의 인플레이션율을 Fare 열에 곱하여 조정된 달러 가치를 구합니다.
k. generate-uuid id는 각 레코드를 고유하게 식별하는 ID 열을 만듭니다.
l. mask-shuffle First_Name은 Last_Name 열을 마스킹하여 개인(개인 식별 정보)을 익명화합니다.
변환 단계의 오른쪽 상단에 있는 더보기 링크를 클릭한 다음 스키마 보기를 클릭하여 변환으로 생성된 스키마를 검사하고 다운로드 아이콘을 클릭하여 컴퓨터에 다운로드합니다.
X를 클릭하여 스키마 페이지를 닫습니다.
변환 단계 아래의 다운로드 아이콘을 클릭하여 지시어 레시피를 컴퓨터에 다운로드하면 변환 단계를 사본으로 보관하여 나중에 사용할 수 있습니다.
오른쪽 상단에서 적용 버튼을 클릭하여 새로 입력한 모든 변환 단계가 Wrangler 노드의 구성에 추가되도록 합니다. 그러면 Wrangler 노드의 속성 상자로 다시 리디렉션됩니다.
X를 클릭하여 닫으면 Pipeline Studio로 돌아갑니다.
BigQuery로 데이터를 수집하려면 데이터 세트를 만드세요.
새 탭에서 Google Cloud 콘솔의 BigQuery를 열거나 Google Cloud 콘솔 탭을 마우스 오른쪽 버튼으로 클릭하고 복제를 선택한 다음 탐색 메뉴를 사용하여 BigQuery를 선택합니다. 메시지가 표시되면 완료를 클릭합니다.
탐색기 창에서 프로젝트 ID(qwiklabs로 시작) 옆에 있는 작업 보기 아이콘을 클릭한 다음 데이터 세트 만들기를 선택합니다.
a. 데이터 세트 ID: demo_cdf
b. 데이터 세트 만들기를 클릭합니다. 실습 후반부에서 사용할 수 있도록 이름을 기록합니다.
a. BigQuery 싱크를 파이프라인에 추가하려면 왼쪽 패널의 싱크 섹션으로 이동한 다음 BigQuery 아이콘을 클릭하여 캔버스에 배치합니다.
b. BigQuery 싱크가 캔버스에 배치되면 Wrangler 노드를 BigQuery 노드에 연결합니다. 그림과 같이 Wrangler 노드에서 BigQuery 노드로 화살표를 드래그하여 연결합니다.
c. BigQuery 노드 위로 마우스를 가져간 다음 속성을 클릭하고 다음 구성 설정을 입력합니다.
| 필드 | 값 |
|---|---|
| 참조 이름 | DemoSink |
| 데이터 세트 프로젝트 ID | 프로젝트 ID입니다. |
| 데이터 세트 |
demo_cdf(이전 단계에서 만든 데이터 세트) |
| 테이블 | 적절한 이름(예: titanic)을 입력합니다. |
테이블이 자동으로 생성됩니다.
d. 검증 버튼을 클릭하여 모든 항목이 올바르게 설정되었는지 확인합니다.
e. X를 클릭하여 닫으면 다시 Pipeline Studio로 돌아갑니다.
a. 파이프라인 이름을 지정합니다(예: DemoBQ).
b. 저장을 클릭한 다음 오른쪽 상단에서 배포를 클릭하여 파이프라인을 배포합니다.
c. 실행을 클릭하여 파이프라인 실행을 시작합니다. 요약 아이콘을 클릭하여 몇 가지 통계를 살펴볼 수 있습니다.
실행이 완료되면 상태가 성공함으로 변경됩니다. BigQuery 콘솔로 돌아가서 결과를 쿼리합니다.
내 진행 상황 확인하기를 클릭하여 목표를 확인합니다.
이 실습에서는 Wrangler UI를 살펴보았습니다. 메뉴뿐 아니라 CLI를 활용해 변환 단계(지시어)를 추가하는 방법을 배웠습니다. Wrangler를 사용하면 데이터에 다양한 강력한 변환을 반복적으로 적용할 수 있으며, 파이프라인을 배포하고 실행하기 전에 Wrangler UI를 통해 이러한 변환이 데이터의 스키마에 어떤 영향을 미치는지 확인할 수 있습니다.
실습을 완료하면 실습 종료를 클릭합니다. Google Skills에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.
실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.
별점의 의미는 다음과 같습니다.
의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.
의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.
Copyright 2026 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.
현재 이 콘텐츠를 이용할 수 없습니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
감사합니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
한 번에 실습 1개만 가능
모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.