실습 설정 안내 및 요구사항
계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

Cloud Data Fusion 시작하기

실습 1시간 30분 universal_currency_alt 크레딧 5개 show_chart 입문
info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.
이 콘텐츠는 아직 휴대기기에 최적화되지 않음
최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

Google Cloud 사용자 주도형 실습 로고

개요

이 실습에서는 Data Fusion 인스턴스를 생성하고 제공된 샘플 파이프라인을 배포하는 방법을 학습합니다. 이 파이프라인은 Cloud Storage에 저장된 뉴욕타임스 베스트셀러 데이터가 포함된 JSON 파일을 읽고 데이터 파싱 및 정제를 위한 변환 작업을 수행한 뒤 일부 레코드를 BigQuery로 로드합니다.

목표

이 실습에서는 다음 작업을 수행하는 방법을 학습합니다.

  • Data Fusion 인스턴스 만들기
  • JSON 파일에 몇 가지 변환을 실행하고 일치하는 결과를 필터링하여 BigQuery에 저장하는 샘플 파이프라인 배포하기

설정

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

  1. 시크릿 창을 사용하여 Google Skills에 로그인합니다.

  2. 실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
    일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.

  3. 준비가 되면 실습 시작을 클릭합니다.

  4. 실습 사용자 인증 정보(사용자 이름비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.

  5. Google Console 열기를 클릭합니다.

  6. 다른 계정 사용을 클릭한 다음, 안내 메시지에 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
    다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.

  7. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

Google Cloud 콘솔에 로그인

  1. 이 실습 세션에 사용하는 브라우저 탭 또는 창을 활용해 연결 세부정보 패널에서 사용자 이름을 복사하고 Google 콘솔 열기 버튼을 클릭합니다.
참고: 계정을 선택하라는 메시지가 표시되면 다른 계정 사용을 클릭합니다.
  1. 안내에 따라 사용자 이름비밀번호를 붙여넣습니다.
  2. 다음을 클릭합니다.
  3. 이용약관에 동의합니다.

임시 계정이므로 이 실습이 진행되는 동안만 계정이 유지됩니다.

  • 복구 옵션을 추가하지 않습니다.
  • 무료 체험판을 신청하지 않습니다.
  1. 콘솔이 열리면 왼쪽 상단의 탐색 메뉴(탐색 메뉴 아이콘)를 클릭해 서비스 목록을 확인합니다.

탐색 메뉴

Cloud Shell 활성화

Cloud Shell은 여러 개발 도구가 포함된 가상 머신입니다. 5GB의 영구적인 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다. Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다. gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 탭 자동 완성을 지원합니다.

  1. Google Cloud Console의 탐색창에서 Cloud Shell 활성화(Cloud Shell 아이콘)를 클릭합니다.

  2. 계속을 클릭합니다.
    환경을 프로비저닝하고 연결하는 데는 몇 분 정도 소요됩니다. 연결되면 사용자 인증도 처리되어 프로젝트가 PROJECT_ID로 설정됩니다. 예를 들면 다음과 같습니다.

Cloud Shell 터미널

샘플 명령어

  • 활성 계정 이름을 나열합니다.

gcloud auth list

(출력)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(출력 예시)

Credentialed accounts: - google1623327_student@qwiklabs.net
  • 프로젝트 ID를 나열합니다.

gcloud config list project

(출력)

[core] project = <project_ID>

(출력 예시)

[core] project = qwiklabs-gcp-44776a13dea667a6

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

  1. Google Cloud 콘솔의 탐색 메뉴(탐색 메뉴 아이콘)에서 IAM 및 관리자 > IAM을 클릭합니다.

  2. 기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요에서 확인할 수 있습니다.

기본 컴퓨팅 서비스 계정

계정이 IAM에 없거나 editor 역할이 없는 경우 아래의 단계에 따라 필요한 역할을 할당합니다.

  1. Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요를 클릭합니다.

  2. 프로젝트 정보 카드에서 프로젝트 번호를 복사합니다.

  3. 탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.

  4. IAM 페이지 상단에서 추가를 클릭합니다.

  5. 새 주 구성원 필드에 다음을 입력합니다.

{project-number}-compute@developer.gserviceaccount.com

{project-number}는 프로젝트 번호로 바꿉니다.

  1. 역할 선택에서 기본 (또는 프로젝트) > 편집자를 선택합니다.

  2. 저장을 클릭합니다.

작업 1. Cloud Data Fusion API 사용 설정

  1. Cloud 콘솔의 탐색 메뉴(탐색 메뉴)에서 API 및 서비스 > 라이브러리를 클릭합니다.

  2. 검색창에 Data fusion을 입력하여 Cloud Data Fusion API를 찾은 다음 하이퍼링크를 클릭합니다.

  3. API가 이미 사용 설정되어 있으므로 관리를 클릭한 다음 API 사용 중지를 클릭합니다. 사용 중지를 확인합니다.

  4. API가 사용 중지되면 사용 설정을 클릭하여 API를 다시 사용 설정합니다.

작업 2. Cloud Data Fusion 인스턴스 만들기

  1. Google Cloud 콘솔의 탐색 메뉴(탐색 메뉴)에서 모든 제품 보기를 클릭합니다. 애널리틱스에서 Data Fusion을 클릭합니다.

  2. 섹션 상단의 인스턴스 만들기 링크를 클릭하여 Cloud Data Fusion 인스턴스를 만듭니다.

  3. 로드되는 Data Fusion 인스턴스 만들기 페이지에서 다음을 수행합니다.

a. 인스턴스 이름을 입력합니다(예: cdf-lab-instance).

b. 리전에서 us-central1을 선택합니다.

c. 버전에서 기본을 선택합니다.

d. 승인 섹션에서 필요한 경우 권한 부여를 클릭합니다.

e. 고급 옵션 옆에 있는 드롭다운 아이콘을 클릭하고 고급 모니터링 및 로깅에서 Dataproc Cloud Logging 체크박스를 선택합니다.

f. 다른 필드는 모두 그대로 두고 만들기를 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. Cloud Data Fusion 인스턴스 만들기

참고: 인스턴스를 만드는 데 10분 정도의 시간이 걸립니다. 기다리는 동안 Next '19에서 발표된 Cloud Data Fusion에 관한 이 프레젠테이션을 15:31 타임스탬프부터 시청하세요. 중간중간 인스턴스가 생성되었는지 확인하세요. 실습이 끝난 후 동영상을 마저 시청할 수 있습니다.

참고: 이 실습에는 시간 제한이 있으며 시간이 초과되면 작업 내용이 사라집니다.

이제 다음 단계를 사용하여 인스턴스와 연결된 서비스 계정에 권한을 부여합니다.

  1. 인스턴스 이름을 클릭합니다. 인스턴스 세부정보 페이지에서 Dataproc 서비스 계정을 클립보드에 복사합니다.

인스턴스 세부정보 페이지에서 강조 표시된 서비스 계정

  1. Cloud 콘솔의 탐색 메뉴(탐색 메뉴)에서 IAM 및 관리자 > IAM을 선택합니다.

  2. IAM 권한 페이지에서 +액세스 권한 부여를 클릭합니다.

  3. 새 주 구성원 필드에 Dataproc 서비스 계정을 붙여넣습니다.

  4. 역할 선택 필드를 클릭하고 Cloud Data Fusion API 서비스 에이전트를 입력하기 시작해 나타나면 선택합니다.

  5. 저장을 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 서비스 계정에 Cloud Data Fusion API 서비스 에이전트 역할 추가

작업 3. Cloud Data Fusion UI 탐색

Cloud Data Fusion을 사용할 때는 Cloud Console과 별도의 Cloud Data Fusion UI를 모두 사용합니다.

  • Cloud 콘솔에서는 Cloud Data Fusion 인스턴스 생성 및 삭제, Cloud Data Fusion 인스턴스 세부정보 확인 같은 작업을 수행할 수 있습니다.

  • Cloud Data Fusion 웹 UI에서는 Pipeline Studio 또는 Wrangler와 같은 다양한 페이지를 사용하여 Cloud Data Fusion 기능을 사용할 수 있습니다.

Cloud Data Fusion UI를 탐색하려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔의 탐색 메뉴(탐색 메뉴)에서 모든 제품 보기를 클릭합니다. 애널리틱스에서 Data Fusion을 클릭합니다.

  2. Data Fusion 인스턴스 옆에 있는 인스턴스 보기 링크를 클릭합니다. 실습 사용자 인증 정보를 선택하여 로그인하고 필요한 경우 Google 서비스 제어 데이터 관리 옆의 체크박스를 선택한 후 계속을 클릭합니다.

인스턴스 보기 링크 강조 표시

  1. 서비스를 둘러볼지 묻는 메시지가 나타나면 취소를 클릭합니다. 그러면 Cloud Data Fusion UI가 나타납니다.

  2. Cloud Data Fusion 웹 UI에는 필요한 페이지로 이동할 수 있는 자체 탐색 패널(왼쪽)이 있다는 점에 유의하세요.

작업 4. 샘플 파이프라인 배포

샘플 파이프라인은 Cloud Data Fusion 허브를 통해 제공됩니다. 이 허브에서는 재사용 가능한 Cloud Data Fusion 파이프라인, 플러그인, 솔루션을 공유할 수 있습니다.

  1. Cloud Data Fusion 웹 UI의 오른쪽 상단에서 허브를 클릭합니다.

강조 표시된 허브 링크

  1. 왼쪽 패널에서 파이프라인을 클릭합니다.

  2. Cloud Data Fusion 빠른 시작 파이프라인을 클릭한 다음, 표시되는 팝업에서 만들기를 클릭합니다.

파이프라인 페이지에서 강조 표시된 Cloud Data Fusion 빠른 시작 타일

  1. Cloud Data Fusion 빠른 시작 구성 패널에서 마침을 클릭합니다.

  2. 파이프라인 맞춤설정을 클릭합니다. 데이터 통합 파이프라인 개발에 사용되는 그래픽 인터페이스인 Pipeline Studio에 파이프라인의 시각적 표현이 표시됩니다. 사용 가능한 파이프라인 플러그인이 왼쪽에 나열되고 해당 파이프라인이 기본 캔버스 영역에 표시됩니다. 각 파이프라인 노드 위에 마우스 포인터를 올린 후 표시되는 속성 버튼을 클릭하여 파이프라인을 탐색할 수 있습니다. 각 노드의 속성 메뉴를 사용하면 노드와 관련된 객체 및 작업을 볼 수 있습니다.

참고: 파이프라인의 노드는 순서대로 연결되어 방향성 비순환 그래프를 생성하는 객체입니다(예: 소스, 싱크, 변환, 작업 등).

파이프라인의 시각적 표현을 표시하는 Pipeline Studio

  1. 오른쪽 상단 메뉴에서 배포를 클릭합니다. 그러면 파이프라인이 Cloud Data Fusion에 제출됩니다. 다음 섹션에서 파이프라인을 실행합니다.

배포 아이콘

작업 5. 파이프라인 보기

배포된 파이프라인은 파이프라인 세부정보 뷰에 표시되며, 여기서 다음 작업을 수행할 수 있습니다.

  • 파이프라인의 구조와 구성 보기

  • 수동으로 파이프라인 실행 또는 일정이나 트리거 설정

  • 실행 시간, 로그, 측정항목을 포함한 파이프라인 이전 실행에 대한 요약 보기

파이프라인 세부정보 뷰

작업 6. 파이프라인 실행

  1. 파이프라인 세부정보 뷰에서 상단 중앙에 있는 실행을 클릭하여 파이프라인을 실행합니다.
참고: 파이프라인을 실행할 때 Cloud Data Fusion은 임시 Dataproc 클러스터를 프로비저닝하고 Apache Hadoop 맵리듀스 또는 Apache Spark를 사용하여 클러스터에서 파이프라인을 실행한 후 클러스터를 삭제합니다. 파이프라인이 실행 중 상태로 전환되면 Dataproc 클러스터 생성 및 삭제를 모니터링할 수 있습니다. 이 클러스터는 파이프라인 지속 시간 동안에만 존재합니다. 참고: 파이프라인 상태가 실패면 파이프라인을 다시 실행합니다.
  1. 몇 분 후에 파이프라인이 완료됩니다. 파이프라인 상태가 성공으로 바뀌고 각 노드에서 처리된 레코드 수가 표시됩니다.

파이프라인이 성공 상태로 완료되었으며 각 노드에서 처리된 레코드 수가 표시됨

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 샘플 파이프라인 배포 및 실행

작업 7. 결과 보기

파이프라인은 출력을 BigQuery 테이블에 씁니다. 다음 단계를 통해 이를 확인할 수 있습니다.

  1. 이 링크를 클릭하여 Cloud 콘솔에서 BigQuery UI를 엽니다. 또는 콘솔 탭을 마우스 오른쪽 버튼으로 클릭하고 복제를 선택한 다음 탐색 메뉴(탐색 메뉴)를 사용하여 BigQuery를 선택합니다.

  2. 기존 탐색기 창에서 프로젝트 ID(qwiklabs로 시작됨)를 클릭합니다.

  3. 프로젝트의 GCPQuickstart 데이터 세트에서 top_rated_inexpensive 테이블을 클릭합니다.

  4. + SQL 쿼리를 클릭하고 아래 쿼리를 붙여넣은 다음 실행을 클릭합니다.

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10
  1. 쿼리가 완료될 때까지 기다립니다. 유사한 결과가 표시됩니다.

쿼리 결과

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 결과 보기

수고하셨습니다

이 실습에서는 Data Fusion 인스턴스를 생성한 후, Cloud Storage의 입력 파일을 읽고 데이터를 변환 및 필터링하여 데이터의 하위 집합을 BigQuery로 출력하는 샘플 파이프라인을 배포하는 방법을 배웠습니다.

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Skills에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

  • 별표 1개 = 매우 불만족
  • 별표 2개 = 불만족
  • 별표 3개 = 중간
  • 별표 4개 = 만족
  • 별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

설명서 최종 업데이트: 2025년 12월 17일

실습 최종 테스트: 2025년 12월 17일

Copyright 2026 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.

시작하기 전에

  1. 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
  2. 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
  3. 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.

시크릿 브라우징 사용

  1. 실습에 입력한 사용자 이름비밀번호를 복사합니다.
  2. 비공개 모드에서 콘솔 열기를 클릭합니다.

콘솔에 로그인

    실습 사용자 인증 정보를 사용하여
  1. 로그인합니다. 다른 사용자 인증 정보를 사용하면 오류가 발생하거나 요금이 부과될 수 있습니다.
  2. 약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
  3. 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 이 버튼을 클릭하면 작업 내용이 지워지고 프로젝트가 삭제됩니다.

현재 이 콘텐츠를 이용할 수 없습니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

감사합니다

이용할 수 있게 되면 이메일로 알려드리겠습니다.

한 번에 실습 1개만 가능

모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.

시크릿 브라우징을 사용하여 실습 실행하기

이 실습을 실행하는 가장 좋은 방법은 시크릿 모드 또는 시크릿 브라우저 창을 사용하는 것입니다. 개인 계정과 학생 계정 간의 충돌로 개인 계정에 추가 요금이 발생하는 일을 방지해 줍니다.