실습 설정 안내 및 요구사항

계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

Cloud Data Fusion을 사용한 데이터 계보 탐색

실습 1시간 30분 universal_currency_alt 크레딧 7개 show_chart 고급

info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.

GSP812
개요
설정 및 요건
작업 1. Cloud Data Fusion 인스턴스에 필요한 권한 추가
작업 2. Cloud Data Fusion UI 열기
작업 3. 배송 데이터 정리 파이프라인 가져오기, 배포, 실행
작업 4. 배송 지연 데이터 파이프라인 가져오기, 배포, 실행
작업 5. 데이터 세트 살펴보기
작업 6. 태그를 사용하여 데이터 세트 탐색
작업 7. 데이터 계보 살펴보기
수고하셨습니다.

이 콘텐츠는 아직 휴대기기에 최적화되지 않음

최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

GSP812

Google Cloud 사용자 주도형 실습 로고

개요

이 실습에서는 Cloud Data Fusion을 사용하여 데이터 계보, 즉 데이터의 출처와 시간 경과에 따른 데이터 이동을 탐색하는 방법을 설명합니다.

Cloud Data Fusion 데이터 계보를 사용하면 다음 작업을 수행할 수 있습니다.

잘못된 데이터 이벤트의 근본 원인 감지
데이터를 변경하기 전에 영향 분석 수행

Cloud Data Fusion은 데이터 세트 수준 및 필드 수준의 계보를 제공하며 시간 경과에 따른 계보를 표시하는 시간이 제한됩니다.

데이터 세트 수준 계보는 선택한 시간 간격으로 데이터 세트와 파이프라인 간의 관계를 보여줍니다.
필드 수준 계보는 대상 데이터 세트의 다른 필드 집합을 생성하도록 소스 데이터 세트의 필드 집합에서 수행된 작업을 보여줍니다.

이 실습에서는 두 개의 파이프라인을 사용하여 원시 데이터가 정리된 후 다운스트림을 처리할 수 있도록 전송되는 일반적인 시나리오를 보여줍니다. Cloud Data Fusion 계보 기능을 사용하여 원시 데이터에서 정리된 배송 데이터, 분석 출력까지 이 데이터 추적을 탐색할 수 있습니다.

참고: 현재 Cloud Data Fusion 계보 기능은 Cloud Data Fusion Enterprise 버전에서만 사용할 수 있습니다.

목표

이 실습에서는 다음 작업을 수행하는 방법을 알아봅니다.

샘플 파이프라인을 실행하여 계보 생성
데이터 세트 및 필드 수준 계보 살펴보기
업스트림 파이프라인에서 다운스트림 파이프 라인으로 핸드 셰이크 정보를 전달하는 방법 알아보기

설정 및 요건

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

시크릿 창을 사용하여 Google Skills에 로그인합니다.
실습 사용 가능 시간(예: 02:00:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
참고: 실습 시작을 클릭하고 나면 실습에서 필요한 리소스를 프로비저닝하고 Data Fusion 인스턴스를 만드는 데 약 15~20분이 걸립니다. 이 시간 동안 아래의 단계를 읽으면서 실습 목표를 숙지하세요.
왼쪽 패널에 실습 사용자 인증 정보(사용자 이름 및 비밀번호)가 보이면 인스턴스가 생성된 것이므로 콘솔에 계속 로그인할 수 있습니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud 콘솔에 로그인할 때 이 정보를 사용해야 합니다.
Google 콘솔 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

참고: 실습을 완료했거나 다시 시작하려고 하는 경우가 아니면 실습 종료를 클릭하지 마세요. 클릭하면 작업이 지워지고 프로젝트가 삭제됩니다.

Google Cloud 콘솔에 로그인

이 실습 세션에 사용하는 브라우저 탭 또는 창을 활용해 연결 세부정보 패널에서 사용자 이름을 복사하고 Google 콘솔 열기 버튼을 클릭합니다.

참고: 계정을 선택하라는 메시지가 표시되면 다른 계정 사용을 클릭합니다.

안내에 따라 사용자 이름과 비밀번호를 붙여넣습니다.
다음을 클릭합니다.
이용약관에 동의합니다.

임시 계정이므로 이 실습이 진행되는 동안만 계정이 유지됩니다.

복구 옵션을 추가하지 않습니다.
무료 체험판을 신청하지 않습니다.

콘솔이 열리면 왼쪽 상단의 탐색 메뉴()를 클릭해 서비스 목록을 확인합니다.

탐색 메뉴

Cloud Shell 활성화

Cloud Shell은 여러 개발 도구가 포함된 가상 머신입니다. 5GB의 영구적인 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다. Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다. gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 탭 자동 완성을 지원합니다.

Google Cloud Console의 탐색창에서 Cloud Shell 활성화()를 클릭합니다.
계속을 클릭합니다.
환경을 프로비저닝하고 연결하는 데는 몇 분 정도 소요됩니다. 연결되면 사용자 인증도 처리되어 프로젝트가 PROJECT_ID로 설정됩니다. 예를 들면 다음과 같습니다.

Cloud Shell 터미널

샘플 명령어

활성 계정 이름을 나열합니다.

gcloud auth list

(출력)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(출력 예시)

Credentialed accounts: - google1623327_student@qwiklabs.net

프로젝트 ID를 나열합니다.

gcloud config list project

(출력)

[core] project = <project_ID>

(출력 예시)

[core] project = qwiklabs-gcp-44776a13dea667a6

gcloud 전체 문서는 gcloud 명령줄 도구 개요를 참조하세요.

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 클릭합니다.
기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요에서 확인할 수 있습니다.

기본 컴퓨팅 서비스 계정

계정이 IAM에 없거나 editor 역할이 없는 경우 아래의 단계에 따라 필요한 역할을 할당합니다.

Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요를 클릭합니다.
프로젝트 정보 카드에서 프로젝트 번호를 복사합니다.
탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.
IAM 페이지 상단에서 추가를 클릭합니다.
새 주 구성원 필드에 다음을 입력합니다.

{project-number}-compute@developer.gserviceaccount.com

{project-number}는 프로젝트 번호로 바꿉니다.

역할 선택에서 기본 (또는 프로젝트) > 편집자를 선택합니다.
저장을 클릭합니다.

기본 요건

이 실습에서는 다음 두 가지 파이프라인을 사용합니다.

배송 데이터 정리 파이프라인에서는 작은 샘플 데이터 세트에서 원시 배송 데이터를 읽고 변환을 적용하여 데이터를 정리합니다.
미국 배송 지연 파이프라인에서는 정리된 배송 데이터를 읽고 분석하며 임곗값을 초과하여 지연된 미국 내 배송을 찾습니다.

배송 데이터 정리 및 미국 배송 지연 링크를 사용하여 이러한 샘플 데이터 세트를 로컬 머신에 다운로드하세요.

작업 1. Cloud Data Fusion 인스턴스에 필요한 권한 추가

Google Cloud 콘솔 제목 표시줄의 검색 필드에 Data Fusion을 입력한 다음 검색 결과에서 Data Fusion을 클릭합니다. 인스턴스를 클릭합니다.

참고: 인스턴스를 만드는 데 20분 정도 걸립니다. 준비될 때까지 기다려 주세요.

이제 다음 단계를 사용하여 인스턴스와 연결된 서비스 계정에 권한을 부여합니다.

Google Cloud 콘솔에서 IAM 및 관리자 > IAM으로 이동합니다.
Compute Engine 기본 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있는지 확인하고 서비스 계정을 클립보드에 복사합니다.
IAM 권한 페이지에서 +액세스 권한 부여를 클릭합니다.
새 주 구성원 필드에 서비스 계정을 붙여넣습니다.
역할 선택 필드를 클릭하고 Cloud Data Fusion API 서비스 에이전트를 입력한 다음 선택합니다.
다른 역할 추가를 클릭합니다.
Dataproc 관리자 역할을 추가합니다.
저장을 클릭합니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 서비스 계정에 Cloud Data Fusion API 서비스 에이전트 역할 추가

서비스 계정 사용자 권한 부여

콘솔의 탐색 메뉴에서 IAM 및 관리자 > IAM을 클릭합니다.
Google 제공 역할 부여 포함 체크박스를 선택합니다.
목록을 아래로 스크롤하여 service-{project-number}@gcp-sa-datafusion.iam.gserviceaccount.com과 같은 Google 관리 Cloud Data Fusion 서비스 계정을 찾은 후 서비스 계정 이름을 클립보드에 복사합니다.

Google 관리 Cloud Data Fusion 서비스 계정 목록

다음으로 IAM 및 관리자 > 서비스 계정으로 이동합니다.
{project-number}-compute@developer.gserviceaccount.com과 같은 기본 Compute Engine 계정을 클릭하고 상단 탐색 메뉴에서 액세스 권한이 있는 주 구성원 탭을 선택합니다.
액세스 권한 부여 버튼을 클릭합니다.
새 주 구성원 필드에 앞서 복사한 서비스 계정을 붙여넣습니다.
역할 드롭다운 메뉴에서 서비스 계정 사용자를 선택합니다.
저장을 클릭합니다.

작업 2. Cloud Data Fusion UI 열기

Data Fusion으로 이동하여 인스턴스를 클릭한 다음 Data Fusion 인스턴스 옆에 있는 인스턴스 보기 링크를 클릭합니다. 실습 사용자 인증 정보를 선택하여 로그인합니다. 서비스를 둘러볼지 묻는 메시지가 나타나면 아니요를 클릭합니다. 이제 Cloud Data Fusion UI가 나타날 것입니다.
왼쪽 탐색 패널에서 Studio를 클릭하여 Cloud Data Fusion Studio 페이지를 엽니다.

Cloud Fusion Studio UI

작업 3. 배송 데이터 정리 파이프라인 가져오기, 배포, 실행

다음으로 원시 배송 데이터를 가져와야 합니다. Studio 페이지 오른쪽 상단에 있는 가져오기를 클릭한 다음, 앞서 다운로드한 배송 데이터 정리 파이프라인을 선택하여 가져옵니다.

참고: 팝업에서 파이프라인 플러그인을 업그레이드하라는 메시지가 표시되면 모두 수정을 클릭하여 플러그인을 최신 버전으로 업그레이드합니다.

배송 데이터 정리 파이프라인

이제 파이프라인을 배포합니다. Studio 페이지의 오른쪽 상단에 있는 배포를 클릭합니다. 배포 후 파이프라인 페이지가 열립니다.
파이프라인 페이지의 중앙 상단에서 실행을 클릭하여 파이프라인을 실행합니다.

참고: 파이프라인이 실패하면 다시 실행하세요.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 배송 데이터 정리 파이프라인 가져오기, 배포, 실행

작업 4. 배송 지연 데이터 파이프라인 가져오기, 배포, 실행

배송 데이터 정리 상태가 완료됨으로 표시되면 앞서 다운로드한 미국 배송 지연 데이터 파이프라인을 가져오고 배포합니다.

왼쪽 탐색 패널에서 Studio를 클릭하여 Cloud Data Fusion Studio 페이지로 돌아갑니다.
Studio 페이지 오른쪽 상단에 있는 가져오기를 클릭한 다음, 앞서 다운로드한 미국 배송 지연 데이터 파이프라인을 선택하여 가져옵니다.

Studio 페이지의 오른쪽 상단에 있는 배포를 클릭하여 파이프라인을 배포합니다. 배포 후 파이프라인 페이지가 열립니다.
파이프라인 페이지의 가운데 상단에 있는 실행을 클릭하여 파이프라인을 실행합니다.

참고: 파이프라인이 실패하면 다시 실행하세요.

이 두 번째 파이프라인이 성공적으로 완료되면 아래의 나머지 단계를 계속 수행할 수 있습니다.

내 진행 상황 확인하기를 클릭하여 목표를 확인합니다. 배송 지연 데이터 파이프라인 가져오기, 배포, 실행

작업 5. 데이터 세트 살펴보기

계보를 살펴보기 전에 데이터 세트를 탐색해야 합니다.

Cloud Data Fusion UI 왼쪽 탐색 패널에서 메타데이터를 선택하여 메타데이터 검색 페이지를 엽니다.
배송 데이터 정리 데이터 세트가 참조 데이터 세트로 'Cleaned-Shipments'를 지정했으므로 검색창에 shipment를 입력합니다. 검색 결과에 이 데이터 세트가 포함됩니다.

정리된 배송 메타데이터 검색 결과

작업 6. 태그를 사용하여 데이터 세트 탐색

메타데이터 검색은 Cloud Data Fusion 파이프라인에서 사용, 처리 또는 생성한 데이터 세트를 검색합니다. 파이프라인은 기술 및 운영 메타데이터를 생성 및 수집하는 구조화된 프레임워크에서 실행됩니다. 기술 메타데이터에는 데이터 세트 이름, 유형, 스키마, 필드, 생성 시간, 처리 정보가 포함됩니다. 이 기술 정보는 Cloud Data Fusion 메타데이터 검색 및 계보 기능에서 사용됩니다.

하지만 소스 및 싱크의 참조 이름은 고유한 데이터 세트 식별자이며 우수한 검색어지만 다른 기술 메타데이터를 데이터 세트 설명, 스키마, 필드 이름 또는 메타데이터 프리픽스와 같은 검색 기준으로 사용할 수 있습니다.

Cloud Data Fusion은 검색 기준으로 사용할 수 있는 태그 및 키-값 속성과 같은 비즈니스 메타데이터가 있는 데이터 세트 주석도 지원합니다. 예를 들어 원시 배송 데이터 세트에 비즈니스 태그 주석을 추가하고 검색하려면 다음 안내를 따르세요.

Cloud Data Fusion UI 왼쪽 탐색 패널에서 메타데이터를 선택하여 메타데이터 검색 페이지를 엽니다.
메타데이터 옵션의 검색 페이지에 Raw shipping data를 입력합니다.
Raw_Shipping_Data를 클릭합니다.
비즈니스 태그에서 +를 클릭한 후 태그 이름(영숫자 및 밑줄 문자 사용 가능)을 삽입하고 Enter 키를 누릅니다.

비즈니스 태그 이름 필드

태그 이름을 클릭하거나 메타데이터 검색 페이지의 검색창에 tags: tag_name을 입력하여 태그를 검색할 수 있습니다.

작업 7. 데이터 계보 살펴보기

데이터 세트 수준 계보

Cloud Data Fusion UI 왼쪽 탐색 패널에서 메타데이터를 선택하여 메타데이터 검색 페이지를 열고 검색 상자에 shipment를 입력합니다.
검색 페이지에 나와 있는 Cleaned-Shipments 데이터 세트 이름을 클릭합니다.
그런 다음 계보 탭을 클릭합니다. 계보 그래프는 이 데이터 세트는 Raw_Shipping_Data 데이터 세트를 사용한 Shipments-Data-Cleansing 파이프라인에서 생성되었음을 보여줍니다.

Cloud Data Fusion 계보 탭

필드 수준 계보

Cloud Data Fusion 필드 수준 계보는 데이터 세트 필드와 다양한 필드를 생성하기 위해 필드 집합에서 수행된 변환 간의 관계를 보여줍니다. 데이터 세트 수준 계보와 같이 필드 수준 계보는 시간 제한적이며 결과는 시간에 따라 변경됩니다.

데이터 세트 수준 계보 단계에 이어 정리된 배송 데이터 세트 수준 계보 그래프의 오른쪽 상단에 있는 필드 수준 계보 버튼을 클릭하여 필드 수준 계보 그래프를 표시합니다.

Cloud Data Fusion 필드 수준 계보

필드 수준 계보 그래프는 필드 간의 연결을 보여줍니다. 필드를 선택하여 계보를 볼 수 있습니다. 필드 계보만 보려면 보기, 필드 고정을 차례로 선택합니다.

Data Fusion 필드 고정 계보 선택

Cleaned-Shipments 데이터 세트에서 time_to_ship 필드를 찾고 보기를 선택한 다음 영향 보기를 선택하여 영향 분석을 수행합니다.

영향 보기

필드 수준 계보는 이 필드가 시간이 지남에 따라 어떻게 변환되었는지 보여줍니다. time_to_ship 필드가 (i) float 유형 열로 전환되고, (ii) 값이 다음 노드로 리디렉션되는지 아니면 오류 경로로 리디렉션되는지 결정하는 변환 과정에 주목하세요.

계보를 통해 특정 필드에 적용된 변경 내역을 확인할 수 있습니다. 다른 예로는 몇 개의 필드를 연결하여 새 필드를 구성(예: 이름과 성을 결합하여 이름을 생성)하거나 필드에서 수치를 계산(예: 숫자를 총 개수에 대한 비율로 변환)하는 것이 있습니다.

원인 및 영향 링크는 필드 양측에서 수행된 변환을 사람이 읽을 수 있는 원장 형식으로 보여줍니다.

수고하셨습니다.

이 실습에서는 데이터 계보를 탐색하는 방법을 배웠습니다. 이 정보는 보고 및 거버넌스에 매우 중요합니다. 데이터가 현재 상태가 되기까지의 과정을 이해하는 데 도움이 될 수 있습니다.

설명서 최종 업데이트: 2022년 11월 14일

실습 최종 테스트: 2023년 8월 8일

Cloud Data Fusion을 사용한 데이터 계보 탐색

GSP812

개요

목표

설정 및 요건

Google Cloud 콘솔에 로그인

Cloud Shell 활성화

샘플 명령어

프로젝트 권한 확인

기본 요건

작업 1. Cloud Data Fusion 인스턴스에 필요한 권한 추가

서비스 계정 사용자 권한 부여

작업 2. Cloud Data Fusion UI 열기

작업 3. 배송 데이터 정리 파이프라인 가져오기, 배포, 실행

작업 4. 배송 지연 데이터 파이프라인 가져오기, 배포, 실행

작업 5. 데이터 세트 살펴보기

작업 6. 태그를 사용하여 데이터 세트 탐색

작업 7. 데이터 계보 살펴보기

데이터 세트 수준 계보

필드 수준 계보

수고하셨습니다.

시작하기 전에

시크릿 브라우징 사용

콘솔에 로그인

시크릿 브라우징을 사용하여 실습 실행하기