실습 설정 안내 및 요구사항

계정과 진행 상황을 보호하세요. 이 실습을 실행하려면 항상 시크릿 브라우저 창과 실습 사용자 인증 정보를 사용하세요.

Dataflow를 사용한 서버리스 데이터 분석: 간단한 Dataflow 파이프라인(Python)

실습 1시간 30분 universal_currency_alt 크레딧 5개 show_chart 고급

info 이 실습에는 학습을 지원하는 AI 도구가 통합되어 있을 수 있습니다.

개요
목표
설정
작업 1. Dataflow API가 성공적으로 사용 설정되어 있는지 확인
작업 2. 준비
작업 3. 파이프라인 필터링
작업 4 로컬로 파이프라인 실행
작업 5. 클라우드에서 파이프라인 실행하기
실습 종료하기

이 콘텐츠는 아직 휴대기기에 최적화되지 않음

최상의 경험을 위해 데스크톱 컴퓨터에서 이메일로 전송된 링크를 사용하여 방문하세요.

개요

이 실습에서는 Python을 사용하여 Dataflow 프로젝트를 열고, 파이프라인 필터링을 사용하고, 로컬과 클라우드에서 파이프라인을 실행해봅니다.

Dataflow 프로젝트 열기
파이프라인 필터링
로컬 및 클라우드에서 파이프라인 실행

목표

이 실습에서는 간단한 Dataflow 파이프라인을 작성하여 로컬과 클라우드에서 실행하는 방법을 학습합니다.

Apache Beam을 사용하여 Python Dataflow 프로젝트 설정
Python으로 간단한 파이프라인 작성
로컬 컴퓨터에서 쿼리 실행
클라우드에서 쿼리 실행하기

설정

각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.

시크릿 창을 사용하여 Qwiklabs에 로그인합니다.
실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.
Google Console 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.

프로젝트 권한 확인

Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.

Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 선택합니다.
기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요 > 대시보드에서 확인할 수 있습니다.

Compute Engine 기본 서비스 계정 이름과 편집자 상태가 강조 표시된 권한 탭 페이지

참고: 계정이 IAM에 없거나 editor 역할이 없는 경우 다음 단계에 따라 필요한 역할을 할당합니다.

Google Cloud 콘솔의 탐색 메뉴에서 Cloud 개요 > 대시보드를 클릭합니다.
프로젝트 번호(예: 729328892908)를 복사합니다.
탐색 메뉴에서 IAM 및 관리자 > IAM을 선택합니다.
역할 테이블 상단에서 주 구성원별로 보기 아래에 있는 액세스 권한 부여를 클릭합니다.
새 주 구성원 필드에 다음을 입력합니다.

{project-number}-compute@developer.gserviceaccount.com

{project-number}는 프로젝트 번호로 바꿉니다.
역할 필드에서 프로젝트(또는 기본) > 편집자를 선택합니다.
저장을 클릭합니다.

작업 1. Dataflow API가 성공적으로 사용 설정되어 있는지 확인

필요한 API에 액세스할 수 있도록 Dataflow API에 대한 연결을 다시 시작합니다.

Cloud Console의 상단에 있는 검색창에서 Dataflow API를 입력합니다.
Dataflow API에 대한 검색결과를 클릭합니다.
관리를 클릭합니다.
API 사용 중지를 클릭합니다.
확인을 요청하는 메시지가 표시되면 사용 중지를 클릭합니다.
사용 설정을 클릭합니다.

작업 2. 준비

SSH 터미널을 열고 학습용 VM에 연결하기

선별된 학습용 VM에서 모든 코드를 실행합니다.

Console의 탐색 메뉴()에서 Compute Engine > VM 인스턴스를 클릭합니다.
training-vm 인스턴스가 있는 줄을 찾습니다.
맨 오른쪽에 있는 연결에서 SSH를 클릭하여 터미널 창을 엽니다.
이 실습에서는 training-vm에 CLI 명령어를 입력합니다.

코드 저장소 다운로드

다음으로 이 실험실에서 사용할 코드 저장소를 다운로드합니다. training-vm SSH 터미널에서 다음을 입력합니다.

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Cloud Storage 버킷 만들기

다음 안내에 따라 버킷을 만듭니다.

Console의 탐색 메뉴에서 홈을 클릭합니다.
프로젝트 ID를 선택 및 복사합니다.

여기서는 간단하게 이미 전역적으로 고유한 Qwiklabs 프로젝트 ID를 버킷 이름으로 사용하겠습니다.

Console의 탐색 메뉴에서 Cloud Storage > 브라우저를 클릭합니다.
버킷 만들기를 클릭합니다.
다음을 지정하고 나머지 설정은 기본값으로 둡니다.

속성	값(지정된 값 입력 또는 옵션 선택)
이름	`<고유한 버킷 이름(프로젝트 ID)>`
위치 유형	`멀티 리전`
위치	`<사용자 위치>`

만들기를 클릭합니다.

버킷의 이름을 기록합니다. 후속 작업에 필요합니다.

training-vm SSH 터미널에서 다음을 입력하여 'BUCKET'이라는 환경 변수를 만들고 echo 명령어를 사용하여 이 환경 변수가 존재하는지 확인합니다.

BUCKET="<your unique bucket name (Project ID)>" echo $BUCKET

터미널 명령어에 $BUCKET을 사용할 수 있습니다. 그리고 콘솔에서 텍스트 필드에 버킷 이름 <your-bucket>을 입력해야 할 경우 echo $BUCKET으로 이름을 빠르게 검색할 수 있습니다.

작업 3. 파이프라인 필터링

이 실습의 목표는 Dataflow 프로젝트의 구조를 익히고 Dataflow 파이프라인을 실행하는 방법을 학습하는 것입니다.

training-vm SSH 터미널로 돌아가 /training-data-analyst/courses/data_analysis/lab2/python 디렉터리로 이동하여 grep.py 파일을 확인합니다.

Nano를 사용해 파일을 확인합니다. 코드를 변경하지 마세요. Ctrl+X를 눌러 Nano를 종료합니다.

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

grep.py 파일에 대한 다음 질문에 답변하세요.

어떤 파일을 읽고 있나요?
검색어는 무엇인가요?
어디에 출력되나요?

파이프라인에는 세 개의 변환이 있습니다.

변환은 어떤 역할을 하나요?
두 번째 변환은 어떤 역할을 하나요?
어디에서 입력되나요?
이 입력으로 무엇을 하나요?
출력에 무엇을 쓰나요?
어디에 출력되나요?
세 번째 변환은 어떤 역할을 하나요?

작업 4 로컬로 파이프라인 실행

training-vm SSH 터미널에서 grep.py를 로컬로 실행합니다.

python3 grep.py

출력 파일은 output.txt입니다. 출력 크기가 일정 이상이면 output-00000-of-00001과 같은 이름이 지정된 개별 부분으로 샤딩됩니다.

파일 시간을 확인하여 올바른 파일을 찾습니다.

ls -al /tmp

출력 파일을 확인합니다.
아래에서 "-*"를 적절한 접미사로 바꿀 수 있습니다.

cat /tmp/output-*

출력이 논리적인가요?

작업 5. 클라우드에서 파이프라인 실행하기

일부 Java 파일을 클라우드로 복사합니다. training-vm SSH 터미널에서 다음 명령어를 입력합니다.

gsutil cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

나의 진행 상황 확인을 클릭하여 목표를 확인하세요.

클라우드에 Java 파일 복사

Nano를 사용하여 grepc.py에서 Dataflow 파이프라인을 편집합니다.

nano grepc.py

PROJECT 및 BUCKET을 프로젝트 ID 및 버킷 이름으로 바꿉니다.

편집 전의 예시 문자열:

PROJECT='cloud-training-demos' BUCKET='cloud-training-demos'

편집 후의 예시 문자열(사용자 값 사용):

PROJECT='qwiklabs-gcp-your-value' BUCKET='qwiklabs-gcp-your-value'

파일을 저장하고 Ctrl + X 키를 눌러 Nano 텍스트 편집기를 종료합니다. 그런 다음 Y와 Enter를 누릅니다.

클라우드에 Dataflow 작업을 제출합니다.

python3 grepc.py

참고: 다음 메시지를 무시할 수 있습니다. WARNING:root:로컬에서 만든 Python SDK Docker 이미지에 Python 3.7 인터프리터가 있는지 확인합니다. Dataflow 작업을 시작됩니다.

매우 간단한 작업이기 때문에 클라우드에서 실행하는 것이 로컬에서 실행하는 것보다 훨씬 더 오래 걸립니다(약 7~10분).

콘솔의 브라우저 탭으로 돌아갑니다.
탐색 메뉴에서 Dataflow를 클릭하고 진행 상태를 모니터링할 작업을 클릭합니다.

예:

Dataflow 작업 세부정보

나의 진행 상황 확인을 클릭하여 목표를 확인하세요.

Cloud에 Dataflow 작업 제출

작업 상태가 성공으로 바뀔 때까지 기다립니다.
Cloud Storage 버킷에서 출력을 검토합니다.
탐색 메뉴에서 Cloud Storage > 브라우저를 클릭하고 버킷을 클릭합니다.
javahelp 디렉터리를 클릭합니다.

이 작업으로 output.txt 파일이 생성됩니다. 파일이 일정 크기 이상이면 output-0000x-of-000y와 같은 이름이 지정된 여러 부분으로 샤딩됩니다. 이름 또는 최종 수정 시간 필드를 보고 가장 최근 파일을 식별할 수 있습니다.

보려는 파일을 클릭합니다.

또는 training-vm SSH 터미널을 통해 파일을 다운로드하여 볼 수 있습니다.

gsutil cp gs://$BUCKET/javahelp/output* . cat output*

실습 종료하기

실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.

실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.

별점의 의미는 다음과 같습니다.

별표 1개 = 매우 불만족
별표 2개 = 불만족
별표 3개 = 중간
별표 4개 = 만족
별표 5개 = 매우 만족

의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.

의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.

Dataflow를 사용한 서버리스 데이터 분석: 간단한 Dataflow 파이프라인(Python)

개요

목표

설정

프로젝트 권한 확인

작업 1. Dataflow API가 성공적으로 사용 설정되어 있는지 확인

작업 2. 준비

SSH 터미널을 열고 학습용 VM에 연결하기

코드 저장소 다운로드

Cloud Storage 버킷 만들기

작업 3. 파이프라인 필터링

작업 4 로컬로 파이프라인 실행

작업 5. 클라우드에서 파이프라인 실행하기

실습 종료하기

시작하기 전에

시크릿 브라우징 사용

콘솔에 로그인

시크릿 브라우징을 사용하여 실습 실행하기