시작하기 전에
- 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
- 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
- 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.
Copy Java files to the Cloud
/ 5
Submit the Dataflow job to the Cloud
/ 5
이 실습에서는 Python을 사용하여 Dataflow 프로젝트를 열고, 파이프라인 필터링을 사용하고, 로컬과 클라우드에서 파이프라인을 실행해봅니다.
Dataflow 프로젝트 열기
파이프라인 필터링
로컬 및 클라우드에서 파이프라인 실행
이 실습에서는 간단한 Dataflow 파이프라인을 작성하여 로컬과 클라우드에서 실행하는 방법을 학습합니다.
Apache Beam을 사용하여 Python Dataflow 프로젝트 설정
Python으로 간단한 파이프라인 작성
로컬 컴퓨터에서 쿼리 실행
클라우드에서 쿼리 실행하기
각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.
시크릿 창을 사용하여 Qwiklabs에 로그인합니다.
실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.
Google Console 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.
Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 선택합니다.
기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요 > 대시보드에서 확인할 수 있습니다.
editor 역할이 없는 경우 다음 단계에 따라 필요한 역할을 할당합니다.729328892908)를 복사합니다.{project-number}는 프로젝트 번호로 바꿉니다.필요한 API에 액세스할 수 있도록 Dataflow API에 대한 연결을 다시 시작합니다.
Cloud Console의 상단에 있는 검색창에서 Dataflow API를 입력합니다.
Dataflow API에 대한 검색결과를 클릭합니다.
관리를 클릭합니다.
API 사용 중지를 클릭합니다.
확인을 요청하는 메시지가 표시되면 사용 중지를 클릭합니다.
사용 설정을 클릭합니다.
선별된 학습용 VM에서 모든 코드를 실행합니다.
Console의 탐색 메뉴()에서 Compute Engine > VM 인스턴스를 클릭합니다.
training-vm 인스턴스가 있는 줄을 찾습니다.
맨 오른쪽에 있는 연결에서 SSH를 클릭하여 터미널 창을 엽니다.
이 실습에서는 training-vm에 CLI 명령어를 입력합니다.
다음으로 이 실험실에서 사용할 코드 저장소를 다운로드합니다. training-vm SSH 터미널에서 다음을 입력합니다.
다음 안내에 따라 버킷을 만듭니다.
Console의 탐색 메뉴에서 홈을 클릭합니다.
프로젝트 ID를 선택 및 복사합니다.
여기서는 간단하게 이미 전역적으로 고유한 Qwiklabs 프로젝트 ID를 버킷 이름으로 사용하겠습니다.
| 속성 | 값(지정된 값 입력 또는 옵션 선택) |
|---|---|
| 이름 | <고유한 버킷 이름(프로젝트 ID)> |
| 위치 유형 | 멀티 리전 |
| 위치 | <사용자 위치> |
버킷의 이름을 기록합니다. 후속 작업에 필요합니다.
training-vm SSH 터미널에서 다음을 입력하여 'BUCKET'이라는 환경 변수를 만들고 echo 명령어를 사용하여 이 환경 변수가 존재하는지 확인합니다.
터미널 명령어에 $BUCKET을 사용할 수 있습니다. 그리고 콘솔에서 텍스트 필드에 버킷 이름 <your-bucket>을 입력해야 할 경우 echo $BUCKET으로 이름을 빠르게 검색할 수 있습니다.
이 실습의 목표는 Dataflow 프로젝트의 구조를 익히고 Dataflow 파이프라인을 실행하는 방법을 학습하는 것입니다.
/training-data-analyst/courses/data_analysis/lab2/python 디렉터리로 이동하여 grep.py 파일을 확인합니다.Nano를 사용해 파일을 확인합니다. 코드를 변경하지 마세요. Ctrl+X를 눌러 Nano를 종료합니다.
grep.py 파일에 대한 다음 질문에 답변하세요.
파이프라인에는 세 개의 변환이 있습니다.
변환은 어떤 역할을 하나요?
두 번째 변환은 어떤 역할을 하나요?
어디에서 입력되나요?
이 입력으로 무엇을 하나요?
출력에 무엇을 쓰나요?
어디에 출력되나요?
세 번째 변환은 어떤 역할을 하나요?
training-vm SSH 터미널에서 grep.py를 로컬로 실행합니다.
출력 파일은 output.txt입니다. 출력 크기가 일정 이상이면 output-00000-of-00001과 같은 이름이 지정된 개별 부분으로 샤딩됩니다.
파일 시간을 확인하여 올바른 파일을 찾습니다.
출력 파일을 확인합니다.
아래에서 "-*"를 적절한 접미사로 바꿀 수 있습니다.
출력이 논리적인가요?
일부 Java 파일을 클라우드로 복사합니다. training-vm SSH 터미널에서 다음 명령어를 입력합니다.
나의 진행 상황 확인을 클릭하여 목표를 확인하세요.
Nano를 사용하여 grepc.py에서 Dataflow 파이프라인을 편집합니다.
편집 전의 예시 문자열:
편집 후의 예시 문자열(사용자 값 사용):
파일을 저장하고 Ctrl + X 키를 눌러 Nano 텍스트 편집기를 종료합니다. 그런 다음 Y와 Enter를 누릅니다.
클라우드에 Dataflow 작업을 제출합니다.
매우 간단한 작업이기 때문에 클라우드에서 실행하는 것이 로컬에서 실행하는 것보다 훨씬 더 오래 걸립니다(약 7~10분).
콘솔의 브라우저 탭으로 돌아갑니다.
탐색 메뉴에서 Dataflow를 클릭하고 진행 상태를 모니터링할 작업을 클릭합니다.
예:
나의 진행 상황 확인을 클릭하여 목표를 확인하세요.
작업 상태가 성공으로 바뀔 때까지 기다립니다.
Cloud Storage 버킷에서 출력을 검토합니다.
탐색 메뉴에서 Cloud Storage > 브라우저를 클릭하고 버킷을 클릭합니다.
javahelp 디렉터리를 클릭합니다.
이 작업으로 output.txt 파일이 생성됩니다. 파일이 일정 크기 이상이면 output-0000x-of-000y와 같은 이름이 지정된 여러 부분으로 샤딩됩니다. 이름 또는 최종 수정 시간 필드를 보고 가장 최근 파일을 식별할 수 있습니다.
또는 training-vm SSH 터미널을 통해 파일을 다운로드하여 볼 수 있습니다.
실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.
실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.
별점의 의미는 다음과 같습니다.
의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.
의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.
Copyright 2026 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.
현재 이 콘텐츠를 이용할 수 없습니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
감사합니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
한 번에 실습 1개만 가능
모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.