시작하기 전에
- 실습에서는 정해진 기간 동안 Google Cloud 프로젝트와 리소스를 만듭니다.
- 실습에는 시간 제한이 있으며 일시중지 기능이 없습니다. 실습을 종료하면 처음부터 다시 시작해야 합니다.
- 화면 왼쪽 상단에서 실습 시작을 클릭하여 시작합니다.
이 실습에서는 Python을 사용하여 Dataflow 프로젝트를 열고, 파이프라인 필터링을 사용하고, 로컬과 클라우드에서 파이프라인을 실행해봅니다.
이 실습에서는 간단한 Dataflow 파이프라인을 작성하여 로컬과 클라우드에서 실행하는 방법을 학습합니다.
각 실습에서는 정해진 기간 동안 새 Google Cloud 프로젝트와 리소스 집합이 무료로 제공됩니다.
시크릿 창을 사용하여 Qwiklabs에 로그인합니다.
실습 사용 가능 시간(예: 1:15:00)을 참고하여 해당 시간 내에 완료합니다.
일시중지 기능은 없습니다. 필요한 경우 다시 시작할 수 있지만 처음부터 시작해야 합니다.
준비가 되면 실습 시작을 클릭합니다.
실습 사용자 인증 정보(사용자 이름 및 비밀번호)를 기록해 두세요. Google Cloud Console에 로그인합니다.
Google Console 열기를 클릭합니다.
다른 계정 사용을 클릭한 다음, 안내 메시지에 이 실습에 대한 사용자 인증 정보를 복사하여 붙여넣습니다.
다른 사용자 인증 정보를 사용하는 경우 오류가 발생하거나 요금이 부과됩니다.
약관에 동의하고 리소스 복구 페이지를 건너뜁니다.
Google Cloud Shell은 다양한 개발 도구가 탑재된 가상 머신으로, 5GB의 영구 홈 디렉터리를 제공하며 Google Cloud에서 실행됩니다.
Google Cloud Shell을 사용하면 명령줄을 통해 Google Cloud 리소스에 액세스할 수 있습니다.
Cloud 콘솔의 오른쪽 상단 툴바에서 'Cloud Shell 열기' 버튼을 클릭합니다.
계속을 클릭합니다.
환경을 프로비저닝하고 연결하는 데 몇 분 정도 소요됩니다. 연결되면 사용자가 미리 인증되어 프로젝트가 PROJECT_ID로 설정됩니다. 예:
gcloud는 Google Cloud의 명령줄 도구입니다. Cloud Shell에 사전 설치되어 있으며 명령줄 자동 완성을 지원합니다.
출력:
출력 예시:
출력:
출력 예시:
Google Cloud에서 작업을 시작하기 전에 프로젝트가 Identity and Access Management(IAM) 내에서 올바른 권한을 보유하고 있는지 확인해야 합니다.
Google Cloud 콘솔의 탐색 메뉴()에서 IAM 및 관리자 > IAM을 선택합니다.
기본 컴퓨팅 서비스 계정 {project-number}-compute@developer.gserviceaccount.com이 있고 editor 역할이 할당되어 있는지 확인하세요. 계정 프리픽스는 프로젝트 번호이며, 이 번호는 탐색 메뉴 > Cloud 개요 > 대시보드에서 확인할 수 있습니다.
editor 역할이 없는 경우 다음 단계에 따라 필요한 역할을 할당합니다.729328892908)를 복사합니다.{project-number}는 프로젝트 번호로 바꿉니다.선별된 학습용 VM에서 모든 코드를 실행합니다.
콘솔의 탐색 메뉴()에서 Compute Engine > VM 인스턴스를 클릭합니다.
training-vm 인스턴스가 있는 줄을 찾습니다.
맨 오른쪽에 있는 연결에서 SSH를 클릭하여 터미널 창을 엽니다.
이 실습에서는 training-vm에 CLI 명령어를 입력합니다.
다음 안내에 따라 버킷을 만듭니다.
콘솔의 탐색 메뉴에서 Cloud Storage > 버킷을 클릭합니다.
+ 만들기를 클릭합니다.
다음을 지정하고 나머지 설정은 기본값으로 둡니다.
| 속성 | 값(지정된 대로 값 입력 또는 옵션 선택) |
|---|---|
| 이름 | |
| 위치 유형 | 멀티 리전 |
만들기를 클릭합니다.
Public access will be prevented 프롬프트가 뜨면 Enforce public access prevention on this bucket을 선택하고 확인을 클릭합니다.
버킷의 이름을 기록합니다. 후속 작업에 필요합니다.
터미널 명령어에 $BUCKET을 사용할 수 있습니다. 그리고 콘솔에서 텍스트 필드에 버킷 이름 <your-bucket>을 입력해야 할 경우 echo $BUCKET으로 이름을 빠르게 검색할 수 있습니다.
이 실습의 목표는 Dataflow 프로젝트의 구조를 익히고 Dataflow 파이프라인을 실행하는 방법을 학습하는 것입니다.
training-vm SSH 터미널로 돌아가 /training-data-analyst/courses/data_analysis/lab2/python 디렉터리로 이동하여 grep.py 파일을 확인합니다.
Nano를 사용해 파일을 확인합니다. 다음 코드를 변경하지 마세요.
grep.py 파일에 대한 다음 질문에 답변하세요.
파이프라인에는 세 개의 변환이 있습니다.
grep.py를 로컬로 실행합니다.출력 파일은 output.txt입니다. 출력이 일정 크기 이상이면 output-00000-of-00001과 같은 이름이 지정된 개별 부분으로 샤딩됩니다.
출력 파일을 확인합니다.
아래에서 "-*"를 적절한 서픽스로 바꿀 수 있습니다.
출력이 논리적인가요?
grepc.py에서 Dataflow 파이프라인을 편집합니다.파일을 저장하고 Ctrl+X 키를 누른 다음, Y를 입력하고 Enter 키를 눌러 Nano를 종료합니다.
매우 간단한 작업이기 때문에 클라우드에서 실행하는 것이 로컬에서 실행하는 것보다 훨씬 더 오래 걸립니다(약 7~10분).
콘솔의 브라우저 탭으로 돌아갑니다.
탐색 메뉴에서 Dataflow를 클릭하고 진행 상태를 모니터링할 작업을 클릭합니다.
작업 상태가 성공이 될 때까지 기다립니다.
Cloud Storage 버킷에서 출력을 검토합니다.
탐색 메뉴에서 Cloud Storage > 버킷을 클릭한 후 버킷을 클릭합니다.
javahelp 디렉터리를 클릭합니다.
이 작업으로 output.txt 파일이 생성됩니다. 파일이 일정 크기 이상이면 output-0000x-of-000y와 같은 이름이 지정된 여러 부분으로 샤딩됩니다. 이름 또는 최종 수정 시간 필드를 보고 최근 파일을 식별할 수 있습니다.
또는 training-vm SSH 터미널을 통해 파일을 다운로드하여 볼 수 있습니다.
실습을 완료하면 실습 종료를 클릭합니다. Google Cloud Skills Boost에서 사용된 리소스를 자동으로 삭제하고 계정을 지웁니다.
실습 경험을 평가할 수 있습니다. 해당하는 별표 수를 선택하고 의견을 입력한 후 제출을 클릭합니다.
별점의 의미는 다음과 같습니다.
의견을 제공하고 싶지 않다면 대화상자를 닫으면 됩니다.
의견이나 제안 또는 수정할 사항이 있다면 지원 탭을 사용하세요.
Copyright 2026 Google LLC All rights reserved. Google 및 Google 로고는 Google LLC의 상표입니다. 기타 모든 회사명 및 제품명은 해당 업체의 상표일 수 있습니다.
현재 이 콘텐츠를 이용할 수 없습니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
감사합니다
이용할 수 있게 되면 이메일로 알려드리겠습니다.
한 번에 실습 1개만 가능
모든 기존 실습을 종료하고 이 실습을 시작할지 확인하세요.