Lab setup instructions and requirements
Protect your account and progress. Always use a private browser window and lab credentials to run this lab.

Dataproc: Qwik Start – командний рядок

Lab 30 годин universal_currency_alt 1 кредит show_chart Початковий
info This lab may incorporate AI tools to support your learning.
This content is not yet optimized for mobile devices.
For the best experience, please visit us on a desktop computer using a link sent by email.

GSP104

Логотип Google Cloud Self-Paced Labs

Огляд

Dataproc – це швидкий, зручний і простий у керуванні хмарний сервіс для запуску кластерів Apache Spark та Apache Hadoop без зайвих клопотів і витрат. Дії, що раніше займали кілька годин або днів, тепер можна виконати за лічені хвилини чи навіть секунди. Завдяки цьому сервісу можна швидко створювати кластери Dataproc і будь-коли змінювати їх розмір відповідно до розміру конвеєрів для обробки даних.

На цьому практичному занятті ви навчитеся створювати кластер Dataproc, виконувати в ньому просте завдання Apache Spark і змінювати кількість робочих вузлів за допомогою командного рядка.

Завдання

На цьому практичному занятті ви навчитеся виконувати наведені нижче дії.

  • Створювати кластер Dataproc за допомогою командного рядка
  • Виконувати просте завдання Apache Spark
  • Змінювати кількість робочих вузлів у кластері

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.

Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.

Для цього практичного заняття потрібно мати:

  • стандартний вебпереглядач, наприклад Chrome (рекомендовано);
Примітка. Виконуйте практичне заняття в анонімному вікні вебпереглядача (рекомендовано). Так ви уникнете додаткової плати, що може стягуватися з вашого особистого облікового запису внаслідок його помилкового використання замість облікового запису для навчання.
  • достатню кількість часу, оскільки почавши практичне заняття, ви не зможете призупинити його.
Примітка. Для виконання цього практичного заняття використовуйте лише обліковий запис для навчання, оскільки з іншого облікового запису Google Cloud може стягуватися плата.

Як почати виконувати практичну роботу й увійти в Google Cloud Console

  1. Натисніть кнопку Start Lab (Почати практичне заняття). Якщо за практичне заняття необхідно заплатити, відкриється вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель "Відомості про практичне заняття" з такими компонентами:

    • кнопка "Відкрити консоль Google";
    • час до закінчення;
    • тимчасові облікові дані, які потрібно використовувати для доступу до цього практичного заняття;
    • інша інформація, необхідна для виконання цього практичного заняття.
  2. Натисніть Відкрити консоль Google або натисніть правою кнопкою миші й виберіть Відкрити анонімне вікно, якщо ви використовуєте вебпереглядач Chrome.

    Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою "Увійти".

    Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.

    Примітка. Якщо з’явиться вікно Виберіть обліковий запис, натисніть Вибрати інший обліковий запис.
  3. За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Вхід.

    {{{user_0.username | "Username"}}}

    Поле "Ім’я користувача" також можна знайти на панелі "Відомості про практичне заняття".

  4. Натисніть Далі.

  5. Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).

    {{{user_0.password | "Password"}}}

    Поле "Пароль" також можна знайти на панелі "Відомості про практичне заняття".

  6. Натисніть Далі.

    Важливо. Обов’язково використовуйте облікові дані, призначені для відповідного практичного заняття. Не використовуйте облікові дані Google Cloud. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата.
  7. Що від вас очікується

    • Прийміть Умови використання.
    • Не додавайте способи відновлення й двохетапну перевірку (оскільки це тимчасовий обліковий запис).
    • Не реєструйте безкоштовні пробні версії.

Через кілька секунд консоль Google Cloud відкриється в новій вкладці.

Примітка. Щоб отримати доступ до продуктів і сервісів Google Cloud, натисніть меню навігації або введіть назву сервісу чи продукту в полі пошуку. Значок меню навігації і поле пошуку

Як активувати Cloud Shell

Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.

  1. Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) Значок активації Cloud Shell.

  2. У вікнах, що відкриються, виконайте наведені нижче дії.

    • У вікні з інформацією про Cloud Shell натисніть Continue (Далі).
    • Дозвольте Cloud Shell використовувати ваші облікові дані, щоб здійснювати виклики Google Cloud API.

Щойно ви підключитеся, вас буде автентифіковано, а проєкт отримає ваш Project_ID (Ідентифікатор проєкту). Вивід міститиме рядок зі значенням Project_ID (Ідентифікатор проєкту) для цього сеансу:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud – це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.

  1. (Необов’язково) Щоб вивести поточне ім’я облікового запису, введіть таку команду:
gcloud auth list
  1. Натисніть Authorize (Авторизувати).

Вивід:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Необов’язково) Щоб вивести ідентифікатор проєкту, введіть таку команду:
gcloud config list project

Вивід:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} Примітка. Щоб знайти повну документацію щодо gcloud, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.

Завдання 1. Створіть кластер

  1. Щоб налаштувати регіон, виконайте в Cloud Shell таку команду:
gcloud config set dataproc/region {{{project_0.default_region | Region}}}
  1. Вимкніть Dataproc API:
gcloud services disable dataproc.googleapis.com --force
  1. Знову ввімкніть Dataproc API:
gcloud services enable dataproc.googleapis.com
  1. Dataproc створює сегменти staging (підготовчий) і temp (тимчасовий), що використовуються всіма кластерами в одному регіоні. Оскільки ми не вказуємо обліковий запис, який має використовувати Dataproc, використовуватиметься стандартний сервісний обліковий запис Compute Engine, який за умовчанням не має прав доступу до сегмента Cloud Storage. Надайте йому права доступу.
  • Спочатку виконайте наведені нижче команди, щоб отримати PROJECT_ID (ІДЕНТИФІКАТОР ПРОЄКТУ) і PROJECT_NUMBER (НОМЕР ПРОЄКТУ):
PROJECT_ID=$(gcloud config get-value project) && \ gcloud config set project $PROJECT_ID PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format='value(projectNumber)')
  • Тепер виконайте команду нижче, щоб призначити стандартному сервісному обліковому запису Compute Engine ролі адміністратора сховища й робочого вузла Dataproc:
gcloud projects add-iam-policy-binding $PROJECT_ID \ --member=serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com \ --role=roles/storage.admin gcloud projects add-iam-policy-binding $PROJECT_ID \ --member=serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com \ --role=roles/dataproc.worker
  1. Увімкніть приватний доступ до Google у своїй підмережі, виконавши таку команду:
gcloud compute networks subnets update default --region={{{project_0.default_region | REGION }}} --enable-private-ip-google-access
  1. Щоб створити кластер під назвою example-cluster із віртуальними машинами e2-standard-4 і налаштуваннями Cloud Dataproc за умовчанням, виконайте таку команду:
gcloud dataproc clusters create example-cluster --worker-boot-disk-size 500 --worker-machine-type=e2-standard-4 --master-machine-type=e2-standard-4
  1. Якщо з’явиться запит із пропозицією підтвердити зону кластера, введіть Y.

Кластер буде створено за кілька хвилин.

Waiting for cluster creation operation...done. Created [... example-cluster]

Коли з’явиться повідомлення "Created" (Створено), можна рухатися далі.

Перевірка виконаного завдання

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо кластер Dataproc створено правильно, ви побачите оцінку.

Створіть кластер Dataproc

Завдання 2. Надішліть завдання

  • Щоб надіслати пробне завдання Spark, яке приблизно визначає значення числа пі, виконайте таку команду:
gcloud dataproc jobs submit spark --cluster example-cluster \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

У команді вказано таку інформацію:

  • потрібно виконати завдання Spark у кластері example-cluster;
  • class містить відомості про основний метод, що використовується для обчислення числа пі;
  • розташування файлу JAR, що містить код завдання;
  • параметри, які потрібно передати завданню (у нашому випадку це кількість завдань – 1000).
Примітка. Параметри для завдання слід указувати після подвійного дефіса (--). Додаткову інформацію наведено в документації gcloud.

Виконання завдання й вивід відображаються у вікні термінала.

Waiting for job output... ... Pi is roughly 3.14118528 ... state: FINISHED

Перевірка виконаного завдання

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо завдання виконано правильно, ви побачите оцінку.

Надішліть завдання

Завдання 3. Оновіть кластер

  1. Щоб збільшити кількість робочих вузлів у кластері до чотирьох, виконайте таку команду:
gcloud dataproc clusters update example-cluster --num-workers 4

Вивід команди містить оновлені відомості про кластер:

Waiting on operation [projects/qwiklabs-gcp-7f7aa0829e65200f/regions/global/operations/b86892cc-e71d-4e7b-aa5e-6030c945ea67]. Waiting for cluster update operation...done.
  1. За допомогою тієї самої команди можна зменшити кількість робочих вузлів:
gcloud dataproc clusters update example-cluster --num-workers 2

Тепер ви можете створити кластер Dataproc і відкоригувати кількість робочих вузлів із командного рядка gcloud у Google Cloud.

Завдання 4. Перевірте свої знання

Дайте відповіді на запитання з кількома варіантами відповіді нижче, щоб закріпити розуміння понять, які зустрічаються в цьому практичному занятті.

Вітаємо!

Ви дізнались, як створювати й змінювати кластер Dataproc, а також як виконувати завдання за допомогою командного рядка.

Наступні кроки/Докладніше

Це заняття також входить до низки практичних занять під назвою Qwik Starts. Вони призначені для ознайомлення з функціями Google Cloud. Такі практичні заняття можна знайти в каталозі за запитом "Qwik Starts".

Навчання й сертифікація Google Cloud

…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.

Посібник востаннє оновлено 26 серпня 2025 року

Практичне заняття востаннє протестовано 26 серпня 2025 року

© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.

Before you begin

  1. Labs create a Google Cloud project and resources for a fixed time
  2. Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
  3. On the top left of your screen, click Start lab to begin

Use private browsing

  1. Copy the provided Username and Password for the lab
  2. Click Open console in private mode

Sign in to the Console

  1. Sign in using your lab credentials. Using other credentials might cause errors or incur charges.
  2. Accept the terms, and skip the recovery resource page
  3. Don't click End lab unless you've finished the lab or want to restart it, as it will clear your work and remove the project

This content is not currently available

We will notify you via email when it becomes available

Great!

We will contact you via email if it becomes available

One lab at a time

Confirm to end all existing labs and start this one

Use private browsing to run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.