Get access to 700+ labs and courses

Практичне заняття підвищеного рівня складності "Аналіз мультимедійних документів за допомогою мультимодального Gemini і технології мультимодальної генерації з доповненням через пошук (RAG)"

Lab 1 година 30 годин universal_currency_alt 5 кредитів show_chart Середній

info This lab may incorporate AI tools to support your learning.

GSP520
Огляд
Налаштування й вимоги
Сценарій
Завдання 1. Згенеруйте мультимодальні дані за допомогою Gemini
Завдання 2. Отримайте дані й згенеруйте відповідь, використовуючи технологію мультимодальної генерації з доповненням через пошук
Вітаємо!

Get access to 700+ labs and courses

GSP520

Логотип Google Cloud Self-Paced Labs

Огляд

Практична робота підвищеного рівня складності передбачає сценарій і кілька завдань. Покрокових інструкцій немає. Натомість ви маєте застосувати навички, які здобули під час практичних робіт курсу, і самостійно з’ясувати, як виконувати завдання. Автоматична система оцінювання (показана на цій сторінці) згенерує відгук щодо того, чи правильно виконано завдання.

Під час практичної роботи підвищеного рівня складності ви не вивчаєте нові поняття Google Cloud, а розвиваєте опановані навички (наприклад, змінюєте значення за умовчанням і переглядаєте повідомлення про помилки для їх виправлення).

Щоб набрати 100%, слід правильно виконати всі завдання за визначений період часу.

Це практичне заняття рекомендовано для слухачів, які зареєструвалися на кваліфікаційний курс Аналіз мультимедійних документів за допомогою мультимодального Gemini і технології мультимодальної генерації з доповненням через пошук (RAG). Готові почати?

Ви виконаєте такі дії:

використаєте мультимодальні запити для отримання інформації з текстових, графічних і відеоданих, згенеруєте опис відео й знайдете додаткові дані в ролику за допомогою мультимодального Gemini;
створите метадані документів, що містять текст і зображення, знайдете потрібні фрагменти тексту й виведете цитати, використовуючи технологію мультимодальної генерації з доповненням через пошук від Gemini.

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.

Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.

Для цього практичного заняття потрібно мати:

стандартний вебпереглядач, наприклад Chrome (рекомендовано);

Примітка. Виконуйте практичне заняття в анонімному вікні вебпереглядача (рекомендовано). Так ви уникнете додаткової плати, що може стягуватися з вашого особистого облікового запису внаслідок його помилкового використання замість облікового запису для навчання.

достатню кількість часу, оскільки почавши практичне заняття, ви не зможете призупинити його.

Примітка. Для виконання цього практичного заняття використовуйте лише обліковий запис для навчання, оскільки з іншого облікового запису Google Cloud може стягуватися плата.

Відкрийте записник у Vertex AI Workbench

У меню навігації () консолі Google Cloud натисніть Vertex AI > Workbench.
Знайдіть екземпляр і натисніть кнопку Open JupyterLab (Відкрити JupyterLab).

Інтерфейс JupyterLab для екземпляра Workbench відкриється в новій вкладці вебпереглядача.

Примітка. Якщо в JupyterLab не відображаються записники, виконайте наведені нижче кроки, щоб скинути налаштування екземпляра.

1. Закрийте вкладку вебпереглядача з інтерфейсом JupyterLab і поверніться на головну сторінку Workbench.

2. Поставте прапорець біля назви екземпляра й натисніть Reset (Скинути).

3. Коли кнопка Open JupyterLab (Відкрити JupyterLab) знову стане активною, зачекайте одну хвилину, перш ніж натиснути її.

Налаштуйте записник

Відкрийте файл .
У вікні Select Kernel (Вибрати ядро) виберіть у списку доступних ядер опцію Python 3.
Запустіть розділ блокнота Getting Started. Ідентифікатор проекту та місцезнаходження попередньо налаштовані для вас.

Примітка. Клітинки записника з позначкою Colab only (Лише Colab) можна пропускати. Якщо під час виконання дій у будь-якій клітинці записника ви отримаєте відповідь 429, зачекайте 1 хвилину, перш ніж виконувати їх знову.

Перш ніж переходити до Завдання 1, запустіть код у чотирьох клітинках із розділу записника Налаштування й вимоги.

Сценарій

Ви є координатором маркетингових кампаній у медіакомпанії і працюєте в команді з менеджером із маркетингу. Разом ви плануєте, проводите й оцінюєте кампанії, щоб досягти цільових показників продажів. Нещодавно ваша організація уклала важливий контракт із Google. Тепер ви хочете докладно ознайомитися з матеріалами, які допоможуть якнайшвидше дізнатися більше про бренд Google і його індивідуальність. Щоб отримати докладну інформацію про діяльність компанії, ви плануєте переглянути її правила щодо фірмового оформлення, відгуки клієнтів, фінансові звіти, матеріали попередніх кампаній і оголошення про продукти. Ви маєте намір скористатися інноваційними можливостями Gemini, які допоможуть вам розібратися в деталях.

Під час цього практичного заняття ви спершу створите мультимодальні запити, щоб отримати інформацію з текстових, графічних і відеоданих, згенеруєте опис відео й знайдете додаткові відомості в ролику за допомогою мультимодального Gemini. Ви також створите метадані документів, що містять текст і зображення, знайдете необхідні фрагменти тексту й виведете цитати, використовуючи технологію мультимодальної генерації з доповненням через пошук від Gemini.

Завдання 1. Згенеруйте мультимодальні дані за допомогою Gemini

Під час виконання цього завдання ви ознайомитеся з брендом Google і його індивідуальністю, використовуючи Gemini – мультимодальну модель, яка підтримує мультимодальні запити. Ви додасте в запити фрагменти тексту, зображення й відео, щоб отримати відповіді у вигляді тексту або коду.

Щоб успішно виконати це завдання, дотримуйтеся вказівок у відповідних розділах записника.

Примітка. Перш ніж натискати кнопку Підтвердити виконання для кожного завдання, переконайтеся, що скрипт у записнику збережено.

Щоб проаналізувати кілька зображень за допомогою мультимодальної моделі, виконайте вказівки в розділі Проаналізуйте зображення в контексті кількох зображень.

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Проаналізуйте зображення в контексті кількох зображень.

Щоб порівняти зображення за допомогою мультимодальної моделі, виконайте вказівки в розділі Знайдіть подібності й відмінності між зображеннями.

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Знайдіть подібності й відмінності між зображеннями.

Щоб згенерувати опис відео за допомогою мультимодальної моделі, виконайте вказівки в розділі Згенеруйте опис відео.
Виконайте це завдання, використовуючи відео [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4).
Щоб отримати теги об’єктів із відео за допомогою мультимодальної моделі, виконайте вказівки в розділі Отримайте теги об’єктів із відео.
Виконайте це завдання, використовуючи відео [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4).
Щоб отримати додаткову інформацію про відео за допомогою мультимодальної моделі, виконайте вказівки в розділі Поставте додаткові запитання щодо відео.
Виконайте це завдання, використовуючи відео [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4).
Щоб отримати додаткову інформацію із зображень за допомогою мультимодальної моделі, виконайте вказівки в розділі Отримайте додаткові дані з ролика.

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Згенеруйте опис відео й отримайте додаткові дані з ролика.

Завдання 2. Отримайте дані й згенеруйте відповідь, використовуючи технологію мультимодальної генерації з доповненням через пошук

Щоб успішно виконати це завдання, дотримуйтеся вказівок у відповідних розділах записника.

Доступні дані й допоміжні функції для Завдання 2:

Умови використання сервісів Google, які визначають відносини між компанією Google і її користувачами. Цей документ містить інформацію про те, чого користувачі можуть очікувати від Google, а також про правила використання наших сервісів, права інтелектуальної власності на контент і процедури вирішення спорів і суперечок. Ця версія документа містить лише текст.
Скорочена версія документа Google-10K, який містить докладний огляд фінансових показників компанії, а також її комерційної діяльності, процедур керування й факторів ризику. Через великий обсяг оригінального документа в завданні використовується скорочена версія із 14 сторінок, поділена на Частину 1 і Частину 2. Окрім тексту, ця версія містить зображення (зокрема таблиці, діаграми й графіки).

Щоб виконувати завдання, вам також потрібно скористатися допоміжними функціями зі списку нижче. Докладніше про ці функції можна дізнатися в цій статті на GitHub.

Аналіз метаданих обробленого тексту
- text: отримання вихідного тексту зі сторінки
- text_embedding_page: векторне представлення вихідного тексту зі сторінки
- chunk_text: отримання вихідного тексту, розділеного на невеликі фрагменти
- chunk_number: отримання індексу кожного фрагмента тексту
- text_embedding_chunk: векторне представлення кожного фрагмента тексту
Аналіз метаданих обробленого зображення
- img_desc: отримання текстового опису зображення, згенерованого за допомогою Gemini
- mm_embedding_from_text_desc_and_img: комбіноване векторне представлення зображення і його опису, що містить візуальну й текстову інформацію
- mm_embedding_from_img_only: векторне представлення зображення без опису для порівняння з результатами аналізу на основі опису
- text_embedding_from_image_description: окреме векторне представлення тексту згенерованого опису для текстового аналізу й порівняння
Імпорт допоміжних функцій для застосування технології генерації з доповненням через пошук
- get_similar_text_from_query(): на основі текстового запиту знаходить у документі потрібний текст за допомогою алгоритму косинуса подібності. Для обчислення використовуються векторні представлення тексту з метаданих. Результати можна фільтрувати за найвищим показником, номером сторінки або фрагмента чи розміром векторного представлення.
- print_text_to_text_citation(): виводить джерело (цитату) і деталі отриманого тексту з функції get_similar_text_from_query().
- get_similar_image_from_query(): на основі зображення або шляху до нього знаходить у документі потрібні зображення, використовуючи векторні представлення зображень із метаданих.
- print_text_to_image_citation(): виводить джерело (цитату) і деталі отриманих зображень із функції get_similar_image_from_query().
- get_gemini_response(): взаємодіє з моделлю Gemini, щоб давати відповіді на запитання, що ґрунтуються на комбінації вхідних текстових і візуальних даних.
- display_images(): виводить групу зображень у вигляді шляхів або об’єктів зображень PIL.

Щоб імпортувати й запустити допоміжні функції, виконайте вказівки в розділі Створіть метадані документів, які містять текст і зображення.
Щоб працювати із зазначеними змінними, виконайте вказівки в розділі Створіть запит користувача.
Щоб отримати необхідні фрагменти тексту на основі запиту, виконайте вказівки в розділі Отримайте необхідні фрагменти тексту.
Щоб упорядкувати фрагменти тексту, виконайте вказівки в розділі Створіть контекст.
Щоб надіслати контекст у Gemini і згенерувати відповідь, виконайте вказівки в розділі Надішліть контекст у Gemini.

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Отримайте дані й згенеруйте відповідь, використовуючи технологію мультимодальної генерації з доповненням через пошук.

Вітаємо!

Пройшовши це заняття підвищеного рівня складності, ви успішно продемонстрували вміння користуватися інтерфейсами Gemini API для генерування тексту, створення викликів функцій і опису відеоконтенту. Перш ніж застосовувати функції на практиці, ви переконалися, що вони відповідають установленим стандартам. Гарний результат!

Значок "Аналіз мультимедійних документів за допомогою мультимодального Gemini і технології мультимодальної генерації з доповненням через пошук (RAG)"

Наступні кроки/Докладніше

Щоб дізнатися більше про Gemini, перегляньте наведені нижче ресурси.

Огляд Gemini
Документація генеративного ШІ на платформі Vertex AI
Генеративний ШІ на YouTube
Перегляньте довідник Vertex AI, який містить спеціально підібрану галерею записників для генеративного ШІ з можливістю пошуку.
Перегляньте інші записники й зразки коду в сховищі генеративного ШІ для платформи Google Cloud.

Навчання й сертифікація Google Cloud

…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.

Посібник востаннє оновлено 15 жовтня 2025 року

Практичне заняття востаннє протестовано 15 жовтня 2025 року

© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.

GSP520

Огляд

Ви виконаєте такі дії:

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Відкрийте записник у Vertex AI Workbench

Налаштуйте записник

Сценарій

Завдання 1. Згенеруйте мультимодальні дані за допомогою Gemini

Завдання 2. Отримайте дані й згенеруйте відповідь, використовуючи технологію мультимодальної генерації з доповненням через пошук

Вітаємо!

Наступні кроки/Докладніше

Навчання й сертифікація Google Cloud

Before you begin

Use private browsing

Sign in to the Console

Use private browsing to run the lab