GSP1231

Ringkasan
Gemini adalah rangkaian model AI generatif yang dikembangkan oleh Google DeepMind dan dirancang untuk kasus penggunaan multimodal.
Retrieval-Augmented Generation (RAG) telah menjadi paradigma populer dalam memungkinkan LLM mengakses data eksternal dan juga sebagai mekanisme menerapkan grounding untuk memitigasi halusinasi. Model RAG dilatih untuk mengambil dokumen relevan dari korpus besar lalu membuat respons berdasarkan dokumen yang diambil. Di lab ini, Anda akan mempelajari cara menjalankan RAG multimodal dengan melakukan Tanya Jawab mengenai suatu dokumen keuangan yang berisi teks dan gambar.
Membandingkan RAG berbasis teks dan multimodal
RAG multimodal menawarkan beberapa keunggulan dibandingkan dengan RAG berbasis teks:
-
Akses informasi yang ditingkatkan: RAG multimodal dapat mengakses dan memproses informasi tekstual serta visual, sehingga memberikan pusat informasi yang lebih kaya dan komprehensif untuk LLM.
-
Kemampuan logika yang ditingkatkan: Dengan menyertakan petunjuk visual, RAG multimodal dapat membuat inferensi yang lebih tepat di berbagai jenis modalitas data.
Lab ini menunjukkan kepada Anda cara menggunakan RAG dengan Gemini API di Vertex AI, embedding teks, dan embedding multimodal, untuk membangun mesin telusur dokumen.
Prasyarat
Sebelum memulai lab ini, Anda sebaiknya sudah mengetahui:
- Pemrograman Python dasar.
- Konsep API secara umum.
- Cara menjalankan kode Python di notebook Jupyter di Vertex AI Workbench.
Tujuan
Di lab ini, Anda akan mempelajari cara:
- Mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding dokumen.
- Menelusuri metadata dengan kueri teks untuk menemukan teks atau gambar yang serupa.
- Menelusuri metadata dengan kueri gambar untuk menemukan gambar yang serupa.
- Menelusuri jawaban kontekstual dengan teks dan gambar menggunakan kueri teks sebagai input.
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran.
Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
-
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda.
Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
-
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search.
Tugas 1. Membuka notebook di Vertex AI Workbench
-
Di Konsol Google Cloud, pada Navigation menu (
), klik Vertex AI > Workbench.
-
Cari instance lalu klik tombol Open JupyterLab.
Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.
Tugas 2. Menyiapkan notebook
-
Buka file .
-
Pada dialog Select Kernel, pilih Python 3 dari daftar kernel yang tersedia.
-
Jalankan bagian Getting Started dan Import libraries pada notebook.
- Untuk Project ID, gunakan , sedangkan untuk Location, gunakan .
Catatan: Anda dapat melewatkan sel notebook yang bertanda Colab only. Jika Anda mendapatkan respons 429 dari salah satu eksekusi sel notebook, tunggu 1 menit sebelum menjalankan sel kembali untuk melanjutkan.
Klik Periksa progres saya untuk memverifikasi tujuan.
Menginstal GenAI SDK for Python dan mengimpor library
Pada bagian berikut ini, Anda akan menjalankan sel notebook untuk melihat cara Gemini API membangun sistem RAG multimodal.
Tugas 3. Mendownload aplikasi utilitas Python kustom & file yang diperlukan
Model Gemini 2.0 Flash (gemini-2.0-flash
) dirancang untuk menangani tugas bahasa alami, teks multiturn dan chat kode, serta pembuatan kode. Di bagian ini, Anda akan mendownload beberapa fungsi bantuan yang dibutuhkan oleh notebook ini untuk meningkatkan keterbacaan. Anda juga dapat melihat kode (intro_multimodal_rag_utils.py
) secara langsung di GitHub.
- Dalam tugas ini, jalankan sel notebook untuk memuat model dan mendownload fungsi bantuan serta mendapatkan dokumen dan gambar dari Cloud Storage.
Klik Periksa progres saya untuk memverifikasi tujuan.
Mendownload gambar dan dokumen dari Cloud Storage
Tugas 4. Membangun metadata dokumen yang berisi teks dan gambar
Data sumber yang Anda gunakan di lab ini adalah versi modifikasi dari Google-10K yang memberikan ringkasan komprehensif terkait performa keuangan, operasi bisnis, pengelolaan, dan faktor risiko perusahaan. Karena dokumen aslinya berukuran cukup besar, Anda akan menggunakan versi modifikasi yang hanya berisi 14 halaman serta terbagi menjadi dua bagian, yaitu Bagian 1 dan Bagian 2. Meskipun lebih pendek, dokumen sampel ini masih berisi teks beserta gambar seperti tabel, diagram, dan grafik.
- Dalam tugas ini, jalankan sel notebook untuk mengekstrak dan menyimpan metadata teks serta gambar dari dokumen.
Catatan: Proses menjalankan sel notebook untuk mengekstrak dan menyimpan metadata teks serta gambar dari dokumen mungkin memerlukan waktu beberapa menit.
Klik Periksa progres saya untuk memverifikasi tujuan.
Mengekstrak dan menyimpan metadata teks serta gambar dari dokumen
Tugas 5. Penelusuran Teks
Mari memulai penelusuran dengan pertanyaan sederhana dan lihat apakah penelusuran teks sederhana yang menggunakan embedding teks dapat menjawab pertanyaan tersebut. Jawaban yang diharapkan adalah yang menunjukkan nilai laba bersih dasar dan terdilusi per saham Google untuk berbagai jenis saham.
- Dalam tugas ini, jalankan sel notebook untuk menelusuri teks dan gambar yang serupa menggunakan kueri teks.
Klik Periksa progres saya untuk memverifikasi tujuan.
Menelusuri teks serupa dengan kueri teks
Tugas 6. Penelusuran Gambar
Bayangkan Anda mencari gambar, tetapi alih-alih mengetik kata-kata, Anda menggunakan gambar sebenarnya sebagai petunjuk. Anda memiliki tabel berisi angka biaya pendapatan selama dua tahun, dan Anda ingin mencari gambar lain yang serupa, dari dokumen yang sama atau beberapa dokumen sekaligus.
Kemampuan untuk mengidentifikasi teks dan gambar serupa berdasarkan input pengguna, yang didukung oleh Gemini dan embedding, menjadi landasan penting untuk pengembangan sistem RAG multimodal, yang akan dipelajari dalam tugas berikutnya.
- Dalam tugas ini, jalankan sel notebook untuk menelusuri gambar yang serupa menggunakan kueri gambar.
Catatan: Anda mungkin perlu menunggu beberapa menit guna mendapatkan skor untuk tugas ini.
Klik Periksa progres saya untuk memverifikasi tujuan.
Menelusuri gambar yang serupa dengan kueri gambar
Penalaran Komparatif
Bayangkan kita memiliki grafik yang menunjukkan kinerja saham Google Kelas A jika dibandingkan dengan perusahaan lain seperti S&P 500 atau perusahaan teknologi lainnya. Anda ingin mengetahui kinerja saham Kelas C jika dibandingkan dengan grafik tersebut. Alih-alih menemukan gambar lain yang serupa, Anda dapat meminta Gemini untuk membandingkan gambar yang relevan dan memberi tahu Anda agar lebih baik berinvestasi di saham yang mana. Gemini kemudian akan menjelaskan alasan dari pilihan tersebut.
- Dalam tugas ini, jalankan sel notebook untuk membandingkan dua gambar dan menemukan gambar yang paling mirip.
Klik Periksa progres saya untuk memverifikasi tujuan.
Penalaran Komparatif
Tugas 7. Retrieval augmented generation (RAG) multimodal
Mari kita satukan semuanya untuk menerapkan RAG multimodal. Anda menggunakan semua elemen yang sudah Anda pelajari di bagian sebelumnya untuk menerapkan RAG multimodal. Berikut langkah-langkahnya:
-
Langkah 1: Pengguna memberikan kueri dalam format teks di mana informasi yang diharapkan tersedia di dokumen dan disematkan dalam gambar dan teks.
-
Langkah 2: Temukan semua potongan teks dari halaman dokumen menggunakan metode yang serupa dengan yang Anda pelajari di
Penelusuran Teks
.
-
Langkah 3: Temukan semua gambar yang serupa dari halaman berdasarkan kueri pengguna yang sesuai dengan
image_description
menggunakan metode yang sama dengan yang Anda pelajari di Penelusuran Gambar
.
-
Langkah 4: Gabungkan semua teks dan gambar serupa yang ditemukan di langkah 2 dan 3 sebagai
context_text
dan context_images
.
-
Langkah 5: Dengan bantuan Gemini, kita dapat meneruskan kueri pengguna dengan konteks teks dan gambar yang ditemukan di langkah 2 & 3. Anda juga dapat menambahkan perintah spesifik yang seharusnya diingat model saat menjawab kueri pengguna.
-
Langkah 6: Gemini memberikan jawaban, dan Anda dapat menampilkan kutipan untuk mengecek semua teks dan gambar relevan yang digunakan untuk menjawab kueri.
- Dalam tugas ini, jalankan sel notebook untuk mengoperasikan RAG multimodal.
Catatan: Anda mungkin perlu menunggu beberapa menit guna mendapatkan skor untuk tugas ini.
Klik Periksa progres saya untuk memverifikasi tujuan.
Menampilkan kutipan untuk memeriksa semua teks dan gambar yang relevan
Selamat!
Di lab ini, Anda telah mempelajari cara membuat mesin telusur dokumen yang canggih menggunakan Retrieval Augmented Generation (RAG) Multimodal. Anda telah mempelajari cara mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding untuk dokumen tersebut. Anda juga telah mempelajari cara mencari metadata menggunakan kueri teks dan gambar untuk menemukan teks dan gambar yang serupa. Terakhir, Anda telah mempelajari cara menggunakan kueri teks sebagai input untuk menelusuri jawaban kontekstual menggunakan teks dan gambar.
Langkah berikutnya/pelajari lebih lanjut
Baca referensi berikut untuk mempelajari Gemini lebih lanjut:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 15 Mei 2025
Lab Terakhir Diuji pada 15 Mei 2025
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.