Petunjuk dan persyaratan penyiapan lab

Lindungi akun dan progres Anda. Selalu gunakan jendela browser pribadi dan kredensial lab untuk menjalankan lab ini.

Multimodalitas dengan Gemini

Lab 25 menit universal_currency_alt 5 Kredit show_chart Menengah

info Lab ini mungkin menggabungkan alat AI untuk mendukung pembelajaran Anda.

GSP1210
Ringkasan
Tujuan
Penyiapan dan persyaratan
Tugas 1. Membuka notebook di Vertex AI Workbench
Tugas 2. Menyiapkan notebook
Tugas 3. Menggunakan model Gemini Flash
Selamat!

Konten ini belum dioptimalkan untuk perangkat seluler.

Untuk pengalaman terbaik, kunjungi kami dengan komputer desktop menggunakan link yang dikirim melalui email.

GSP1210

Lab mandiri Google Cloud

Ringkasan

Lab ini memperkenalkan Gemini, rangkaian model AI generatif multimodal yang dikembangkan oleh Google. Gunakan Gemini API untuk mempelajari cara Gemini Flash dapat memahami dan menghasilkan respons berdasarkan teks, gambar, dan video.

Dengan kemampuan multimodal, Gemini dapat:

Menganalisis gambar: Mendeteksi objek, memahami antarmuka pengguna, menafsirkan diagram, serta membandingkan kesamaan dan perbedaan visual.
Memproses video: Membuat deskripsi, mengekstrak tag dan sorotan, serta menjawab pertanyaan tentang konten video.

Anda akan bereksperimen dengan berbagai fitur ini melalui tugas interaktif menggunakan Gemini API di Vertex AI.

Prasyarat

Sebelum memulai lab ini, Anda sebaiknya sudah mengetahui:

Pemrograman Python dasar.
Konsep API secara umum.
Cara menjalankan kode Python di notebook Jupyter di Agent Platform Workbench.

Tujuan

Di lab ini, Anda akan:

Berinteraksi dengan Gemini API di Vertex AI.
Menggunakan model Gemini Flash untuk menganalisis gambar dan video.
Memberikan perintah teks, gambar, dan video ke Gemini untuk menghasilkan respons informatif.
Menjelajahi penerapan praktis dari kemampuan multimodal Gemini.

Penyiapan dan persyaratan

Sebelum mengklik tombol Start Lab

Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.

Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.

Untuk menyelesaikan lab ini, Anda memerlukan:

Akses ke browser internet standar (disarankan browser Chrome).

Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.

Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.

Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.

Cara memulai lab dan login ke Google Cloud Console

Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran. Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).

Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.

Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
Klik Next.
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda. Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.

Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.

Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search. Ikon Navigation menu dan kolom Search

Tugas 1. Membuka notebook di Vertex AI Workbench

Di Konsol Google Cloud, pada Navigation menu (), klik Agent Platform > Notebooks.
Di bilah sisi kiri, klik Workbench.
Cari instance lalu klik tombol Open JupyterLab.

Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.

Catatan: Jika Anda tidak melihat notebook di JupyterLab, ikuti langkah tambahan berikut untuk mereset instance:

1. Tutup tab browser untuk JupyterLab, lalu kembali ke halaman beranda Workbench.

2. Pilih kotak centang di samping nama instance, lalu klik Reset.

3. Setelah tombol Open JupyterLab diaktifkan kembali, tunggu satu menit, lalu klik Open JupyterLab.

Tugas 2. Menyiapkan notebook

Buka file .
Pada dialog Select Kernel, pilih Python 3 dari daftar kernel yang tersedia.
Jalankan bagian Getting Started pada notebook. Project ID dan Lokasi telah dikonfigurasi sebelumnya untuk Anda.

Catatan: Jika Anda mendapatkan respons 429 dari salah satu eksekusi sel notebook, tunggu 1 menit sebelum menjalankan sel kembali untuk melanjutkan.

Tugas 3. Menggunakan model Gemini Flash

Gemini Flash adalah model multimodal yang mendukung perintah multimodal. Anda dapat menyertakan teks, gambar, dan video dalam perintah dan mendapatkan respons teks atau kode.

Dalam tugas ini, jalankan sel-sel notebook yang telah ditentukan untuk melihat cara menggunakan model Gemini Flash. Kembali ke sini untuk memeriksa progres Anda sembari menyelesaikan tujuan.

Pemahaman gambar di banyak gambar

Salah satu kemampuan Gemini adalah dapat memahami informasi dalam berbagai gambar. Dalam contoh ini, Anda akan menggunakan Gemini untuk menghitung total biaya bahan makanan menggunakan gambar buah-buahan dan daftar harga.

Jalankan bagian Image understanding across multiple images pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Pemahaman gambar di banyak gambar

Membuat deskripsi video

Gemini juga dapat mengekstrak tag di seluruh video dan mengambil informasi tambahan di luar konten video. Dalam contoh ini, Anda akan menggunakan Gemini untuk mengekstrak tag dan mengambil informasi tambahan dari berbagai video:

Jalankan bagian Generating a video description pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Membuat deskripsi video

Pemahaman audio

Gemini dapat memproses audio secara langsung untuk pemahaman konteks panjang. Dalam contoh ini, Anda akan menggunakan Gemini untuk memproses audio guna memahami konteks panjang:

Jalankan bagian Audio understanding pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Pemahaman audio

Penalaran di seluruh codebase

Gemini dapat memproses audio secara langsung untuk pemahaman konteks panjang. Dalam contoh ini, Anda akan menggunakan Gemini untuk memproses audio guna memahami konteks panjang:

Jalankan bagian Reason across a codebase pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Penalaran di seluruh codebase

Pemahaman video dan audio

Dalam contoh ini, Anda akan mencoba kemampuan konteks panjang dan multimodal native Gemini pada interleaving video dengan input audio:

Jalankan bagian Video and audio understanding pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Pemahaman video dan audio

Semua modalitas (gambar, video, audio, teks) sekaligus

Gemini secara native bersifat multimodal dan mendukung interleaving data dari berbagai modalitas. Dalam contoh ini, Anda akan mencoba berbagai input audio, visual, teks, dan kode dalam urutan input yang sama.

Jalankan bagian All modalities (images, video, audio, text) at once pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Semua modalitas (gambar, video, audio, teks) sekaligus

Membuat rekomendasi berdasarkan gambar yang disediakan

Gemini mampu membandingkan gambar dan memberikan rekomendasi. Hal ini sangat berguna bagi perusahaan retail yang ingin memberikan rekomendasi produk kepada pengguna berdasarkan konfigurasi mereka saat ini.

Jalankan bagian Generating recommendations based on provided images pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Menghasilkan rekomendasi berdasarkan gambar yang disediakan

Memahami hubungan entity dalam diagram teknis

Gemini memiliki kemampuan multimodal yang memungkinkannya memahami diagram dan mengambil langkah-langkah yang dapat ditindaklanjuti, seperti pengoptimalan atau pembuatan kode. Dalam contoh ini, Anda akan melihat cara Gemini menguraikan diagram hubungan entity (ER), memahami hubungan antartabel, mengidentifikasi persyaratan untuk pengoptimalan di lingkungan tertentu seperti BigQuery, dan bahkan membuat kode yang sesuai.

Jalankan bagian Understand entity relationships in technical diagrams pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Memahami hubungan entity dalam diagram teknis

Membandingkan gambar untuk mencari persamaan dan perbedaan

Gemini dapat membandingkan gambar dan mengidentifikasi kesamaan atau perbedaan antarobjek. Dalam contoh ini, Anda akan menggunakan Gemini untuk membandingkan dua gambar dari lokasi yang sama dan mengidentifikasi perbedaan di antara keduanya.

Jalankan bagian Compare images for similarities and differences pada notebook.

Klik Periksa progres saya untuk memverifikasi tujuan. Membandingkan gambar untuk mencari persamaan dan perbedaan

Selamat!

Sekarang Anda telah menyelesaikan lab! Di lab ini, Anda telah mempelajari cara menggunakan Gemini API di Vertex AI untuk membuat teks dari perintah teks dan gambar.

Langkah berikutnya/pelajari lebih lanjut

Baca referensi berikut untuk mempelajari Gemini lebih lanjut:

Ringkasan Gemini
Dokumentasi AI generatif di Vertex AI
AI Generatif di YouTube
Jelajahi Cookbook Vertex AI untuk melihat galeri notebook AI Generatif pilihan yang dapat Anda telusuri.
Jelajahi notebook dan sampel lainnya di repositori AI Generatif Google Cloud.

Sertifikasi dan pelatihan Google Cloud

...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.

Manual Terakhir Diperbarui pada 26 November 2025

Lab Terakhir Diuji pada 26 November 2025

Hak cipta 2026 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.

Multimodalitas dengan Gemini

GSP1210

Ringkasan

Prasyarat

Tujuan

Penyiapan dan persyaratan

Sebelum mengklik tombol Start Lab

Cara memulai lab dan login ke Google Cloud Console

Tugas 1. Membuka notebook di Vertex AI Workbench

Tugas 2. Menyiapkan notebook

Tugas 3. Menggunakan model Gemini Flash

Pemahaman gambar di banyak gambar

Membuat deskripsi video

Pemahaman audio

Penalaran di seluruh codebase

Pemahaman video dan audio

Semua modalitas (gambar, video, audio, teks) sekaligus

Membuat rekomendasi berdasarkan gambar yang disediakan

Memahami hubungan entity dalam diagram teknis

Membandingkan gambar untuk mencari persamaan dan perbedaan

Selamat!

Langkah berikutnya/pelajari lebih lanjut

Sertifikasi dan pelatihan Google Cloud

Sebelum memulai

Gunakan penjelajahan rahasia

Login ke Konsol

Gunakan penjelajahan rahasia untuk menjalankan lab