GSP1290

Ringkasan
Lab ini memperkenalkan Gemini 2.0 Flash, model AI multimodal baru yang canggih dari Google DeepMind, yang tersedia melalui Gemini API di Vertex AI. Anda akan mempelajari peningkatan kecepatan, performa, dan kualitasnya secara signifikan sambil belajar memanfaatkan kemampuannya untuk tugas-tugas seperti pembuatan teks dan kode, pemrosesan data multimodal, dan panggilan fungsi. Lab ini juga mencakup fitur lanjutan seperti metode asinkron, petunjuk sistem, pembuatan terkontrol, setelan keselamatan, grounding dengan Google Penelusuran, dan penghitungan token.
Gemini
Gemini adalah rangkaian model AI generatif canggih yang dikembangkan oleh Google DeepMind. Gemini mampu memahami dan menghasilkan berbagai bentuk konten, termasuk teks, kode, gambar, audio, dan video.
Gemini API di Vertex AI
Gemini API di Vertex AI menyediakan antarmuka terpadu untuk berinteraksi dengan model Gemini. Dengan antarmuka ini, developer dapat dengan mudah mengintegrasikan kemampuan AI yang hebat ini ke dalam aplikasi mereka. Untuk mengetahui detail terbaru dan fitur spesifik dari versi terbaru, pelajari dokumentasi Gemini yang resmi.
Model Gemini
-
Gemini Pro: Dirancang untuk melakukan penalaran yang kompleks, termasuk di antaranya:
- Menganalisis dan meringkas informasi dalam jumlah besar.
- Penalaran canggih lintas modalitas (untuk teks, kode, gambar, dll.).
- Pemecahan masalah yang efektif dengan codebase yang kompleks.
-
Gemini Flash: Dioptimalkan untuk kecepatan dan efisiensi, dengan menawarkan:
- Waktu respons kurang dari satu detik dan throughput tinggi.
- Kualitas tinggi dengan biaya yang lebih rendah untuk beragam tugas.
- Kemampuan multimodal yang ditingkatkan, termasuk pemahaman spasial yang lebih baik, modalitas output yang baru (teks, audio, gambar), dan penggunaan alat asli (Google Penelusuran, eksekusi kode, dan fungsi pihak ketiga).
Prasyarat
Sebelum memulai lab ini, Anda sebaiknya sudah mengetahui:
- Pemrograman Python dasar.
- Konsep API secara umum.
- Cara menjalankan kode Python di notebook Jupyter di Vertex AI Workbench.
Tujuan
Di lab ini, Anda akan mempelajari cara menggunakan Gemini 2.0 Flash untuk:
-
Membuat Teks dan Kode: Membuat berbagai bentuk teks, termasuk output streaming, melakukan percakapan multi-giliran, serta menulis dan menjalankan kode.
-
Mengonfigurasi dan Mengontrol Perilaku model: Mengonfigurasi parameter model, mengatur petunjuk sistem, menerapkan filter keamanan, dan memanfaatkan teknik pembuatan terkontrol untuk menyesuaikan output model.
-
Memproses Data Multimodal: Menangani dan memproses berbagai jenis data, termasuk teks, audio, kode, dokumen, gambar, dan video.
-
Berinteraksi secara Fleksibel dengan model: Beradaptasi dengan berbagai persyaratan aplikasi dengan menerapkan baik metode interaksi sinkron maupun asinkron.
-
Melakukan Grounding Terhadap Respons Model dengan Google Penelusuran: Meningkatkan akurasi dan keterkinian respons model dengan men-grounding model pada data dunia nyata dari Google Penelusuran.
-
Memanfaatkan Panggilan Fungsi dan Mengelola Token: Menerapkan panggilan fungsi otomatis dan manual, serta mempelajari cara menghitung token untuk melacak penggunaan.
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran.
Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
-
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda.
Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
-
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search.
Tugas 1. Membuka notebook di Vertex AI Workbench
-
Di Konsol Google Cloud, pada Navigation menu (
), klik Vertex AI > Workbench.
-
Cari instance lalu klik tombol Open JupyterLab.
Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.
Tugas 2. Menyiapkan notebook
-
Buka file .
-
Pada dialog Select Kernel, pilih Python 3 dari daftar kernel yang tersedia.
-
Jalankan bagian Getting Started dan Import libraries pada notebook.
- Untuk Project ID, gunakan , sedangkan untuk Location, gunakan .
Catatan: Anda dapat melewatkan sel notebook yang bertanda Colab only. Jika Anda mendapatkan respons 429 dari salah satu eksekusi sel notebook, tunggu 1 menit sebelum menjalankan sel kembali untuk melanjutkan.
Klik Periksa progres saya untuk memverifikasi tujuan.
Menyiapkan notebook.
Tugas 3. Membuat teks dari perintah teks
Dalam tugas ini, Anda akan menggunakan model Gemini 2.0 Flash untuk membuat teks dari perintah teks.
- Jalankan bagian Load the Gemini 2.0 Flash model pada notebook.
- Jalankan bagian Generate text from text prompts pada notebook. Coba beberapa contoh perintah untuk melihat respons model.
Membuat streaming konten
Secara default, model akan menampilkan respons setelah menyelesaikan seluruh proses pembuatan. Anda juga dapat menggunakan metode generate_content_stream
untuk melakukan streaming respons saat respons tersebut sedang dibuat, dan model akan menampilkan potongan respons segera setelah dibuat.
- Jalankan bagian Generate content stream pada notebook.
Memulai multi-turn chat
Gemini API mendukung percakapan multi-giliran dalam format bebas dengan interaksi bolak-balik.
Konteks percakapan akan tetap terjaga di antara pesan.
- Jalankan bagian Start a multi-turn chat pada notebook.
Mengirim permintaan asinkron
client.aio
mengekspos semua metode asinkron analog yang tersedia di client
.
Misalnya, client.aio.models.generate_content
adalah versi asinkron dari client.models.generate_content
.
- Jalankan bagian Send asynchronous requests pada notebook.
Klik Periksa progres saya untuk memverifikasi tujuan.
Membuat teks dari perintah teks.
.
Tugas 4. Mengonfigurasi parameter model
Dalam tugas ini, Anda akan mempelajari cara mengonfigurasi parameter model untuk menyempurnakan output model. Dengan menyesuaikan parameter ini, Anda dapat mengontrol aspek seperti kreativitas, panjang, dan keamanan teks yang dibuat.
Anda dapat menyertakan parameter value dalam setiap panggilan yang Anda kirim ke model untuk mengontrol cara model membuat respons. Model ini dapat memberikan hasil yang berbeda untuk parameter value yang berbeda. Anda dapat bereksperimen dengan berbagai parameter model untuk melihat perubahan hasil.
- Jalankan bagian Configure model parameters pada notebook.
Mengatur petunjuk sistem
Petunjuk sistem memungkinkan Anda mengarahkan perilaku model. Dengan mengatur petunjuk sistem, Anda memberi konteks tambahan kepada model untuk memahami tugas, memberikan respons yang lebih disesuaikan, dan mematuhi pedoman terkait interaksi pengguna.
- Jalankan bagian Set system instructions pada notebook.
Filter keamanan
Gemini API menyediakan filter keamanan yang dapat Anda sesuaikan di beberapa kategori filter untuk membatasi atau mengizinkan jenis konten tertentu. Anda dapat menggunakan filter ini untuk menyesuaikan hal yang sesuai dengan kasus penggunaan Anda. Lihat halaman Mengonfigurasi filter keamanan untuk mengetahui detailnya.
Saat Anda membuat permintaan ke Gemini, konten akan dianalisis dan diberikan rating keamanan. Anda dapat memeriksa rating keamanan konten yang dihasilkan dengan mencetak respons model. Setelan keamanan default adalah OFF
, dan batas pemblokiran default adalah BLOCK_NONE
.
Anda dapat menggunakan safety_settings
untuk menyesuaikan setelan keamanan bagi setiap permintaan yang Anda buat ke API. Contoh ini menunjukkan cara mengatur batas pemblokiran ke BLOCK_LOW_AND_ABOVE
untuk semua kategori:
- Jalankan bagian Safety filters pada notebook.
Klik Periksa progres saya untuk memverifikasi tujuan.
Mengonfigurasi parameter model.
Tugas 5. Mengirim perintah multimodal
Gemini adalah model multimodal yang mendukung perintah multimodal.
Anda dapat menyertakan salah satu jenis data berikut dari berbagai sumber. Berikut tabel HTML yang telah diperbarui dengan jenis MIME yang diperluas untuk bagian "Audio":
Jenis data |
Sumber |
Jenis MIME |
Teks |
Inline, File Lokal, URL Umum, Google Cloud Storage |
text/plain |
Kode |
Inline, File Lokal, URL Umum, Google Cloud Storage |
text/plain |
Dokumen |
File Lokal, URL Umum, Google Cloud Storage |
application/pdf |
Gambar |
File Lokal, URL Umum, Google Cloud Storage |
image/jpeg image/png image/webp
|
Audio |
File Lokal, URL Umum, Google Cloud Storage |
audio/aac audio/flac audio/mp3
audio/m4a audio/mpeg audio/mpga
audio/mp4 audio/opus audio/pcm
audio/wav audio/webm
|
Video |
File Lokal, URL Umum, Google Cloud Storage, YouTube |
video/mp4 video/mpeg video/x-flv
video/quicktime video/mpegps video/mpg
video/webm video/wmv video/3gpp
|
Dalam tugas ini, Anda akan mengirimkan berbagai jenis perintah multimodal ke model, yang menggabungkan teks dengan jenis data lain seperti gambar, audio, dan video.
- Jalankan bagian Send local image pada notebook.
- Jalankan bagian Send document from Google Cloud Storage pada notebook.
- Jalankan bagian Send audio from General URL pada notebook.
- Jalankan bagian Send video from YouTube URL pada notebook.
Klik Periksa progres saya untuk memverifikasi tujuan.
Mengirim perintah multimodal.
Tugas 6. Mengontrol output yang dibuat dan mengelola token
Pembuatan terkontrol memungkinkan Anda menetapkan skema respons untuk menentukan struktur output model, nama kolom, dan jenis data yang diharapkan untuk setiap kolom. Skema respons ditentukan dalam parameter response_schema
di config
, dan output model akan mengikuti skema tersebut secara ketat.
Anda dapat memberikan skema sebagai model Pydantic atau string JSON dan model akan merespons sebagai JSON atau Enum, tergantung pada nilai yang ditetapkan di response_mime_type
. Dalam tugas ini, Anda akan mempelajari teknik untuk mengontrol output model dan mengelola penggunaan token.
Melanjutkan tugas sebelumnya, di mana Anda mempelajari cara mengonfigurasi parameter, tugas ini menunjukkan cara menentukan skema respons untuk kontrol yang lebih besar atas format output model.
- Jalankan bagian Control generated output pada notebook.
Menghitung token dan mengomputasi token
Anda dapat menggunakan metode count_tokens()
untuk menghitung jumlah token input sebelum mengirim permintaan ke Gemini API. Untuk mengetahui informasi selengkapnya, lihat mencantumkan dan menghitung token
- Jalankan bagian Count tokens and compute tokens pada notebook.
Klik Periksa progres saya untuk memverifikasi tujuan.
Mengontrol output yang dibuat dan mengelola token.
Tugas 7. Google Penelusuran sebagai alat (Grounding)
Grounding memungkinkan Anda menghubungkan data dunia nyata ke model Gemini.
Dengan men-grounding respons model pada hasil Google Penelusuran, model dapat mengakses informasi pada saat runtime yang melampaui data pelatihannya, sehingga dapat menghasilkan respons yang lebih akurat, terbaru, dan relevan.
Berkat Grounding dengan Google Penelusuran, Anda dapat meningkatkan akurasi dan keterkinian respons dari model. Mulai dari Gemini 2.0, Google Penelusuran tersedia sebagai alat. Artinya, model dapat memutuskan kapan harus menggunakan Google Penelusuran.
Google Penelusuran
Anda dapat menambahkan argumen kata kunci tools
dengan Tool
yang menyertakan GoogleSearch
untuk menginstruksikan Gemini agar terlebih dahulu melakukan penelusuran di Google Penelusuran dengan perintah, lalu menyusun jawaban berdasarkan hasil penelusuran web.
Pengambilan Dinamis memungkinkan Anda menetapkan batas untuk penggunaan grounding dalam respons model. Hal ini berguna saat perintah tidak memerlukan jawaban yang di-grounding pada Google Penelusuran dan model yang didukung dapat memberikan jawaban berdasarkan pengetahuan mereka tanpa grounding. Hal ini membantu Anda mengelola latensi, kualitas, dan biaya secara lebih efektif.
- Jalankan bagian Google Search pada notebook.
Klik Periksa progres saya untuk memverifikasi tujuan.
Google Penelusuran sebagai alat (Grounding).
Tugas 8. Memanfaatkan panggilan fungsi dan eksekusi kode
Panggilan Fungsi di Gemini memungkinkan developer membuat deskripsi sebuah fungsi dalam kode mereka, lalu meneruskan deskripsi tersebut ke model bahasa dalam permintaan. Anda dapat mengirimkan fungsi Python untuk panggilan fungsi otomatis, yang akan menjalankan fungsi dan menampilkan output dalam natural language yang dihasilkan oleh Gemini.
Anda juga dapat mengirimkan Spesifikasi OpenAPI yang akan merespons dengan nama fungsi yang sesuai dengan deskripsi dan argumen yang digunakan untuk memanggilnya. Dalam tugas ini, Anda akan mempelajari panggilan fungsi, yang memungkinkan model berinteraksi dengan sistem eksternal, dan menjalankan kode yang dihasilkan oleh model.
- Jalankan bagian Python Function (Automatic Function Calling) pada notebook.
- Jalankan bagian OpenAPI Specification (Manual Function Calling) pada notebook.
Eksekusi kode
Fitur eksekusi kode Gemini API memungkinkan model untuk membuat dan menjalankan kode Python, serta belajar dari hasil secara berulang hingga mencapai output akhir. Anda dapat menggunakan kemampuan eksekusi kode ini untuk membuat aplikasi yang mendapatkan manfaat dari penalaran berbasis kode dan menghasilkan output teks. Misalnya, Anda dapat menggunakan eksekusi kode dalam aplikasi yang menyelesaikan persamaan atau memproses teks.
Gemini API menyediakan eksekusi kode sebagai alat, mirip dengan panggilan fungsi.
Setelah Anda menambahkan eksekusi kode sebagai alat, model akan memutuskan kapan harus menggunakannya.
- Jalankan bagian Code Execution pada notebook.
Klik Periksa progres saya untuk memverifikasi tujuan.
Memanfaatkan panggilan fungsi dan eksekusi kode.
Selamat!
Selamat! Di lab ini, Anda telah mendapatkan pengalaman langsung dengan model Gemini 2.0 Flash yang canggih melalui Gemini API di Vertex AI. Anda telah berhasil mempelajari berbagai kemampuannya, termasuk pembuatan teks dan kode, pemrosesan data multimodal, dan konfigurasi model lanjutan. Anda kini siap untuk memanfaatkan fitur canggih ini dalam membangun aplikasi AI yang inovatif dan canggih. Anda juga telah memahami fitur baru yang diperkenalkan di Gemini 2.0, dan mempelajari cara memanfaatkan SDK baru untuk bermigrasi di antara API.
Langkah berikutnya/pelajari lebih lanjut
Baca referensi berikut untuk mempelajari Gemini lebih lanjut:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 5 Mei 2025
Lab Terakhir Diuji pada 5 Mei 2025
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.