Caricamento in corso…
Nessun risultato trovato.

Applica le tue competenze nella console Google Cloud

Accedi a oltre 700 lab e corsi

Multimodalità con Gemini

Lab 1 ora universal_currency_alt 5 crediti show_chart Intermedio
info Questo lab potrebbe incorporare strumenti di AI a supporto del tuo apprendimento.
Accedi a oltre 700 lab e corsi

GSP1210

Logo dei self-paced lab di Google Cloud

Panoramica

Questo lab introduce Gemini, una famiglia di modelli di AI generativa multimodale sviluppati da Google. Userai l'API Gemini per scoprire in che modo Gemini Flash può comprendere e generare risposte in base a testo, immagini e video.

Grazie alle sue funzionalità multimodali, Gemini può:

  • Analizzare le immagini: rileva oggetti, comprende interfacce utente, interpreta diagrammi e confronta somiglianze e differenze visive.
  • Elaborare i video: genera descrizioni, estrae tag e punti salienti e risponde a domande sui contenuti dei video.

Proverai queste funzionalità tramite attività pratiche usando l'API Gemini in Vertex AI.

Prerequisiti

Prima di iniziare questo lab, dovresti acquisire familiarità con:

  • Concetti di base della programmazione in Python.
  • Concetti generali delle API.
  • Esecuzione di codice Python in un notebook Jupyter su Vertex AI Workbench.

Obiettivi

In questo lab imparerai a:

  • Interagire con l'API Gemini in Vertex AI.
  • Usare il modello Gemini Flash per analizzare immagini e video.
  • Fornire a Gemini prompt di testo, immagini e video per generare risposte informative.
  • Esplorare le applicazioni pratiche delle funzionalità multimodali di Gemini.

Configurazione e requisiti

Prima di fare clic sul pulsante Avvia lab

Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Inizia il lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.

Con questo lab pratico avrai la possibilità di completare le attività in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.

Per completare il lab, avrai bisogno di:

  • Accesso a un browser internet standard (Chrome è il browser consigliato).
Nota: per eseguire questo lab, utilizza una finestra del browser in modalità di navigazione in incognito (consigliata) o privata. Ciò evita conflitti tra il tuo account personale e l'account studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
  • È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Nota: utilizza solo l'account studente per questo lab. Se utilizzi un altro account Google Cloud, potrebbero essere addebitati costi su quell'account.

Come avviare il lab e accedere alla console Google Cloud

  1. Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si aprirà una finestra di dialogo per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:

    • Il pulsante Apri la console Google Cloud
    • Tempo rimanente
    • Credenziali temporanee da utilizzare per il lab
    • Altre informazioni per seguire questo lab, se necessario
  2. Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).

    Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.

    Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.

    Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
  3. Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.

    {{{user_0.username | "Username"}}}

    Puoi trovare il Nome utente anche nel riquadro Dettagli lab.

  4. Fai clic su Avanti.

  5. Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.

    {{{user_0.password | "Password"}}}

    Puoi trovare la Password anche nel riquadro Dettagli lab.

  6. Fai clic su Avanti.

    Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
  7. Fai clic nelle pagine successive:

    • Accetta i termini e le condizioni.
    • Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
    • Non registrarti per le prove gratuite.

Dopo qualche istante, la console Google Cloud si apre in questa scheda.

Nota: per accedere ai prodotti e ai servizi Google Cloud, fai clic sul menu di navigazione o digita il nome del servizio o del prodotto nel campo Cerca. Icona del menu di navigazione e campo Cerca

Attività 1: apri il notebook in Vertex AI Workbench

  1. Nella console Google Cloud, nel menu di navigazione (Icona menu di navigazione), fai clic su Vertex AI > Workbench.

  2. Trova l'istanza e fai clic sul pulsante Apri JupyterLab.

L'interfaccia JupyterLab per la tua istanza Workbench si apre in una nuova scheda del browser.

Nota: se non vedi i notebook in JupyterLab, segui questi passaggi aggiuntivi per reimpostare l'istanza:

1. Chiudi la scheda del browser per JupyterLab e torna alla home page di Workbench.

2. Seleziona la casella di controllo accanto al nome dell'istanza e fai clic su Reimposta.

3. Dopo che il pulsante Apri JupyterLab è stato riabilitato, attendi un minuto e poi fai clic su Apri JupyterLab.

Attività 2: configura il notebook

  1. Apri il file.

  2. Nella finestra di dialogo Seleziona kernel, scegli Python 3 dall'elenco dei kernel disponibili.

  3. Rivedi le sezioni Introduzione e Importa librerie del notebook.

    • Per ID progetto usa e per Località usa .
Nota: puoi saltare tutte le celle del notebook contrassegnate come solo Colab. Se ricevi una risposta 429 da una delle esecuzioni delle celle del notebook, attendi 1 minuto prima di eseguire nuovamente la cella per procedere.

Attività 3: utilizza il modello Gemini Flash

Gemini Flash è un modello multimodale che supporta prompt multimodali. Puoi includere testo, immagini e video nelle tue richieste di prompt e ottenere risposte di testo o codice.

In questa attività, analizza le celle del notebook per vedere come utilizzare il modello Gemini Flash. Torna qui per controllare i tuoi progressi man mano che completi gli obiettivi.

Comprensione delle immagini attraverso più immagini

Una delle funzionalità di Gemini è quella di poter ragionare su più immagini. In questo esempio, utilizzerai Gemini per calcolare il costo totale della spesa usando un'immagine raffigurante della frutta e un listino prezzi.

Esamina la sezione Comprensione delle immagini attraverso più immagini del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione delle immagini attraverso più immagini

Generazione della descrizione di un video

Gemini può anche estrarre tag da un video e recuperare informazioni aggiuntive che vanno oltre i contenuti del video. In questo esempio, utilizzerai Gemini per estrarre tag e recuperare informazioni aggiuntive da diversi video:

Esamina la sezione Generazione della descrizione di un video del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Generazione della descrizione di un video

Comprensione dell'audio

Gemini può elaborare direttamente l'audio per comprendere il contesto lungo. In questo esempio, utilizzerai Gemini per elaborare l'audio per la comprensione del contesto lungo:

Esamina la sezione Comprensione dell'audio del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione dell'audio

Ragionamento su un codebase

Gemini può elaborare direttamente l'audio per comprendere il contesto lungo. In questo esempio, utilizzerai Gemini per elaborare l'audio per la comprensione del contesto lungo:

Esamina la sezione Ragionamento su un codebase del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Ragionamento su un codebase

Comprensione di video e audio

In questo esempio, proverai le funzionalità multimodali e di contesto lungo native di Gemini sull'interlacciamento video con input audio:

Esamina la sezione Comprensione di video e audio del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione di video e audio

Tutte le modalità (immagini, video, audio, testo) contemporaneamente

Gemini è multimodale in modo nativo e supporta l'interlacciamento dei dati di diverse modalità. In questo esempio, proverai una combinazione di input audio, visivi, di testo e di codice nella stessa sequenza di input.

Esamina la sezione Tutte le modalità (immagini, video, audio, testo) contemporaneamente del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Tutte le modalità (immagini, video, audio, testo) contemporaneamente

Generazione di suggerimenti in base alle immagini fornite

Gemini è in grado di confrontare le immagini e fornire suggerimenti. Questo è particolarmente utile per le aziende retail che vogliono fornire agli utenti consigli sui prodotti in base alla configurazione attuale di questi ultimi.

Esamina la sezione Generazione di suggerimenti in base alle immagini fornite del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Generazione di suggerimenti in base alle immagini fornite

Comprensione delle relazioni tra entità nei diagrammi tecnici

Grazie alle sue funzionalità multimodali, Gemini è in grado di analizzare i diagrammi e adottare misure concrete, come l'ottimizzazione o la generazione di codice. In questo esempio, vedrai come Gemini può decifrare un diagramma di relazioni tra entità, comprendere le relazioni tra tabelle, identificare i requisiti per l'ottimizzazione in un ambiente specifico come BigQuery e persino generare il codice corrispondente.

Esamina la sezione Comprensione delle relazioni tra entità nei diagrammi tecnici del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Comprensione delle relazioni tra entità nei diagrammi tecnici

Confronto delle immagini per trovare somiglianze e differenze

Gemini può confrontare le immagini e identificare somiglianze o differenze tra gli oggetti. In questo esempio, utilizzerai Gemini per confrontare due immagini della stessa località e identificare le differenze tra loro.

Esamina la sezione Confronto delle immagini per trovare somiglianze e differenze del notebook.

Fai clic su Controlla i miei progressi per verificare l'obiettivo. Confronto delle immagini per trovare somiglianze e differenze

Complimenti!

Hai completato correttamente il lab. In questo lab hai imparato a utilizzare l'API Gemini in Vertex AI per generare risposte da prompt di testo e immagini.

Passaggi successivi/Scopri di più

Dai un'occhiata alle seguenti risorse per scoprire di più su Gemini:

Formazione e certificazione Google Cloud

… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.

Ultimo aggiornamento del manuale: 19 maggio 2025

Ultimo test del lab: 19 maggio 2025

Copyright 2025 Google LLC. Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.

Prima di iniziare

  1. I lab creano un progetto e risorse Google Cloud per un periodo di tempo prestabilito
  2. I lab hanno un limite di tempo e non possono essere messi in pausa. Se termini il lab, dovrai ricominciare dall'inizio.
  3. In alto a sinistra dello schermo, fai clic su Inizia il lab per iniziare

Utilizza la navigazione privata

  1. Copia il nome utente e la password forniti per il lab
  2. Fai clic su Apri console in modalità privata

Accedi alla console

  1. Accedi utilizzando le tue credenziali del lab. L'utilizzo di altre credenziali potrebbe causare errori oppure l'addebito di costi.
  2. Accetta i termini e salta la pagina di ripristino delle risorse
  3. Non fare clic su Termina lab a meno che tu non abbia terminato il lab o non voglia riavviarlo, perché il tuo lavoro verrà eliminato e il progetto verrà rimosso

Questi contenuti non sono al momento disponibili

Ti invieremo una notifica via email quando sarà disponibile

Bene.

Ti contatteremo via email non appena sarà disponibile

Un lab alla volta

Conferma per terminare tutti i lab esistenti e iniziare questo

Utilizza la navigazione privata per eseguire il lab

Utilizza una finestra del browser in incognito o privata per eseguire questo lab. In questo modo eviterai eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.