Istruzioni e requisiti di configurazione del lab

Proteggi il tuo account e i tuoi progressi. Per eseguire questo lab, utilizza sempre una finestra del browser privata e le credenziali del lab.

Una pipeline Dataflow semplice (Python) 2.5

Lab 1 ora 30 minuti universal_currency_alt 5 crediti show_chart Introduttivi

info Questo lab potrebbe incorporare strumenti di AI a supporto del tuo apprendimento.

Panoramica
Scopo
Configurazione
Attività 1: assicurati che l'API Dataflow sia stata abilitata correttamente
Attività 2: preparazione
Attività 3: filtro della pipeline
Attività 4: esegui la pipeline in locale
Attività 5: esegui la pipeline sul cloud
Termina il lab

Questi contenuti non sono ancora ottimizzati per i dispositivi mobili.

Per un'esperienza ottimale, visualizza il sito su un computer utilizzando un link inviato via email.

Panoramica

In questo lab imparerai ad aprire un progetto Dataflow, usare un filtro della pipeline ed eseguire la pipeline in locale e sul cloud.

Apri il progetto Dataflow
Filtro della pipeline
Esegui la pipeline in locale e sul cloud

Scopo

In questo lab imparerai a scrivere una pipeline Dataflow semplice e a eseguirla sia in locale che sul cloud.

Imposta un progetto Dataflow in Python usando Apache Beam
Scrivi una pipeline semplice in Python
Esegui la query sulla macchina locale
Esegui la query sul cloud

Configurazione

Per ciascun lab, riceverai un nuovo progetto Google Cloud e un insieme di risorse per un periodo di tempo limitato senza alcun costo aggiuntivo.

Accedi a Qwiklabs utilizzando una finestra di navigazione in incognito.
Tieni presente la durata dell'accesso al lab (ad esempio, 1:15:00) e assicurati di finire entro quell'intervallo di tempo.
Non è disponibile una funzionalità di pausa. Se necessario, puoi riavviare il lab ma dovrai ricominciare dall'inizio.
Quando è tutto pronto, fai clic su Inizia lab.
Annota le tue credenziali del lab (Nome utente e Password). Le userai per accedere a Google Cloud Console.
Fai clic su Apri console Google.
Fai clic su Utilizza un altro account e copia/incolla le credenziali per questo lab nei prompt.
Se utilizzi altre credenziali, compariranno errori oppure ti verranno addebitati dei costi.
Accetta i termini e salta la pagina di ripristino delle risorse.

Attiva Google Cloud Shell

Google Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud.

Google Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.

Nella barra degli strumenti in alto a destra della console Cloud, fai clic sul pulsante Apri Cloud Shell.
Fai clic su Continua.

Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente. Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. Ad esempio:

ID progetto evidenziato nel terminale Cloud Shell

gcloud è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento.

Puoi visualizzare il nome dell'account attivo con questo comando:

gcloud auth list

Output:

Credentialed accounts: - @.com (active)

Output di esempio:

Credentialed accounts: - google1623327_student@qwiklabs.net

Puoi elencare l'ID progetto con questo comando:

gcloud config list project

Output:

[core] project =

Output di esempio:

[core] project = qwiklabs-gcp-44776a13dea667a6

Nota: la documentazione completa di gcloud è disponibile nella guida Panoramica dell'interfaccia a riga di comando gcloud .

Verifica le autorizzazioni del progetto

Prima di iniziare il tuo lavoro su Google Cloud, devi assicurarti che il tuo progetto disponga delle autorizzazioni corrette in Identity and Access Management (IAM).

Nella console Google Cloud, nel menu di navigazione (), seleziona IAM e amministrazione > IAM.
Conferma che l'account di servizio di computing predefinito {project-number}-compute@developer.gserviceaccount.com sia presente e che abbia il ruolo di editor assegnato. Il prefisso dell'account è il numero del progetto, che puoi trovare in Menu di navigazione > Panoramica di Cloud > Dashboard

Il nome del service account predefinito di Compute Engine e lo stato dell'editor evidenziati nella pagina a schede Autorizzazioni

Nota: se l'account non è presente in IAM o non dispone del ruolo editor, attieniti alla procedura riportata di seguito per assegnare il ruolo richiesto.

Nel menu di navigazione della console Google Cloud, fai clic su Panoramica di Cloud > Dashboard.
Copia il numero del progetto (es. 729328892908).
Nel menu di navigazione, seleziona IAM e amministrazione > IAM.
Nella parte superiore della tabella dei ruoli, sotto Visualizza per entità, fai clic su Concedi accesso.
Per Nuove entità, digita:

{project-number}-compute@developer.gserviceaccount.com

Sostituisci {project-number} con il numero del tuo progetto.
Come Ruolo, seleziona Progetto (o Base) > Editor.
Fai clic su Salva.

Attività 1: assicurati che l'API Dataflow sia stata abilitata correttamente

Esegui il seguente blocco di codice in Cloud Shell:

gcloud services disable dataflow.googleapis.com --force gcloud services enable dataflow.googleapis.com

Attività 2: preparazione

Apri il terminale SSH e connettiti alla VM di addestramento

Eseguirai tutto il codice da una VM di addestramento selezionata.

Nella Console, nel menu di navigazione (), fai clic su Compute Engine > Istanze VM.
Trova la riga con l'istanza denominata training-vm.
Sulla destra, sotto Connetti, fai clic su SSH per aprire una finestra del terminale.
In questo lab, inserirai i comandi dell'interfaccia a riga di comando nell'istanza training-vm.

Scarica il repository di codice

Scarica un repository di codice da utilizzare in questo lab. Nel terminale SSH di training-vm, inserisci quanto segue:

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Crea un bucket Cloud Storage

Segui queste istruzioni per creare un bucket.

Nella Console, nel menu di navigazione, fai clic su Cloud Storage > Bucket.
Fai clic su + Crea.
Specifica quanto segue e non modificare le altre impostazioni predefinite:

Proprietà	Valore (digita il valore o seleziona l'opzione come specificato)
Nome
Tipo di località	Più regioni

Fai clic su Crea.
Se ricevi il messaggio Public access will be prevented, seleziona Enforce public access prevention on this bucket e fai clic su Conferma.

Annota il nome del tuo bucket. Ti servirà nelle attività successive.

Nel terminale SSH di training-vm, inserisci quanto segue per creare una variabile di ambiente chiamata "BUCKET" e verifica che esista con il comando echo:

BUCKET="{{{project_0.project_id|project_place_holder_text}}}" echo $BUCKET

Puoi utilizzare $BUCKET nei comandi del terminale. Se devi inserire il nome del bucket <your-bucket> in un campo di testo nella console, puoi recuperare facilmente il nome con echo $BUCKET.

Attività 3: filtro della pipeline

L'obiettivo di questo lab è familiarizzare con la struttura di un progetto Dataflow e imparare come eseguire una pipeline Dataflow.

Torna al terminale SSH di training-vm e vai alla directory /training-data-analyst/courses/data_analysis/lab2/python per visualizzare il file grep.py.
Visualizza il file con Nano. Non apportare modifiche al codice:

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

Premi CTRL+X per uscire da Nano.

Sapresti rispondere a queste domande sul file grep.py?

Quali file vengono letti?
Qual è il termine di ricerca?
Dove va l'output?

Ci sono tre trasformazioni nella pipeline:

Che cosa fa la trasformazione?
Che cosa fa la seconda trasformazione?
Da dove proviene il suo input?
Che cosa fa con questo input?
Cosa scrive nel suo output?
Dove va l'output?
Che cosa fa la quarta trasformazione?

Attività 4: esegui la pipeline in locale

Nel terminale SSH di training-vm, esegui in locale grep.py:

python3 grep.py

Nota: ignora un'eventuale avviso.

Il file di output sarà output.txt. Se l'output è abbastanza grande, verrà fatto lo sharding in parti separate con nomi quali: output-00000-of-00001.

Trova il file corretto esaminando l'ora del file:

ls -al /tmp

Esamina il(i) file di output.
Puoi sostituire "-*" di seguito con il suffisso appropriato:

cat /tmp/output-*

L'output sembra coerente?

Attività 5: esegui la pipeline sul cloud

Copia alcuni file Java sul cloud. Nel terminale SSH di training-vm, inserisci il seguente comando:

gcloud storage cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

Usando Nano, modifica la pipeline Dataflow in grepc.py:

nano grepc.py

Sostituisci PROJECT, BUCKET e REGION con i valori elencati di seguito. Conserva le virgolette singole esterne.

PROJECT='{{{project_0.project_id|project_place_holder_text}}}'

BUCKET='{{{project_0.project_id|project_place_holder_text}}}'

REGION='{{{project_0.startup_script.gcp_region|region_place_holder_text}}}'

Salva il file e chiudi Nano con i tasti CTRL+X, quindi digita Y e premi Invio.

Invia il job Dataflow al cloud:

python3 grepc.py

Trattandosi di un job di piccole dimensioni, l'esecuzione sul cloud impiegherà molto più tempo rispetto all'esecuzione in locale (approssimativamente 7-10 minuti).

Torna alla scheda del browser della console.
Nel menu di navigazione, fai clic su Dataflow e poi sul tuo job per monitorare l'avanzamento.
Attendi che lo stato del job sia Riuscito.
Esamina l'output nel bucket Cloud Storage.
Nel menu di navigazione, fai clic su Cloud Storage > Bucket e poi sul tuo bucket.
Fai clic sulla directory javahelp.

Questo job genera il file output.txt. Se il file è abbastanza grande, verrà fatto lo sharding in più parti con nomi quali: output-0000x-of-000y. Puoi individuare gli ultimi file per nome o in base al campo Ultima modifica.

Fai clic sul file per visualizzarlo.

In alternativa, puoi scaricare il file mediante il terminale SSH di training-vm e visualizzarlo:

gcloud storage cp gs://$BUCKET/javahelp/output* . cat output*

Termina il lab

Una volta completato il lab, fai clic su Termina lab. Google Cloud Skills Boost rimuove le risorse che hai utilizzato ed esegue la pulizia dell'account.

Avrai la possibilità di inserire una valutazione in merito alla tua esperienza. Seleziona il numero di stelle applicabile, inserisci un commento, quindi fai clic su Invia.

Il numero di stelle corrisponde alle seguenti valutazioni:

1 stella = molto insoddisfatto
2 stelle = insoddisfatto
3 stelle = esperienza neutra
4 stelle = soddisfatto
5 stelle = molto soddisfatto

Se non vuoi lasciare un feedback, chiudi la finestra di dialogo.

Per feedback, suggerimenti o correzioni, utilizza la scheda Assistenza.

Copyright 2026 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.

Una pipeline Dataflow semplice (Python) 2.5

Panoramica

Scopo

Configurazione

Attiva Google Cloud Shell

Verifica le autorizzazioni del progetto

Attività 1: assicurati che l'API Dataflow sia stata abilitata correttamente

Attività 2: preparazione

Apri il terminale SSH e connettiti alla VM di addestramento

Scarica il repository di codice

Crea un bucket Cloud Storage

Attività 3: filtro della pipeline

Attività 4: esegui la pipeline in locale

Attività 5: esegui la pipeline sul cloud

Termina il lab

Prima di iniziare

Utilizza la navigazione privata

Accedi alla console

Utilizza la navigazione privata per eseguire il lab