05
Creazione di pipeline di dati in batch su Google Cloud
05
Creazione di pipeline di dati in batch su Google Cloud
Le pipeline di dati in genere rientrano in uno dei paradigmi EL (Extract, Load), ELT (Extract, Load, Transform) o ETL (Extract, Transform, Load). Questo corso descrive quale paradigma dovrebbe essere utilizzato e quando per i dati in batch. Inoltre, questo corso tratta diverse tecnologie su Google Cloud per la trasformazione dei dati, tra cui BigQuery, l'esecuzione di Spark su Dataproc, i grafici della pipeline in Cloud Data Fusion e trattamento dati serverless con Dataflow. Gli studenti fanno esperienza pratica nella creazione di componenti della pipeline di dati su Google Cloud utilizzando Qwiklabs.
- Esaminare i diversi metodi di caricamento dei dati: EL, ELT ed ETL e quando utilizzarli.
- Eseguire Hadoop su Dataproc, utilizzare Cloud Storage e ottimizzare i job Dataproc.
- Creare le tue pipeline di trattamento dati con Dataflow.
- Gestire pipeline di dati con Data Fusion e Cloud Composer.
Esperienza nelle attività di modellazione dei dati ed ETL (Extract, Transform, Load).
Esperienza nello sviluppo di applicazioni mediante un linguaggio di programmazione comune, come Python o Java.