Instrucciones y requisitos de configuración del lab

Protege tu cuenta y tu progreso. Usa siempre una ventana de navegador privada y las credenciales del lab para ejecutarlo.

Comienza a usar Cloud Data Fusion

Lab 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Introductorio

info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.

Descripción general
Configuración
Tarea 1: Habilita la API de Cloud Data Fusion
Tarea 2: Crea una instancia de Cloud Data Fusion
Tarea 3: Navega por la IU de Cloud Data Fusion
Tarea 4: Implementa una canalización de muestra
Tarea 5: Visualiza tu canalización
Tarea 6: Ejecuta tu canalización
Tarea 7: Consulta los resultados
¡Felicitaciones!
Finalice su lab

Este contenido aún no está optimizado para dispositivos móviles.

Para obtener la mejor experiencia, visítanos en una computadora de escritorio con un vínculo que te enviaremos por correo electrónico.

Logotipo de los labs de autoaprendizaje de Google Cloud

Descripción general

En este lab, aprenderás a crear una instancia de Data Fusion y a implementar una canalización de muestra que se proporciona. La canalización lee un archivo JSON que contiene los datos de los productos más vendidos de NYT de Cloud Storage. Luego, la canalización ejecuta transformaciones en el archivo para analizar y limpiar los datos. Por último, carga un subconjunto de los registros en BigQuery.

Objetivos

En este lab, aprenderás a hacer lo siguiente:

Crear una instancia de Data Fusion
Implementar una canalización de ejemplo que ejecute algunas transformaciones en un archivo JSON y filtre los resultados coincidentes en BigQuery

Configuración

En cada lab, recibirá un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.

Accede a Qwiklabs desde una ventana de incógnito.
Ten en cuenta el tiempo de acceso del lab (por ejemplo, 1:15:00) y asegúrate de finalizarlo en el plazo asignado.
No existe una función de pausa. Si lo necesita, puede reiniciar el lab, pero deberá hacerlo desde el comienzo.
Cuando esté listo, haga clic en Comenzar lab.
Anote las credenciales del lab (el nombre de usuario y la contraseña). Las usarás para acceder a la consola de Google Cloud.
Haga clic en Abrir Google Console.
Haga clic en Usar otra cuenta, copie las credenciales para este lab y péguelas en el mensaje emergente que aparece.
Si usa otras credenciales, se generarán errores o incurrirá en cargos.
Acepta las condiciones y omite la página de recursos de recuperación.

Accede a la consola de Google Cloud

En la pestaña o ventana del navegador que estás usando para esta sesión del lab, copia el Nombre de usuario del panel Detalles de la conexión y haz clic en el botón Abrir la consola de Google.

Nota: Si se te solicita que elijas una cuenta, haz clic en Usar otra cuenta.

Cuando se te solicite, pega el nombre de usuario y, luego, la contraseña.
Haz clic en Siguiente.
Acepta los Términos y Condiciones.

Dado que esta es una cuenta temporal que tendrá la misma duración del lab, sigue estas recomendaciones:

No agregues opciones de recuperación.
No te registres para las pruebas gratuitas.

Cuando se abra la consola, podrás ver la lista de servicios haciendo clic en el Menú de navegación () en la esquina superior izquierda.

Menú de navegación

Active Cloud Shell

Cloud Shell es una máquina virtual que contiene herramientas de desarrollo y un directorio principal persistente de 5 GB. Se ejecuta en Google Cloud. Cloud Shell proporciona acceso de línea de comandos a sus recursos de Google Cloud. gcloud es la herramienta de línea de comandos de Google Cloud, la cual está preinstalada en Cloud Shell y es compatible con la función de autocompletado con tabulador.

En el panel de navegación de Google Cloud Console, haga clic en Activar Cloud Shell ().
Haga clic en Continuar.
El aprovisionamiento y la conexión al entorno tardan solo unos momentos. Una vez que se conecte, también estará autenticado, y el proyecto estará configurado con su PROJECT_ID. Por ejemplo:

Terminal de Cloud Shell

Comandos de muestra

Si desea ver el nombre de cuenta activa, use este comando:

gcloud auth list

(Resultado)

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

(Resultado de ejemplo)

Credentialed accounts: - google1623327_student@qwiklabs.net

Si desea ver el ID del proyecto, use este comando:

gcloud config list project

(Resultado)

[core] project = <project_ID>

(Resultado de ejemplo)

[core] project = qwiklabs-gcp-44776a13dea667a6

Para ver la documentación completa de gcloud, consulte la descripción general de la herramienta de línea de comandos de gcloud.

Verifica los permisos del proyecto

Antes de comenzar a trabajar en Google Cloud, asegúrate de que tu proyecto tenga los permisos correctos en Identity and Access Management (IAM).

En el Menú de navegación () de la consola de Google Cloud, haga clic en IAM y administración > IAM.
Confirma que aparezca la cuenta de servicio predeterminada de Compute {project-number}-compute@developer.gserviceaccount.com, y que tenga asignado el rol Editor. El prefijo de la cuenta es el número del proyecto, que puedes encontrar en el menú de navegación > Descripción general de Cloud.

Cuenta de servicio de Compute predeterminada

Si no aparece la cuenta en IAM o no tiene asignado el rol Editor, sigue los pasos que se indican a continuación para asignar el rol necesario.

En la consola de Google Cloud, en el menú de navegación, haz clic en Descripción general de Cloud.
En la tarjeta Información del proyecto, copia el Número de proyecto.
En el menú de navegación, haz clic en IAM y administración > IAM.
En la parte superior de la página IAM, haga clic en Agregar.
En Principales nuevas, escriba lo siguiente:

{número-del-proyecto}-compute@developer.gserviceaccount.com

Reemplaza {project-number} por el número de tu proyecto.

En Seleccionar un rol, elige Básico (o Proyecto) > Editor.
Haz clic en Guardar.

Tarea 1: Habilita la API de Cloud Data Fusion

En la consola de Cloud, en el menú de navegación, selecciona APIs y servicios > Biblioteca.
En el cuadro de búsqueda, escribe Data fusion para buscar la API de Cloud Data Fusion y haz clic en el hipervínculo.
La API ya está habilitada, haz clic en Administrar y, luego, en Inhabilitar API. Confirma la inhabilitación.
Después de que se inhabilite la API, haz clic en Habilitar para volver a habilitarla.

Tarea 2: Crea una instancia de Cloud Data Fusion

En la consola de Cloud, en el menú de navegación, haz clic en Ver todos los productos y, en Análisis, selecciona Data Fusion.
Haz clic en el vínculo Crear una instancia en la parte superior de la sección para crear una instancia de Cloud Data Fusion.
En la página Crear instancia de Data Fusion que se carga, haz lo siguiente:

a. Ingresa un nombre para tu instancia (como cdf-lab-instance). En Región, selecciona us-central1.

b. En Edición, selecciona Básica.

c. Haz clic en Otorgar permiso si se te solicita.

d. Haz clic en el ícono desplegable junto a Opciones avanzadas, en Supervisión y registro avanzados, marca la casilla de verificación de Dataproc Cloud Logging.

e. Deja todos los otros campos como están y, luego, haz clic en Crear.

Haz clic en Revisar mi progreso para verificar el objetivo. Crea una instancia de Cloud Data Fusion

Nota: La creación de la instancia tardará alrededor de 10 minutos. Mientras esperas, mira esta presentación sobre Cloud Data Fusion de Next '19 a partir de la marca de tiempo 15:31. Vuelve y revisa tu instancia de vez en cuando. Podrás terminar de mirar el video después de completar el lab.

Nota: Recuerda que este lab tiene un límite de tiempo y perderás tu trabajo cuando el tiempo se acabe.

Luego, otorgarás permisos a la cuenta de servicio asociada con la instancia siguiendo estos pasos:

Haz clic en el nombre de la instancia. En la página Detalles de la instancia, copia la cuenta de servicio de Dataproc en el portapapeles.

Cuenta de servicio destacada en la página Detalles de la instancia

En la consola de Cloud, navega a IAM y administración > IAM.
En la página Permisos de IAM, haz clic en +Otorgar acceso.
En el campo Principales nuevas, pega la cuenta de servicio.
Haz clic en el campo Selecciona un rol, escribe “Agente de servicio de la API de Cloud Data Fusion” y selecciónalo.
Haz clic en Guardar.

Haz clic en Revisar mi progreso para verificar el objetivo. Agregar el rol Agente de servicio de la API de Cloud Data Fusion a la cuenta de servicio

Tarea 3: Navega por la IU de Cloud Data Fusion

Cuando usas Cloud Data Fusion, usas la IU de la consola de Cloud y la de Cloud Data Fusion, que está separada.

En la consola de Cloud, puedes crear y borrar instancias de Cloud Data Fusion y ver los detalles de las instancias de Cloud Data Fusion.
En la IU de Cloud Data Fusion, puedes usar las diversas páginas, como Pipeline Studio o Wrangler, para usar las funciones de Cloud Data Fusion.

Para navegar por la IU de Cloud Data Fusion, sigue estos pasos:

En la consola, regresa al menú de navegación > Data Fusion.
Haz clic en el vínculo Ver instancia junto a tu instancia de Data Fusion. Selecciona tus credenciales del lab para acceder y, si es necesario, marca la casilla junto a Permite administrar los datos de control de servicio de Google. Haz clic en Continuar.

Vínculo destacado de Ver instancia

Si se te solicita hacer una visita guiada por el servicio, haz clic en No, gracias. Ahora deberías estar en la IU de Cloud Data Fusion.
Ten en cuenta que la IU web de Cloud Data Fusion cuenta con su propio panel de navegación (en el lado izquierdo) para que vayas a la página que necesites.

Tarea 4: Implementa una canalización de muestra

Las canalizaciones de muestra están disponibles a través del Hub de Cloud Data Fusion, que te permite compartir canalizaciones, complementos y soluciones reutilizables de Cloud Data Fusion.

En la IU web de Cloud Data Fusion, haz clic en HUB en la parte superior derecha.

Vínculo destacado de HUB

En el panel izquierdo, haz clic en Canalizaciones.
Haz clic en la canalización de la Guía de inicio rápido de Cloud Data Fusion y, luego, en Crear en la ventana emergente que aparece.

Mosaico destacado de la guía de inicio rápido de Cloud Data Fusion en la página Canalizaciones

En el panel de configuración de inicio rápido de Cloud Data Fusion, haz clic en Finalizar.
Haz clic en Personalizar canalización. Una representación visual de tu canalización aparece en Pipeline Studio, una interfaz gráfica para desarrollar canalizaciones de integración de datos. Los complementos de canalización disponibles se muestran a la izquierda y tu canalización se muestra en el área de lienzo principal. Para explorar tu canalización, mantén el puntero sobre cada nodo de la canalización y haz clic en el botón Propiedades que aparecerá. El menú de propiedades para cada nodo te permite ver los objetos y las operaciones asociadas con el nodo.

Nota: Un nodo en una canalización es un objeto que está conectado en una secuencia para producir un grafo acíclico dirigido. Ejemplos: Fuente, Receptor, Transformación, Acción, etcétera.

Pipeline Studio muestra una representación visual de la canalización

En la parte superior derecha del menú, haz clic en Implementar. Esto envía la canalización a Cloud Data Fusion. Debes ejecutar la canalización en la siguiente sección.

ícono de Implementación

Tarea 5: Visualiza tu canalización

La canalización implementada aparecerá en la vista de detalles de la canalización, donde puedes hacer lo siguiente:

Ver la estructura y configuración de la canalización
Ejecutar la canalización de forma manual o configurar un programa o un activador
Ver un resumen de las ejecuciones históricas de la canalización, incluidos los registros, las métricas y los tiempos de ejecución.

Vista de detalles de la canalización

Tarea 6: Ejecuta tu canalización

En la vista de detalles de la canalización, haz clic en Ejecutar en la parte superior central para ejecutar tu canalización.

Nota: Cuando ejecutas una canalización, Cloud Data Fusion aprovisiona un clúster de Dataproc efímero, ejecuta la canalización en el clúster mediante Apache Hadoop MapReduce o Apache Spark y, luego, elimina el clúster. Cuando la canalización pasa al estado En ejecución, puedes supervisar la creación y la eliminación del clúster de Dataproc. Este clúster solo existe durante el lapso de la canalización.

Nota: Si el estado de la canalización falla, vuelve a ejecutarla.

Después de unos minutos, la canalización finaliza. El estado de la canalización cambia a Correcto y se muestra la cantidad de registros que procesa cada nodo.

Canalización finalizada con estado correcto y cantidad de registros procesados por cada nodo

Haz clic en Revisar mi progreso para verificar el objetivo. Implementar y ejecutar una canalización de muestra

Tarea 7: Consulta los resultados

La canalización escribe el resultado en una tabla de BigQuery. Puedes verificarlo con los siguientes pasos.

Haz clic para abrir este vínculo a la IU de BigQuery en la consola de Cloud o haz clic con el botón derecho en la pestaña de la consola y selecciona Duplicar y, luego, usa el menú de navegación para seleccionar BigQuery.
En el panel izquierdo, haz clic en tu ID del proyecto (comenzará con qwiklabs).
En el conjunto de datos GCPQuickstart de tu proyecto, haz clic en la tabla top_rated_inexpensive y, luego, ejecuta una consulta simple, como la siguiente:

SELECT * FROM `{{{project_0.project_id | "PROJECT_ID"}}}.GCPQuickStart.top_rated_inexpensive` LIMIT 10

Resultados de la consulta

Haz clic en Revisar mi progreso para verificar el objetivo. Consultar el resultado

¡Felicitaciones!

En este lab, aprendiste a crear una instancia de Data Fusion y a implementar una canalización de ejemplo que lee un archivo de entrada de Cloud Storage, transforma y filtra los datos para exportar un subconjunto de los datos a BigQuery.

Finalice su lab

Cuando haya completado su lab, haga clic en Finalizar lab. Qwiklabs quitará los recursos que usó y limpiará la cuenta por usted.

Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.

La cantidad de estrellas indica lo siguiente:

1 estrella = Muy insatisfecho
2 estrellas = Insatisfecho
3 estrellas = Neutral
4 estrellas = Satisfecho
5 estrellas = Muy satisfecho

Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.

Última actualización del manual: 3 de marzo de 2025

Prueba más reciente del lab: 3 de marzo de 2025

Copyright 2020 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Comienza a usar Cloud Data Fusion

Descripción general

Objetivos

Configuración

Accede a la consola de Google Cloud

Active Cloud Shell

Comandos de muestra

Verifica los permisos del proyecto

Tarea 1: Habilita la API de Cloud Data Fusion

Tarea 2: Crea una instancia de Cloud Data Fusion

Tarea 3: Navega por la IU de Cloud Data Fusion

Tarea 4: Implementa una canalización de muestra

Tarea 5: Visualiza tu canalización

Tarea 6: Ejecuta tu canalización

Tarea 7: Consulta los resultados

¡Felicitaciones!

Finalice su lab

Antes de comenzar

Usa la navegación privada

Accede a la consola

Usa la navegación privada para ejecutar el lab