Instrucciones y requisitos de configuración del lab

Protege tu cuenta y tu progreso. Usa siempre una ventana de navegador privada y las credenciales del lab para ejecutarlo.

Canalización simple de Dataflow (Python) 2.5

Lab 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Introductorio

info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.

Descripción general
Objetivo
Configuración
Tarea 1. Asegúrate de que la API de Dataflow esté habilitada correctamente
Tarea 2. Preparación
Tarea 3. Filtra las canalizaciones
Tarea 4: Ejecuta la canalización de forma local
Tarea 5. Ejecuta la canalización en la nube
Finalice su lab

Este contenido aún no está optimizado para dispositivos móviles.

Para obtener la mejor experiencia, visítanos en una computadora de escritorio con un vínculo que te enviaremos por correo electrónico.

Descripción general

En este lab, abrirás un proyecto de Dataflow, usarás filtros de canalizaciones y ejecutarás la canalización de forma local y en la nube.

Abrir un proyecto en Dataflow
Filtrar las canalizaciones
Ejecutar la canalización de forma local y en la nube

Objetivo

En este lab, aprenderás a escribir una canalización simple de Dataflow y a ejecutarla de forma local y en la nube.

Configurar un proyecto de Python Dataflow con Apache Beam
Escribir una canalización simple en Python
Ejecutar la consulta en la máquina local
Ejecutar la consulta en la nube

Configuración

En cada lab, recibirá un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.

Accede a Qwiklabs desde una ventana de incógnito.
Ten en cuenta el tiempo de acceso del lab (por ejemplo, 1:15:00) y asegúrate de finalizarlo en el plazo asignado.
No existe una función de pausa. Si lo necesita, puede reiniciar el lab, pero deberá hacerlo desde el comienzo.
Cuando esté listo, haga clic en Comenzar lab.
Anote las credenciales del lab (el nombre de usuario y la contraseña). Las usarás para acceder a la consola de Google Cloud.
Haga clic en Abrir Google Console.
Haga clic en Usar otra cuenta, copie las credenciales para este lab y péguelas en el mensaje emergente que aparece.
Si usa otras credenciales, se generarán errores o incurrirá en cargos.
Acepta las condiciones y omite la página de recursos de recuperación.

Activa Google Cloud Shell

Google Cloud Shell es una máquina virtual que cuenta con herramientas para desarrolladores. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud.

Google Cloud Shell proporciona acceso de línea de comandos a tus recursos de Google Cloud.

En la consola de Cloud, en la barra de herramientas superior derecha, haz clic en el botón Abrir Cloud Shell.
Haz clic en Continuar.

El aprovisionamiento y la conexión al entorno demorarán unos minutos. Cuando te conectes, habrás completado la autenticación, y el proyecto estará configurado con tu PROJECT_ID. Por ejemplo:

ID del proyecto destacado en la terminal de Cloud Shell

gcloud es la herramienta de línea de comandos de Google Cloud. Viene preinstalada en Cloud Shell y es compatible con el completado de línea de comando.

Puedes solicitar el nombre de la cuenta activa con este comando:

gcloud auth list

Resultado:

Credentialed accounts: - @.com (active)

Resultado de ejemplo:

Credentialed accounts: - google1623327_student@qwiklabs.net

Puedes solicitar el ID del proyecto con este comando:

gcloud config list project

Resultado:

[core] project =

Resultado de ejemplo:

[core] project = qwiklabs-gcp-44776a13dea667a6

Nota: La documentación completa de gcloud está disponible en la guía de descripción general de gcloud CLI .

Verifica los permisos del proyecto

Antes de comenzar a trabajar en Google Cloud, asegúrate de que tu proyecto tenga los permisos correctos en Identity and Access Management (IAM).

En la consola de Google Cloud, en el Menú de navegación (), selecciona IAM y administración > IAM.
Confirma que aparezca la cuenta de servicio predeterminada de Compute {número-del-proyecto}-compute@developer.gserviceaccount.com, y que tenga asignado el rol Editor. El prefijo de la cuenta es el número del proyecto, que puedes encontrar en el menú de navegación > Descripción general de Cloud > Panel.

El nombre de la cuenta de servicio predeterminada de Compute Engine y el estado del editor destacados en la página de pestañas Permisos

Nota: Si la cuenta no aparece en IAM o no tiene asignado el rol Editor, sigue los pasos que se indican a continuación para asignar el rol necesario.

En la consola de Google Cloud, en el menú de navegación, haz clic en Descripción general de Cloud > Panel.
Copia el número del proyecto (p. ej., 729328892908).
En el Menú de navegación, selecciona IAM y administración > IAM.
En la parte superior de la tabla de funciones, debajo de Ver por principales, haz clic en Otorgar acceso.
En Principales nuevas, escribe lo siguiente:

{project-number}-compute@developer.gserviceaccount.com

Reemplaza {número-del-proyecto} por el número de tu proyecto.
En Rol, selecciona Proyecto (o Básico) > Editor.
Haz clic en Guardar.

Tarea 1. Asegúrate de que la API de Dataflow esté habilitada correctamente

Ejecuta el siguiente bloque de código en Cloud Shell:

gcloud services disable dataflow.googleapis.com --force gcloud services enable dataflow.googleapis.com

Tarea 2. Preparación

Abre la terminal SSH y conéctese a la VM de entrenamiento

Ejecutarás todo el código desde una VM de entrenamiento seleccionada.

En el menú de navegación () de la consola, haz clic en Compute Engine > Instancias de VM.
Ubica la línea que tenga la instancia training-vm.
En el extremo derecho, en Conectar, haz clic en SSH para abrir una ventana de la terminal.
En este lab, ingresarás comandos de la CLI en training-vm.

Descarga el repositorio de código

Descarga un repositorio de código para usarlo en este lab. En la terminal SSH training-vm, ingresa lo siguiente:

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Crea un bucket de Cloud Storage

Sigue estas instrucciones para crear un bucket.

En el menú de navegación de la consola, haz clic en Cloud Storage > Buckets.
Haz clic en + Crear.
Especifica lo siguiente y deja los parámetros de configuración restantes con sus valores predeterminados:

Propiedad	Valor (escribe el valor o selecciona la opción como se especifica)
Nombre
Tipo de ubicación	Multirregión

Haz clic en Crear.
Si recibes el mensaje Se impedirá el acceso público, selecciona Aplicar la prevención de acceso público a este bucket y haz clic en Confirmar.

Registra el nombre de tu bucket. Lo necesitarás en tareas posteriores.

En la terminal SSH training-vm, ingresa lo siguiente para crear una variable de entorno con el nombre “BUCKET” y verifica que exista con el comando echo:

BUCKET="{{{project_0.project_id|project_place_holder_text}}}" echo $BUCKET

Puedes usar la variable $BUCKET en los comandos de la terminal. Si necesitas ingresar el nombre del bucket <your-bucket> en un campo de texto en la consola, puedes recuperarlo rápidamente con echo $BUCKET.

Tarea 3. Filtra las canalizaciones

El objetivo de este lab es familiarizarse con la estructura de un proyecto de Dataflow y aprender a ejecutar una canalización de ese servicio.

Vuelve a la terminal SSH training-vm, navega al directorio /training-data-analyst/courses/data_analysis/lab2/python y mira el archivo grep.py.
Ve el archivo con Nano. No realices cambios en el código:

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

Presiona CTRL + X para salir de Nano.

¿Puedes responder estas preguntas sobre el archivo grep.py?

¿Qué archivos se leen?
¿Cuál es el término de búsqueda?
¿A dónde se dirigen los datos de salida?

En la canalización, existen tres transformaciones:

¿Qué hace la transformación?
¿Qué hace la segunda transformación?
¿De dónde provienen los datos de entrada?
¿Qué hace con estos datos de entrada?
¿Qué escribe como datos de salida?
¿A dónde se dirigen los datos de salida?
¿Qué hace la tercera transformación?

Tarea 4: Ejecuta la canalización de forma local

En la terminal SSH training-vm, ejecuta grep.py de manera local:

python3 grep.py

Nota: Si aparece una advertencia, ignórala.

El archivo de salida será output.txt. Si los datos de salida son lo suficientemente grandes, se fragmentarán en partes separadas con nombres como output-00000-of-00001.

Examina el horario del archivo para ubicar el archivo correcto:

ls -al /tmp

Examina los archivos de salida.
Puedes reemplazar “-*” a continuación por el sufijo correcto:

cat /tmp/output-*

¿Los datos de salida parecen lógicos?

Tarea 5. Ejecuta la canalización en la nube

Copia algunos archivos Java en la nube. En la terminal SSH training-vm, ingresa el siguiente comando:

gcloud storage cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

Con Nano, edita la canalización de Dataflow en grepc.py:

nano grepc.py

Reemplaza PROJECT, BUCKET y REGION por los siguientes valores. Conserva las comillas simples exteriores.

PROJECT='{{{project_0.project_id|project_place_holder_text}}}'

BUCKET='{{{project_0.project_id|project_place_holder_text}}}'

REGION='{{{project_0.startup_script.gcp_region|region_place_holder_text}}}'

Guarda el archivo y cierra Nano con las teclas CTRL + X. Luego, presiona Y seguido de Intro.

Envía el trabajo de Dataflow a la nube:

python3 grepc.py

Dado que este es un trabajo pequeño, ejecutarlo en la nube llevará mucho más tiempo que hacerlo de forma local (alrededor de 7 o 10 minutos).

Regresa a la pestaña del navegador de la consola.
En el menú de navegación, haz clic en Dataflow y, luego, en tu trabajo para supervisar el progreso.
Espera a que el Estado del trabajo sea Correcto.
Examina los datos de salida en el bucket de Cloud Storage.
En el menú de navegación, haz clic en Cloud Storage > Buckets y en tu bucket.
Haz clic en el directorio javahelp.

Este trabajo genera el archivo output.txt. Si el archivo es lo suficientemente grande, se fragmentará en varias partes con nombres como: output-0000x-of-000y. Puedes identificar el archivo más reciente por su nombre o por el campo Última modificación.

Haz clic en el archivo para visualizarlo.

De forma alternativa, puedes descargar el archivo a través de la terminal SSH training-vm y verlo:

gcloud storage cp gs://$BUCKET/javahelp/output* . cat output*

Finalice su lab

Cuando haya completado el lab, haga clic en Finalizar lab. Google Cloud Skills Boost quitará los recursos que usó y limpiará la cuenta.

Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.

La cantidad de estrellas indica lo siguiente:

1 estrella = Muy insatisfecho
2 estrellas = Insatisfecho
3 estrellas = Neutral
4 estrellas = Satisfecho
5 estrellas = Muy satisfecho

Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.

Copyright 2026 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.

Canalización simple de Dataflow (Python) 2.5

Descripción general

Objetivo

Configuración

Activa Google Cloud Shell

Verifica los permisos del proyecto

Tarea 1. Asegúrate de que la API de Dataflow esté habilitada correctamente

Tarea 2. Preparación

Abre la terminal SSH y conéctese a la VM de entrenamiento

Descarga el repositorio de código

Crea un bucket de Cloud Storage

Tarea 3. Filtra las canalizaciones

Tarea 4: Ejecuta la canalización de forma local

Tarea 5. Ejecuta la canalización en la nube

Finalice su lab

Antes de comenzar

Usa la navegación privada

Accede a la consola

Usa la navegación privada para ejecutar el lab