Instrucciones y requisitos de configuración del lab
Protege tu cuenta y tu progreso. Usa siempre una ventana de navegador privada y las credenciales del lab para ejecutarlo.

Análisis de datos sin servidores con Dataflow: Una canalización simple de Dataflow (Python)

Lab 1 hora 30 minutos universal_currency_alt 5 créditos show_chart Avanzado
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Este contenido aún no está optimizado para dispositivos móviles.
Para obtener la mejor experiencia, visítanos en una computadora de escritorio con un vínculo que te enviaremos por correo electrónico.

Descripción general

En este lab, abrirá un proyecto de Dataflow, usará filtros de canalizaciones y ejecutará la canalización de forma local y en la nube.

  • Abrir un proyecto en Dataflow

  • Filtre las canalizaciones

  • Ejecutar la canalización de forma local y en la nube

Objetivo

En este lab, aprenderá a escribir una canalización simple de Dataflow y a ejecutarla de forma local y en la nube.

  • Configurar un proyecto de Python Dataflow con Apache Beam

  • Escribir una canalización simple en Python

  • Ejecutar la consulta en la máquina local

  • Ejecutar la consulta en la nube

Configuración

En cada lab, recibirá un proyecto de Google Cloud y un conjunto de recursos nuevos por tiempo limitado y sin costo adicional.

  1. Accede a Qwiklabs desde una ventana de incógnito.

  2. Ten en cuenta el tiempo de acceso del lab (por ejemplo, 1:15:00) y asegúrate de finalizarlo en el plazo asignado.
    No existe una función de pausa. Si lo necesita, puede reiniciar el lab, pero deberá hacerlo desde el comienzo.

  3. Cuando esté listo, haga clic en Comenzar lab.

  4. Anote las credenciales del lab (el nombre de usuario y la contraseña). Las usarás para acceder a la consola de Google Cloud.

  5. Haga clic en Abrir Google Console.

  6. Haga clic en Usar otra cuenta, copie las credenciales para este lab y péguelas en el mensaje emergente que aparece.
    Si usa otras credenciales, se generarán errores o incurrirá en cargos.

  7. Acepta las condiciones y omite la página de recursos de recuperación.

Verifica los permisos del proyecto

Antes de comenzar a trabajar en Google Cloud, asegúrate de que tu proyecto tenga los permisos correctos en Identity and Access Management (IAM).

  1. En la consola de Google Cloud, en el Menú de navegación (Ícono del menú de navegación), selecciona IAM y administración > IAM.

  2. Confirma que aparezca la cuenta de servicio predeterminada de Compute {número-del-proyecto}-compute@developer.gserviceaccount.com, y que tenga asignado el rol Editor. El prefijo de la cuenta es el número del proyecto, que puedes encontrar en el menú de navegación > Descripción general de Cloud > Panel.

El nombre de la cuenta de servicio predeterminada de Compute Engine y el estado del editor destacados en la página de pestañas Permisos

Nota: Si la cuenta no aparece en IAM o no tiene asignado el rol Editor, sigue los pasos que se indican a continuación para asignar el rol necesario.
  1. En la consola de Google Cloud, en el menú de navegación, haz clic en Descripción general de Cloud > Panel.
  2. Copia el número del proyecto (p. ej., 729328892908).
  3. En el Menú de navegación, selecciona IAM y administración > IAM.
  4. En la parte superior de la tabla de funciones, debajo de Ver por principales, haz clic en Otorgar acceso.
  5. En Principales nuevas, escribe lo siguiente:
{project-number}-compute@developer.gserviceaccount.com
  1. Reemplaza {número-del-proyecto} por el número de tu proyecto.
  2. En Rol, selecciona Proyecto (o Básico) > Editor.
  3. Haz clic en Guardar.

Tarea 1. Asegúrese de que la API de Dataflow esté habilitada correctamente

Para garantizar el acceso a la API necesaria, reinicie la conexión a la API de Dataflow.

  1. En Cloud Console, ingrese API de Dataflow en la barra de búsqueda superior.

  2. Haga clic en el resultado de API de Dataflow.

  3. Haga clic en Administrar.

  4. Haga clic en Inhabilitar API.

  5. Si se le solicita confirmar, haga clic en Inhabilitar.

  6. Haga clic en Habilitar.

Tarea 2. Preparación

Abra la terminal SSH y conéctese a la VM de entrenamiento

Ejecutará todo el código desde una VM de entrenamiento seleccionada.

  1. En Console, abra el Menú de navegación (Ícono del menú de navegación) y haga clic en Compute Engine > Instancias de VM.

  2. Ubique la línea que tenga la instancia training-vm.

  3. En el extremo derecho, en Conectar, haga clic en SSH para abrir una ventana de la terminal.

  4. En este lab, ingresará comandos de la CLI en training-vm.

Descargue el repositorio de código

  1. A continuación, descargará un repositorio de código que usará en este lab. En la terminal SSH training-vm, ingrese lo siguiente:

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

Cree un bucket de Cloud Storage

Siga estas instrucciones para crear un bucket.

  1. En Console, abra el menú de navegación y haga clic en Página principal.

  2. Seleccione y copie el ID del proyecto.

Para simplificar, usará el ID del proyecto de Qwiklabs como nombre de bucket, ya que es único de manera global.

  1. En el menú de navegación de Console, haga clic en Cloud Storage > Navegador.
  2. Haga clic en Crear bucket.
  3. Especifique los siguientes valores y deje las demás opciones de configuración con sus valores predeterminados:
Propiedad Valor (escriba el valor o seleccione la opción como se especifica)
Nombre <el nombre único de su bucket (ID del proyecto)>
Tipo de ubicación Multirregión
Ubicación <Su ubicación>
  1. Haga clic en Crear.

Registre el nombre de su bucket. Lo necesitará en tareas posteriores.

  1. En la terminal SSH training-vm, ingrese lo siguiente para crear una variable de entorno con el nombre “BUCKET” y verifique que exista con el comando echo.

BUCKET="<your unique bucket name (Project ID)>" echo $BUCKET

Puede usar la variable $BUCKET en los comandos de la terminal. Si necesita ingresar el nombre del bucket <your-bucket> en un campo de texto en Console, puede recuperarlo rápidamente con echo $BUCKET.

Tarea 3. Use filtros de canalizaciones

El objetivo de este lab es familiarizarse con la estructura de un proyecto de Dataflow y aprender a ejecutar una canalización de ese servicio.

  1. Vuelva a la terminal SSH training-vm, navegue al directorio /training-data-analyst/courses/data_analysis/lab2/python y vea el archivo grep.py.

Vea el archivo con Nano. No realice cambios en el código. Presione Ctrl+X para salir de Nano.

cd ~/training-data-analyst/courses/data_analysis/lab2/python nano grep.py

¿Puede responder estas preguntas sobre el archivo grep.py?

  • ¿Qué archivos se leen?
  • ¿Cuál es el término de búsqueda?
  • ¿A dónde se dirigen los datos de salida?

En la canalización, existen tres transformaciones:

  • ¿Qué hace la transformación?

  • ¿Qué hace la segunda transformación?

  • ¿De dónde provienen los datos de entrada?

  • ¿Qué hace con estos datos de entrada?

  • ¿Qué escribe como datos de salida?

  • ¿A dónde se dirigen los datos de salida?

  • ¿Qué hace la tercera transformación?

Tarea 4. Ejecute la canalización de manera local

  1. En la terminal SSH training-vm, ejecute grep.py de manera local.

python3 grep.py

El archivo de salida será output.txt. Si los datos de salida son lo suficientemente grandes, se fragmentarán en partes separadas con nombres como output-00000-of-00001.

  1. Examine el horario del archivo para ubicar el archivo correcto.

ls -al /tmp
  1. Examine los archivos de salida.

  2. Puede reemplazar “-*” a continuación con el sufijo correcto.

cat /tmp/output-*

¿Los datos de salida parecen lógicos?

Tarea 5. Ejecute la canalización en la nube

  1. Copie algunos archivos Java en la nube. En la terminal SSH training-vm, ingrese el siguiente comando:

gsutil cp ../javahelp/src/main/java/com/google/cloud/training/dataanalyst/javahelp/*.java gs://$BUCKET/javahelp

Haga clic en revisar mi progreso para verificar el objetivo.

Copiar los archivos Java en Cloud
  1. Con Nano, edite la canalización de Dataflow en grepc.py.

nano grepc.py
  1. Reemplace PROJECT y BUCKET por su ID del proyecto y nombre de bucket.

Ejemplo de strings anteriores a la edición:

PROJECT='cloud-training-demos' BUCKET='cloud-training-demos'

Ejemplo de strings posteriores a la edición (utilice sus valores):

PROJECT='qwiklabs-gcp-your-value' BUCKET='qwiklabs-gcp-your-value'

Guarde el archivo y cierre Nano presionando las teclas CTRL + X. Luego, presione Y seguido de Intro.

  1. Envíe el trabajo de Dataflow a la nube:

python3 grepc.py Nota: Puede ignorar el siguiente mensaje: WARNING:root:Make sure that locally built Python SDK docker image has Python 3.7 interpreter. Su trabajo de Dataflow se iniciará correctamente.

Dado que este es un trabajo pequeño, ejecutarlo en la nube llevará mucho más tiempo que hacerlo de forma local (alrededor de 7 o 10 minutos).

  1. Regrese a la pestaña del navegador de Console.

  2. En el menú de navegación, haga clic en Dataflow y, luego, en su trabajo para supervisar el progreso.

Ejemplo:

Detalles del trabajo de Dataflow

Haga clic en revisar mi progreso para verificar el objetivo.

Envíe el trabajo de Dataflow a Cloud
  1. Espere a que el estado del trabajo cambie a Completado.

  2. Examine los datos de salida en el bucket de Cloud Storage.

  3. En el menú de navegación, haga clic en Cloud Storage > Navegador y en su bucket.

  4. Haga clic en el directorio javahelp.

Este trabajo generará el archivo output.txt. Si el archivo es lo suficientemente grande, se fragmentará en varias partes con nombres como output-0000x-of-000y. Puede identificar el archivo más reciente por su nombre o por el campo Última modificación.

  1. Haga clic en el archivo para visualizarlo.

De forma alternativa, puede descargar el archivo mediante la terminal SSH training-vm y verlo:

gsutil cp gs://$BUCKET/javahelp/output* . cat output*

Finalice su lab

Cuando haya completado el lab, haga clic en Finalizar lab. Google Cloud Skills Boost quitará los recursos que usó y limpiará la cuenta.

Tendrá la oportunidad de calificar su experiencia en el lab. Seleccione la cantidad de estrellas que corresponda, ingrese un comentario y haga clic en Enviar.

La cantidad de estrellas indica lo siguiente:

  • 1 estrella = Muy insatisfecho
  • 2 estrellas = Insatisfecho
  • 3 estrellas = Neutral
  • 4 estrellas = Satisfecho
  • 5 estrellas = Muy satisfecho

Puede cerrar el cuadro de diálogo si no desea proporcionar comentarios.

Para enviar comentarios, sugerencias o correcciones, use la pestaña Asistencia.

Copyright 2026 Google LLC. Todos los derechos reservados. Google y el logotipo de Google son marcas de Google LLC. El resto de los nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que están asociados.

Antes de comenzar

  1. Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
  2. .
  3. Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
  4. En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar

Usa la navegación privada

  1. Copia el nombre de usuario y la contraseña proporcionados para el lab
  2. Haz clic en Abrir la consola en modo privado

Accede a la consola

  1. Accede con tus credenciales del lab. Si usas otras credenciales, se generarán errores o se incurrirá en cargos.
  2. Acepta las condiciones y omite la página de recursos de recuperación
  3. No hagas clic en Finalizar lab, a menos que lo hayas terminado o quieras reiniciarlo, ya que se borrará tu trabajo y se quitará el proyecto

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible

Un lab a la vez

Confirma para finalizar todos los labs existentes y comenzar este

Usa la navegación privada para ejecutar el lab

Usar una ventana de incógnito o de navegación privada es la mejor forma de ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.