Obtén acceso a más de 700 labs y cursos

Preparación y agregación de datos para visualizaciones con Cloud Dataprep

Lab 1 hora 20 minutos universal_currency_alt 1 crédito show_chart Introductorio
info Es posible que este lab incorpore herramientas de IA para facilitar tu aprendizaje.
Obtén acceso a más de 700 labs y cursos

Este lab se desarrolló junto con nuestro socio, Alteryx Designer Cloud (Trifacta). Es posible que tu información personal se comparta con Trifacta, el patrocinador del lab, si aceptaste recibir actualizaciones, anuncios y ofertas de productos en el perfil de tu cuenta.

GSP823

Logotipo de los labs de autoaprendizaje de Google Cloud

Descripción general

Dataprep by Alteryx Designer Cloud (Trifacta) es la herramienta de autoservicio de Google para preparar datos, creada en colaboración con Alteryx. En este lab, aprenderás algunas técnicas más avanzadas con Dataprep.

Situación de caso de uso:

El monte Rainier es uno de los volcanes activos más altos de Norteamérica. A pesar de su alta probabilidad de erupción, cada año miles de personas desafían los elementos para escalar este pico de 4,392 m (14,411 pies). Con la información recopilada de los Servicios de Parques Nacionales y la Administración Nacional Oceánica y Atmosférica (NOAA), analizarás cómo el clima afecta a los escaladores en sus expediciones.

Objetivos

En este lab, aprenderás a hacer lo siguiente:

  • Crear conjuntos de datos parametrizados en Cloud Dataprep
  • Manipular fechas y horas
  • Crear y aprovechar nuevas muestras
  • Crear casos condicionales
  • Crear agregaciones
  • Encabezados limpios para BigQuery
  • Visualizar los resultados en Data Studio
  • Exportar flujos

Configuración y requisitos

Nota: Para ejecutar este lab, deberás usar Google Chrome. Actualmente, Cloud Dataprep no admite otros navegadores.

Se recomienda que realices el lab Cómo trabajar con Google Cloud Dataprep antes de comenzar este.

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs cuentan con un temporizador que no se puede pausar. El temporizador, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

  • Acceso a un navegador de Internet estándar. Se recomienda el navegador Chrome.
Nota: Usa una ventana del navegador privada o de incógnito (opción recomendada) para ejecutar el lab. Así evitarás conflictos entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
  • Tiempo para completar el lab (recuerda que, una vez que comienzas un lab, no puedes pausarlo).
Nota: Usa solo la cuenta de estudiante para este lab. Si usas otra cuenta de Google Cloud, es posible que se apliquen cargos a esa cuenta.

Cómo iniciar tu lab y acceder a la consola de Google Cloud

  1. Haz clic en el botón Comenzar lab. Si debes pagar por el lab, se abrirá un diálogo para que selecciones la forma de pago. A la izquierda, se encuentra el panel Detalles del lab, que tiene estos elementos:

    • El botón para abrir la consola de Google Cloud
    • El tiempo restante
    • Las credenciales temporales que debes usar para el lab
    • Otra información para completar el lab, si es necesaria
  2. Haz clic en Abrir la consola de Google Cloud (o haz clic con el botón derecho y selecciona Abrir el vínculo en una ventana de incógnito si ejecutas el navegador Chrome).

    El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

    Sugerencia: Ordena las pestañas en ventanas separadas, una junto a la otra.

    Nota: Si ves el diálogo Elegir una cuenta, haz clic en Usar otra cuenta.
  3. De ser necesario, copia el nombre de usuario a continuación y pégalo en el diálogo Acceder.

    {{{user_0.username | "Username"}}}

    También puedes encontrar el nombre de usuario en el panel Detalles del lab.

  4. Haz clic en Siguiente.

  5. Copia la contraseña que aparece a continuación y pégala en el diálogo Te damos la bienvenida.

    {{{user_0.password | "Password"}}}

    También puedes encontrar la contraseña en el panel Detalles del lab.

  6. Haz clic en Siguiente.

    Importante: Debes usar las credenciales que te proporciona el lab. No uses las credenciales de tu cuenta de Google Cloud. Nota: Usar tu propia cuenta de Google Cloud para este lab podría generar cargos adicionales.
  7. Haz clic para avanzar por las páginas siguientes:

    • Acepta los Términos y Condiciones.
    • No agregues opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
    • No te registres para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Google Cloud en esta pestaña.

Nota: Para acceder a los productos y servicios de Google Cloud, haz clic en el menú de navegación o escribe el nombre del servicio o producto en el campo Buscar. Ícono del menú de navegación y campo de búsqueda

Tarea 1: Abre Google Cloud Dataprep

  1. En Cloud Shell, ejecuta el siguiente comando:
gcloud beta services identity create --service=dataprep.googleapis.com
  1. En la consola de Cloud, ve al menú de navegación, haz clic en Ver todos los productos y, en Análisis, selecciona Alteryx Designer Cloud.

  2. Para acceder a Cloud Dataprep, confirma que aceptas las Condiciones del Servicio de Google Dataprep y, luego, haz clic en Accept.

  3. Haz clic en la casilla de verificación y, luego, en Agree and Continue cuando se te solicite compartir información de la cuenta con Trifacta.

  4. Haz clic en Allow para que Trifacta pueda acceder a tu proyecto.

  5. Selecciona tus credenciales del lab para acceder y haz clic en Permitir.

  6. Marca la casilla de verificación y haz clic en Accept para aceptar las Condiciones del Servicio de Trifacta.

  7. Asimismo, si se te solicita que utilices la ubicación predeterminada para el bucket de almacenamiento, haz clic en Continuar.

Haz clic en Check my progress para verificar el objetivo. Iniciar Dataprep

Tarea 2: Conecta los datos

Los datos contienen información del Servicio de Parques Nacionales sobre los intentos de ascensión al Monte Rainier. Los datos de escalada se separan por año. También hay datos meteorológicos de la NOAA tomados de la estación de guardaparques Paradise del Monte Rainier durante el mismo período.

Crea un flujo

  1. Haz clic en Create a new flow en la esquina derecha.

  2. Haz clic en Untitled Flow y, en el diálogo Rename, para Flow Name, usa Rainier Climbs.

  3. Haz clic en OK.

  4. Haz clic en (+) debajo de Dataset para agregar una nueva fuente.

  5. Haz clic en Importar conjuntos de datos y, luego, en el navegador Cloud Storage de la izquierda.

  6. Navega al bucket con tu ID del proyecto.

Puedes ver que esta carpeta contiene datos de cada año desde 2006 hasta 2015. También incluye información sobre el pronóstico del clima para los años correspondientes. En este lab, usarás todos los conjuntos de datos.

Podrías incorporar individualmente cada conjunto de datos y unirlos, pero ¿qué sucede cuando obtienes un nuevo archivo con los años más recientes? Tendrías que agregar otro conjunto de datos y volver a crear la unión. ¿Qué pasaría si pudieras evitar todo ese trabajo y simplemente crear una regla que tenga en cuenta los archivos nuevos en la canalización?

Parametrización de conjuntos de datos

La parametrización de conjuntos de datos te permite usar patrones o variables para hacer coincidir varios archivos cuando importas o publicas datos.

  1. Coloca el cursor sobre uno de los conjuntos de datos de la expedición. A la derecha, aparecerá una opción para parametrizar el conjunto de datos. Haz clic para parametrizar los datos de importación.

  2. Se abrirá el asistente de parametrización. Al principio, se completa previamente la selección con la ruta de acceso al archivo de los datos que seleccionaste.

  3. Selecciona la parte de la ruta que quieres parametrizar. Observa que todos los datos de escalada se denominan "escaladas", seguido del año. Parte destacada el año (2006) de la ruta. Ruta parametrizada: gs://trifacta-user-area/luotest/rainier/climbs2006.csv

  4. Una vez que se destaca un texto, puedes ver opciones para cambiar la parte destacada de la ruta en un parámetro. Selecciona el parámetro Add Pattern Parameter.

Cuadro de diálogo de parámetros de patrón con menú desplegable de parámetros

  1. Elige Wildcard .* en el menú desplegable Parameter y haz clic en Save.

  2. Este parámetro coincidirá con cualquier archivo que comience con "escaladas" y termine con ".csv". En la parte inferior de la pantalla, puedes ver la actualización de Dataprep para reflejar los archivos que coinciden con el parámetro.

  3. Haz clic en Crear en la parte inferior derecha para crear un conjunto de datos con este parámetro. Todos los archivos coincidentes se concatenarán en un gran conjunto de datos como entrada para tu receta.

  4. Haz clic en Import & Add to Flow para agregar las fuentes.

Se crea un nuevo conjunto de datos llamado Dataset with Parameters y se coloca en la vista de flujo. También se crea automáticamente una receta y un resultado para este conjunto de datos.

Tarea 3: Toma nuevas muestras

  1. Haz doble clic en el nodo de la receta para editar la receta Dataset with Parameters.

  2. Cuando se carga el conjunto de datos por primera vez, es posible que notes que tiene 6 columnas y solo 1,983 filas.

  3. Esa cantidad de filas parece baja para un período de 9 años. Si observas la columna Date, notarás en el histograma que solo contiene valores de 2006. ¿Por qué pasa eso?

Nodo Dataset with Parameters

También es posible que hayas notado la notificación que apareció en la parte superior derecha.

Notificación: La receta usa un conjunto de datos con parámetros. Recopila una nueva muestra para ver los datos de las coincidencias actuales.

Recuerda que en Dataprep creas transformaciones en una muestra del conjunto de datos. En este caso, solo cargó el primer conjunto de datos de la entrada parametrizada para darte una vista previa de los datos.

  1. Haz clic en el cuadro Datos iniciales en la parte superior. Se abrirá el Samples Panel
  • Haz clic en GOT IT.

Aquí puedes ver las muestras visibles actuales, así como otras muestras disponibles. También puedes elegir recopilar una nueva muestra en cualquier momento.

  1. En Collect new sample, selecciona Random.

  2. Elige Quick y haz clic en Collect para recopilar una nueva muestra aleatoria. Una muestra aleatoria es una técnica de muestreo en la que cada fila tiene la misma probabilidad de ser elegida.

Dataprep ahora está preparando la nueva muestra en segundo plano. El progreso se puede ver en el panel.

Según el tamaño y la complejidad de la muestra, puede tardar unos minutos en recopilarse. Puedes seguir explorando y manipulando los datos con la muestra actual mientras se recopila la nueva.

Tarea 4: Limpieza de datos

Mientras la muestra se recopila en segundo plano, puedes echar un breve vistazo a tus datos. Los datos de escalada contienen 6 columnas:

  • #: Un ID de ascenso incremental
  • Date: La fecha de la escalada
  • Route: La ruta que se tomó
  • Size: El tamaño del grupo de escalada
  • Summit: La cantidad de personas que llegan a la cima
  • Leader Zip Code: Código postal del líder del grupo de escaladores
  1. Toma nota del formato de la columna Date (7-ene-06).

  2. Toma nota de la distribución de la columna Date. (Hay varias partidas de ascenso por día).

Manipulación de fechas

El formato estándar de fecha y hora de BigQuery es aaaa-MM-ddTHH:mm:ss. Dado que el objetivo final es publicar estos datos en BigQuery, lo mejor es adherirse a ese formato. Dataprep permite manipular fácilmente las columnas de fecha y hora.

  1. Haz clic en el menú desplegable junto a la columna Date y selecciona Format > Change datetime format > Date.

  2. Esto abrirá el compilador de transformaciones de formato de fecha. En formato de salida, selecciona el formato, en este caso, aaaa-MM-dd. Revisa la vista previa y haz clic en Agregar.

Prepara los datos de unión

Para analizar cómo el clima afecta la tasa de éxito de la cumbre, se deben incorporar los datos meteorológicos. Esos datos meteorológicos están en otro conjunto de datos. Mientras Dataprep recopila tu muestra de datos de escalada, puedes explorar el conjunto de datos del clima.

  1. Vuelve a la vista Flow haciendo clic en el nombre del flujo RAINIER CLIMBS.

Se destacaron las escaladas de Rainier

  1. En la parte superior derecha de la página Flow View (Vista de flujo), haz clic en el botón Add datasets para agregar un nuevo conjunto de datos a este flujo.

  2. Haz clic en Import datasets de datos en la parte inferior izquierda del diálogo.

  1. Vuelve a la misma carpeta en Cloud Storage y agrega el conjunto de datos rainier_weather.csv.
    • Haz clic en Import & Add to Flow.

Archivo rainier_weather.csv destacado. El panel 1 New Dataset muestra el archivo rainier_weather.csv y un botón Import & Add to Flow.

  1. Aparecerá un nuevo nodo en el lienzo de flujo para los datos meteorológicos. Haz clic en el signo más (+) junto a él y selecciona Add new recipe.

  2. Cambia el nombre de la receta sin título a rainier weather y haz doble clic en el nuevo nodo de receta para editarla.

  3. Los datos meteorológicos contienen las siguientes columnas:

    • NAME: El nombre de la estación meteorológica que tomó las mediciones
    • ELEVATION: la elevación de la estación meteorológica
    • DATE: La fecha del pronóstico
    • Multiday_precipitation_total: La cantidad total de lluvia en varios días en pulgadas
    • Multiday_snowfall_total: La cantidad total de nieve en varios días en pulgadas
    • Precipitation_inches: pulgadas de lluvia para ese día en particular
    • Snowfall_inches: La cantidad de nieve en pulgadas para ese día en particular
    • Snow_depth: La profundidad de la nieve que rodea la estación en pulgadas
    • Temp_max: La temperatura máxima prevista
    • Temp_min: La temperatura mínima prevista
    • Temp_observed: La temperatura observada al mediodía
    • Fog: (booleano) para clima con niebla

Observa el formato de las fechas en este conjunto de datos: 2/22/06.

  1. Tómate unos minutos para desplazarte por el conjunto de datos y familiarizarte con la estructura general.

Limpieza de datos

Si observas todas las columnas, verás que Dataprep intentó inferir los tipos de datos en función de los valores más populares en las columnas. Sin embargo, algunos de los tipos de datos inferidos no son los esperados. Por ejemplo, la mayoría de los valores en Snowfall_inches son números enteros, por lo que la herramienta infirió que el tipo de columna era entero y marcó cualquier decimal como no coincidente. Con datos sucios, a menudo tendrás que hacer una exploración adicional para comprender realmente qué tipo de datos es apropiado para cada columna.

  1. Para las siguientes columnas, cambia el tipo de datos a decimal. Usa el menú desplegable junto a la columna y selecciona Cambiar tipo > Decimal.

    • Multiday_precipitation_total
    • Multiday_snowfall_total
    • Snowfall_inches

Columnas de Dataprep

  1. Ahora, veamos algunos de los valores faltantes en este conjunto de datos. Haz clic en el área gris de la barra de calidad de los datos para Precipitation_inches. Si lo haces, Dataprep sugerirá transformaciones para el área seleccionada. Además, destaca las filas que están vacías. Desplázate por el conjunto de datos para ver algunas de las filas destacadas.

  2. A medida que te desplazas hacia abajo, es posible que notes que muchas de las filas vacías en Precipitation_inches tienen valores válidos en la columna Multiday_precipitation_total.

No todas las filas siguen este patrón, pero para las que sí lo hacen, también es muy probable que haya una brecha en la fecha.

Vista previa de las columnas de Dataprep con fechas faltantes

Por ejemplo, en esta captura de pantalla, puedes ver que faltan los datos de las fechas 18/7/07 y 21/7/07. Parece que, en los días de precipitación constante, los datos no se registran con una granularidad diaria.

  1. Es posible completar estas fechas y valores con una lógica más complicada, pero por ahora puedes unir los valores de las columnas de precipitación de varios días y de un solo día para dar forma a este conjunto de datos y unirlos con los datos de escaladas.

  2. Haz clic en el encabezado de la columna Multiday_precipitation_total para seleccionarla.

  3. Mantén presionada la tecla CTRL o CMD y haz clic en el encabezado de Precipitation_inches para seleccionar 2 columnas juntas.

  4. En las sugerencias, en Crear una columna nueva, elige la opción COALESCE([Multiday_precipitation_total,Precipitation_inches]) y agrégala.

La función COALESCE devuelve el primer valor no vacío que se encuentra en las 2 columnas, lo que esencialmente combina las columnas en una sola.

  1. Edita el paso anterior de la receta o agrega un nuevo paso para cambiar el nombre de la columna a Merged Precipitation.

  2. Repite el paso Coalesce para las columnas Snowfall_inches y Multiday_snowfall_total. Asigna el nombre Merged Snowfall a la columna nueva. Por último, cambia el tipo de datos del menú desplegable de la nueva columna a decimal.

Cómo agregar comentarios

Si bien Dataprep muestra las transformaciones en un lenguaje natural fácil de leer, si no trabajas en una receta durante mucho tiempo o la compartes con otras personas, puede que sea necesario descifrarla para entender qué hacen los pasos. Para ayudar con la reutilización, puedes agregar comentarios a tus recetas para anotar y describir tus pasos.

  1. Haz clic en los tres puntos para More actions y, luego, en el ícono Comment para insertar un comentario como un nuevo paso de la receta.

ícono de comentario

  1. Describe los pasos anteriores, es decir, "Estos pasos combinan las pulgadas de nieve con valores de varios días".

  2. Haz clic en Add. Los comentarios aparecerán en azul con dos barras diagonales delante. Los pasos de comentarios no cambian los datos y no se ejecutan durante las ejecuciones de trabajos.

Cómo mover la línea de vista de receta (RVL) e insertar pasos

Ahora que sabes cómo insertar comentarios, tiene sentido volver atrás y agregar un comentario similar junto al paso que produjo la columna de precipitación combinada.

  1. Para insertar un paso en la receta en una ubicación específica, debes cambiar la línea de vista de la receta (RVL).

La línea de vista de la receta tiene 2 propósitos:

  • Establecer el punto en el que se agregan nuevos pasos.
  • Permitirte ver los datos en cualquier paso en particular.

Para establecer el RVL, simplemente coloca el cursor sobre el espacio entre 2 pasos. Aparecerá una línea punteada gris para indicar que estás pasando el mouse sobre un RVL. Haz clic para establecer el RVL en ese paso. La RVL activa se indica con una línea punteada azul.

Línea punteada entre los pasos 5 y 6, y entre los pasos 7 y 8

En esta captura de pantalla, el RVL se encuentra entre los pasos 7 y 8.

  1. Haz clic entre los pasos 5 y 6 para establecer el RVL después de la línea 5. Cuando agregues el comentario, el paso se insertará aquí.

Ten en cuenta que, después de que establezcas el RVL en el paso 5, la columna Merged Snowfall ya no aparecerá en la cuadrícula. Esto se debe a que los pasos posteriores a RVL no se muestran en la cuadrícula de datos, lo que te permite revisar rápidamente los datos después de diferentes transformaciones.

Nota: También puedes establecer el RVL sobre el paso 1 para ver los datos de origen originales. Nota: Cuando ejecutas el trabajo a gran escala, todos los pasos de la receta se calculan, incluso los que están debajo del RVL. La RVL solo controla lo que ves en la cuadrícula de datos durante el diseño. Para evitar que se calculen los pasos en la ejecución, debes inhabilitar el paso.
  1. Agrega el comentario "Estos pasos combinan las pulgadas de precipitación con valores de varios días" a la receta.

  2. Vuelve a colocar la RVL en la parte inferior de la receta. Ahora, tu página debería verse de la siguiente manera:

Página de recetas

Datos agregados

A esta altura, ya deberías haber terminado de recopilar la muestra aleatoria de los datos de escalada.

  1. Cambia rápidamente a los datos de escalada haciendo clic en el menú desplegable junto al nombre de la receta en la parte superior.

  2. Haz clic en Dataset with parameters para cambiar rápidamente a la otra receta en el flujo.

Menú desplegable rainier_weather en el que se muestra la opción Dataset with Parameters

  1. Una vez que se cambie la receta, haz clic en Initial data de nuevo para abrir el panel Muestras.

  2. En el panel Samples, haz clic en See all collected samples.

Panel de muestras

  1. En Available samples, deberías ver 2 opciones: Initial, que está seleccionada actualmente, y Random. Haz clic en Random para cambiar a esa muestra.

  2. Haz clic en Load. Una vez que se cargue la muestra, deberías ver lo siguiente:

  • Más filas…
  • Una mayor distribución de fechas en la columna Dates.
Nota: Debido a que las filas se seleccionan de forma aleatoria, los datos que ves en tu pantalla diferirán de las capturas de pantalla de este lab.

Ahora que tienes más filas de datos, puedes resumirlos para facilitar el análisis posterior. Como viste cuando abriste este conjunto de datos por primera vez, el conjunto de datos de escalada tiene varias fiestas por día.

  1. Haz clic en el ícono Pivot para crear una tabla dinámica.

Ícono de Pivot

  1. Una tabla dinámica es una tabla de estadísticas que resume los datos de una tabla más extensa. Dataprep te permite crear tablas con facilidad, ya que te muestra una vista previa de la tabla resultante.

En la sección Row labels, selecciona la columna Date.

Observa cómo cambia la cuadrícula para mostrarte cómo se verá la tabla.

  1. En la sección Values, ingresa estos dos: SUM(Size) y SUM(Summit).

Las otras columnas (#* y *Leader Zip Code) se descartarán, ya que no son necesarias para el análisis.

  1. Haz clic en Add para aceptar la agregación. Esta tabla dinámica resume la cantidad total de escaladores que partieron y llegaron a la cima cada día.

  2. Ahora puedes calcular la tasa de éxito general para cualquier día dividiendo sum_Summit por sum_Size. En la barra de herramientas, haz clic en el ícono Functions y, luego, selecciona Math > DIVIDE.

Menú desplegable de fórmulas

  1. Para la fórmula, usa DIVIDE(sum_Summit, sum_Size) y nombra la nueva columna Summit rate. Haz clic en Add.

Condicionales y casos

Según tu muestra, es posible que veas que el histograma de la tasa de Summit muestra valores superiores a 1.

Histograma de la tasa de cumbre

Esto es extraño, ya que una tasa de cumbre superior a 1 significaría que más personas llegaron a la cima que las que ascendieron a la montaña en un día determinado. Esto podría indicar que las personas acampan en la montaña durante varios días o cambian de grupo de expedición, pero podría sesgar parte de tu análisis si la tasa de éxito es superior al 100%. A continuación, crearás una condición para solucionar algunos de los problemas.

  1. En la barra de herramientas, elige Conditions > Case en custom conditions.

Menú desplegable de conditions

  1. En las condiciones, el primer cuadro es la condición que se debe evaluar y el segundo cuadro es el valor si el caso es verdadero. Ingresa 1 < {Summit rate} en el primer cuadro y 1 en el segundo. Esto significa que, si la tasa de cumbre es superior a 1, simplemente configúrala en 1. (Las llaves { } alrededor del nombre de la columna se usan para denotar cualquier columna con espacios en blanco).

  2. Puedes agregar más casos haciendo clic en Add junto al argumento Conditions.

Aparecen nuevos cuadros de condición. Ingresa ISNULL({Summit rate}) en el primer cuadro y 0 en el segundo. Para ciertas filas con sum_Size de 0, el cálculo anterior para Summit rate habría dividido por 0 y producido un valor nulo, así que solo establece eso en 0.

  1. En Default, ingresa {Summit rate}. Para las filas que no se evalúan como verdaderas en las condiciones anteriores, simplemente se completa el valor existente para Summit rate.

  2. Asigna el nombre "Tasa de éxito" a la nueva columna y agrega el paso a la receta. Haz clic en Add. Tu condición debería ser similar a la siguiente:

Ventana de condiciones

Conjuntos de datos de combinación

Ahora que tienes los datos de escalada resumidos a nivel diario, puedes unirlos a los datos meteorológicos.

  1. Crea un nuevo paso de unión haciendo clic en el ícono Join.

Ícono Join

  1. Selecciona el conjunto de datos sobre el clima para unirte y haz clic en Accept.

  2. Cambia el tipo de unión a Left.

  3. Edita la clave de unión para que coincida con la columna Date = columna DATE.

En la vista previa, observa que Dataprep puede unirse en una columna de fecha y hora que no está en el mismo formato exacto.

También ten en cuenta que, como se seleccionó una unión izquierda, algunas filas no tienen coincidencias. (Según tu muestra, el porcentaje de filas no coincidentes variará).

  1. Haz clic en Siguiente para seleccionar las columnas de salida. Mantén las siguientes columnas; el resto se descartará automáticamente después de la unión.

    • Date
    • DATE
    • sum_Size
    • sum_Summit
    • Success rate
    • Merged Precipitation
    • Merged Snowfall
    • Snow_depth
    • Temp_observed
    • Fog
  2. Haz clic en Review. El archivo debería ser similar a lo siguiente:

La ventana Join - Edit Step muestra la vista previa de la salida de la unión y el panel de datos combinados

  1. Haz clic en Add to Recipe.

  2. Ahora que se agregó la unión, puedes ver que faltan datos meteorológicos para algunos días, por lo que no podrás usarlos en tu análisis. Puedes elegir borrar las filas en las que falta DATE1 o mantenerlas en el conjunto de datos.

Tarea 5: Publicar en BigQuery

Ahora que uniste los datos, puedes publicar los resultados en BigQuery.

  1. Haz clic en el botón Run para crear un resultado.

  2. En la sección Publishing Actions, Dataprep creará un archivo CSV de forma predeterminada. Coloca el cursor sobre la acción y haz clic en el botón Edit para cambiar el destino de publicación a BigQuery.

  3. Elige BigQuery en la lista de sistemas de la izquierda.

  4. Elige la base de datos Dataprep y haz clic en Create a new table a la derecha.

  5. Según los nombres de las columnas que creaste, deberías ver un mensaje de error en la parte superior.

Mensaje de error

Esto indica que BigQuery no puede tomar nombres de columnas con espacios y tu conjunto de datos tiene algunos de estos.

  1. Haz clic en Cancel para salir del cuadro de diálogo de la acción de publicación y, luego, en Cancel nuevamente para salir del cuadro de diálogo ejecutar trabajo. Abre de nuevo la receta Dataset with Parameter.

  2. Dataprep puede solucionar rápidamente los problemas con los nombres de las columnas quitando todos los caracteres especiales. Haz clic en el chevron junto a cualquier columna y elige Rename.

Menú desplegable con la opción Rename destacada

  1. De forma predeterminada, la transformación Rename te pedirá que cambies el nombre de la columna manualmente. Sin embargo, también incluye varias funciones precompiladas, incluida una función de limpieza general.

Ventana Cambiar nombre de columnas

En el menú desplegable Option, elige Clean current column names. Observa cómo la vista previa afecta a todas las columnas y reemplazó todos los espacios con guiones bajos. Haz clic en Add.

  1. Ahora que los nombres de las columnas están corregidos, repite los pasos del 1 al 4 y crea una nueva tabla llamada RainierLab. Elige Truncate the table every run y Update el destino.

  2. Haz clic en Ejecutar. Esto puede tomar varios minutos.

Haz clic en Check my progress para verificar el objetivo. Publicar en BigQuery

Visualización de resultados

Una vez que el trabajo finalice, crea una visualización rápida de los datos.

Cómo abrir la consola de BigQuery

  1. En la consola de Google Cloud, selecciona el menú de navegación > BigQuery.

Se abrirá el cuadro de mensaje Te damos la bienvenida a BigQuery en la consola de Cloud. Este cuadro de mensaje contiene un vínculo a la guía de inicio rápido y las notas de la versión.

  1. Haz clic en Listo.

Se abrirá la consola de BigQuery.

  1. En el editor de consultas en SQL, ejecuta la siguiente consulta:
select * from Dataprep.RainierLab;
  1. Una vez que se devuelvan los resultados, en Resultados de la consulta, haz clic en el menú desplegable Abrir en y selecciona Looker Studio. Se abrirá Data Studio en otra pestaña.

  2. Acepta todos los acuerdos de Data Studio.

  3. Ahora puedes crear una visualización simple. Haz clic en Agregar un gráfico y elige Línea > Gráfico combinado apilado.

  4. En la pestaña Configuración de la derecha, mantén Dimensión del período como Fecha y Dimensión como Fecha.

  5. Activa o desactiva Métricas opcionales. Arrastra Success_rate, Merged_Precipitation y Merged_Snowfall desde los campos disponibles hasta la sección Métrica. Quita las otras métricas y coloca la métrica Success_rate por encima de las demás.

  6. Por último, ordena por fecha en orden ascendente. Tu configuración debería ser similar a la siguiente:

La columna de datos muestra los datos por fechas ascendentes

  1. En la pestaña Style, establece el eje de la serie 1 en Right y el resto de las series en Left.

Página Estilo con pestañas

Puedes experimentar con los otros parámetros de configuración de estilo para que se adapten a tus gustos.

  1. Tu gráfico debería parecerse a algo como esto.

Gráfico de líneas de RainierLab

Según el gráfico, ¿qué puedes concluir sobre la relación entre el éxito de la cumbre y la precipitación y nevada?

  1. Puedes experimentar con las otras funciones arrastrándolas desde Available Fields hasta metrics. ¿Hay un mejor predictor del éxito de la cumbre?

Tarea 6: Opcional: Exporta tu flujo

En tu propio proyecto de Dataprep, todos los flujos se guardan y pueden reutilizarse. Sin embargo, en Qwiklabs, estos proyectos son temporales y se borran después del lab. Dataprep te permite exportar tus flujos para usarlos con sistemas de control de versiones, importarlos en otro entorno o compartirlos con colegas. Para guardar tu trabajo para el próximo lab, puedes exportar el flujo que creaste.

  1. Regresa a la página Flow View de Rainier Climb.

  2. En la parte superior derecha, abre el menú More (...) y selecciona Export.

Menú desplegable Más con la opción Exportar destacada

  1. Guarda el archivo ZIP en tu escritorio local como flow_Rainier_Climbs.zip. Puedes usar este archivo en el próximo lab si lo deseas.

¡Felicitaciones!

En este lab, obtuviste experiencia práctica con Dataprep creando conjuntos de datos parametrizados, aprovechando nuevas muestras y creando casos condicionales y agregaciones. También manipulaste objetos datetime, limpiaste encabezados para publicar en BigQuery y visualizaste tus resultados en Data Studio.

Próximos pasos y más información

  • Lee las guías prácticas para obtener más información sobre cómo detectar, limpiar y mejorar los datos con Google Dataprep.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 10 de octubre de 2025

Prueba más reciente del lab: 10 de octubre de 2025

Copyright 2025 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.

Antes de comenzar

  1. Los labs crean un proyecto de Google Cloud y recursos por un tiempo determinado
  2. .
  3. Los labs tienen un límite de tiempo y no tienen la función de pausa. Si finalizas el lab, deberás reiniciarlo desde el principio.
  4. En la parte superior izquierda de la pantalla, haz clic en Comenzar lab para empezar

Usa la navegación privada

  1. Copia el nombre de usuario y la contraseña proporcionados para el lab
  2. Haz clic en Abrir la consola en modo privado

Accede a la consola

  1. Accede con tus credenciales del lab. Si usas otras credenciales, se generarán errores o se incurrirá en cargos.
  2. Acepta las condiciones y omite la página de recursos de recuperación
  3. No hagas clic en Finalizar lab, a menos que lo hayas terminado o quieras reiniciarlo, ya que se borrará tu trabajo y se quitará el proyecto

Este contenido no está disponible en este momento

Te enviaremos una notificación por correo electrónico cuando esté disponible

¡Genial!

Nos comunicaremos contigo por correo electrónico si está disponible

Un lab a la vez

Confirma para finalizar todos los labs existentes y comenzar este

Usa la navegación privada para ejecutar el lab

Usa una ventana de navegación privada o de Incógnito para ejecutar el lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.