menu
arrow_back

Cómo procesar datos con períodos usando Apache Beam y Cloud Dataflow (Java)

Cómo procesar datos con períodos usando Apache Beam y Cloud Dataflow (Java)

Horas Minutos 7 Créditos

GSP272

Labs de autoaprendizaje de Google Cloud

Descripción general

En este lab, aprenderá a implementar una aplicación de Java usando Maven para procesar datos con Cloud Dataflow. Este lab utiliza una aplicación de Java que implementa agregaciones con períodos para magnificar datos sin procesar con el objetivo de producir conjuntos de datos coherentes de entrenamiento y prueba que pueda usar a fin de definir mejor sus modelos de aprendizaje automático en labs posteriores.

El conjunto de datos base que se usa brinda información histórica sobre vuelos nacionales de Estados Unidos que se obtuvo del sitio web de la Oficina de Estadísticas del Transporte de EE.UU. Este conjunto de datos puede usarse para demostrar una amplia variedad de conceptos y técnicas sobre la ciencia de datos, y se utiliza en todos los demás labs de las Quests Data Science on the Google Cloud Platform y Data Science on Google Cloud Platform: Machine Learning.

Los conjuntos de datos agregados con períodos son útiles porque le permiten mejorar la exactitud de los modelos de datos en los que el comportamiento cambia siguiendo un patrón regular o semirregular durante cierto período. Por ejemplo, con respecto a los vuelos, sabe que, en general, los tiempos de carreteo previo al despegue aumentan durante las horas pico. Según lo que aprendió en labs anteriores, también sabe que el tiempo de retraso en la llegada que le interesa definir en estos labs varía en función del tiempo de carreteo previo al despegue. Las aerolíneas también consideran esto y ajustan sus horas programadas de llegada para que se tenga en cuenta el tiempo promedio de carreteo previo al despegue que se espera en la hora programada de salida en cada aeropuerto. Si calcula los datos agregados con períodos, podrá indicar en su modelo con mayor exactitud si se retrasará un vuelo determinado. Para ello, debe identificar parámetros, como el tiempo de carreteo previo al despegue, que realmente superen el promedio de ese período.

Es muy útil usar Apache Beam para crear estos conjuntos de datos agregados, ya que puede usarse en el modo por lotes para crear los conjuntos de datos de entrenamiento y prueba a partir de datos históricos y, luego, se puede utilizar el mismo código en el modo de transmisión para calcular los promedios de los datos de transmisión en tiempo real. Esta posibilidad de usar el mismo código ayuda a mitigar las desviaciones entre el entrenamiento y la deriva que pueden surgir si se utilizó un lenguaje o una plataforma diferente para procesar los datos históricos y los de transmisión.

Cloud Dataflow es un servicio completamente administrado que permite transformar y enriquecer datos en los modos de transmisión (tiempo real) y por lotes (histórico) mediante las API de Java y Python con el SDK de Apache Beam. Cloud Dataflow ofrece una arquitectura sin servidores que puede usarse para fragmentar y procesar en paralelo conjuntos de datos por lotes de gran tamaño o transmisiones de datos en vivo de gran volumen.

Google BigQuery es un servicio web RESTful que habilita el análisis interactivo de enormes conjuntos de datos y trabaja de manera conjunta con Google Storage.

Objetivos

  • Configurar el archivo del modelo de objetos del proyecto de Apache Maven

  • Implementar la aplicación de Java en Apache Beam para crear los archivos de datos agregados de entrenamiento y prueba

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Puntuación

—/20

Check that Cloud Dataflow project called CreateTraining DataSet is running.

Ejecutar paso

/ 5

Check that the training and test data sets have been written to Cloud Storage

Ejecutar paso

/ 5

Check that flights.testFlights table exists in BigQuery

Ejecutar paso

/ 5

Check that flights.trainFlights table exists in BigQuery

Ejecutar paso

/ 5

home
Página principal
school
Catálogo
menu
Más
Más