menu
arrow_back

Traitement de données par périodes avec Apache Beam et Cloud Dataflow (Java)

Traitement de données par périodes avec Apache Beam et Cloud Dataflow (Java)

Hours Minutes 7 Credits

GSP272

Google Cloud – Ateliers adaptés au rythme de chacun

Aperçu

Dans cet atelier, vous allez apprendre à déployer une application Java à l'aide de Maven afin de traiter des données avec Cloud Dataflow. Cet atelier utilise une application Java qui met en œuvre une agrégation par périodes permettant d'accroître le volume de données brutes, de manière à produire des ensembles de données d'entraînement et de test qui faciliteront l'affinement de vos modèles de machine learning dans les prochains ateliers.

L'ensemble de données de base sur lequel s'appuie cet atelier se compose d'informations historiques provenant du site Web du Bureau du transport américain concernant les vols intérieurs aux États-Unis. Tous les autres ateliers des quêtes Data Science on the Google Cloud Platform et Data Science on Google Cloud Platform: Machine Learning reposent aussi sur cet ensemble de données, car il permet d'illustrer un large éventail de concepts et techniques en matière de science des données.

Les ensembles de données agrégées par périodes sont utiles, car ils vous permettent d'améliorer la précision des modèles de données dans lesquels les comportements évoluent de façon régulière ou semi-régulière sur une période donnée. Dans le cas des voyages en avion, par exemple, vous savez que les temps de roulage au départ sont généralement plus longs aux heures de pointe. Grâce aux précédents ateliers, vous savez également que les retards à modéliser durant ces ateliers dépendent du temps de roulage au départ. Les compagnies aériennes en sont conscientes, elles aussi, et elles ajustent leurs heures d'arrivée en fonction du temps moyen de roulage à prévoir à l'heure de départ planifiée dans chaque aéroport. Avec des données agrégées par périodes, vos modèles permettront de déterminer plus précisément si un vol risque d'être retardé, sur la base de paramètres identifiés tels que le temps de roulage au départ, lorsqu'ils dépassent largement la moyenne à une heure donnée.

Lorsque vous créez ces données agrégées à l'aide d'Apache Beam, vous pouvez les traiter non seulement par lots et ainsi générer des ensembles de données d'entraînement et de test à partir de données historiques, mais aussi par flux afin de calculer des moyennes à partir de données en temps réel, avec le même code. Cette fonctionnalité vous évite les décalages qui peuvent apparaître dans les données d'entraînement lorsque les traitements par lots et par flux sont effectués avec deux plates-formes différentes ou deux langages distincts.

Cloud Dataflow est un service entièrement géré permettant de transformer et d'enrichir les informations en modes flux (temps réel) et lot (historique) via les API Java et Python grâce au SDK Apache Beam. Cloud Dataflow offre une architecture sans serveur qui permet de diviser et de traiter en parallèle de très grands ensembles de données par lots, ou des flux de données en temps réel volumineux.

Google BigQuery est un service Web RESTful qui permet de réaliser des analyses interactives sur des ensembles de données extrêmement volumineux, lorsqu'il est utilisé conjointement avec Google Storage.

Objectifs

  • Configurer le fichier de modèle d'objet du projet Apache Maven

  • Déployer l'application Java sur Apache Beam pour créer les fichiers de données d'entraînement et de test

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Score

—/20

Check that Cloud Dataflow project called CreateTraining DataSet is running.

Réaliser l'étape

/ 5

Check that the training and test data sets have been written to Cloud Storage

Réaliser l'étape

/ 5

Check that flights.testFlights table exists in BigQuery

Réaliser l'étape

/ 5

Check that flights.trainFlights table exists in BigQuery

Réaliser l'étape

/ 5

home
Accueil
school
Catalogue
menu
Plus
Plus