menu
arrow_back

Traiter des données avec Google Cloud Dataflow

Traiter des données avec Google Cloud Dataflow

1 heure 15 minutes 7 crédits

GSP198

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Au cours de cet atelier, vous allez simuler un ensemble de données non fictives en temps réel à partir d'un ensemble de données d'historique. Cet ensemble de données simulé sera traité à partir d'un ensemble de fichiers texte à l'aide de Python et de Google Cloud Dataflow, et les données en temps réel simulées résultantes seront stockées dans Google BigQuery. Vous analyserez ensuite certaines caractéristiques de l'ensemble de données en temps réel avec Google BigQuery.

Cloud Dataflow est un service entièrement géré permettant de transformer et d'enrichir les informations en modes flux (temps réel) et lot (historique) via les API Java et Python grâce au SDK Apache Beam. Cloud Dataflow offre une architecture sans serveur qui permet de diviser et de traiter en parallèle de très grands ensembles de données par lots, ou des flux de données en temps réel volumineux.

Google BigQuery est un service Web RESTful qui permet d'analyser de manière interactive des ensembles de données extrêmement volumineux en association avec Google Storage.

L'ensemble de données utilisé comporte des informations d'historique concernant les vols intérieurs aux États-Unis. Ces informations proviennent du site Web du Bureau des statistiques du transport américain (US Bureau of Transports Statistics). Tous les autres ateliers de la quête Data Science on the Google Cloud Platform reposent sur cet ensemble de données, qui permet d'illustrer un large éventail de concepts et de techniques en matière de science des données.

Inscrivez-vous sur Qwiklabs pour consulter le reste de cet atelier, et bien plus encore.

  • Obtenez un accès temporaire à Google Cloud Console.
  • Plus de 200 ateliers, du niveau débutant jusqu'au niveau expert.
  • Fractionné pour vous permettre d'apprendre à votre rythme.
Inscrivez-vous pour démarrer cet atelier
Note

—/100

Create a BigQuery Dataset

Réaliser l'étape

/ 25

Copy the airport geolocation file to your Cloud Storage bucket

Réaliser l'étape

/ 25

Process the Data using Cloud Dataflow (submit Dataflow job)

Réaliser l'étape

/ 25

Run Query

Réaliser l'étape

/ 25