menu
arrow_back

Zeitfenstergesteuerte Daten mit Apache Beam und Cloud Dataflow (Java) verarbeiten

Zeitfenstergesteuerte Daten mit Apache Beam und Cloud Dataflow (Java) verarbeiten

Hours Minutes 7 Credits

GSP272

Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

In diesem Lab lernen Sie, wie Sie mit Maven eine Java-Anwendung bereitstellen, um Daten mit Cloud Dataflow zu verarbeiten. Eine Java-Anwendung implementiert eine zeitfensterbasierte Aggregation, um die Rohdaten zu erweitern und somit konsistente Trainings- und Testdatasets zu erstellen, mit denen Sie Ihre Modelle für maschinelles Lesen in späteren Labs optimieren können.

Das verwendete Basis-Dataset enthält Verlaufsdaten zu Inlandsflügen in den USA, die der Website des US-amerikanischen Bureau of Transport Statistics entnommen wurden. Mit diesem Dataset können zahlreiche Data Science-Konzepte und -Techniken aufgezeigt werden. Es wird in allen anderen Labs der Aufgabenreihen Data Science on the Google Cloud Platform und Data Science on Google Cloud Platform: Machine Learning verwendet.

Zeitfenstergesteuerte aggregierte Datasets sind nützlich, da Sie damit die Genauigkeit von Datenmodellen verbessern können, bei denen sich das Verhalten über einen bestimmten Zeitraum hinweg in einem regulären oder semiregulären Muster ändert. So ist z. B. bei Flügen bekannt, dass sich die Rollzeiten in der Hauptverkehrszeit im Allgemeinen erhöhen. Aus früheren Labs wissen Sie auch, dass die Ankunftsverzögerungszeit, die Sie in diesen Labs modellieren möchten, abhängig von der Rollzeit variiert. Auch die Fluggesellschaften sind sich dessen bewusst und passen ihre geplanten Ankunftszeiten so an, dass die durchschnittliche Rollzeit, die zum geplanten Abflugzeitpunkt an jedem Flughafen zu erwarten ist, berücksichtigt wird. Durch die Berechnung von zeitfenstergesteuerten aggregierten Daten können Sie genauer modellieren, ob sich ein bestimmter Flug verzögert. Ermitteln Sie dazu Parameter wie die Rollzeit, die den Durchschnitt für dieses Zeitfenster tatsächlich überschreiten.

Apache Beam eignet sich zum Erstellen dieser aggregierten Datasets, da hiermit im Batchmodus die Trainings- und Testdatasets anhand von Verlaufsdaten erstellt werden können. Mit demselben Code können aber auch im Streamingmodus Durchschnittswerte für Echtzeit-Streamingdaten berechnet werden. Durch diese Möglichkeit, denselben Code zu verwenden, können Abweichungen beim Training minimiert werden, die auftreten könnten, wenn für die Verarbeitung der Verlaufsdaten und der Streamingdaten eine andere Sprache oder Plattform verwendet wurde.

Cloud Dataflow ist ein vollständig verwalteter Dienst zum Transformieren und Anreichern von Daten im Streamingmodus (Echtzeit) und Batchmodus (Verlauf) via Java und Python APIs mit dem Apache Beam SDK. Cloud Dataflow bietet eine serverlose Architektur, mit der sehr große Batch-Datasets oder Live-Datenstreams mit hohem Volumen parallel übertragen und verarbeitet werden können.

Google BigQuery ist ein RESTful-Webdienst, der in Verbindung mit Google Storage die interaktive Analyse sehr großer Datasets ermöglicht.

Ziele

  • Maven Apache-Projektobjektmodelldatei konfigurieren

  • Java-Anwendung auf Apache Beam bereitstellen, um die aggregierten Trainings- und Testdatendateien zu erstellen

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Score

—/20

Check that Cloud Dataflow project called CreateTraining DataSet is running.

Schritt durchführen

/ 5

Check that the training and test data sets have been written to Cloud Storage

Schritt durchführen

/ 5

Check that flights.testFlights table exists in BigQuery

Schritt durchführen

/ 5

Check that flights.trainFlights table exists in BigQuery

Schritt durchführen

/ 5