menu
arrow_back

Daten mit Google Cloud Dataflow verarbeiten

Daten mit Google Cloud Dataflow verarbeiten

1 Stunde 15 Minuten 7 Guthabenpunkte

GSP198

Google Cloud-Labs zum selbstbestimmten Lernen

Überblick

In diesem Lab simulieren Sie ein reales Echtzeit-Dataset mit Verlaufsdaten. Das simulierte Dataset wird aus mehreren Textdateien mithilfe von Python und Google Cloud Dataflow verarbeitet und die simulierten Echtzeitdaten werden in Google BigQuery gespeichert. Anschließend analysieren Sie mit BigQuery einige Merkmale des Echtzeit-Datasets.

Cloud Dataflow ist ein vollständig verwalteter Dienst zum Transformieren und Anreichern von Daten im Streamingmodus (für Echtzeitdaten) und im Batchmodus (für Verlaufsdaten) über Java und Python APIs als Teil des Apache Beam SDK. Der Dienst bietet eine serverlose Architektur, mit der sich sehr große Batch-Datasets oder Live-Datenstreams mit hohem Volumen parallel übertragen und verarbeiten lassen.

Google BigQuery ist ein RESTful-Webdienst, der in Verbindung mit Google Storage die interaktive Analyse sehr großer Datasets ermöglicht.

Das verwendete Dataset enthält Verlaufsdaten zu Inlandsflügen in den USA, die der Website des US-amerikanischen Bureau of Transport Statistics entnommen wurden. Mit diesem Dataset kann eine breite Palette von Data Science-Konzepten und -Techniken veranschaulicht werden. Es wird auch in allen anderen Labs der Aufgabenreihe Data Science on the Google Cloud Platform verwendet.

Wenn Sie sich in Qwiklabs anmelden, erhalten Sie Zugriff auf den Rest des Labs – und mehr!

  • Sie erhalten vorübergehenden Zugriff auf Google Cloud Console.
  • Mehr als 200 Labs für Einsteiger und Experten.
  • In kurze Sinneinheiten eingeteilt, damit Sie in Ihrem eigenen Tempo lernen können.
Beitreten, um dieses Lab zu starten
Punktzahl

—/100

Create a BigQuery Dataset

Schritt ausführen

/ 25

Copy the airport geolocation file to your Cloud Storage bucket

Schritt ausführen

/ 25

Process the Data using Cloud Dataflow (submit Dataflow job)

Schritt ausführen

/ 25

Run Query

Schritt ausführen

/ 25