menu
arrow_back

Maschinelles Lernen mit Spark in Google Cloud Dataproc

—/5

Checkpoints

arrow_forward

Check that the Spark ML model files have been saved to Cloud Storage

Maschinelles Lernen mit Spark in Google Cloud Dataproc

1 Stunde 30 Minuten 7 Guthabenpunkte

GSP271

Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

Einführung

In diesem Lab lernen Sie, wie Sie die logistische Regression mithilfe einer Bibliothek für maschinelles Lernen von Apache Spark implementieren, das in einem Google Cloud Dataproc-Cluster ausgeführt wird. So können Sie ein Modell für Daten aus einem multivariaten Dataset entwickeln.

Google Cloud Dataproc ist ein schneller, nutzerfreundlicher, voll verwalteter Clouddienst, über den Sie Apache Spark- und Apache Hadoop-Cluster einfach und günstig ausführen können. Cloud Dataproc lässt sich problemlos in andere Dienste der Google Cloud Platform (GCP) integrieren und bietet Ihnen eine leistungsstarke und umfassende Plattform für Datenverarbeitung, Analyse und maschinelles Lernen.

Apache Spark ist eine Analyse-Engine für die Verarbeitung großer Datenmengen. Die logistische Regression ist als Modul in der Bibliothek für maschinelles Lernen (MLlib) von Apache Spark verfügbar. Spark MLlib, auch Spark ML genannt, enthält Implementierungen für die meisten Standardalgorithmen für maschinelles Lernen, z. B. k-Means-Clustering, Random Forests, alternierende kleinste Quadrate, Entscheidungsbäume, Support Vector Machines. Spark kann auf einem Hadoop-Cluster wie Google Cloud Dataproc ausgeführt werden, um sehr große Datensätze parallel zu verarbeiten.

Das verwendete Basis-Dataset enthält Verlaufsdaten zu Inlandsflügen in den USA, die der Website des US-amerikanischen Bureau of Transport Statistics entnommen wurden. Anhand dieser Daten lassen sich verschiedene Data-Science-Konzepte und -Techniken demonstrieren. Dasselbe Dataset kommt auch in allen anderen Labs der Aufgabenreihen Data Science on Google Cloud Platform und Data Science on Google Cloud Platform: Machine Learning zum Einsatz. In diesem Lab werden die Daten als CSV-formatierte Textdateien für Sie bereitgestellt.

Lernziele

In diesem Lab lernen Sie, wie Sie:

  • Interaktive Spark-Shell in einem Google Cloud Dataproc-Cluster vorbereiten

  • Mit Spark ein Trainings-Dataset für maschinelles Lernen erstellen

  • Mit Spark ein Modell für maschinelles Lernen mit logistischer Regression entwickeln

  • Mit Spark in Google Cloud Datalab das Vorhersageverhalten eines Modells für maschinelles Lernen bewerten

Wenn Sie sich in Qwiklabs anmelden, erhalten Sie Zugriff auf den Rest des Labs – und mehr!

  • Sie erhalten vorübergehenden Zugriff auf Google Cloud Console.
  • Mehr als 200 Labs für Einsteiger und Experten.
  • In kurze Sinneinheiten eingeteilt, damit Sie in Ihrem eigenen Tempo lernen können.
Beitreten, um dieses Lab zu starten