menu
arrow_back

Maschinelles Lernen mit Spark in Google Cloud Dataproc

Maschinelles Lernen mit Spark in Google Cloud Dataproc

Hours Minutes 7 Credits

GSP271

Google Cloud-Labs zum selbstbestimmten Lernen

Übersicht

In diesem Lab lernen Sie, wie Sie die logistische Regression mithilfe einer Bibliothek für maschinelles Lernen von Apache Spark implementieren, das in einem Google Cloud Dataproc-Cluster ausgeführt wird. So können Sie ein Modell für Daten aus einem multivariaten Dataset entwickeln.

Google Cloud Dataproc ist ein schneller, nutzerfreundlicher, voll verwalteter Clouddienst, über den Sie Apache Spark- und Apache Hadoop-Cluster einfach und günstig ausführen können. Cloud Dataproc lässt sich problemlos in andere Dienste der Google Cloud Platform (GCP) integrieren und bietet Ihnen eine leistungsstarke und umfassende Plattform für Datenverarbeitung, Analyse und maschinelles Lernen.

Apache Spark ist eine Analyse-Engine für die Verarbeitung großer Datenmengen. Die logistische Regression ist als Modul in der Bibliothek für maschinelles Lernen (MLlib) von Apache Spark verfügbar. Spark MLlib, auch Spark ML genannt, enthält Implementierungen für die meisten Standardalgorithmen für maschinelles Lernen, z. B. k-Means-Clustering, Random Forests, alternierende kleinste Quadrate, Entscheidungsbäume, Support Vector Machines. Spark kann auf einem Hadoop-Cluster wie Google Cloud Dataproc ausgeführt werden, um sehr große Datensätze parallel zu verarbeiten.

Das verwendete Basis-Dataset enthält Verlaufsdaten zu Inlandsflügen in den USA, die der Website des US-amerikanischen Bureau of Transport Statistics entnommen wurden. Anhand dieser Daten lassen sich verschiedene Data-Science-Konzepte und -Techniken demonstrieren. Dasselbe Dataset kommt auch in allen anderen Labs der Aufgabenreihen Data Science on Google Cloud Platform und Data Science on Google Cloud Platform: Machine Learning zum Einsatz. In diesem Lab werden die Daten als CSV-formatierte Textdateien für Sie bereitgestellt.

Lernziele

  • Interaktive Spark-Shell in einem Google Cloud Dataproc-Cluster vorbereiten

  • Mit Spark ein Trainings-Dataset für maschinelles Lernen erstellen

  • Mit Spark ein Modell für maschinelles Lernen mit logistischer Regression entwickeln

  • Mit Spark in Google Cloud Datalab das Vorhersageverhalten eines Modells für maschinelles Lernen bewerten

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Score

—/15

Check that the Spark ML model files have been saved to Cloud Storage

Schritt durchführen

/ 5

Check that a new Jupyter Notebook has been created and find clone of the git repository for the lab on the master node

Schritt durchführen

/ 5

Check that the notebook has been updated to reference /flights/tzcorr/all_flights-00004

Schritt durchführen

/ 5