menu
arrow_back

Machine learning avec Spark sur Google Cloud Dataproc

Machine learning avec Spark sur Google Cloud Dataproc

Hours Minutes 7 Credits

GSP271

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Dans cet atelier, vous allez apprendre à mettre en œuvre une régression logistique à l'aide d'une bibliothèque de machine learning pour Apache Spark exécutée sur un cluster Google Cloud Dataproc. L'objectif sera de développer un modèle applicable à un ensemble de données multivariable.

Google Cloud Dataproc est un service cloud rapide, convivial et entièrement géré qui vous permet d'exécuter des clusters Apache Spark et Apache Hadoop de manière simple et économique. Cloud Dataproc s'intègre facilement à d'autres services Google Cloud Platform (GCP). Vous bénéficiez ainsi d'une plate-forme performante et complète pour vos tâches de traitement des données, d'analyse et de machine learning.

Apache Spark est un moteur d'analyse pour les tâches de traitement des données à grande échelle. La régression logistique est disponible sous forme de module dans la bibliothèque de machine learning d'Apache Spark, MLlib. La bibliothèque Spark MLlib, également appelée Spark ML, comprend des mises en œuvre d'une majorité d'algorithmes de machine learning standard, comme le clustering en k-moyennes, les forêts d'arbres décisionnels, les moindres carrés alternés, les arbres de décision, les machines à vecteurs de support, etc. Spark peut s'exécuter sur un cluster Hadoop, tel que Google Cloud Dataproc, afin de traiter des ensembles de données très volumineux en parallèle.

L'ensemble de données de base sur lequel s'appuie cet atelier se compose d'informations historiques provenant du site Web du Bureau du transport américain concernant les vols intérieurs aux États-Unis. Tous les autres ateliers des quêtes Data Science on the Google Cloud Platform et Data Science on Google Cloud Platform: Machine Learning reposent également sur cet ensemble de données, car il permet d'illustrer un large éventail de concepts et techniques en matière de science des données. Dans le cadre de cet atelier, les données vous sont fournies sous la forme d'un ensemble de fichiers texte au format CSV.

Objectifs

  • Préparer l'interface système interactive Spark sur un cluster Google Cloud Dataproc

  • Créer un ensemble de données d'entraînement pour le machine learning à l'aide de Spark

  • Développer un modèle de machine learning de régression logistique avec Spark

  • Évaluer le comportement prédictif d'un modèle de machine learning à l'aide de Spark sur Google Cloud Datalab

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Score

—/15

Check that the Spark ML model files have been saved to Cloud Storage

Réaliser l'étape

/ 5

Check that a new Jupyter Notebook has been created and find clone of the git repository for the lab on the master node

Réaliser l'étape

/ 5

Check that the notebook has been updated to reference /flights/tzcorr/all_flights-00004

Réaliser l'étape

/ 5