menu
arrow_back

Aprendizaje automático con Spark en Google Cloud Dataproc

Aprendizaje automático con Spark en Google Cloud Dataproc

Horas Minutos 7 Créditos

GSP271

Labs de autoaprendizaje de Google Cloud

Descripción general

En este lab, aprenderá cómo implementar la regresión logística mediante una biblioteca de aprendizaje automático en Apache Spark que se ejecuta en un clúster de Google Cloud Dataproc para desarrollar un modelo de datos a partir de un conjunto de datos multivariable.

Google Cloud Dataproc es un servicio en la nube rápido, fácil de usar y completamente administrado que se utiliza para ejecutar clústeres de Apache Spark y Apache Hadoop de manera simple y rentable. Cloud Dataproc se integra fácilmente en otros servicios de Google Cloud Platform (GCP), lo que le proporciona una plataforma eficaz y completa para el procesamiento de datos, las estadísticas y el aprendizaje automático.

Apache Spark es un motor de estadísticas para procesamiento de datos a gran escala. La regresión logística está disponible como un módulo en MLlib, la biblioteca de aprendizaje automático de Apache Spark. Spark MLlib, también llamada Spark ML, incluye implementaciones para la mayoría de los algoritmos estándar de aprendizaje automático como agrupamientos en clústeres k-means, bosques aleatorios, mínimos cuadrados alternos, árboles de decisión, máquinas de vectores de soporte, entre otros. Spark se puede ejecutar en un clúster Hadoop, como Google Cloud Dataproc, con el objetivo de procesar conjuntos de datos muy grandes en paralelo.

El conjunto de datos base que se usa brinda información histórica sobre los vuelos internos en Estados Unidos. Esa información se recuperó del sitio web de la Oficina de Estadísticas de Transporte de EE.UU. Este conjunto de datos se puede usar para demostrar una amplia variedad de conceptos y técnicas sobre la ciencia de datos, y se utiliza en todos los demás labs de las Quests Data Science on the Google Cloud Platform y Data Science on Google Cloud Platform: Machine Learning. En este lab, los datos se proporcionan como un conjunto de archivos de texto con formato CSV.

Objetivos

  • Preparar la shell interactiva de Spark en un clúster de Google Cloud Dataproc

  • Crear un conjunto de datos de entrenamiento para aprendizaje automático con Spark

  • Desarrollar un modelo de aprendizaje automático de regresión logística con Spark

  • Evaluar el comportamiento predictivo de un modelo de aprendizaje automático con Spark en Google Cloud Datalab

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Puntuación

—/15

Check that the Spark ML model files have been saved to Cloud Storage

Ejecutar paso

/ 5

Check that a new Jupyter Notebook has been created and find clone of the git repository for the lab on the master node

Ejecutar paso

/ 5

Check that the notebook has been updated to reference /flights/tzcorr/all_flights-00004

Ejecutar paso

/ 5