—/5
Checkpoints
Check that the Spark ML model files have been saved to Cloud Storage
Aprendizaje automático con Spark en Google Cloud Dataproc
GSP271
Descripción general
Introducción
En este lab, aprenderá cómo implementar la regresión logística mediante una biblioteca de aprendizaje automático en Apache Spark que se ejecuta en un clúster de Google Cloud Dataproc para desarrollar un modelo de datos a partir de un conjunto de datos multivariable.
Google Cloud Dataproc es un servicio en la nube rápido, fácil de usar y completamente administrado que se utiliza para ejecutar clústeres de Apache Spark y Apache Hadoop de manera simple y rentable. Cloud Dataproc se integra fácilmente en otros servicios de Google Cloud Platform (GCP), lo que le proporciona una plataforma eficaz y completa para el procesamiento de datos, las estadísticas y el aprendizaje automático.
Apache Spark es un motor de estadísticas para procesamiento de datos a gran escala. La regresión logística está disponible como un módulo en MLlib, la biblioteca de aprendizaje automático de Apache Spark. Spark MLlib, también llamada Spark ML, incluye implementaciones para la mayoría de los algoritmos estándar de aprendizaje automático como agrupamientos en clústeres k-means, bosques aleatorios, mínimos cuadrados alternos, árboles de decisión, máquinas de vectores de soporte, entre otros. Spark se puede ejecutar en un clúster Hadoop, como Google Cloud Dataproc, con el objetivo de procesar conjuntos de datos muy grandes en paralelo.
El conjunto de datos base que se usa brinda información histórica sobre los vuelos internos en Estados Unidos. Esa información se recuperó del sitio web de la Oficina de Estadísticas de Transporte de EE.UU. Este conjunto de datos se puede usar para demostrar una amplia variedad de conceptos y técnicas sobre la ciencia de datos, y se utiliza en todos los demás labs de las Quests Data Science on the Google Cloud Platform y Data Science on Google Cloud Platform: Machine Learning. En este lab, los datos se proporcionan como un conjunto de archivos de texto con formato CSV.
Objetivos
En este laboratorio, usted aprenderá a:
-
Preparar la shell interactiva de Spark en un clúster de Google Cloud Dataproc
-
Crear un conjunto de datos de entrenamiento para aprendizaje automático con Spark
-
Desarrollar un modelo de aprendizaje automático de regresión logística con Spark
-
Evaluar el comportamiento predictivo de un modelo de aprendizaje automático con Spark en Google Cloud Datalab
Únase a Qwiklabs para leer este lab completo… y mucho más.
- Obtenga acceso temporal a Google Cloud Console.
- Más de 200 labs para principiantes y niveles avanzados.
- El contenido se presenta de a poco para que pueda aprender a su propio ritmo.