menu
arrow_back

Machine learning com o Spark no Google Cloud Dataproc

Machine learning com o Spark no Google Cloud Dataproc

Horas Minutos 7 Créditos

GSP271

Laboratórios autoguiados do Google Cloud

Visão geral

Neste laboratório, você aprenderá a implementar a regressão logística usando uma biblioteca de machine learning do Apache Spark em um cluster do Google Cloud Dataproc para desenvolver um modelo com um conjunto de dados multivariável.

O Google Cloud Dataproc é um serviço de nuvem totalmente gerenciado, rápido e fácil de usar para executar clusters do Apache Spark e do Apache Hadoop de maneira simples e econômica. O Cloud Dataproc integra-se facilmente com outros serviços do Google Cloud Platform (GCP), oferecendo uma plataforma poderosa e completa para processamento de dados, análise e machine learning.

O Apache Spark é um mecanismo de análise para processamento de dados em grande escala. A regressão logística está disponível como um módulo da biblioteca de machine learning do Apache Spark, MLlib. O Spark MLlib, também chamado de Spark ML, inclui implementações para a maioria dos algoritmos de machine learning padrão, como clustering k-means, florestas aleatórias, mínimos quadrados alternados, árvores de decisão, máquinas de vetores de suporte e outros. O Spark pode ser executado em um cluster do Hadoop, como o Google Cloud Dataproc, para processar conjuntos de dados muito grandes em paralelo.

O conjunto de dados base inclui informações históricas sobre voos domésticos nos Estados Unidos fornecidas pelo site da Secretaria de Estatísticas de Transporte dos EUA (US Bureau of Transport Statistics). Com esse conjunto de dados, é possível demonstrar diversos conceitos e técnicas de ciência de dados. Ele também é usado em todos os outros laboratórios das Quests Data Science on the Google Cloud Platform e Data Science on Google Cloud Platform: Machine Learning. Neste laboratório, os dados são fornecidos para você como um conjunto de arquivos de texto com o formato CSV.

Objetivos

  • Preparar o shell interativo do Spark em um cluster do Google Cloud Dataproc

  • Criar um conjunto de dados de treinamento para machine learning usando o Spark

  • Desenvolver um modelo de machine learning de regressão logística usando o Spark

  • Avaliar o comportamento preditivo de um modelo de machine learning usando o Spark no Google Cloud Datalab

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
Pontuação

—/15

Check that the Spark ML model files have been saved to Cloud Storage

Executar etapa

/ 5

Check that a new Jupyter Notebook has been created and find clone of the git repository for the lab on the master node

Executar etapa

/ 5

Check that the notebook has been updated to reference /flights/tzcorr/all_flights-00004

Executar etapa

/ 5