menu
arrow_back

Machine learning com o Spark no Google Cloud Dataproc

—/5

Checkpoints

arrow_forward

Check that the Spark ML model files have been saved to Cloud Storage

Machine learning com o Spark no Google Cloud Dataproc

1 hora 30 minutos 7 créditos

GSP271

Laboratórios autoguiados do Google Cloud

Visão geral

Introdução

Neste laboratório, você aprenderá a implementar a regressão logística usando uma biblioteca de machine learning do Apache Spark em um cluster do Google Cloud Dataproc para desenvolver um modelo com um conjunto de dados multivariável.

O Google Cloud Dataproc é um serviço de nuvem totalmente gerenciado, rápido e fácil de usar para executar clusters do Apache Spark e do Apache Hadoop de maneira simples e econômica. O Cloud Dataproc integra-se facilmente com outros serviços do Google Cloud Platform (GCP), oferecendo uma plataforma poderosa e completa para processamento de dados, análise e machine learning.

O Apache Spark é um mecanismo de análise para processamento de dados em grande escala. A regressão logística está disponível como um módulo da biblioteca de machine learning do Apache Spark, MLlib. O Spark MLlib, também chamado de Spark ML, inclui implementações para a maioria dos algoritmos de machine learning padrão, como clustering k-means, florestas aleatórias, mínimos quadrados alternados, árvores de decisão, máquinas de vetores de suporte e outros. O Spark pode ser executado em um cluster do Hadoop, como o Google Cloud Dataproc, para processar conjuntos de dados muito grandes em paralelo.

O conjunto de dados base inclui informações históricas sobre vôos domésticos nos Estados Unidos fornecidas pelo site da Secretaria de Estatísticas de Transporte dos EUA (US Bureau of Transport Statistics). Com esse conjunto de dados, é possível demonstrar diversos conceitos e técnicas de ciência de dados. Ele também é usado em todos os outros laboratórios das Quests Data Science on the Google Cloud Platform e Data Science on Google Cloud Platform: Machine Learning. Neste laboratório, os dados são fornecidos para você como um conjunto de arquivos de texto com o formato CSV.

Objetivos

Neste laboratório, você aprenderá como:

  • Preparar o shell interativo do Spark em um cluster do Google Cloud Dataproc

  • Criar um conjunto de dados de treinamento para machine learning usando o Spark

  • Desenvolver um modelo de machine learning de regressão logística usando o Spark

  • Avaliar o comportamento preditivo de um modelo de machine learning usando o Spark no Google Cloud Datalab

Participe do Qwiklabs para ler o restante deste laboratório e muito mais!

  • Receber acesso temporário a Console do Google Cloud.
  • Mais de 200 laboratórios, do nível iniciante ao avançado.
  • Tamanho compacto para que você possa aprender no seu próprio ritmo.
Participe para iniciar este laboratório