menu
arrow_back

Google Cloud Dataproc 上の Spark を使用した機械学習

Google Cloud Dataproc 上の Spark を使用した機械学習

時間 分 7クレジット

GSP271

Google Cloud セルフペース ラボ

概要

このラボでは、Google Cloud Dataproc クラスタで実行される Apache Spark の機械学習ライブラリを使用してロジスティック回帰を実装し、多変数データセットのデータ用のモデルを作成する方法について学びます。

Google Cloud Dataproc は、Apache Spark と Apache Hadoop のクラスタを簡単かつ低コストで実行できる、高速で使いやすいフルマネージド クラウド サービスです。他の Google Cloud Platform(GCP)サービスと簡単に統合できるため、データ処理、分析、機械学習のための高度で包括的なプラットフォームとして使用できます。

Apache Spark は、大規模なデータ処理のための分析エンジンです。Apache Spark の機械学習ライブラリである MLlib には、ロジスティック回帰がモジュールとして用意されています。Spark ML とも呼ばれるこのライブラリには、標準的な機械学習アルゴリズムのほとんどの実装が含まれています(K 平均法クラスタリング、ランダム フォレスト、交互最小二乗法、ディシジョン ツリー、サポート ベクター マシンなど)。Spark は、Google Cloud Dataproc と同様に、Hadoop クラスタで実行して非常に大きなデータセットを並列処理することができます。

使用する基本データセットは、米国運輸統計局のウェブサイトから取得したもので、米国内の国内線フライトに関する履歴情報を提供します。このデータセットは、データ サイエンスの多岐にわたるコンセプトと技術の実証に使用できます。また、Google Cloud Platform のデータ サイエンスGoogle Cloud Platform のデータ サイエンス: 機械学習の両クエストに含まれる、その他すべてのラボで使用します。このラボでは、このデータが CSV 形式のテキスト ファイルとして提供されています。

目標

  • Google Cloud Dataproc クラスタで Spark の対話型シェルを準備する。

  • Spark を使用して機械学習用のトレーニング データセットを作成する。

  • Spark を使用してロジスティック回帰の機械学習モデルを作成する。

  • Google Cloud Datalab で Spark を使用して機械学習モデルの予測動作を評価する。

Join Qwiklabs to read the rest of this lab...and more!

  • Get temporary access to the Google Cloud Console.
  • Over 200 labs from beginner to advanced levels.
  • Bite-sized so you can learn at your own pace.
Join to Start This Lab
スコア

—/15

Check that the Spark ML model files have been saved to Cloud Storage

ステップを実行

/ 5

Check that a new Jupyter Notebook has been created and find clone of the git repository for the lab on the master node

ステップを実行

/ 5

Check that the notebook has been updated to reference /flights/tzcorr/all_flights-00004

ステップを実行

/ 5