—/5
Checkpoints
Check that the Spark ML model files have been saved to Cloud Storage
/ 5
Google Cloud Dataproc 上の Spark を使用した機械学習
GSP271
概要
入門
このラボでは、Google Cloud Dataproc クラスタで実行される Apache Spark の機械学習ライブラリを使用してロジスティック回帰を実装し、多変数データセットのデータ用のモデルを作成する方法について学びます。
Google Cloud Dataproc は、Apache Spark と Apache Hadoop のクラスタを簡単かつ低コストで実行できる、高速で使いやすいフルマネージド クラウド サービスです。他の Google Cloud Platform(GCP)サービスと簡単に統合できるため、データ処理、分析、機械学習のための高度で包括的なプラットフォームとして使用できます。
Apache Spark は、大規模なデータ処理のための分析エンジンです。Apache Spark の機械学習ライブラリである MLlib には、ロジスティック回帰がモジュールとして用意されています。Spark ML とも呼ばれるこのライブラリには、標準的な機械学習アルゴリズムのほとんどの実装が含まれています(K 平均法クラスタリング、ランダム フォレスト、交互最小二乗法、ディシジョン ツリー、サポート ベクター マシンなど)。Spark は、Google Cloud Dataproc と同様に、Hadoop クラスタで実行して非常に大きなデータセットを並列処理することができます。
使用する基本データセットは、米国運輸統計局のウェブサイトから取得したもので、米国内の国内線フライトに関する履歴情報を提供します。このデータセットは、データ サイエンスの多岐にわたるコンセプトと技術の実証に使用できます。また、Google Cloud Platform のデータ サイエンスと Google Cloud Platform のデータ サイエンス: 機械学習の両クエストに含まれる、その他すべてのラボで使用します。このラボでは、このデータが CSV 形式のテキスト ファイルとして提供されています。
目標
このラボでは、次の方法について学びます。
-
Google Cloud Dataproc クラスタで Spark の対話型シェルを準備する。
-
Spark を使用して機械学習用のトレーニング データセットを作成する。
-
Spark を使用してロジスティック回帰の機械学習モデルを作成する。
-
Google Cloud Datalab で Spark を使用して機械学習モデルの予測動作を評価する。
Qwiklabs に参加してこのラボの残りの部分や他のラボを確認しましょう。
- Google Cloud Console への一時的なアクセス権を取得します。
- 初心者レベルから上級者レベルまで 200 を超えるラボが用意されています。
- ご自分のペースで学習できるように詳細に分割されています。