menu
arrow_back

Google Cloud Dataflow によるデータの処理

Google Cloud Dataflow によるデータの処理

1時間 15分 クレジット: 7

GSP198

Google Cloud セルフペース ラボ

概要

このラボでは、実際の履歴情報を含むデータセットを使用してリアルタイム データセットをシミュレートします。Python と Google Cloud Dataflow を使用して、シミュレートされたデータセットを一連のテキスト ファイルから生成し、Google BigQuery に保存します。その後、そのリアルタイム データセットの特徴を Google BigQuery で分析します。

Cloud Dataflow はフルマネージド型のサービスです。Java および Python の API と Apache Beam SDK を使用して、ストリーミング(リアルタイム)モードとバッチ(履歴)モードの両方でデータの変換と拡充を行えます。サーバーレス アーキテクチャにより、非常に大きなバッチ データセットや大量のライブデータ ストリームをシャーディングして並列処理できます。

Google BigQuery は、Google Storage と連携して動作する大規模なデータセットをインタラクティブに分析できる RESTful ウェブサービスです。

使用するデータセットには、米国運輸統計局のウェブサイトから取得された米国の国内線フライトの履歴情報が含まれます。このデータセットは、データ サイエンスの多岐にわたるコンセプトと技術の実証に使用できます。また、Google Cloud Platform のデータ サイエンス クエストに含まれる、その他すべてのラボで使用します。

Qwiklabs に参加してこのラボの残りの部分や他のラボを確認しましょう。

  • Google Cloud Console への一時的なアクセス権を取得します。
  • 初心者レベルから上級者レベルまで 200 を超えるラボが用意されています。
  • ご自分のペースで学習できるように詳細に分割されています。
参加してこのラボを開始
スコア

—/100

Create a BigQuery Dataset

ステップを実行

/ 25

Copy the airport geolocation file to your Cloud Storage bucket

ステップを実行

/ 25

Process the Data using Cloud Dataflow (submit Dataflow job)

ステップを実行

/ 25

Run Query

ステップを実行

/ 25