menu
arrow_back

Cloud Dataflow でのビッグデータ テキスト処理パイプラインの実行

Cloud Dataflow でのビッグデータ テキスト処理パイプラインの実行

40分 クレジット: 7

GSP047

Google Cloud セルフペース ラボ

概要

Dataflow は、ETL、バッチ コンピューティング、連続コンピューティングなど、広範なデータ処理パターンの開発と実行を行うことができる、統合型プログラミング モデルのマネージド サービスです。Dataflow はマネージド サービスであるため、リソースをオンデマンドで割り当てることにより、レイテンシを最小限に抑えつつ、リソースの利用効率を高いレベルで維持できます。

Dataflow モデルはバッチ処理とストリーム処理を組み合わせたもので、開発時に正確さ、費用、処理時間の折り合いを気にする必要がありません。このラボでは、テキスト ファイル内での特定の単語の出現回数を調べる Dataflow パイプラインを実行する方法について説明します。

ラボの内容

  • Cloud Dataflow SDK を含む Maven プロジェクトを作成する

  • Google Cloud Platform Console を使用してサンプル パイプラインを実行する

  • 関連する Cloud Storage バケットとその中身を削除する

Qwiklabs に参加してこのラボの残りの部分や他のラボを確認しましょう。

  • Google Cloud Console への一時的なアクセス権を取得します。
  • 初心者レベルから上級者レベルまで 200 を超えるラボが用意されています。
  • ご自分のペースで学習できるように詳細に分割されています。
参加してこのラボを開始
スコア

—/100

Create a new Cloud Storage bucket

ステップを実行

/ 50

Run a text processing pipeline on Cloud Dataflow

ステップを実行

/ 50