arrow_back

BigQuery への独自データの読み込み

参加 ログイン
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

BigQuery への独自データの読み込み

Lab 1時間 30分 universal_currency_alt クレジット: 1 show_chart 入門
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP865

Google Cloud セルフペース ラボ

概要

BigQuery は、Google が提供する低コスト、NoOps のフルマネージド分析データベースです。BigQuery では、インフラストラクチャを所有して管理したりデータベース管理者を置いたりすることなく、テラバイト単位の大規模なデータでクエリを実行できます。また、SQL が採用されており、従量課金制というメリットもあります。このような特長を活かし、ユーザーは有用な情報を得るためのデータ分析に専念できます。

このラボでは、ニューヨーク市のタクシー賃走データのサブセットを BigQuery 内のテーブルに取り込む演習を行います。

学習内容

  • さまざまなソースから BigQuery にデータを読み込む
  • コンソールと CLI を使用して BigQuery にデータを読み込む
  • DDL を使用してテーブルを作成する

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。
  • ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。
注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

  1. [ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。 左側の [ラボの詳細] パネルには、以下が表示されます。

    • [Google コンソールを開く] ボタン
    • 残り時間
    • このラボで使用する必要がある一時的な認証情報
    • このラボを行うために必要なその他の情報(ある場合)
  2. [Google コンソールを開く] をクリックします。 ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

    ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。

    注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
  3. 必要に応じて、[ラボの詳細] パネルから [ユーザー名] をコピーして [ログイン] ダイアログに貼り付けます。[次へ] をクリックします。

  4. [ラボの詳細] パネルから [パスワード] をコピーして [ようこそ] ダイアログに貼り付けます。[次へ] をクリックします。

    重要: 認証情報は左側のパネルに表示されたものを使用してください。Google Cloud Skills Boost の認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
  5. その後次のように進みます。

    • 利用規約に同意してください。
    • 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
    • 無料トライアルには登録しないでください。

その後このタブで Cloud Console が開きます。

注: 左上にある [ナビゲーション メニュー] をクリックすると、Google Cloud のプロダクトやサービスのリストが含まれるメニューが表示されます。 ナビゲーション メニュー アイコン

BigQuery コンソールを開く

  1. Google Cloud コンソールで、ナビゲーション メニュー > [BigQuery] を選択します。

[Cloud コンソールの BigQuery へようこそ] メッセージ ボックスが開きます。このメッセージ ボックスには、クイックスタート ガイドとリリースノートへのリンクが表示されます。

  1. [完了] をクリックします。

BigQuery コンソールが開きます。

タスク 1. テーブルを格納するための新しいデータセットを作成する

  1. BigQuery コンソールで、プロジェクト ID の横にある「アクションを表示」アイコン([アクションを表示] アイコン)をクリックし、[データセットを作成] を選択します。

BigQuery コンソールでプロジェクト名の横にある [データセットを作成] リンクがハイライト表示されている

  1. [データセット ID] に「nyctaxi」と入力します。他のフィールドはデフォルト値のままにします。

  2. [データセットを作成] をクリックします。

プロジェクト名の下に nyctaxi データセットが表示されます。

このラボの進捗状況を確認するには、下の [進行状況を確認] をクリックします。チェックマークが表示されればタスクは正常に完了しています。

新しいテーブルを格納するためのデータセットを作成する

タスク 2. CSV から新しいデータセットを取り込む

このセクションでは、ローカルの CSV を BigQuery テーブルに読み込みます。

  1. ニューヨーク市における 2018 年のタクシー賃走データのサブセットを、こちらのリンクからローカルのパソコンにダウンロードします。

  2. BigQuery コンソールで、ニューヨーク市のタクシーのデータセットの横にある「アクションを表示」アイコンをクリックし、[テーブルを作成] を選択します。

  3. テーブルのオプションを次のように指定します。

ソース:

  • テーブルの作成元: アップロード
  • ファイルを選択: 先ほどローカルにダウンロードしたファイルを選択
  • ファイル形式: CSV

送信先:

  • テーブル名: 2018trips

その他の設定はすべてデフォルトのままにします。

スキーマ:

  • [自動検出] をオンにします(ヒント: このチェックボックスが表示されていない場合は、ファイル形式が Avro ではなく CSV であることを確認してください)。

詳細オプション

  • デフォルトのままにします。
  1. [テーブルを作成] をクリックします。

nyctaxi データセットの下に 2018trips テーブルが表示されます。

2018trips テーブルを選択し、[詳細] をクリックします。

  1. [プレビュー] を選択して、すべての列が読み込まれていることを確認します。

CSV ファイルを新しい BigQuery テーブルに読み込むことができました。

SQL クエリを実行する

次に、2018trips テーブルに対する基本的なクエリの演習を行います。

  • 年間で料金の高かった上位 5 件の賃走をリストするクエリをクエリエディタに記述します。
#standardSQL SELECT * FROM nyctaxi.2018trips ORDER BY fare_amount DESC LIMIT 5

このラボの進捗状況を確認するには、下の [進行状況を確認] をクリックします。チェックマークが表示されればタスクは正常に完了しています。

CSV から新しいデータセットを取り込む

タスク 3. Google Cloud Storage から新しいデータセットを取り込む

次に、Cloud Storage から 2018 年の同じ賃走データの別のサブセットを読み込んでみます。今回は CLI ツールを使用します。

  1. Cloud Shell で、次のコマンドを実行します。
bq load \ --source_format=CSV \ --autodetect \ --noreplace \ nyctaxi.2018trips \ gs://cloud-training/OCBL013/nyc_tlc_yellow_trips_2018_subset_2.csv 注: この読み込みジョブでは、先に作成した既存の 2018trips テーブルに、対象のサブセットを追加するよう指定しています。

読み込みジョブが完了すると、画面に確認メッセージが表示されます。

  1. BigQuery コンソールに戻り、2018trips テーブルを選択して [詳細] をクリックします。行数がほぼ倍になっていることを確認します。

  2. 先ほどのクエリを実行して、料金の高かった上位 5 件の賃走に変化があるかどうかを確認します。

このラボの進捗状況を確認するには、下の [進行状況を確認] をクリックします。チェックマークが表示されればタスクは正常に完了しています。

Google Cloud Storage からデータセットを取り込む

タスク 4. DDL を使用して他のテーブルからテーブルを作成する

ここまでで、2018trips テーブルには年間すべての賃走データが含まれるようになっています。1 月の賃走データだけが必要な場合はどうすればよいでしょうか。このラボでは、話をシンプルにするために乗車日時にだけ注目します。データ定義言語(DDL)を使用して、このデータを取り出して新しいテーブルに格納してみましょう。

  1. クエリエディタで、次の CREATE TABLE コマンドを実行します。
#standardSQL CREATE TABLE nyctaxi.january_trips AS SELECT * FROM nyctaxi.2018trips WHERE EXTRACT(Month FROM pickup_datetime)=1;
  1. ここで、クエリエディタで次のクエリを実行し、1 月の最長賃走距離を特定します。
#standardSQL SELECT * FROM nyctaxi.january_trips ORDER BY trip_distance DESC LIMIT 1

このラボの進捗状況を確認するには、下の [進行状況を確認] をクリックします。チェックマークが表示されればタスクは正常に完了しています。

DDL を使用して他のテーブルからテーブルを作成する

お疲れさまでした

このラボでは、新しいデータセットを作成し、CSV、Google Cloud Storage、他の BigQuery テーブルから BigQuery にデータを取り込みました。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2023 年 9 月 25 日

ラボの最終テスト日: 2023 年 9 月 25 日

Copyright 2024 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。