Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

強化学習: Qwik Start

Lab 1時間 universal_currency_alt クレジット: 1 show_chart 入門

GSP691
概要
設定と要件
タスク 1. 強化学習の基礎
タスク 2. 環境を設定する
タスク 3. Vertex AI ノートブックを起動する
タスク 4. サンプルコードのクローンを作成する
タスク 5. ノートブックを実行する
お疲れさまでした

Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

GSP691

Google Cloud セルフペースラボ

概要

機械学習に関する研究の多くの分野と同様に、強化学習（RL: Reinforcement Learning）は、猛烈なスピードで進歩しています。他の研究分野もそうですが、研究者たちはディープラーニングを活用して最先端の成果を生み出しています。

このラボでは、OpenAI Gym のサンプルを使ってモデル化した簡単なゲームを作成し、強化学習の基礎を学びます。

学習内容

このラボでは以下を行います。

強化学習の基本的なコンセプトについて学習する。
AI Platform Tensorflow 2.1 Notebook を作成する。
GitHub にある training data analyst リポジトリからサンプルリポジトリのクローンを作成する。
ノートブックの手順を読み、理解し、実行する。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの手順をお読みください。ラボの時間は記録されており、一時停止することはできません。[ラボを開始] をクリックするとスタートするタイマーは、Google Cloud のリソースを利用できる時間を示しています。

このハンズオンラボでは、シミュレーションやデモ環境ではなく、実際のクラウド環境を使ってご自身でラボのアクティビティを行うことができます。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモードまたはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。

ラボを完了するために十分な時間を確保してください。ラボをいったん開始すると一時停止することはできません。

注: すでに個人の Google Cloud アカウントやプロジェクトをお持ちの場合でも、このラボでは使用しないでください。アカウントへの追加料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google コンソールを開く] をクリックします。ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、[ラボの詳細] パネルから [ユーザー名] をコピーして [ログイン] ダイアログに貼り付けます。[次へ] をクリックします。
[ラボの詳細] パネルから [パスワード] をコピーして [ようこそ] ダイアログに貼り付けます。[次へ] をクリックします。
重要: 認証情報は左側のパネルに表示されたものを使用してください。Google Cloud Skills Boost の認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後このタブで Cloud Console が開きます。

注: 左上にある [ナビゲーションメニュー] をクリックすると、Google Cloud のプロダクトやサービスのリストが含まれるメニューが表示されます。ナビゲーションメニューアイコン

タスク 1. 強化学習の基礎

強化学習は機械学習の形態の 1 つであり、エージェントが環境に対する行動を選択しながら、その一連の選択を通じて得られる目標（報酬）を最大化する方法を学習していくというものです。従来の教師あり学習のテクニックとは異なり、データポイントはすべてがラベル付けされるというわけではなく、エージェントは「スパース」な報酬にアクセスできるだけです。

強化学習の歴史は 1950 年代にまでさかのぼることができます。そのアルゴリズムは数多く存在しますが、最近では、簡単に実装できる強力な深層強化学習アルゴリズム、DQN（ディープ Q ネットワーク）と DDPG（Deep Deterministic Policy Gradient）の 2 つが注目されています。このセクションでは、これらのアルゴリズムと変種について簡単に紹介します。

プロセス概念図

強化学習のプロセス概念図

DQN は、Google DeepMind グループが 2015 年に Nature の論文で発表したアルゴリズムです。論文の著者らは、画像認識分野でのディープラーニングの成功を励みに、ディープニューラルネットワークを Q 学習に組み込み、観測空間が非常に高次元な Atari Game Engine Simulator でアルゴリズムをテストしました。

ディープニューラルネットワークは、特定の入力状態に基づいて、出力 Q 値、すなわちある行動を取ることがどの程度望ましいかを予測する関数近似器として機能します。つまり、DQN は価値ベースのアルゴリズムです。DQN はトレーニングアルゴリズムの中でベルマン方程式に従い Q 値を更新していきますが、動くターゲットに合わせる難しさを避けるために、ターゲットの値を予測する、第 2 のディープニューラルネットワークを使います。

より実用的なレベルとして、次のモデルでは、Google Cloud で実行されている強化学習ジョブを取得するために、ソースファイル、シェルコマンド、エンドポイントをハイライト表示しています。

モデル図

タスク 2. 環境を設定する

Google Cloud コンソールのナビゲーションメニュー（）で、[Vertex AI] > [ダッシュボード] をクリックします。
[すべての推奨 API を有効化] をクリックします。

タスク 3. Vertex AI ノートブックを起動する

Vertex AI Workbench ノートブックを作成して起動するには:

ナビゲーションメニュー で、[Vertex AI] > [ワークベンチ] をクリックします。
[ワークベンチ] ページで、[Notebooks API を有効にする] をクリックします（まだ有効になっていない場合）。
[ユーザー管理のノートブック] タブをクリックしてから、[新規作成] をクリックします。
ノートブックに名前を付けます。
[リージョン] を、[ゾーン] をに設定します。
[新しいインスタンス] メニューの [環境] で、最新バージョンの [TensorFlow Enterprise 2.x] を選択します。
[詳細オプション] をクリックして、インスタンスのプロパティを編集します。
[マシンタイプ] をクリックし、マシンタイプとして [e2-standard-2] を選択します。
残りのフィールドはデフォルトのままにし、[作成] をクリックします。

数分後、[ワークベンチ] ページにインスタンス名が表示され、それに続いて [JupyterLab を開く] が表示されます。

[JupyterLab を開く] をクリックして、新しいタブで JupyterLab を開きます。ビルドに beatrix jupyterlab を含める必要があるというメッセージが表示された場合は、無視してください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Vertex AI Platform ノートブックを作成する

タスク 4. サンプルコードのクローンを作成する

training-data-analyst リポジトリのクローンを JupyterLab インスタンス内に作成するには、次の手順を踏みます。

JupyterLab で、[Terminal] アイコンをクリックして新しいターミナルを開きます。

ターミナルを開く

コマンドラインプロンプトで、次のコマンドを入力して Enter キーを押します。

git clone https://github.com/GoogleCloudPlatform/training-data-analyst

リポジトリのクローンが作成されたことを確認するには、左側のパネルの training-data-analyst フォルダをダブルクリックして、リポジトリのコンテンツを確かめます。

training-data-analyst ディレクトリ内のファイル

左側のメニューで、[training-data-analyst] > [quests] > [rl] > [early_rl] > [early_rl.ipynb] を選択します。新しいタブが開きます。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。サンプルコードのクローンを作成する

タスク 5. ノートブックを実行する

新しいタブは次のようになります。

Early Reinforcement Learning ウェブページ

次のノートブックを読み、Shift+Enter キーを押して、すべてのコードブロックを実行します。
ノートブックの手順を完了したら、このページに戻ります。

お疲れさまでした

このラボでは、強化学習の基本的な考え方について学習しました。JupyterLab インスタンスを作成した後、サンプルリポジトリのクローンを作成してノートブックを実行し、強化学習の基礎に関する実践演習を行いました。これで、このシリーズのラボをさらに受講する準備が整いました。

クエストを完了する

このセルフペースラボは、Qwiklabs の「Baseline: Data, ML, AI」クエストの一部です。クエストとは学習プログラムを構成する一連のラボのことで、このラボの修了後、こちらのクエストに登録すれば、すぐにクレジットを受け取ることができます。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2023 年 9 月 27 日

ラボの最終テスト日: 2023 年 9 月 27 日