Reinforcement Training (強化学習)

Tutorial


[UP]
強化学習と深層強化学習

1. 強化学習とは何か

2. 強化学習: Gymnasium (OpenAI Gym の後継)  形式の環境を自作する

3. 迷路問題を強化学習で解く

3.1. gym.Env クラスを拡張して迷路クラスを定義する

3.2. 迷路のインスタンス(環境)を生成する

3.3. 方策 \pi のパラメータ \theta の初期値 \theta_0

3.4. 環境の初期状態を画像表示する

3.5. ランダムに行動を選択する (LogSet += 1)

4. 方策 $\pi_{\theta}$

4.1. 方策 $\pi_{\theta}$ の初期値 $\pi_{0}$

4.2. 方策 $\pi_{0}$ の確率分布にしたがって行動を選択する (学習なし) (LogSet += 2)

5. 学習について

6. 方策反復法

6.1. 方策勾配法

6.2. ゴールまで行動する

6.3. 成功体験による $\theta$ と $\pi$ の変化

6.4. 方策勾配法による学習 (LogSet += 4)

7. 価値反復法

7.1. 報酬

7.2. 行動価値と状態価値

7.3. ベルマン方程式とマルコフ決定過程

7.4. 行動価値関数 Q(s,a) を Sarsa アルゴリズムで更新する

7.5. Sarsa の実装

7.6. Sarasa で迷路問題を解く (LogSet += 8)

8. Q学習