Reinforcement Training (強化学習)
Tutorial
[UP]
強化学習と深層強化学習
1. 強化学習とは何か
2. 強化学習: Gymnasium (OpenAI Gym の後継) 形式の環境を自作する
3. 迷路問題を強化学習で解く
3.1. gym.Env クラスを拡張して迷路クラスを定義する
3.2. 迷路のインスタンス(環境)を生成する
3.3. 方策 \pi のパラメータ \theta の初期値 \theta_0
3.4. 環境の初期状態を画像表示する
3.5. ランダムに行動を選択する (LogSet += 1)
4. 方策 $\pi_{\theta}$
4.1. 方策 $\pi_{\theta}$ の初期値 $\pi_{0}$
4.2. 方策 $\pi_{0}$ の確率分布にしたがって行動を選択する (学習なし) (LogSet += 2)
5. 学習について
6. 方策反復法
6.1. 方策勾配法
6.2. ゴールまで行動する
6.3. 成功体験による $\theta$ と $\pi$ の変化
6.4. 方策勾配法による学習 (LogSet += 4)
7. 価値反復法
7.1. 報酬
7.2. 行動価値と状態価値
7.3. ベルマン方程式とマルコフ決定過程
7.4. 行動価値関数 Q(s,a) を Sarsa アルゴリズムで更新する
7.5. Sarsa の実装
7.6. Sarasa で迷路問題を解く (LogSet += 8)
8. Q学習