A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 導入
1.1 他の機械学習手法との違い
強化学習は機械学習の3分類の1つとして「他の2類型(教師あり・教師なし学習)とは大きく文脈が違う」という注記と共によく紹介される.それもその通り.強化学習は,エージェントが世界の中でどのように行動するかを,環境との相互作用を通じて自律的に学ぶ,という人工知能分野の問題設定から生じた学問である (Sutton and Barto, 2018).
強化学習の設定にはいくつか特徴がある.
- 試行錯誤の中で学ぶこと:教師あり学習のように,報酬を最大化するように学んでいくが,学習データというものはなく,試行錯誤の中で学ぶ必要がある.
- 報酬は遅れてくるものもあること:行動の結果がすぐに報酬として返ってくるわけではなく,以前の行動が未来の報酬に影響を与えることがあり,それを踏まえて学習をすることが求められる.
すると,強化学習は専ら動的計画法の議論が中心となる.
1.2 強化学習の応用
強化学習は,部分的に観測されている Markov 決定過程の最適制御として理解される.
在庫管理 (Van Roy et al., 1997),動的なチャンネルの割り当て (Singh and Bertsekas, 1996),エレベータ制御 (Crites and Barto, 1998),テーブルゲーム (Silver et al., 2018),気候変動対策 (Rolnick et al., 2022) などにも用いられている.
また,深層学習と組み合わせることで,DeepMind の AlphaGo (Silver et al., 2016) と AlphaGoZero (Silver et al., 2017) は囲碁において人類の追随を許さない実力をつけた.
今後も,人間のフィードバックによる強化学習 (RLHF: Reinforcement Learning through Human Feedback) (Christiano et al., 2017) や GNN のトレーニングなど,他の機械学習手法と組み合わせることでより大きな AI システムを作るにあたって,強化学習は必要不可欠な立場を占めていくだろう.
1.3 歴史
2 Markov 決定過程
多くの場合,\(P(x,a)\in\mathcal{P}(\mathcal{X}\times\mathbb{R})\) は直積 \[ P(x,a)=P_{\mathcal{X}}(x,a)\otimes P_{\mathcal{R}}(x,a) \] で与えられるとする.
3 \(Q\)-学習
強化学習の最も標準的かつ古典的なアルゴリズムが,\(Q\)-学習 (Watkins, 1989), (Watkins and Dayan, 1992) と,その派生アルゴリズムである SARSA である (Powell, 2011, p. 122).
3.1 TD 学習
推移確率が未知である場合,これをシミュレーションによって推定することができる.この設定では 時間差分学習 (Temporal Difference Learning) とも呼ばれる (Sutton, 1988).