A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
非斉次 Markov 過程とも見れる? (Robert and Casella, 2004, p. 162).
1 確率的最適化の概観
1.1 はじめに
ニューラルネットワークの訓練に関して,目的関数の勾配を上るようにパラメータを更新する手法が取られている.
一度に全てのデータを使って勾配を計算する場合を バッチ学習 (batch method) と呼び,これが勾配降下法または最急降下法にあたる.
一方で,データを分割して逐次的に勾配を計算し最適化を実施する手法を オンライン学習 (online learning) といい,これを 確率的勾配降下法 (stochastic gradient descent, SGD) または逐次的勾配降下法 (sequential gradient descent) と呼ぶ.1
1.2 確率的最適化の歴史
確率的最適化は,はじめは統計学の文脈で (Robbins and Monro, 1951) によってオンラインの最尤推定を題材に考察された.
これを一般化する形で (Kiefer and Wolfowitz, 1952) は 確率的勾配降下法 (SGD) を提案した.
SGD を拡張し,適応的に学習率を調整する手法としては,AdaGrad (Duchi et al., 2011) や RMSprop (Tieleman and Hinton, 2012),そしてこれら2つの長所を組み合わせた Adam (Kingma and Ba, 2017) が提案された.2
1.3 (Robbins and Monro, 1951)
目的関数が \[ h(x)=\operatorname{E}[H(x,Z)] \] の形で与えられるとする.3
\(h(x)=\beta\) の解 \(x=\theta\) を求める問題を考える.のちに \(\max_{x\in\mathcal{X}}h(x)\) を求める問題に拡張したのが (Kiefer and Wolfowitz, 1952) である.
2 SGD の振る舞い
2.1 はじめに
ニューラルネットワークの訓練において,SGD は特に良い性質を示しているが,その理由は未だ十分に解明されていない.
例えば,正則化に寄与している(暗黙的正則化 implicit regularization)ということが明らかになりつつある.5
(Smith and Le, 2018) によると,鋭い谷 (sharp minima) に捕まりにくく,広い谷 (flat minima) に入りやすいという性質が汎化性能に寄与しているという.(Imaizumi and Schmidt-Hieber, 2023) は理論的な説明を与えた.
References
Footnotes
(Bishop, 2006, p. 240) 5.2.4節.↩︎
(Bouleau and Lépingle, 1993),(Robert and Casella, 2004, p. 202) 定理5.24.↩︎
(Murphy, 2022, p. 455), (Chizat and Bach, 2020), (Moroshko et al., 2020) も参照.↩︎