A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 正則化と汎化の関係
1.1 非一様性1
PAC 学習 の枠組みは,分布 \(\mathbb{P}\in\mathcal{P}(\mathcal{X}\times\mathcal{Y})\) に依らない一様な評価を要請している.
その結果,分類問題でも,PAC 学習可能であるためには仮設集合 \(\mathcal{H}\) には VC 次元の有限性が必要十分となるのであった(統計的機械学習の基本定理).
これは多くの場合強すぎる.
そこで,必要な訓練データ数が,分布 \(\mathbb{P}\in\mathcal{P}(\mathcal{X}\times\mathcal{Y})\) に依存することも許すことを考える.この緩めた学習可能性は,\(\mathcal{H}\) が有限 VC 次元集合の有限合併であることに同値になる.
論理的な構造は PAC 学習可能性 と非常に似ているが,確かに真に弱い条件になっている.
1.2 構造的リスク最小化
PAC バウンド の証明からも判る通り,推定誤差と近似誤差のトレードオフが存在する.
すなわち,仮説の複雑性には代償がある.
そこで,仮説集合 \(\mathcal{H}\) を小さくする代わりに,アルゴリズム \(A:(\mathcal{X}\times\mathcal{Y})^n\to\mathcal{H}\) が探索する範囲を小さいものにし,実質的な仮説空間のサイズを抑えることも考えられる.これを 正則化 という.
実際,深層学習も暗黙的正則化によりよい汎化性能を出していることが徐々に明らかになりつつある.4
すなわち,真に汎化性能を上げたい場合は,経験誤差を最小化するだけでは十分ではなく,経験誤差を小さくしながら,関数が滑らかになるように帰納バイアスを入れる必要がある.
この枠組みを経験リスク最小化の代わりに,構造リスク最小化 といい,(Vapnik and Chervonenkis, 1974) により提案された.
この方向の研究の源流は,(Bousquet and Elisseeff, 2002) らの 安定性 の理論であった.これは「実質的な仮説空間」という考え方を導入することで,機械学習モデルの予測精度理論の精緻化も生んだ.
1.3 枠組み:アルゴリズムに目を向ける
リスクを \[ R(A,S):=\operatorname{E}[l(A(S)(X),YT)] \] 経験リスクと \[ \widehat{R}(A,S_n):=\frac{1}{n}\sum_{i=1}^nl(A(S_n)(x_i),y_i) \] として,アルゴリズム \(A:(\mathcal{X}\times\mathcal{Y})^n\to\mathcal{H}\) の関数とみる.5
この場合,仮説空間 \(\mathcal{H}\) 上の一様な評価は,そもそも目指さない.
1.4 安定性
すなわち,学習データを1つ減らしたときの損失の変化が,ある一定以下であることをいう.
これは感度分析的な考え方であるが,実は正則化により,アルゴリズムは安定的な挙動をするようになり,安定性が汎化誤差の上界を与える!
1.5 主結果
1.6 アルゴリズムの安定性
一方で,アルゴリズムの安定性を示すことは難しく,通常 admissibility と Bregman divergence を通じて議論されるようである.8
References
Footnotes
(Shalev-Shwartz and Ben-David, 2014, p. 58) 第7章 も参照.↩︎
(Shalev-Shwartz and Ben-David, 2014, p. 59) 定理7.2 など.↩︎
(Murphy, 2022, p. 455) も参照.↩︎
(Bousquet and Elisseeff, 2002, p. 507) Theorem 12.↩︎