A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 PAC-Bayes
通常の機械学習の枠組みでは,仮説集合 \(\mathcal{H}\subset\mathcal{L}(\mathcal{X};\mathcal{Y})\) を固定し,この中で最適な推定量 \(\overline{h}\in\mathcal{H}\) を探すことに集中する.
一方で,PAC-Bayes では,仮説集合 \(\mathcal{H}\) 上の確率分布を学習し,最終的に投票 (vote) などの確率的な操作によって決めることを考え,これにも対応する理論を構築する.1
これは (Shawe-Taylor and Williamson, 1997) によって創始され, (McAllester, 1999) によって最初の定理が示された.(Seeger, 2002), (Catoni, 2007) も金字塔であり,後者は情報統計力学との関連を推し進めている.
1.1 枠組み
データにより決まる確率測度 \[ \widehat{\rho}:(\mathcal{X}\times\mathcal{Y})^n\to\mathcal{P}(\mathcal{H}) \] を考え,推定量をランダムに \(\widetilde{h}\sim\widehat{\rho}\) とサンプリングする.これを ランダム推定量 (randomized estimator) という.
例えば \(\mathcal{Y}=2\) においては,Gibbs 判別器と呼ばれる.2
また,最終的な推定量を積分により \[ h_{\widehat{\rho}}:=(\widehat{\rho}|h) \] と決定しても良い.これを 集合推定量 (aggregated predictor) という.
これらの
- 経験バウンド (empirical bound):\(R(\widehat{h})-\widehat{R}_n(h^*)\)
- 超過リスクバウンド (excess risk / oracle PAC bound):\(R(h_{\widehat{\rho}})-R(h^*)\)
を調べるのが PAC-Bayes である.
1.2 KL-乖離度
すると,\(\log M\) の項に KL-乖離度が現れる.
1.3 McAllester バウンド
1.3.1 応用
SGD で訓練されたニューラルネットワークに対しても適用されている (Clerico et al., 2023).
事後分布からサンプリングをすることで鋭い評価を得ている (Ujváry et al., 2023).
References
Footnotes
(Alquier, 2024) Introduction より.↩︎
(Schölkopf and Smola, 2002, p. 381) 定義12.23.↩︎