A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 導入
1.1 変分 Bayes 推論の立ち位置
Bayes 推論を実行するにあたって,サンプリング法は exact な方法であると言われる.これは十分な計算量を等価することで,任意の精度で事後分布を近似できるためである.
この性質は肝要であるが,真に厳密な近似を得ることよりも,ある程度の誤差を許容しながらも計算のコストを下げる方が重要である場面も多い.これを叶えてくれる,極めて自然な決定論的な近似手法が,変分推論である.
Bayes 事後分布に簡単な分布族を想定し,その中で KL 距離の意味で最も近い分布を,変分最適化によって探すのである.
どれくらい実行し続けていれば欲しい精度が出るのか分かりにくい MCMC よりも,KL 距離という(実は訳のわかっていない)尺度が大切ということにして,これが目に見えて減少していく方がアルゴリズムとして達成感があるというのである.
1.2 変分法の歴史
変分法とは,関数空間上での微分法をいう.
変分法自体は,多くの応用先に古くから用いられている.統計学 (Rustagi, 1976),統計力学 (Parisi, 1988),量子力学 (Sakurai, 1985),有限要素解析 (Schwarz, 1988), (Bathe, 1996) などの教科書で触れられている.最大エントロピー法 (Kapur, 1989),最小作用の原理 (Feynman et al., 1964) も変分法の例である.
いずれの場面でも,変分法は困難な問題を,自由度を分解する (decoupling of the degrees of freedom) ことで,簡単な問題に分解する方法として用いられている (Jordan et al., 1999, p. 198).典型的には,変分パラメータ (variational parameter) という追加の変数を導入する手続きを伴う.
2 変分 Bayes のアルゴリズム
潜在変数を持つグラフィカルモデルの文脈では,EM アルゴリズムのような点推定によるパラメータ推定では汎化性能が伸びず,事後分布を導出したいが,その計算は困難である.これを打開すべく提案されたのが変分 Bayes 推定である (Attias, 1999).
2.1 アルゴリズムの前提
変分 EM アルゴリズムは,
モデルのパラメータや潜在変数を全て含めて
この
無制約下では,
そのような場合,まず
2.2 平均場近似
関数形ではなく,次のような仮定をおくことでも,変分 Bayes アルゴリズムが得られる.
と仮定すると
実は,この表示ならば,
さらに,
2.2.1 VB- ステップ
2.2.2 VB- ステップ
全く同様にして,
2.2.3 自動正則化
またこの枠組みは,その他のベイズ的な手法と同様,過学習を防ぐ正則化が暗黙のうちに盛り込まれているともみなせる.5
2.3 平均場近似の問題点
いわば
3 期待値伝播法
3.1 はじめに
節 2 では
なお,
3.2 -乖離度
期待値伝播法と変分 Bayes 推論との振る舞いの違いは,
一方で
こうして EP は,変分 Bayes よりも,複数の峰がある分布を平均したように,裾の広い近似を与えるという対照的な性質を持つ.
3.3 Power-EP
一般の
多くのメッセージ伝播アルゴリズムもこの枠組みで導出できる (Tomas P. Minka, 2005).8
References
Footnotes
その理由に関する洞察は,エントロピー項
が大きな役割を果たしているようである.(Khan and Rue, 2023) なども示唆的である.↩︎関連する乖離度に,Rényi の
-乖離度 がある.↩︎前者
を に関して exclusive と言い, は を満たすため inclusive ともいう.(Kim et al., 2022) など.↩︎(Bishop, 2006, p. 517) も参照.↩︎