A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 導入
1.1 変分 Bayes 推論の立ち位置
Bayes 推論を実行するにあたって,サンプリング法は exact な方法であると言われる.これは十分な計算量を等価することで,任意の精度で事後分布を近似できるためである.
この性質は肝要であるが,真に厳密な近似を得ることよりも,ある程度の誤差を許容しながらも計算のコストを下げる方が重要である場面も多い.これを叶えてくれる,極めて自然な決定論的な近似手法が,変分推論である.
Bayes 事後分布に簡単な分布族を想定し,その中で KL 距離の意味で最も近い分布を,変分最適化によって探すのである.
どれくらい実行し続けていれば欲しい精度が出るのか分かりにくい MCMC よりも,KL 距離という(実は訳のわかっていない)尺度が大切ということにして,これが目に見えて減少していく方がアルゴリズムとして達成感があるというのである.
1.2 変分法の歴史
変分法とは,関数空間上での微分法をいう.
変分法自体は,多くの応用先に古くから用いられている.統計学 (Rustagi, 1976),統計力学 (Parisi, 1988),量子力学 (Sakurai, 1985),有限要素解析 (Schwarz, 1988), (Bathe, 1996) などの教科書で触れられている.最大エントロピー法 (Kapur, 1989),最小作用の原理 (Feynman et al., 1964) も変分法の例である.
いずれの場面でも,変分法は困難な問題を,自由度を分解する (decoupling of the degrees of freedom) ことで,簡単な問題に分解する方法として用いられている (Jordan et al., 1999, p. 198).典型的には,変分パラメータ (variational parameter) という追加の変数を導入する手続きを伴う.
2 変分 Bayes のアルゴリズム
潜在変数を持つグラフィカルモデルの文脈では,EM アルゴリズムのような点推定によるパラメータ推定では汎化性能が伸びず,事後分布を導出したいが,その計算は困難である.これを打開すべく提案されたのが変分 Bayes 推定である (Attias, 1999).
2.1 アルゴリズムの前提
変分 EM アルゴリズムは,\(\theta\) の事前分布としてデルタ分布を置いていた場合の変分 Bayes アルゴリズムとみなせる.1
モデルのパラメータや潜在変数を全て含めて \(z\) とし,尤度が \[ p(x)=\int_\mathcal{Z}p(x,z)\,dz \] と与えられている解する.このとき,対数尤度の下界は \[ \begin{align*} \log p(x)&=\log\int_\mathcal{Z}p(x,z)\,dz\\ &\ge\int_\mathcal{Z}q(z|x)\log\frac{p(x,z)}{q(z|x)}\,dz\\ &=\int_\mathcal{Z}q(z|x)\log\frac{p(z|x)p(x)}{q(z|x)}\,dz\\ &=\log p(x)-\operatorname{KL}(q,p)=:F(q). \end{align*} \] と表せるのであった.2
この \(F\) を変分下界または ELBO (Evidence Lower Bound) という.\(F\) を変分自由エネルギーともいう.
無制約下では,\(F\) は \(q=p\) のときに最大となる.これが EM アルゴリズムの E-ステップなのであった.しかし,このステップは難しい場面も多い.
そのような場合,まず \(p\) にニューラルネットワークなどのパラメトリックモデルをおき,そのパラメータを KL-距離を最適化することで求めることが考えられる.こうしてパラメトリックな変分 Bayes アルゴリズムを得る.
2.2 平均場近似
関数形ではなく,次のような仮定をおくことでも,変分 Bayes アルゴリズムが得られる.
\[ q(z|x)=q(z_1|x)q(z_2|x) \tag{1}\]
と仮定すると \[ F(q)=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z)}{q(z_1|x)q(z_2|x)}\,dz \] の表示を得る.このような仮定は平均場近似とも呼ばれる.3
実は,この表示ならば,\(q(z_1|x)\) と \(q(z_2|x)\) について逐次的に最大化していくための解析的な公式が求まる.
さらに,\(F\) は各因子 \(q(z_1|x),q(z_2|x)\) に関して凸になるので,こうして得るアルゴリズムの収束も保証される.4
2.2.1 VB-\(E\) ステップ
\(F\) の \(q(z_1|x)\) に関する最大値は \[ q(z_1)\propto e^{(q(z_2)dz_2\,|\log p(x,z_2|z_1))} \] が与える.
\(q(z_2)=\delta(\varphi)\) であるとき, \[ q(z_1)\propto p(x,z_1|\varphi)\propto p(z_1|x,\varphi) \tag{2}\] であることに注意.
2.2.2 VB-\(M\) ステップ
全く同様にして, \[ q(z_2)\propto p(z_2)e^{(q(z_1)dz_2\,|\log p(x,z_1|z_2))} \] で最大化される.
2.2.3 自動正則化
またこの枠組みは,その他のベイズ的な手法と同様,過学習を防ぐ正則化が暗黙のうちに盛り込まれているともみなせる.5
\[ \begin{align*} F(q)&=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z)}{q(z_1|x)q(z_2|x)}\,dz\\ &=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z_1|z_2)p(z_2)}{q(z_1|x)q(z_2|x)}\,dz\\ &=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z_1|z_2)}{q(z_1|x)}dz\\ &\qquad-\operatorname{KL}(q(-|x),p(-)). \end{align*} \]
2.3 平均場近似の問題点
いわば \(q\) の全ての周辺分布を「独立」だと解釈しているため,実際には変数間に強い相関があった際に,分散を過小評価する嫌いがある.
3 期待値伝播法
3.1 はじめに
節 2 では \(\operatorname{KL}(q,p)\) を最小化する \(q\) を探索したが,逆に \(\operatorname{KL}(p,q)\) を最小化すると考えるのが期待値伝播法 (EP: Expectation Propagation) (Thomas P. Minka, 2001a), (Thomas P. Minka, 2001b) である.
なお,\(\operatorname{KL}(p,q)\) を,MCMC によって推定した勾配を用いて確率的勾配降下法によって最小化する手法も提案されている: Markovian Score Climbing (Naesseth et al., 2020), Joint Stochastic Approximation (Ou and Song, 2020) とこれらを包含する Markov Chain Score Ascent (Kim et al., 2022) など.
3.2 \(\alpha\)-乖離度
期待値伝播法と変分 Bayes 推論との振る舞いの違いは,\(\alpha\)-乖離度の振る舞いの変化によって理解できる.
\(\alpha\to1\) の極限では \(\operatorname{KL}(p,q)\) に収束し,\(\alpha\to-1\) の極限では \(\operatorname{KL}(q,p)\) に収束する.7 いわば,この2つの量を補間する量である.
\(\alpha=0\) の場合を,Hellinger 距離(の自乗)という.
\(\alpha\le-1\) の場合は \(D_\alpha\) は \(\frac{q}{p}\) を含むため,\(p\) が零ならば \(q\) も零になるようになる:\(q\ll p\).実際,変分近似は分散を過小評価しがちである 節 2.3.
一方で \(\alpha\ge1\) の場合は \(D_\alpha\) は \(\frac{p}{q}\) を含むため,\(p\) の台を \(q\) の台が含むようになる.
こうして EP は,変分 Bayes よりも,複数の峰がある分布を平均したように,裾の広い近似を与えるという対照的な性質を持つ.
3.3 Power-EP
一般の \(\alpha\)-乖離度を最小化する手法が Power-EP (Tomas P. Minka, 2004) である.
多くのメッセージ伝播アルゴリズムもこの枠組みで導出できる (Tomas P. Minka, 2005).8
References
Footnotes
その理由に関する洞察は,エントロピー項 \(H(q)\) が大きな役割を果たしているようである.(Khan and Rue, 2023) なども示唆的である.↩︎
関連する乖離度に,Rényi の \(\alpha\)-乖離度 がある.↩︎
前者 \(\operatorname{KL}(p,q)\) を \(q\) に関して exclusive と言い,\(\operatorname{KL}(q,p)\) は \(\mathrm{supp}\;(q)\subset\mathrm{supp}\;(p)\) を満たすため inclusive ともいう.(Kim et al., 2022) など.↩︎
(Bishop, 2006, p. 517) も参照.↩︎