変分推論３ – Hirofumi Shiba

概要

確率的グラフィカルモデルの汎用推論手法である変分 Bayes アルゴリズムを解説する．変分 Bayes 推論とは，事後分布を指定した分布族の中で，KL-距離が最も小さくなるように近似する手法をいう．この分布族として，種々のパラメトリック分布を仮定したり，平均場近似を採用したりすることで，種々の変分 Bayes アルゴリズムが得られる．

1 導入

1.1 変分 Bayes 推論の立ち位置

Bayes 推論を実行するにあたって，サンプリング法は exact な方法であると言われる．これは十分な計算量を等価することで，任意の精度で事後分布を近似できるためである．

この性質は肝要であるが，真に厳密な近似を得ることよりも，ある程度の誤差を許容しながらも計算のコストを下げる方が重要である場面も多い．これを叶えてくれる，極めて自然な決定論的な近似手法が，変分推論である．

Bayes 事後分布に簡単な分布族を想定し，その中で KL 距離の意味で最も近い分布を，変分最適化によって探すのである．

どれくらい実行し続けていれば欲しい精度が出るのか分かりにくい MCMC よりも，KL 距離という（実は訳のわかっていない）尺度が大切ということにして，これが目に見えて減少していく方がアルゴリズムとして達成感があるというのである．

1.2 変分法の歴史

変分法とは，関数空間上での微分法をいう．

変分法自体は，多くの応用先に古くから用いられている．統計学 (Rustagi, 1976)，統計力学 (Parisi, 1988)，量子力学 (Sakurai, 1985)，有限要素解析 (Schwarz, 1988), (Bathe, 1996) などの教科書で触れられている．最大エントロピー法 (Kapur, 1989)，最小作用の原理 (Feynman et al., 1964) も変分法の例である．

いずれの場面でも，変分法は困難な問題を，自由度を分解する (decoupling of the degrees of freedom) ことで，簡単な問題に分解する方法として用いられている (Jordan et al., 1999, p. 198)．典型的には，変分パラメータ (variational parameter) という追加の変数を導入する手続きを伴う．

2 変分 Bayes のアルゴリズム

潜在変数を持つグラフィカルモデルの文脈では，EM アルゴリズムのような点推定によるパラメータ推定では汎化性能が伸びず，事後分布を導出したいが，その計算は困難である．これを打開すべく提案されたのが変分 Bayes 推定である (Attias, 1999)．

2.1 アルゴリズムの前提

変分 EM アルゴリズムは，\(\theta\) の事前分布としてデルタ分布を置いていた場合の変分 Bayes アルゴリズムとみなせる．¹

モデルのパラメータや潜在変数を全て含めて \(z\) とし，尤度が \[ p(x)=\int_\mathcal{Z}p(x,z)\,dz \] と与えられている解する．このとき，対数尤度の下界は \[ \begin{align*} \log p(x)&=\log\int_\mathcal{Z}p(x,z)\,dz\\ &\ge\int_\mathcal{Z}q(z|x)\log\frac{p(x,z)}{q(z|x)}\,dz\\ &=\int_\mathcal{Z}q(z|x)\log\frac{p(z|x)p(x)}{q(z|x)}\,dz\\ &=\log p(x)-\operatorname{KL}(q,p)=:F(q). \end{align*} \] と表せるのであった．²

この \(F\) を変分下界または ELBO (Evidence Lower Bound) という．\(F\) を変分自由エネルギーともいう．

無制約下では，\(F\) は \(q=p\) のときに最大となる．これが EM アルゴリズムの E-ステップなのであった．しかし，このステップは難しい場面も多い．

そのような場合，まず \(p\) にニューラルネットワークなどのパラメトリックモデルをおき，そのパラメータを KL-距離を最適化することで求めることが考えられる．こうしてパラメトリックな変分 Bayes アルゴリズムを得る．

2.2 平均場近似

関数形ではなく，次のような仮定をおくことでも，変分 Bayes アルゴリズムが得られる．

\[ q(z|x)=q(z_1|x)q(z_2|x) \tag{1}\]

と仮定すると \[ F(q)=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z)}{q(z_1|x)q(z_2|x)}\,dz \] の表示を得る．このような仮定は平均場近似とも呼ばれる．³

実は，この表示ならば，\(q(z_1|x)\) と \(q(z_2|x)\) について逐次的に最大化していくための解析的な公式が求まる．

さらに，\(F\) は各因子 \(q(z_1|x),q(z_2|x)\) に関して凸になるので，こうして得るアルゴリズムの収束も保証される．⁴

2.2.1 VB-\(E\) ステップ

\(F\) の \(q(z_1|x)\) に関する最大値は \[ q(z_1)\propto e^{(q(z_2)dz_2\,|\log p(x,z_2|z_1))} \] が与える．

証明

まず，\(q(z_1|x)\) について最大化することを考える．\(F\) の \(q(z_1|x)\) に関する最大化は， \[ L:=F(q)+\lambda\left(\int_\mathcal{Z}q(z_1)\,dz_1-1\right) \] の \(\lambda\) との同時最大化と同値である．これが Lagrange の未定乗数法である．

\[ \begin{align*} \frac{\delta L}{\delta q(z_1|x)}&(q(z_2|x)dz_2|\log p(x,z_1|z_2))-\log q(z_1)+\lambda+\mathrm{const.} \end{align*} \] と計算できるから，これは \[ q(z_1)\propto e^{(q(z_2)dz_2\,|\log p(x,z_2|z_1))} \] にて最大化される．これが変分 Bayes アルゴリズムの \(E\)-ステップである．

(Bishop, 2006, p. 465) はまた違った議論を提供している．

\(q(z_2)=\delta(\varphi)\) であるとき， \[ q(z_1)\propto p(x,z_1|\varphi)\propto p(z_1|x,\varphi) \tag{2}\] であることに注意．

2.2.2 VB-\(M\) ステップ

全く同様にして， \[ q(z_2)\propto p(z_2)e^{(q(z_1)dz_2\,|\log p(x,z_1|z_2))} \] で最大化される．

証明

2.2.3 自動正則化

またこの枠組みは，その他のベイズ的な手法と同様，過学習を防ぐ正則化が暗黙のうちに盛り込まれているともみなせる．⁵

\[ \begin{align*} F(q)&=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z)}{q(z_1|x)q(z_2|x)}\,dz\\ &=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z_1|z_2)p(z_2)}{q(z_1|x)q(z_2|x)}\,dz\\ &=\int_\mathcal{Z}q(z_1|x)q(z_2|x)\log\frac{p(x,z_1|z_2)}{q(z_1|x)}dz\\ &\qquad-\operatorname{KL}(q(-|x),p(-)). \end{align*} \]

2.3 平均場近似の問題点

いわば \(q\) の全ての周辺分布を「独立」だと解釈しているため，実際には変数間に強い相関があった際に，分散を過小評価する嫌いがある．

3 期待値伝播法

3.1 はじめに

節 2 では \(\operatorname{KL}(q,p)\) を最小化する \(q\) を探索したが，逆に \(\operatorname{KL}(p,q)\) を最小化すると考えるのが期待値伝播法 (EP: Expectation Propagation) (Thomas P. Minka, 2001a), (Thomas P. Minka, 2001b) である．

なお，\(\operatorname{KL}(p,q)\) を，MCMC によって推定した勾配を用いて確率的勾配降下法によって最小化する手法も提案されている： Markovian Score Climbing (Naesseth et al., 2020), Joint Stochastic Approximation (Ou and Song, 2020) とこれらを包含する Markov Chain Score Ascent (Kim et al., 2022) など．

3.2 \(\alpha\)-乖離度

期待値伝播法と変分 Bayes 推論との振る舞いの違いは，\(\alpha\)-乖離度の振る舞いの変化によって理解できる．

定義（\(\alpha\)-divergence）(Amari, 1985, p. 85), (Cichocki et al., 2008, p. 1434)

\(\alpha\in\mathbb{R}\setminus\{\pm1\}\) に関して， \[ D_\alpha(p,q):=\frac{4}{1-\alpha^2}\left(1-\int_\mathcal{X}p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}\,dx\right) \] を \(\alpha\)-乖離度 という．⁶

\(\alpha\to1\) の極限では \(\operatorname{KL}(p,q)\) に収束し，\(\alpha\to-1\) の極限では \(\operatorname{KL}(q,p)\) に収束する．⁷ いわば，この２つの量を補間する量である．

\(\alpha=0\) の場合を，Hellinger 距離（の自乗）という．

\(\alpha\le-1\) の場合は \(D_\alpha\) は \(\frac{q}{p}\) を含むため，\(p\) が零ならば \(q\) も零になるようになる：\(q\ll p\)．実際，変分近似は分散を過小評価しがちである節 2.3．

一方で \(\alpha\ge1\) の場合は \(D_\alpha\) は \(\frac{p}{q}\) を含むため，\(p\) の台を \(q\) の台が含むようになる．

こうして EP は，変分 Bayes よりも，複数の峰がある分布を平均したように，裾の広い近似を与えるという対照的な性質を持つ．

3.3 Power-EP

一般の \(\alpha\)-乖離度を最小化する手法が Power-EP (Tomas P. Minka, 2004) である．

多くのメッセージ伝播アルゴリズムもこの枠組みで導出できる (Tomas P. Minka, 2005)．⁸

References

Amari, S. (1985). Differential-geometrical methods in statistics,Vol. 28. Springer New York.

Attias, H. (1999). Inferring parameters and structure of latent variable models by variational bayes. In Proceedings of the fifteenth conference in artificial intelligence, pages 21–30.

Bathe, K.-J. (1996). Finite element procedures. Prentice-Hall.

Bishop, C. M. (2006). Pattern recognition and machine learning. Springer New York.

Cichocki, A., Lee, H., Kim, Y.-D., and Choi, S. (2008). Non-negative matrix factorization with \(\alpha\)-divergence. Pattern Recognition Letters, 29(9), 1433–1440.

Feynman, R. P., Leighton, R. B., and Sands, M. (1964). The feynman lectures of physics. In,Vol. II. Addison-Wesley.

Jordan, M. I., Ghahramani, Z., Jaakkola, T. S., and Saul, L. K. (1999). An introduction to variational methods for graphical models. Machine Learning, 37, 183–233.

Kapur, J. N. (1989). Maximum-entropy models in science and engineering. Wiley.

Khan, M. E., and Rue, H. (2023). The bayesian learning rule. Journal of Machine Learning Research, 24(281), 1–46.

Kim, K., Oh, J., Gardner, J., Dieng, A. B., and Kim, H. (2022). Markov chain score ascent: A unifying framework of variational inference with markovian gradients. In S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, and A. Oh, editors, Advances in neural information processing systems,Vol. 35, pages 34802–34816. Curran Associates, Inc.

Minka, Thomas P. (2001a). A family of approximation algorithms for bayesian inference (PhD thesis). MIT.

Minka, Thomas P. (2001b). Expectation propagation for approximate bayesian inference. In Proceedings of the seventeenth conference on uncertainty in artificial intelligence, pages 362–369.

Minka, Tomas P. (2004). Power EP. Microsoft Research Cambridge. Retrieved from https://www.microsoft.com/en-us/research/publication/power-ep/

Minka, Tomas P. (2005). Divergence measures and message passing. Microsoft Research Cambridge. Retrieved from https://www.microsoft.com/en-us/research/publication/divergence-measures-and-message-passing/

Naesseth, C., Lindsten, F., and Blei, D. (2020). Markovian score climbing: Variational inference with KL(pq). In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in neural information processing systems,Vol. 33, pages 15499–15510. Curran Associates, Inc.

Ou, Z., and Song, Y. (2020). Joint stochastic approximation and its application to learning discrete latent variable models. In J. Peters and D. Sontag, editors, Proceedings of the 36th conference on uncertainty in artificial intelligence (UAI),Vol. 124, pages 929–938. PMLR.

Parisi, G. (1988). Statistical field theory. Addison-Wesley.

Rustagi, J. (1976). Variational methods in statistics. Academic Press.

Sakurai, J. (1985). Modern quantum mechanics. Addison-Wesley.

Schwarz, H. R. (1988). Finite element methods. Academic Press.

Wainwright, M. J., and Jordan, M. I. (2008). Graphical models, exponential families, and variational inference. Foundations and Trends in Machine Learning, 1(1-2), 1–305.

Footnotes

(Wainwright and Jordan, 2008, p. 164) も参照．↩︎
EM アルゴリズムに関する前稿も参照．↩︎
(Bishop, 2006, p. 465)．↩︎
(Bishop, 2006, p. 466)．↩︎
その理由に関する洞察は，エントロピー項 \(H(q)\) が大きな役割を果たしているようである．(Khan and Rue, 2023) なども示唆的である．↩︎
関連する乖離度に，Rényi の \(\alpha\)-乖離度がある．↩︎
前者 \(\operatorname{KL}(p,q)\) を \(q\) に関して exclusive と言い，\(\operatorname{KL}(q,p)\) は \(\mathrm{supp}\;(q)\subset\mathrm{supp}\;(p)\) を満たすため inclusive ともいう．(Kim et al., 2022) など．↩︎
(Bishop, 2006, p. 517) も参照．↩︎