Roberts and Rosenthal (1998) Optimal Scaling of Discrete Approximations to Langevin Diffusions

論文メモ

Author

司馬 博文

Published

4/22/2024

概要

Roberts and Rosenthal [Journal of the Royal Statistical Society. Series B 60(1998) 255-268] は MALA (Metropolis-Adjusted Langevin Algorithm) の最適スケーリングを論じたもの.

概要

MALA は () で提案され,() で指数エルゴード性が示されている.() では最適スケーリングが論じられている.

Article Image

Roberts and Tweedie (1996) Exponential Convergence of Langevin Distributions and Their Discrete Approximations

Roberts and Tweedie [Bernoulli 2(1996) 341-363] は MALA (Metropolis-Adjusted Langevin Algorithm) の指数エルゴード性を議論したもの.

なお,本論文 () では MALA を “Hastings-Metropolis algorithms derived from Langevin diffusions” と呼んでいる.() では Langevin Monte Carlo を Hybrid Monte Carlo の特別な場合として取り上げている.

Brown 運動の離散化を Monte Carlo 法に用いるというアイデアは () でもすでに見られていた.

() において,MALA は BPS と比較されている. モデルは AR(1) を用いており,低次元ではほとんど変わらないが,高次元では BPS の方が自己相関時間が5倍良いという結論が得られている.

1 導入

1.1 MALA について

乱歩 MH は目標分布に依存せず同一の実装をもつ点が利点であるが,それ故に目標分布が複雑である場合は収束が遅いことがある.

一方で,Langevin アルゴリズムは目標分布の勾配を利用した対称的な手法で,π が増加する方向への提案を増やすことで収束を速めた MH 法である.

Langevin algorithms use local problem-specific information and are therefore often almost as easy to implement.

() では Langevin アルゴリズムはいつでも指数エルゴード性を持つ訳ではないことがわかったが,それでも,特に高次元の設定で,乱歩 MH 法より速い収束が確認されている.本論文の結果を通じて,このことを理論的に確認することもできる!

1.2 最適スケーリングについて

() では乱歩 MH の最適スケーリングが調べられ,漸近的な採択率を 0.234 とするのが良いこと,そして提案分散は次元 n に対して n1 のオーダーで漸近的に分散させるのが良いことが示されている.

いずれも n の漸近論的な結果であるが,() で確認されたように,比較的低次元でもこの指針は有効である.

これと同じように,Langevin アルゴリズムにおいても最適スケーリングを論じたい.

MALA は目標分布の情報を用いた提案をするため,最適な採択率はより高い水準で調整されるべきであるだろう,という結果の予測が立つ.

1.3 主結果の概要

  • 最適な漸近的スケーリングは,採択率を 0.574 としたものである.これは () でも実験的に検証されていた.
  • 提案分散は n1/3 のスケーリングを持つべきである.これは () でも実験的に観察されていた.
  • 従って,アルゴリズムが収束するには O(n1/3) のステップが必要であり,ランダムウォーク MH 法の O(n) よりもよっぽど良い(スピード測度 を踏まえた議論).

Furthermore, the proposal variance should scale as n1/3, and thus O(n1/3) steps are required for the Langevin algorithm to converge.

1.4 スピード測度

speed measure が MCMC の効率性を測るにあたって極めて重要な指標であることを説明している.

まず第一に,ベイズ計算法としては,Markov 連鎖 X と関数 f:ER に対して,その Monte Carlo 推定量の漸近分散の逆数 ef:=(limnnV[1ni=1nf(Xi)])1 が最重要指標の1つとして挙げられる.

しかし拡散極限では,eff に依存せず,スピード測度のみの関数になるのである.

これにより,高次元極限 n においては MCMC アルゴリズムの性能比較が理論的に行える.

All other measures of efficiency are equivalent (up to a normalization constant), including those described above.

また,0.574 がスピード速度 h の最大値点であるが,[0.4,0.8] の区間ならばほとんど変わらない.

1.5 設定

目標分布は,ある密度 f に従う確率変数の独立同分布観測であるとし, πn(x):=i=1nf(xi)=:i=1neg(xi) であると仮定して議論する.

πn に対する分散パラメータ σ2 を持った 可逆な Langevin 拡散 (reversible Langevin diffusion) とは, dΛt=σdBt+σ22log(πn(Λt))dt をいう.

この step variance {σn2} による離散化を Λ~t+1=Λ~t+σnZt+1+σn22log(πn(Λ~t)) とする.これは σn2 をどんなに小さく取っても収束しない可能性がある.

Λ~ の不変分布はそのままでは πn ではないから,Λ~ の MH 法による修正を考える. Yt+1:=Xt+σnZt+1+σn22log(πn(Xt)) とし, Xt+1:={Yt+1確率αn(Xt,Yt+1)Xt確率1αn(Xt,Yt+1) αn(Xt,Yt+1):=πn(Yt+1)qn(Yt+1,Yt)πn(Xt)qn(Xt,Yt+1)1 qn(x,y):=1(2πσn2)n/2exp(12σn2yxσn22log(πn(x))22)=:i=1nq(xin,yi).

ステップサイズ σn2 はちょうど乱歩 MH のステップサイズのような役割を果たす.大きくすると,一歩で動く幅が大きくなるが,採択率が低くなりすぎると逆効果である.

2 主結果

MALA {Xt} については,定常性を仮定する:X0πn

πn は任意次の積率を持ち,gCp8(Rn) で,ある多項式 M0 について, |g(i)(x)|M0(x) xRn,i=0,1,,8, とする.加えて,SDE の議論のために gLip(Rn) も仮定する.

{Jt}L(Ω;Rn) をレート n1/3 を持つ Poisson 過程で,σn2:=l2n1/3(l>0) に対して Γtn:=XJt で定まる {Γtn} を純粋跳躍過程とする.

αn(l):=Rnπn(x)qn(x,y)αn(x,y)dxdy=E[πn(Y)qn(Y,X)πn(X)qn(X,Y)1]Γ を定める採択率の πn-平均とする.

定理1(平均採択率の極限)

limnan(l)=a(l):=2Φ(Kl32) K:=Eπ1[5g(X)23g(X)348]>0.

定理2(拡散極限)

{Un}L(Ω;R)Γn の第一成分とする.このとき,{Un} は Skorokhod 位相について次の拡散過程 U に弱収束する: dUt=h(l)dBt+12h(l)ddxlog(π1(Ut))dt. h(l):=2l2Φ(Kl32).

この ha(l)=0.574 を満たす点 l で最大化される.

2.1 実際的含意

Besag, J. E. (1994). Comments on “Representations of Knowledge in Complex Systems” by U. Grenander and M. I. Miller. Journal of the Royal Statistical Society. Series B (Methodological), 56(4), 591–592.
Fearnhead, P., Bierkens, J., Pollock, M., and Roberts, G. O. (2018). Piecewise deterministic markov processes for continuous-time monte carlo. Statistical Science, 33(3), 386–412.
Gelman, A., Roberts, G. O., and Gilks, W. R. (1996). Efficient Metropolis Jumping Rules. In Bayesian Statistics 5: Proceedings of the Fifth Valencia International Meeting. Oxford University Press.
Kennedy, A. D., and Pendleton, B. (1991). Acceptances and autocorrelations in hybrid monte carlo. Nuclear Physics B - Proceedings Supplements, 20, 118–121.
Mountain, R. D., and Thirumalai, D. (1994). Quantative measure of efficiency of Monte Carlo simulations. Physica A: Statistical Mechanics and Its Applications, 210(3), 453–460.
Neal, R. M. (1993). Probabilistic Inference using Markov Chain Monte Carlo Methods. Department of Computer Science, University of Toronto. Retrieved from https://glizen.com/radfordneal/review.abstract.html
Roberts, G. O., Gelman, A., and Gilks, W. R. (1997). Weak Convergence and Optimal Scaling of Random Walk Metropolis Algorithms. The Annals of Applied Probability, 7(1), 110–120.
Roberts, G. O., and Rosenthal, J. S. (1998). Optimal scaling of discrete approximations to langevin diffusions. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 60(1), 255–268.
Roberts, G. O., and Tweedie, R. L. (1996). Exponential convergence of langevin distributions and their discrete approximations. Bernoulli, 2(4), 341–363.
Rossky, P. J., Doll, J. D., and Friedman, H. L. (1978). Brownian dynamics as smart Monte Carlo simulation. The Journal of Chemical Physics, 69(10), 4628–4633.

Footnotes

  1. その際なぜか () を引用.↩︎