A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
博士課程の標準卒業年限まで残り3年を切ったこの段階で,現時点で考えている研究の方向性を5つ書き留めておきたい.
おおまかに,統計学・機械学習における計算手法(特にサンプリング手法)を,確率過程の技術を用いて効率化する,という方向性が共通している.
MCMC も拡散モデルも大きな成功をおさめている手法であるが,「提案時の枠組み(Markov 連鎖と拡散過程)に縛られすぎているところがあるのではないか?」というのが私の秘められたテーマである.1
MCMC の背景
MCMC の確立
MCMC の手法自体は (Metropolis et al., 1953) が始まりであり,以降統計物理分野で発展を遂げていった.Gibbs サンプラーに対応する手法である熱浴法 (Glauber, 1963) もこの時点で既に現れる.
一般の確率分布からのサンプリングを可能にする手法である,というより抽象的な理解は (Hastings, 1970) で確立された.その際に,Markov 連鎖を記述するには遷移行列 \(P\) を一つ構築すれば良い,そしてその必要条件は簡単な式(詳細釣り合い条件)で表せる,という数学的な手軽さが大いに役立ったと思われる.
真に統計分野で再発見されたのはコンピュータが普及したのちである.画像処理と空間統計の分野で MCMC が採用され活発に研究され,その中で (Geman and Geman, 1984) により Gibbs サンプラーの名前がついた.これが真に一般の統計分野にまで普及したのは,統計学の一流誌で紹介した (Gelfand and Smith, 1990) からだと言われる.
こうして統計の広い分野に普及した MCMC は,大きく応用分野での発展と手法的発展の2つに分かれた.応用分野では,Gibbs サンプラーが今での重要な位置を占めていると言える.これらのモデルの構造を利用した MCMC アルゴリズムは数多く提案されている.
汎用 MCMC 手法の発展
一方で,モデルによらずブラックボックスで適用できる汎用手法の探索は,独自の経路を辿ったと言える.筆者の専門も専らこちらである.まず (Grenander and Miller, 1994) のコメントにおいて,(Besag, 1994) が,分布 \(\pi\) に収束する Langevin dynamics \(\{X_t\}\subset\mathcal{L}(\Omega;\mathbb{R}^d)\) \[ dX_t=\nabla(\log\pi(X_t))\,dt+\sqrt{2\beta^{-1}}\,dB_t,\qquad\beta>0, \tag{1}\] を提案分布に用いた Hastings 法を示唆し,これは現在でも統計・機械学習の双方で理論的に重要な位置を占めている.
理論解析には主に2つのアプローチがある.1つはスケーリング解析であり,もう1つはスペクトル解析である.後者は筆者の専門ではないが,対数 Sobolev 不等式,等周不等式,対数凸分布,などがキーワードになる.
前者では,空間の次元 \(d\to\infty\) の極限において,\(\{X_t\}\) の時間と空間についてのスケーリングであって,確定的な極限を持つスケールを探す.続いて,そのダイナミクスについて中心化し,Gauss 過程に収束するような中心極限定理のスケールを特定する.
後者の中心極限定理のスケールにおける極限を調べ,その極限過程の平均自乗移動距離を比較することで,アルゴリズムの「速さ」を比較するというものである.これは,当該の過程からの出力を用いた Monte Carlo 推定量の漸近分散を比較する,という明確な意味を持つ.
本アプローチは (Roberts et al., 1997) により創始され,(Roberts and Rosenthal, 2001) に Statistical Science 誌での解説記事がある.
以上,MCMC が定める確率過程に対する理論解析のアプローチを2つ紹介したが,アルゴリズムとしての解析や計算複雑性の議論はまた別である.上述の2つの過程に対する解析も,計算複雑性に対する含意が可能である.例えばスケーリング解析については (Roberts and Rosenthal, 2016) など.
アルゴリズムに目を向けると,1つ厄介な点に気づく.そもそも Langevin 拡散過程 (1) をシミュレートするには離散化が必要であり,その際の誤差によって,離散化して得る Markov 連鎖の平衡分布は元々の \(\pi\) からズレてしまう.統計分野ではこのズレを補正するために Hastings の棄却法の枠組みが要請される.すると元々の Langevin 拡散 (1) と結果として得る MCMC とは,収束特性が異なる場合がある (Roberts and Rosenthal, 1998).補正なしのものを ULA (Unadjusted Langevin Algorithm),ありのものを MALA (Metropolis-adjusted Langevin Algorithm) と呼ぶ.
ULA と MALA では当然計算複雑性が違う.MALA では各棄却法のステップで尤度比の評価が必要になり,データ数に応じて計算量が増える.一方で ULA を Monte Carlo 法に用いると漸近的に消えないバイアスを持つ.そこで,ULA のような特性を持つ手法を低精度手法,MALA を高精度手法と呼び,前者から初めて,途中でこの2つを切り替えることで,良いところどりをすることができる.この議論は (Altschuler and Chewi, 2023) から始まり,機械学習の分野で盛んである.
Hastings の枠組みからの離陸
以上の議論は全て,(Hastings, 1970) の枠組みの下での MCMC 手法であった.提案 \(Q\) には大きな自由度があり,これを補正する形で所望の遷移核 \(P\) を得る,という構成法である.
離散時間の Markov 連鎖を生成することに拘らなければ,この枠組みから逸脱した Markov 過程を容易に作り出すことができる.
その主なアイデアは,所与のダイナミクスに対して,ジャンプによって制御するというものである.
PDMP は rejection-free MCMC などのキーワードの下で,当初は Event-Chain Monte Carlo の名前で,やはり統計物理分野で提案された (Bernard et al., 2009).
1 真に高次元で効率的な PDMP リフレッシュ戦略の特定
本研究テーマは Boost の申請書 でも扱ったもので,自分が現在中核としている研究プロジェクトである.
2 Hamiltonian Monte Carlo と測度の集中現象
3 非定常レジームと確定的流体極限
4 Stick technique で何が可能になるか?
実は本研究テーマは,筆者が人生で最初に取り組んだ研究課題であるが,恐ろしいほど難しい可能性が浮上しつつある.第19回日本統計学会春季集会での発表 でも扱ったので,そちらの 予稿 も参考にしてほしい.
拡散モデルの背景
5 拡散モデル
Footnotes
確率過程の中でも,Markov 連鎖は非負行列,拡散過程は SDE という,直感的な記法と calculus が確立された爛熟した分野であることは注記に値するだろう.しかしこれが数学的に自然なものの見方であるとは限らない.私見ではあるが,Markov 過程や確率微分方程式などの確率過程の枠組みは,確率積分がセミマルチンゲールの枠組みにまで一般化されたことを皮切りに,この1世紀でまだまだ化ける要素を秘めていると思う.それくらいに底が見えない領域であり,Lebesgue 積分の定義,Kolmogorov による確率論の公理化などに匹敵するような,分野としてもう一段階の変化をまだ隠しているのではないかと感じる.↩︎