数学者のための統計力学2
小正準集団・正準集団・大正準集団
司馬博文
5/10/2024
7/31/2024
A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
現在,AI,専門的には機械学習と呼ばれる分野の研究と社会実装が急速に進んでいる.
機械学習は,元々は情報理論と計算機科学に源流を持つが,ロボティクス,コンピュータビジョン,認知科学,統計力学,統計学を巻き込んで,かつてないほど学際的な研究テーマとして雪だるま式に成長している.
特に,トランスフォーマーや状態空間モデルなどを取り入れた大規模な深層学習モデルは学術・産業の両面で大きな成功を見ている.同時に,大自由度モデルとしての深層学習モデルは,平均場理論をはじめとした統計力学の手法を通じての理論解析も進んでいる.
Tensor Programs (Yang, 2019) など,実際に応用に貢献できる理論も急速に発達してきている.この応用と理論の関係は,今後さらに密接になっていくだろう.
高次元統計学,情報統計力学などがキーワードとなっていくだろう.しかし筆者は,ここに新たなキーワードを提案したい.それは
可測空間
統計モデルとは,
このように統計学で
統計力学において,ランダムな系(時々刻々と物理量の確率分布が移り変わっていく系)は,
機械学習では,統計的な逆問題を解くという問題意識を古典的な統計学と共有しており,特に
ここで筆者は,この
数学者 Mikhael Gromov によると,空間
だからといって何だというわけではないが,幾何と解析の,未知の対象
いわば統計の 順問題 を解いてきたと言える.
(平衡)統計力学は系の統計的ふるまいを記述するために,正準集団を代表としていくつかの等価なモデルを用意しており,3 場合に応じて計算しやすいものを用いるというモデル選択の立場に立っていると言える.4
系の確率的なダイナミクスを予測するために (Metropolis et al., 1953) や (Glauber, 1963) の方法など,現在 MCMC として知られる重要なシミュレーション法が開発された.
つまり,現代ではベイズ統計学では事後分布からの推論手法として用いられる MCMC は,物理学においては「実際の系よりも高速に平衡に至るように設計された Markov ダイナミクス」として発明されたものであり,平衡分布の統計的な性質を調べようとするサンプリング法として開発されたということである.
MCMC の近年の発展はこちらの記事も参照:
基本的には統計的な逆問題,すなわちデータから背後の確率分布を推定する問題を解く.
だが,特に統計的な手続きを
ベイズ手法を例にとれば,推論を MCMC などのダイナミクスに任せるのではなく,KL-乖離度を最小にする最適化によって実行する(変分推論という).
変分推論だけでなく,多くの物理学的な原理が,何かしらの汎函数の最小化問題として変分法的に理解されるのと同様,5 機械学習の多くのアルゴリズムは
こうして,
そのためには,統計的な営みを
そうすれば,ベイズ模型の物理的な意味を解析する場面と,高速なデータ解析を実行したい場面とに,明瞭な架け橋が渡されるのである.
統計的推論というダイナミクスを,変分原理の眼から捉える,情報の物理学になるかもしれない.変分原理に,かつてなかったベイズ推論としての意味や事前分布が明確化されることで,種々の推論アルゴリズムを統一的に理解することができるかもしれない.
このような観点から,
物理的アプローチ | 機械学習的アプローチ | |
---|---|---|
数学的内容 | ||
統計的関心 | 順問題 | 逆問題 |
ベイズ推論エンジン | MCMC | 変分推論 |
解析者 | 人間 | 計算機 |
現時点で筆者が集めている例は次のとおりである:
機械学習の過程が,相互情報量の最小化の過程として特徴付けられたのは (Ackley et al., 1985) 以来であるようである.
例えば,MCMC よりも多峰性に強いサンプリング法として期待されている テンパリング SMC 法6 は,最適化の観点からは,KL ダイバージェンスを 鏡映降下法 によって最小化した際の離散力学系と等価になると報告されている (Chopin et al., 2023).
(樺島祥介, 2002, p. 4) に倣った.ここでは,「効率的な平均計算法の開発は統計力学ではエルゴード理論と同じくらい重要な意味を持つ」と,このような計算の問題を順問題と呼んでいる.そして,次のように続ける:「実のところ,歴史的に統計学は観測データからそれを生成した統計モデルを推定することで事実を説明する 逆問題 を中心に発展してきたという経緯があり,順問題 的な難しさが広く意識されはじめたのは計算機が発達し大規模な統計モデルが盛んに用いられるようになった比較的最近のことである.」↩︎
同講義録 (深谷賢治, 1997, p. 12) にて,平面幾何とは,例えば円とは
主な目標が熱力学極限にあり,この極限において等価な予測を与えるモデルとして等価である,という意味である (田崎晴明, 2008, p. 333) など.↩︎
幾何光学における Fermat の原理から懐胎されていたアイデアであり,解析力学の最小作用の原理に代表され,同様の原理は量子力学,電磁気学など多くの分野で通用する.↩︎