計算とは何か

計算とサンプリングのはざまにある Monte Carlo 法

Computation
Sampling
Opinion
Author

司馬博文

Published

4/06/2024

概要

数値実験と LLM とはいずれもシミュレーションに使えるが,用いる形式が違う(数字と文字).これにより,物理的な用途と社会的な用途とに別れている.この形式の違いを超克するのが機械学習の悲願であるとするならば,計算とはなんだろうか? Monte Carlo 法とはシミュレーションと計算を架橋する存在であるならば,今後どのような貢献ができるのであろうか?

1 今後の世界で「サンプリング」はどのような役割を果たし得るか?

「シミュレーション」と「生成」という2つの姿で,サンプリングが科学と産業で存在感を表しつつある.

1.1 物理学的シミュレーション

従来物理学においては,実験と理論が相補的な関係にあった.

If it disagrees with experiment, it’s wrong. In that simple statement, is the key to science. (Feynman, 1964)

しかし今後は,計算機シミュレーションと Monte Carlo 法が新時代の科学の第三の要素になるのかも知れない.

These are some of the reasons why computer simulation has recently emerged as a third way in science besides the experimental and theoretical approach. (Griebel et al., 2007, p. 2)

素粒子論など,実験が出来ないために理論の検証がまたれている場面では,計算機シミュレーションが有望な手法になる.また半導体や製薬業界など,実験が高くつく産業では急速に計算機シミュレーションによる代替が進んでいる.

一方で,多体問題などの解析的な手法では刃が立たない場面では,数値計算が唯一の理論的進歩を与えてくれる手法になる.数値実験 という言葉に,「実験」の語が含まれている理由である.

The rapid development of parallel computing systems made it possible to recreate and predict physical processes on computers. (Griebel et al., 2007, Preface)

しかし,これには新たな数理の発展が必要である.実験結果には統計的な解釈を加えないと無意味であったように,シミュレーションも新たな統計学・機械学習と共に科学に資される必要がある.

Experimental practice rests on a long (occasionally blemished) tradition; computer simulation, because of its novelty, is still somewhat more haphazard, but methodologies are gradually evolving. The output of any simulation should be treated by the same statistical methods used in the analysis of experiments. (Rapaport, 2004, pp. 2–3)

筆者は学部入学直後に物理学実験という全理系学生必修の講義を経験し,その初回講義は不確実性の扱いについてであった.実際に講堂に集まった全学生でサイコロをふり,記録をとり,大数の法則を体験するという極めて印象深い授業であった.

未来の物理学実験の授業は,第2回授業ではコンピュータシミュレーションを扱うようになるのかも知れない.

1.2 意味論的シミュレーション

大規模言語モデル(LLM)は,物理学的なシミュレーションと相補的な世界モデルを提供しつつある.

2 計算とシミュレーションの違いとは何だろうか?

1.1 節で指摘した通り,シミュレーションとは本来は計算とは関係がなく,ある物理的な過程を別の物理的な過程によって模倣する行為である.

What distinguishes computer simulation in general from other forms of computation, if such a distinction can be made, is the manner in which the computer is used: instead of merely performing a calculation, the computer becomes the virtual laboratory in which a system is studied - a numerical experiment. (Rapaport, 2004, p. 3)

LLM では文字が,数値実験では数字が表象となっているに過ぎない.ここで文字や数字は,人間が人間の理解のために採用している形式である.VAE の中間層に特殊な形式を形式を矯正しているに過ぎない.

すると,ここを最適な形式によって相互接続し,end-to-end にすることで更なる効率化を図ろうとする論理が考えられるが,これが機械学習の悲願なのかも知れない.

2.1 Buffon の針と Monte Carlo 積分法

LLM が計算によりシミュレーションを実行する手法であるとしたら,Monte Carlo 積分法は,シミュレーションによって計算を実行する手法である.

(Liu, 2004 Preface) で Monte Carlo computation の最も初源的なアイデアは Buffon の針にあると指摘されている.

The idea of simulating random processes so as to help evaluate certain quantities of interest is now an essential part of scientific computing. (Liu, 2004)

となると,Bayesian computation とは,本質的にシミュレーションによるコンピューテーションへの反逆なのかもしれない.

Contrast of the two main approachs to Machine Learning
Bayesian Frequentist
Inference is1 Marginalization Approximation
Mathematical Idea Integration Differentiation2
Computational Idea3 Integration Optimization
Computational Solution Simulation Computation
Objective Uncertainty Quantification Recovery of True Value
Emphasis Modelling Inference

重要な観察として,

  • 決定論的な数値計算法の方が収束が速い.グリッド法などは \(O(n^{-1})\)
  • しかし,シミュレーションベースの方法の方がスケールする.Monte Carlo 積分法にしか太刀打ちできない領域は大きい上に,スケールする MCMC の最も重要な性質は,不偏推定量を通じてサブサンプルのみによる実行が可能である点である.

という2点があり,Bayesian / Frequentist 双対性の背後に隠れているものと似ている.

2.2 最適化-シミュレーションの双対性

積分は変分近似を通じて最適化問題としても解けるし,Lengevin 法や HMC などの最適化手法は積分問題を解ける.

また,最適化問題は simulated annealing (Kirkpartick et al., 1983) を通じてサンプリング問題としても解ける.

3 Bayesian Computation に賭ける思い

もしかしたら,MCMC はシミュレーションで,SMC はコンピューテーションであるというべきなのかも知れない.前者の活躍の場は,誕生から革新まで,ずっと物理学と物質科学にイニシアティブがあった.後者は防衛目的をはじめとした computer vision の文脈から生まれ,現在も機械学習など計算機方面の応用と親和性が高い.

2つは粒子 (particle) というキーワードでつながり合っており,2大ベイズ計算手法として双璧をなしている.

この2つのサンプリング手法はきっと相補的な役割を果たしながら,これからも大きく発展して固有の立ち位置を占めることになるだろう.僕をどのような旅に導いてくれるのだろうか.いずれにしろ,たくさんの人と関わることが出来ると思うと,非常にワクワクするし,良いテーマに出会ったなという感謝の気持ちでいっぱいになる.

この2つの世界樹の上から,自然科学と社会科学,計算機と人間,数学と言葉,どれもバランスよく考え続けることができたらと願っている.

References

Feynman, R. P. (1964). Seeking new laws.
Ghahramani, Z. (2015). Probabilistic machine learning and artificial intelligence. Nature, 521, 452–459.
Griebel, M., Zumbusch, G., and Knapek, S. (2007). Numerical simulation in molecular dynamics: Numerics, algorithms, parallelization, applications,Vol. 5. Springer Belin, Heidelberg.
Kirkpartick, S., Gelatt, C. D., and Vecchi, M. P. (1983). Optimization by simulated annealing. Science, 220(4598), 671–680.
Liu, J. S. (2004). Monte carlo strategies in scientific computing. Springer New York.
Rapaport, D. C. (2004). The art of molecular dynamics simulation. Cambridge University Press.

Footnotes

  1. この違いが「過学習」という現象に見舞われるかの違いでもある.“Fortunately, Bayesian approaches are not prone to this kind of overfitting since they average over, rather than fit, the parameters” (Ghahramani, 2015, p. 454)↩︎

  2. or, variation.↩︎

  3. “for Bayesian researchers the main computational problem is integration, whereas for much of the rest of the community the focus is on optimization of model parameters.” (Ghahramani, 2015, p. 454)↩︎