A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 はじめに
確率核 \(P\) こそが Markov 連鎖の数学的本体である.
1.1 確率核:Markov 連鎖の本体
\((E,\mathcal{E}),(F,\mathcal{F})\) を可測空間とする.確率核とは関数 \(E\to\mathcal{P}(F)\) のことをいう(ほとんどの場合可測になる:第 3.1 節).ただし,\(\mathcal{P}(F)\) は \(F\) 上の確率測度全体の集合とした.
多くの場合,\(\mathcal{P}(E)\) は Banach 空間内の \(w^*\)-閉な凸集合になっている.このことが,最終的に カーネルトリック の基となる.
\(E\) 上の確率核 \(P:E\to\mathcal{P}(E)\) が定まると,任意のスタート地点 \(x\in E\) に対して,これを起点とする Markov 連鎖 \(\{X^x_n\}_{n=0}^\infty\subset\mathcal{L}(\Omega)\) が構成できる.
ここで,確率変数 \(X^x_n\) を定義するために謎の標本空間 \((\Omega,\mathcal{F},\operatorname{P})\) が出てきた.これは数学的に確率変数を定義するために必要であるが,ご存知の通り \(\Omega\) の性質が問題になる場面はほとんどない,純粋に形式的な存在である.一方で数学的な本体は核 \(P\) なのである.まさに「核」.
Markov 連鎖の実体は分布であるが,これは確率核 \(P\) を用いて \(\{(P^*)^n\delta_x\}_{n=0}^\infty\subset\mathcal{P}(E)\) と表せる: \[ X^x_n\sim (P^*)^n\delta_x,\qquad n\in\mathbb{N}. \] \((P^*)^n\) は第 2.3 節参照.\(\delta_x\) は \(x\in E\) 上のデルタ測度である.
1.2 次元を上げてランダムネスを消す
ここで,\(X^x_n\) 自体は確率変数であり,ランダムな存在である.これを捉えるために測度論が必要だったのである.特に確率過程の議論に必要な測度論は大変込み入っている.
しかし分布 \((P^*)^n\delta_x\) は空間 \(\mathcal{P}(E)\) 上の点であり,全体として \(\mathcal{P}(E)\) 上の(確定的な)力学系を定めている.ランダムネスが消えているのである!
ただしその代わり,例え \(E=\mathbb{R}^d\) であっても,\(\mathcal{P}(E)\) は無限次元空間になっている.
Newton 力学が扱う運動は結局,\(\mathbb{R}^n\) など有限次元空間上の幾何学に帰着する.1
一方で確率的な系は,確率核 \(P\) を通じて,無限次元空間 \(\mathcal{P}(E)\) 上の幾何学に帰着するのである.時代は情報幾何学である.2
1.3 \(\mathcal{P}(E)\) 上の幾何学を構築する試み
\(\mathcal{P}(E)\) が無限次元と言えど,一度同じく「力学系」に帰着してしまえば,その数学的な大枠は共通するはずである.
まず,物理学で重要な幾何学的原理として,変分原理がある.これは,空間上に自由エネルギーや作用などの汎函数を定義して,これを最小化するものとしてダイナミクスを理解する方法である.
実際,モンテカルロ法が定める \(\mathcal{P}(E)\) 上の力学系を,勾配流として理解することが進んでいる (Jordan et al., 1998), (Chopin et al., 2023).
最適輸送の名前の下で,\(\mathcal{P}(E)\) の幾何学を考慮したサンプリング法の開発も進んでいる.
エルゴード理論において,多くの基本的な力学系(減衰振動など)は指数収束をするが,同様にして多くの基本的な Markov 核も指数収束をする.
1.4 確率核が数学的に重要な理由
確率核を確率空間の射とみる見方(第 2.1 節)が急速に浸透しており,これは Markov 圏 の概念にも後押しされて急速に浸透しつつある.
Markov 圏は確率論,情報理論,統計学,因果推論に散らばっている基本的な概念に対して,統一的に形式的な定義を与える枠組みとして期待されている.
例えば,「エントロピー」は情報源や通信路が「決定論的」な状態からどれほどかけ離れているか?の指標として特徴付けることができるという (Perrone, 2024).
また Markov 圏上で一般化された形で,Kolmogorov や Hewitt-Savage の 0-1 法則,Blackwell の定理,エルゴード分解定理などが,純粋に代数的に証明されているという (Perrone, 2024).
この独立性の代数・図式的な特徴付けは,確率的グラフィカルモデル の分野の結果,(Hammersley and Clifford, 1971) の定理などと重なる部分も多い.
だが,確率核の概念は,純粋に数学的な文献を除いてまだあまりポピュラーな概念であるとは言えないのが現状であろう.
1.5 カーネル法でいう「カーネル」も確率核
実際,カーネル法でいう「カーネル関数」も,(いつでも RBF カーネル のように確率核になるとは限らないが)核の一種である.
第 3.1 節で説明するように,核とは可測写像 \(K:E\to\mathcal{S}(F)\) でもある.ただし,\(\mathcal{S}(F)\) は符号付き測度の集合とした.
\(\mathcal{S}(F)\) は極めて大きい空間である.例えば \(F\) 上の \(\sigma\)-有限測度 \(\nu\in\mathcal{S}(F)\) を1つ定める毎に,Radon-Nikodym の定理により Banach 空間の同型 \[ L^1(\nu)\overset{\sim}{\to}\mathcal{S}^1(F)\hookrightarrow\mathcal{S}(F) \] が引き起こされる.
カーネル法 とは,核 \(K:E\to\mathcal{S}(F)\) に沿って \(E\) 上の点を \(\mathcal{S}(F)\) 上に埋め込む方法である.
さらに \(K\) が半正定値関数が定める変換であった場合,再生核 Hilbert 空間の理論により,\(\mathcal{S}(F)\) の部分空間として,内積が \(K\) の計算だけで効率的に計算できるようなものが選び出せる.
こうして,\(E\) 上のデータ解析を \(\mathcal{S}(F)\) 上に写す非線型対応を導く,数学的に統一された方法がカーネル法である(例 2.2 節も参照).
1.6 圏論についての補足
なお,射 という用語も,代数幾何と代数トポロジーから多くの数学分野へ浸透した感があるが,近年は純粋数学のコミュニティからも出つつあると感じられる.
「射」とは代数系の準同型の概念を一般化したものであり,「対象」と共に 圏 (category) という代数系の構成要素である.
一般にある対象とある射が圏をなすと言ったとき,その射は,対象の何らかの数学的構造を「保存」する働きを持つと理解される.例えば線型空間における線型写像,順序集合における単調写像,多様体における可微分写像,群や環における準同型が,それぞれの圏における「射」にあたる.
一方で,可測空間や確率空間で可測写像を射に取ると,壊滅的に実りのない圏ができる.一体どうしてだろうか?
1.7 圏論と現代数学
数学的対象を中心に据えて数学を整理した Bourbaki が現代数学の始まりであるという共通認識は一定に確立されている.
しかし近年,実は射の方が重要な対象なのではないか,という共通了解もできつつある:
余談だが、homomorphism の訳語として、準同形ということばが定着している。これは、同形もどきという意味だから、同形がだいじというブルバキの思想を反映したものといえよう。射のほうが基本的という、より現代的な視点にはそぐわないが、いまさら変えることもできないだろう。(斎藤毅, 2010)
例えば距離空間の射には選択の余地がある.連続関数を取るか,一様連続写像と取るか,非拡大写像を取るかで,圏の振る舞いは全て違う.連続写像と取った場合は,位相空間の圏の充満部分圏になる.つまり,位相構造以外の構造は無理される.一様連続写像を取ると,完備性も見るようになる.非拡大写像を取ると,距離構造の全てが保存されるようになる.
このようにして,Bourbaki は集合の上に構造を添加していく描像を数学に持ったが,現代的には射の選択によって構造を選択していると理解するのである.
1.8 圏論から見た「確率核」
ここで,確率空間の圏において,射を確率核に取ると,極めて豊かな構造を持った圏 \(\mathrm{Stoch}\) を得る.これは Markov category の1つとして調べられている.
すなわち,確率空間の実体は,その可測空間としての構造にはないと言うべきである.実際,測度論が確率論において頻出するにも拘らず極めて非本質的に感じられることは,統計を営むものである一定の一致を得るだろう.
この確率核と,これがなす圏の構造を調べることで,「確率空間」を「確率空間」たらしめるものは何か?が考えられている.この分野を綜合的確率論 (synthetic probability theory) という (Fritz, 2020).
1.9 関連ページ
2 核の定義と性質
2.1 定義
核には積と呼ぶべき結合的な演算が定まる.
このことにより,確率空間を対象とし,確率核を射とする圏が定まることになる.これを \(\mathrm{Stoch}\) と呼ぼう.単位射は後述の \(K_{\mathrm{id}_E}\) が与える.
2.2 核の例
核は極めて多くの重要な概念を一般化し,統一的な見方を提供してくれる.
まずなんといっても,確率核は確率行列の無限次元への一般化と捉えられる:
さらに,正則な条件付き確率とは,条件付き確率 \(P:E\times\mathcal{F}\to[0,1]\) が確率核になることに他ならない:
続いて,そもそも核は決定論的な対象も包含する概念であることを見る:
\(k:E\times E\to\mathbb{C}\) を半正定値関数とすると,(Moore, 1939) の定理から,ただ一つの再生核 Hilbert 空間 \(H\subset\mathbb{C}^E\) が存在して \(k\) を核に持つ.
このとき,特徴写像 \(\Phi:E\to H\) は関数である.理想的には全単射であり,カーネルトリック \[ (\Phi(x)|\Phi(y))=k(x,y) \] を通じて \(E\) 上のデータ解析を \(H\) 上に押し出す.
これをさらに一般化すると,「核」の語源に辿り着く:
2.3 確率核の作用
確率核の2つの作用は,作用素として非拡大的である.ただし,\(\mathcal{L}_b(E)\) 上に一様ノルム,\(\mathcal{P}(E)\) 上に全変動ノルムを考えるとする:
3 確率核の特徴付け
3.1 関数としての確率核
\(F\) が可分距離空間であるとき,確率核とは本質的に可測関数 \(E\to\mathcal{P}(F)\) である.
3.2 作用素としての確率核
さらに進んで,次が成り立つ:
References
Footnotes
Hamilton の定式化などを通じて,接束 \(T(\mathbb{R}^n)\) または余接束 \(T^*(\mathbb{R}^n)\) 上の幾何学に変換されるが,やはり有限次元である.↩︎
ちょうど,非線型力学系において,Koopman 作用素を導入することで,扱う空間が無限次元になってしまう代わりに,ダイナミクスの線型性を回復することに似ている.非線型力学系を扱うにあたって,非線型性の除去が肝心であるように,確率的な系の分析において,ランダムネスを取り除くことが重要であったようだ.↩︎
(Jacod and Shiryaev, 2003) p.65,(Kolokoltsov, 2011) 3.5節 p.110, (Klenke, 2020) 8.3節 p.204 では transition kernel,(Dellacherie and Meyer, 1988) p.1,(Revuz and Yor, 1999) 定義III.1.1.1 p.79,(Revuz, 1984) 定義1.1.1.1 p.8,(Kallenberg, 2017) p.16, (Bass, 2011) 定義19.2 p.154 では kernel と呼んでいる.↩︎
(Revuz, 1984) 定義1.1.1.1 p.8 では符号付き測度であることを許しているが,我々はその場合は 符号付き核 と呼ぶこととしよう.↩︎
(Crisan and Doucet, 2002) p.737 では Markov transition kernel,(Del Moral, 2004) p.9 では Markov kernel,(Kolokoltsov, 2011) 3.5節 p.110 では transition probability kernel or simply probability kernel と呼び,(Chopin and Papaspiliopoulos, 2020) 定義4.1 p.36, (Bremaud, 2020) 3.3.3節 p.135 では propability kernel,(Kulik, 2018) p.25 では probability kernel としてさらに半群性も満たす族を transition probability kernels と呼ぶ.(Le Gall, 2016) pp.151-152 は Markovian transition kernel と transition semigroup と呼ぶ.(Dellacherie and Meyer, 1988) p.2 は Markovian kernel.(Kallenberg, 2017) p.29 と (Hairer, 2021) では可測関数 \(E\to\mathcal{P}(F)\) と定義しており,transition kernel と呼んでしまう.↩︎
(Dellacherie and Meyer, 1988) p.2,(Kolokoltsov, 2011) 3.5節 p.110.(Del Moral, 2004, p. 9) は (bounded) integral operator と呼ぶ.↩︎
(Kolokoltsov, 2011, p. 110) 3.5節 も参照.↩︎
(鎌谷研吾, 2021, p. 382) の呼称に一致.(Dellacherie and Meyer, 1988, p. 4) は composition,(Gikhman and Skorokhod, 2004, p. 76) 定理II.4.1 は畳み込みと呼ぶ.↩︎
これは一般の符号付き核については成り立たない (Revuz, 1984, p. 12).↩︎
(Jacod and Shiryaev, 2003, p. 65),(Klenke, 2020, p. 205) 8.3節.↩︎
(Dellacherie and Meyer, 1988) 7 p.4,(Revuz, 1984, p. 9),(Revuz, 1984, p. 13) 演習1.13.↩︎
(Dellacherie and Meyer, 1988, p. 5) 7,(Revuz, 1984, p. 9),(Dellacherie and Meyer, 1988, p. 2).↩︎
作用は (Hairer, 2021), (Kallenberg, 2017, p. 16), (Dellacherie and Meyer, 1988, pp. 2–3) が同様に定めている.最後の文献によると,この記法は Hunt によるものだという.\(T\otimes S\) の存在は (Gikhman and Skorokhod, 2004, p. 76) 定理II.4.1 で示されており,\(\otimes\) を 直積,\(\cdot\) を 畳み込み と呼んでいる.↩︎
これが \(\mathcal{E}\)-可測であることは,\(f\) の単関数近似を考えることで示せる (Dellacherie and Meyer, 1988, p. 2).↩︎
(Revuz, 1984, p. 10).p.36 も参照.↩︎
(1)は (Revuz, 1984, p. 9) と (Dellacherie and Meyer, 1988, pp. 5 p.3),(2)は (Dellacherie and Meyer, 1988, pp. 7 p.4).↩︎
(Kallenberg, 2017, p. 30) 補題1.14 では Borel 空間について示している.(Hairer, 2021) ではあらかじめ (2) を定義としている.(Del Moral, 2004, p. 7) は最初からこれによって \(\sigma\)-代数を定義する.(Ambrosio et al., 2008, p. 121) も初めからこれを通じて,可分距離空間 \(Y\) に対する Borel 写像 \(X\to\cP(Y)\) を定義する.(3) は (Ambrosio et al., 2008, p. 121).↩︎
(Hairer, 2018, p. 8) 演習2.34.↩︎
(Revuz, 1984, p. 9) 命題1.3.↩︎