数学による統一的アプローチ
4/28/2024
A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
多くの応用を持つが,原理は同一である.
ベイズ深層学習,ベイズ最適化,……
ベイズが取り組んだ問題(現代語訳)1
2値の確率変数は \(Y_i\in\{0,1\}\) はある確率 \(\theta\in(0,1)\) で \(1\) になるとする: \[ Y_i=\begin{cases} 1&\text{確率 }\theta\text{ で}\\ 0&\text{残りの確率} 1-\theta\text{ で} \end{cases} \] このような確率変数の独立な観測 \(y_1,\cdots,y_n\) から,ある区間 \((a,b)\subset[0,1]\) に \(\theta\) が入っているという確率を計算するにはどうすれば良いか?
ベイズの定理1
任意の可積分関数 \(g\),確率変数 \(\Theta\sim\operatorname{P}^\Theta\),部分 \(\sigma\)-代数 \(\mathcal{G}\) について, \[ \operatorname{E}[g(\Theta)|\mathcal{G}](\omega)=\frac{\int_\mathbb{R}g(\theta)p(\omega|\theta)\operatorname{P}^{\Theta}(d\theta)}{\int_\mathbb{R}p(\omega|\theta)\operatorname{P}^\Theta(d\theta)}\;\;\text{a.s.}\,\omega \]
一般には次の形で使う: \[ p(\theta|x)=\frac{p(x|\theta)p(\theta)}{\int_\Theta p(x|\theta)p(\theta)\,d\theta} \]
証明
確率空間を \((\Omega,\mathcal{F},\operatorname{P})\),確率変数 \(\Theta\) は可測関数 \(\Omega\to\mathcal{X}\),可積分関数は \(g\in\mathcal{L}(\mathcal{X})\) とし,定理の式は確率測度 \(\operatorname{P}\) に関して確率 \(1\) で成り立つという意味であるとした.
可測空間 \((\Omega,\mathcal{G})\) 上の測度 \(\operatorname{Q}\) を \[ \operatorname{Q}(B):=\int_B g(\theta(\omega))\operatorname{P}(d\omega),\qquad B\in\mathcal{G} \] と定めると, \[ \operatorname{E}[g(\Theta)|\mathcal{G}]=\frac{d \operatorname{Q}}{d \operatorname{P}}. \] なお,この定理は暗黙に条件付き期待値 \(\operatorname{P}[B|\Theta]\) は正則で,\((\Omega,\mathcal{G})\) 上の \(\sigma\)-有限な参照測度 \(\lambda\) に対して次の密度を持つことを仮定した: \[ \operatorname{P}[B|\Theta=\theta]=\int_B p(\omega|\theta)\lambda(d\omega). \] この下では,Fubini の定理から \[ \begin{align*} \operatorname{P}[B]&=\int_\mathbb{R}\operatorname{P}[B|\Theta=\theta]\operatorname{P}^\Theta(d\theta)\\ &=\int_B\int_\mathbb{R}p(\omega|\theta)\operatorname{P}^\Theta(d\theta)\lambda(d\omega) \end{align*} \] \[ \begin{align*} \operatorname{Q}[B]&=\operatorname{E}[g(\Theta)\operatorname{E}[1_B|\sigma[\Theta]]]\\ &=\int_\mathbb{R}g(\theta)\operatorname{P}[B|\Theta=\theta]\operatorname{P}^\Theta(d\theta)\\ &=\int_B\int_\mathbb{R}g(\theta)p(\omega|\theta)\operatorname{P}^\Theta(d\theta)\lambda(d\omega). \end{align*} \] よってあとは \[ \frac{d \operatorname{Q}}{d \operatorname{P}}=\frac{d \operatorname{Q}/d\lambda}{d \operatorname{P}/d\lambda}\;\operatorname{P}\text{-a.s.} \] を示せば良い.これは (Shiryaev, 2016, p. 273) に譲る.
脳の平時の活動は経験的事前分布を表現していると解釈できる (Berkes et al., 2011)
脳の神経回路はベイズ推論(正確には,事後分布からのサンプリング)を行っている可能性がある (Terada and Toyoizumi, 2024)
\[ p(\theta|x)=\frac{p(x|\theta)p(\theta)}{\int_\Theta p(x|\theta)p(\theta)\,d\theta} \]
ベイズの定理で終わりじゃない.
→「どう実際に計算するか?」(特に分母の積分が問題)
ベイズ統計,ベイズ機械学習…… はすべてベイズの定理を使っている.
→効率的で汎用的な計算方法を1つ見つければ,多くの応用分野に資する.
受験問題で出題される積分問題は,解析的に解ける異例中の異例
加えて,「解析的に解ける」もののみを扱うのでは,モデリングの幅が狭すぎる
どんな関数 \(p(x|\theta),p(\theta)\) に対しても積分 \[ \int_\Theta p(x|\theta)p(\theta)\,d\theta \] が計算できる方法が欲しい.
数値積分(グリッド法)
→ Riemann 積分の定義を地で行く計算法
→ 3次元以上でもう現実的には計算量が爆発する
モンテカルロ積分法
→ 確定的なグリッドを用いるのではなく,乱数を用いる
It is evidently impractical to carry out a several hundred-dimensional integral by the usual numerical methods, so we resort to the Monte Carlo method. (Metropolis et al., 1953, p. 1088)