ベイズ統計学と統計物理学

スパース符号の復元を題材として

Bayesian
Nature
Information
Author

司馬博文

Published

6/20/2024

Modified

6/28/2024

概要
ノイズ付きで観測された情報を復元するデノイジング問題は,ベイズ推定問題として扱える.これを統計力学の観点からランダムエネルギーモデルとして解析することで,データ数無限大の極限における振る舞いを理解できる.一般に,ベイズ統計モデルはスピングラスモデルと同一視することができ,その漸近論(特に比例的高次元極限)に閾値現象が出現することはスピングラス系の常磁性相とスピングラス相の相転移と深い対応を持つ.

本稿では全ての結果に数学的に厳密な証明をつけることを優先し,簡単なモデルを取り上げた.

一般のモデルと,スピングラス理論との大局観は,次稿を参照:

1 Bayes 推定

符号の誤り訂正,または denoising の文脈で Bayes 推定を考える.

雑音が加わる通信路から受け取った観測から真の信号を推定するというデノイジング問題は,Bayes 推定が自然に選好される格好の設定である.

1.1 デノイジング問題としての設定

情報源は無記憶で,確率分布 \(p(x)dx\) に従うとし,通信路は,確率核 \(p(y|x)dy\) に従うとする.

送信符号は1つの実数 \(x^*\sim p(x)dx\) であったとし,この単一の入力 \(x^*\)\(n\) 回独立に観測する: \[ y_1,\cdots,y_n\overset{\text{iid}}{\sim}p(y|x^*)dy. \]

この観測を経たあと,送信符号 \(x^*\) はいったい何だったのかを推定することを考えると,極めて自然に Bayes 推定が選択される.

まず,何の観測もない場合,\(x^*\) の確率分布は \(p(x)dx\) である(設定上).

しかし,すでに観測 \(y_1,\cdots,y_n\) を経ている.よってこの事象の上での \(x^*\) の条件付き分布を計算すれば良いことになる: \[ p(x|y_1,\cdots,y_n) = \frac{p(\boldsymbol{y}|x)p(x)}{p(\boldsymbol{y})} \] \[ = \frac{\displaystyle p(y_1|x)\cdots p(y_n|x)p(x)}{\displaystyle\int_\mathbb{R}p(y_1|x)\cdots p(y_n|x)p(x)\,dx} \tag{1}\]

こうして,誤り訂正符号の文脈では,Bayes 事前確率・事後確率が純粋に確率(または頻度)としての解釈を持つ.通常の統計的枠組みよりも仮定が多いが,その仮定の形式が Bayes 推定の形式にピッタリなのである.

信号処理と Bayesian formalism の類似性は (Iba, 1999, p. 3876)(Zdeborová and Krzakala, 2016, p. 456) でも指摘されている.

また,統計力学をベイズ推定の特殊な場合とみなせるという見方は,(Jaynes, 1957) から始まる.1

1.2 例:Delta-Gauss 混合

入力は \(1/2\) の確率で \(x=0\) だが,もう \(1/2\) の確率で標準正規分布 \(\mathrm{N}(0,1)\) に従うとする: \[ p(x)dx=\frac{1}{2}\delta_0(dx)+\frac{1}{2}\mathrm{N}(0,1)(dx). \] 通信路は加法的 Gauss 型であるとする: \[ p(x,y)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{(x-y)^2}{2}\right). \] では真値を \(x^*=1\) として,\(n=10\) 回の観測データを生成してみる:

using Random

Random.seed!(123)
data = 1 .+ randn(10)
print(data)
[1.8082879284649667, -0.12207250811417336, -0.10463610232929588, 0.5830073648350667, 1.2875879806238557, 1.2298186980518677, 0.5782313356003073, -0.355590621101197, -0.08821851393628699, 1.7037583257923017]

愚直な計算から,\(p(\boldsymbol{y})\) は次の積分から得られる:

\[\begin{align*} p(\boldsymbol{y})&=\int_\mathbb{R}p(\boldsymbol{y}|x)p(x)dx\\ &=\int_\mathbb{R}\prod_{i=1}^n p(y_i|x)p(x)dx\\ &=\frac{1}{2}\frac{1}{(2\pi)^{n+1}}\int_\mathbb{R}\exp\left(-\frac{1}{2}\sum_{i=1}^n(y_i-x)^2+x^2\right)dx\\ &\qquad+\frac{1}{2}\frac{1}{(2\pi)^n}\exp\left(-\frac{1}{2}\sum_{i=1}^n(y_i-x)^2\right)dx. \end{align*}\]

これを実際に計算した結果は (Krazakala and Zdeborová, 2024, p. 117) で与えられている.

ここでは,邪教のような計算を啓示するのではなく,Julia と Turing を通じて計算する方法を紹介する (Storopoli, 2021)

using Turing, Distributions

prior = MixtureModel([Normal(0.0, 1.0), Normal(0.0, 0.005)], [0.5, 0.5])

@model function mixed_normal_model(data)
    μ ~ prior
    for i in 1:length(data)
        data[i] ~ Normal(μ, 1)
    end
end

model = mixed_normal_model(data)
chain = sample(model, NUTS(), 100000)
using MCMCChains, Plots, StatsPlots

plot(chain[:μ], seriestype = :density, xlabel = "x*", ylabel = "Density", title = "Posterior Distribution", color = "#78C2AD")

vline!([1], color = :pink, linewidth = 2, label = "x^* = 1")

\(x^*=0\) に原子が存在する.

ここでは密度関数は滑らかに見えるが,実際には \(x^*=0\) で不連続である.

これは,計算の都合上,\(\delta_0\)\(\mathrm{N}(0,0.005)\) で代用したためである.

1.3 MAP 推定量

定義 (maximum a posterior estimator)

\[ \widehat{x}:=\operatorname*{argmax}_{x\in\mathbb{R}}\;p(x|y_1,\cdots,y_n) \] で定まる推定量 \(\mathbb{R}^n\to\mathbb{R}\)MAP 推定量 という.

1.2 などをはじめ,ほとんどの場面では良い推定量を与え,多くの場合の最初のチョイスとして適しているかもしれない.

しかし,例 1.2 をさらに変形することで,次のような事後分布が得られる状況は容易に想像がつく:

Code
function f(x)
    if -1.8 < x < -1.6
        return 2.5
    elseif 0 < x < 1.5
        return 1
    else 
        return 0
    end
end

plot(f, -2, 2, size=(600, 400), legend=false, color="#78C2AD")
図 1

1.4 ベイズ最適推定量

図 1 の状況でも,たしかに1点のみを選ぶならば MAP 推定量で良いかもしれないが,\(x\le0\) である確率は \(x\ge0\) である確率よりも低いため,この意味では,\(x\in[0,3/2]\) の範囲に推定量が収まっていた方が好ましいかもしれない.

推定量 \(\widehat{x}_n:\mathbb{R}^n\to\mathbb{R}\) を評価するには,何らかのアプリオリな 損失 の概念が必要である.これを損失関数 \(L:\mathbb{R}^2\to\mathbb{R}\) という形で与える.

すると,損失の期待値が計算可能になり,これを 危険 という: \[ R(\widehat{x}_n):=\operatorname{E}[L(\widehat{x}_n(\boldsymbol{Y}),X)]. \]

このリスクを最小化する推定量を ベイズ最適推定量,その際のリスクを ベイズリスク という.2

1.4.1 \(l^2\)-ベイズ最適推定量

命題

\(L(x,y):=(x-y)^2\) と定める.このとき,事後平均 がベイズリスクを達成する: \[ \widehat{x}(\boldsymbol{y}):=\int_\mathbb{R}xp(x|\boldsymbol{y})\, dx. \]

図 1 の場合では,事後平均は約 \(0.1\) で,かろうじて正になる.

1.4.2 \(l^1\)-ベイズ最適推定量

命題

\(L(x,y):=\lvert x-y\rvert\) と定める.このとき,事後中央値 がベイズリスクを達成する.

図 1 の場合では,事後中央値は \(0.5\) となる.大変頑健な推定だと言えるだろう.

1.4.3 最適決定規則

今回の誤り訂正符号の文脈の目標は,\(x^*\) の復元であることを思い出せば,今回の損失は \(L(x,y)=\delta_0(x-y)\) ととり,復号が成功する確率を最大とする推定量が「最良」と言うべきであろう: \[ R(\widehat{x}_n)=\operatorname{P}[\widehat{x}_n(\boldsymbol{Y})=X] \]

これは結局 MAP 推定量 \[ \widehat{x}_n:=\operatorname*{argmax}_{x\in\mathbb{R}}p(x|\boldsymbol{y}) \] で与えられることになる.

2 統計物理からの視点

真のシグナル \(x^*\in\mathbb{R}\) を,Bayes 事後平均によって点推定する問題を,統計力学の観点から考察する.

次節 3 で,スパースな一般次元のベクトル \(x^*\in\mathbb{R}^d\) を復元する問題に拡張する.

2.1 事後分布をある物理系の平衡分布と見る

ベイズの公式 (1) が与える事後分布 \(p(x|\boldsymbol{y})\) は,次の Boltzmann-Gibbs 分布として理解できる: \[ p(x|\boldsymbol{y})=\frac{e^{\log p(\boldsymbol{y}|x)p(x)}}{p(\boldsymbol{y})} \] \[ =\frac{e^{-H(x,\boldsymbol{y})}}{Z(\boldsymbol{y})}, \] \[ H(x,\boldsymbol{y}):=-\log p(\boldsymbol{y}|x)-\log p(x), \] \[ Z(\boldsymbol{y}):=p(y). \]

すなわち,Bayes 事後分布 \(p(x|\boldsymbol{y})\) は,\(\mathbb{R}\times\mathbb{R}^n\) を配位空間に持ち,Hamiltonian \(H(x,\boldsymbol{y})\) を持つ正準集団の平衡分布と捉えることができる.

従って,Bayes 事後平均とは,この系に関する熱平均になる.加えて,MAP 推定量とは,この系に関する基底状態となる.

しかし,この系の,物理的な意義どころか,統計的な意義も定かではない.

2.2 もう一つの見方

今回,通信路は加法的に Gauss ノイズを加えるものとしたのであった: \[ p(\boldsymbol{y}|x)d\boldsymbol{y}=\mathrm{N}(x,\sigma^2)^{\otimes n}(d\boldsymbol{y}) \] この場合,前節 2.1 でみた方法の他に,事後分布 \(p(x|\boldsymbol{y})\) を次のように理解することもできる: \[ p(x|\boldsymbol{y})=\frac{e^{-H(x,\boldsymbol{y})}}{Z(\boldsymbol{y})}, \] \[ H(x,\boldsymbol{y}):=\frac{1}{2\sigma^2}\sum_{i=1}^n(x^2-2xy_i)-\log p(x), \] \[ Z(\boldsymbol{y}):=\left(\frac{1}{(2\pi\sigma^2)^{\frac{n}{2}}}\frac{e^{-\frac{\lvert\boldsymbol{y}\rvert^2}{2\sigma^2}}}{p(\boldsymbol{y})}\right)^{-1}. \]

この Hamiltonian \(H\) により定まる系の分配関数 \(Z(\boldsymbol{y})\) は,情報源 \(p(x)\) と Gauss 型通信路 \(p(\boldsymbol{y}|x)\) で与えられた観測 \(\boldsymbol{y}\) に関する周辺モデル \(p(\boldsymbol{y})\) と,完全にランダムなホワイトノイズ \(\mathrm{N}(0,\sigma^2)^{\otimes n}\) との尤度比,または ベイズ因子 になっている.

\[\begin{align*} p(x|\boldsymbol{y})&=p(\boldsymbol{y}|x)\frac{p(x)}{p(\boldsymbol{y})}\\ &=\frac{p(x)}{p(\boldsymbol{y})}\frac{1}{(2\pi\sigma^2)^{\frac{n}{2}}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x-y_i)^2}\\ &=\frac{p(x)}{p(\boldsymbol{y})}\frac{e^{-\frac{1}{2\sigma^2}\sum_{i=1}^ny_i^2}}{(2\pi\sigma^2)^{\frac{n}{2}}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x^2-2xy_i)}\\ &=\frac{p(x)e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(x^2-2xy_i)}}{Z(\boldsymbol{y})}\\ &=\frac{1}{Z(\boldsymbol{y})}\exp\left(\log p(x)-\frac{1}{2\sigma^2}\sum_{i=1}^n(x^2-2xy_i)\right) \end{align*}\]

さらに,この系 \(H\) における自由エントロピーは,\(p(\boldsymbol{y})\)\(\mathrm{N}(0,\sigma^2)^{\otimes n}\) との間の KL 乖離度となっている: \[ F_n:=\int_{\mathbb{R}^n}\log\frac{p(\boldsymbol{y})}{q(\boldsymbol{y})}p(\boldsymbol{y})\,d\boldsymbol{y}=\operatorname{KL}(p,q). \] ただし,\(q\)\(\mathrm{N}(0,\sigma^2)^{\otimes n}\) の密度とした.

この系の他の物理量も,自由エネルギーと定数倍違うのみとなっている:

命題(エントロピーと相互情報量)3

この Hamiltonian \(H\) を持つ系について,

  1. エントロピー \(H\) は次で与えられる:

    \[\begin{align*} H(Y)&:=-\int_{\mathbb{R}^n}(\log p(\boldsymbol{y}))p(\boldsymbol{y})\,d\boldsymbol{y}\\ &=\frac{n}{2}\log(2\pi\sigma^2)\\ &\qquad+\frac{1}{2\sigma^2}\int_{\mathbb{R}^n}\lvert\boldsymbol{y}\rvert^2p(\boldsymbol{y})\,d\boldsymbol{y}-F_n. \end{align*}\]

  2. 相互情報量 \(I\) は次で与えられる:

    \[\begin{align*} I(X,Y)&:=\operatorname{KL}(p(x,y),p(x)p(y))\\\\ &=\frac{n}{2\sigma^2}\int_{\mathbb{R}}x^2p(x)\,dx-F_n. \end{align*}\]

特に,いずれも自由エネルギーの定数倍である

  1. の式変形は次のとおり: \[\begin{align*} H(Y)&:=-\int_{\mathbb{R}^n}(\log p(\boldsymbol{y}))p(\boldsymbol{y})\,d\boldsymbol{y}\\ &=-\int_{\mathbb{R}^n}p(\boldsymbol{y})d\boldsymbol{y}\log q(\boldsymbol{y})-F_n\\ &=-\int_{\mathbb{R}^n}\biggr(-\frac{n}{2}\log(2\pi\sigma^2)-\frac{\lvert\boldsymbol{y}\rvert^2}{2\sigma^2}\biggl)p(\boldsymbol{y})d\boldsymbol{y}-F_n\\ &=\frac{n}{2}\log(2\pi\sigma^2)+\frac{n}{2\sigma^2}\int_{\mathbb{R}}y_i^2p(y_i)\,dy_i-F_n. \end{align*}\]

  2. 次の関係式を用いる: \[ I(X,Y)=H(Y)-H(Y|X) \] \(H(Y)\) は 1. から判明しており,\(H(Y|X)\) は次のように計算できる:

    \[\begin{align*} H(Y|X)&=-\int_{\mathbb{R}^{n+1}}\log p(\boldsymbol{y}|x)p(\boldsymbol{y}|x)p(x)\,dxd\boldsymbol{y}\\ &=-\int_{\mathbb{R}^{n+1}}\log\left(\frac{1}{(2\pi\sigma^2)^{\frac{n}{2}}}\exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-x)^2\right)\right)p(\boldsymbol{y}|x)p(x)\,dxd\boldsymbol{y}\\ &=\int_{\mathbb{R}^{n+1}}\left(\frac{n}{2}\log(2\pi\sigma^2)+\frac{\sum_{i=1}^n(x-y_i)^2}{2\sigma^2}\right)p(\boldsymbol{y}|x)p(x)\,dxd\boldsymbol{y}\\ &=\frac{n}{2}\log(2\pi\sigma^2)+\frac{1}{2\sigma^2}\int_\mathbb{R}\left(\int_{\mathbb{R}^n}\sum_{i=1}^n(x-y_i)^2p(\boldsymbol{y}|x)\,d\boldsymbol{y}\right)\,p(x)dx\\ &=\frac{n}{2}\log(2\pi\sigma^2)+\frac{n\sigma^2}{2\sigma^2}\int_\mathbb{R}p(x)\,dx\\ &=\frac{n}{2}\log(2\pi\sigma^2)+\frac{n}{2}. \end{align*}\]

これと,\(y_i\) には \(x_i\) とこれと独立な分散 \(\sigma^2\) のノイズが加わって得られる値であることから,次のように計算できる: \[\begin{align*} I(X,Y)&=H(Y)-\frac{n}{2}\log(2\pi\sigma^2)-\frac{n}{2}\\ &=-F_n-\frac{n}{2}+\frac{n}{2\sigma^2}\int_\mathbb{R}y_i^2p(y_i)\,dy_i\\ &=-F_n-\frac{n}{2}+\frac{n}{2\sigma^2}\left(\sigma^2+\int_\mathbb{R}x^2p(x)\,dx\right)\\ &=-F_n+\frac{n}{2\sigma^2}\int_\mathbb{R}x^2p(x)\,dx. \end{align*}\]

2.3 西森対称性

命題 (Nishimori, 1980)4

\(P:\mathbb{R}\to\mathbb{R}^n\) を確率核,\(X^*\in\mathcal{L}(\Omega)\) は分布 \(\nu\in\mathcal{P}(\mathbb{R})\) を持ち,\(Y\in\mathcal{L}(\Omega;\mathbb{R}^n)\) の分布は \[ \mu(dy)=\int_\mathbb{R}\nu(dx)P(x,dy) \] で定まるとする.ここで,\(Y\) で条件づけた \(X^*\) の確率分布を \(P^{X|Y}\) とする: \[ \nu(dx)=\int_{\mathbb{R}^n}\mu(dy)P^{X|Y}(y,dx). \] \[ X^{(1)},\cdots,X^{(k)}\overset{\text{iid}}{\sim}P^{X|Y} \] を独立な確率変数列とすると,次が成り立つ:任意の \(f\in\mathcal{L}_b(\mathbb{R}^{n+k})\) について,

\[\begin{align*} &\quad\operatorname{E}\biggl[f(Y,X^{(1)},\cdots,X^{(k)})\biggr]\\ &=\operatorname{E}\left[f(Y,X^{(1)},\cdots,X^{(k-1)},X^*)\right]. \end{align*}\]

\(X^{(1)},\cdots,X^{(k)}\) で表した確率変数の \(P^{X|Y}\) に関する積分を Boltzmann 積分または熱平均と呼び,観測を作り出す過程 \((X^*,Y)\) に関する積分を無秩序積分 (disorder expectation) または quenched average という.5

この設定の下で,\((X^*,Y)\) の結合分布が次の2通りで表せていることに注意: \[ \nu(dx)P(x,dy)=\mu(dy)P^{X|Y}(y,dx). \] 従って, \[\begin{align*} &\quad\nu(dx)P(x,dy)P^{X|Y}(y,dx^{(1)},\cdots,dx^{(k)})\\ &=\mu(dy)P^{X|Y}(y,dx)P^{X|Y}(y,dx^{(1)},\cdots,dx^{(k)}) \end{align*}\] に関して \(f(Y,X^{(1)},\cdots,X^{(k)})\) の期待値を取ると,次のように計算できる: \[\begin{align*} &\quad\operatorname{E}\biggl[f(Y,X^{(1)},\cdots,X^{(k)})\biggr]\\ &=\int_{\mathbb{R}^{n+k}}f(y,x^{(1)},\cdots ,x^{(k-1)},x^{(k)})P^{X|Y}(y,dx^{(1)})\cdots P^{X|Y}(y,dx^{(k)})\mu(dy)\\ &=\int_{\mathbb{R}^{n+k}}f(y,x^{(1)},\cdots,x^{(k-1)},x)P^{X|Y}(y,dx^{(1)})\cdots P^{X|Y}(y,dx^{(k-1)})\nu(dx)P(x,dy)\\ &=\operatorname{E}\left[f(Y,X^{(1)},\cdots,X^{(k-1)},X^*)\right]. \end{align*}\]

確率核 \(P\) にまつわる記法は次の記事も参照:

Article Image

数学記法一覧

本サイトで用いる記法と規約

\(P^{X|Y}\) に関する積分を \(\langle-\rangle\) で表すことで,何をどのように物理的に解釈しているかが明確になる: \[ \langle X\rangle=\operatorname{E}[X|Y]. \]

この見方を採用すると,期待値を \[ \operatorname{E}\biggl[f(Y,X^{(1)},\cdots,X^{(k)})\biggr]=\operatorname{E}^Y\left[\left\langle f(Y,X^{(1)},\cdots,X^{(k)})\right\rangle\right] \] と二段階で捉えていることになる.右辺の外側の期待値は単に \(Y\) のみに関してとっていることになる.

2.2 節で考えたモデル \(H\) における Boltzmann 分布が \(P^{X|Y}\) となり,平均 \(\langle-\rangle\) はこれに関する平均となる.

一方で,Hamiltonian \(H\) にもランダム性が残っているのであり,これに関する平均が \((X^*,Y)\) に関する平均に当たる.

こうして,ベイズ統計モデルはスピングラス系(特にランダムエネルギーモデル (Derrida, 1980))と同一視できるようになる.

だが同時に,スピングラスのサンプリングを困難にする多谷構造も,ベイズ統計に輸入されるのである…….

スピングラスについては,次の記事も参照:

Article Image

数学者のための統計力学1

Ising 模型とスピングラス

2.4 最小自乗誤差推定量

1.4.1 節で扱った最小自乗誤差推定量の自乗誤差は次のように計算できる:

命題(最小自乗誤差の表示)

\(\langle X\rangle:=\operatorname{E}[X|Y]\) と表す.事後平均推定量の自乗誤差は次のように表せる: \[\begin{align*} \DeclareMathOperator{\MMSE}{MMSE} \MMSE&:=\operatorname{E}\biggl[\biggr(X-\operatorname{E}[X|Y]\biggl)^2\biggr]\\ &=\operatorname{E}[X^2]-\operatorname{E}\biggl[\langle X\rangle^2\biggr]. \end{align*}\]

\[\begin{align*} \operatorname{E}[\mathrm{V}[X|Y]]&=\operatorname{E}\biggl[\biggr(\operatorname{E}[X|Y]-X\biggl)^2\biggr]\\ &=\operatorname{E}\biggl[\operatorname{E}[X|Y]^2-2X\operatorname{E}[X|Y]+X^2\biggr]\\ &=\operatorname{E}\biggl[\operatorname{E}[X|Y]^2\biggr]-2\operatorname{E}\biggl[X\operatorname{E}[X|Y]\biggr]+\operatorname{E}[X^2]\\ &=\operatorname{E}[X^2]-\operatorname{E}\biggl[\operatorname{E}[X|Y]^2\biggr]. \end{align*}\]

この変形では,繰り返し期待値の法則 \[\begin{align*} \operatorname{E}\biggl[X\operatorname{E}[X|Y]\biggr]&=\operatorname{E}\biggl[\biggl[X\operatorname{E}[X|Y]\,\bigg|\,Y\biggr]\biggr]\\ &=\operatorname{E}\biggl[\operatorname{E}[X|Y]^2\biggr] \end{align*}\] を西森の対称性の代わりに用いたことになる.

換言すれば,西森の対称性を証明したのと同様の方法を本命題にも適用したため,直接命題の適用は回避したことになる.

2.5 KL 乖離度の微分としての分散

次の定理は,相互情報量 \(I\) と MMSE を結びつける定理であるため,(Guo et al., 2005) 以来,I-MMSE 定理 と呼ばれている.

命題(自由エネルギーによる特徴付け) (Guo et al., 2005)6

簡単のため,\(n=1\) とする.このとき,\(\beta:=\sigma^{-2}\) に関して,次の式が成り立つ:

  1. 自由エネルギー \(F_1\) について, \[ \frac{\partial F_1}{\partial \beta}=\frac{\operatorname{E}[\langle X\rangle^2]}{2}. \]

  2. 相互情報量 \(I(X,Y)\) について,

    \[\begin{align*} \frac{\partial I(X,Y)}{\partial \beta}&=\frac{\operatorname{E}[X^2]-\operatorname{E}[\langle X\rangle^2]}{2}\\ &=\frac{\MMSE}{2} \end{align*}\]

ただし,\(\langle X\rangle:=\operatorname{E}[X|Y]\) と定めた.

\[\begin{align*} \log\frac{p(y)}{q(y)}&=\frac{\displaystyle\frac{1}{\sqrt{2\pi\sigma^2}}\int_\mathbb{R}e^{-\frac{(x-y)^2}{2\sigma^2}}p(x)\,dx}{\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{y^2}{2\sigma^2}}}\\ &=\int_\mathbb{R}e^{-\frac{x^2-2xy}{2\sigma^2}}p(x)\,dx. \end{align*}\]

この \(p(y)dy\) に関する積分を \(\beta\) で微分すれば良いのであるが,\(p(y)\) 自体が \(\sigma\) に依存し,そのまま計算したのでは大変煩雑になる.

そこで,\(y=\sigma z+x^*\) と変数変換をすることで,標準 Gauss 確率変数 \(Z\sim\gamma_1\) と真値 \(X^*\) は独立で,\(\sigma\) も含まないから,次のように計算ができる: \[\begin{align*} F_1(\beta)&=\int_\mathbb{R}\log\frac{p(y)}{q(y)}p(y)\,dy\\ &=\operatorname{E}\biggl[\log\left(\int_\mathbb{R}e^{-\frac{x^2-2xY}{2\sigma^2}}p(x)\,dx\right)\biggr]\\ &=\operatorname{E}\biggl[\log\left(\int_\mathbb{R}\exp\left(-\frac{x^2}{2\sigma^2}+\frac{xZ}{\sigma}+\frac{xX^*}{\sigma^2}\right)p(x)\,dx\right)\biggr]\\ &=\operatorname{E}\biggl[\log\left(\int_\mathbb{R}\exp\left(-\frac{x^2\beta}{2}+xZ\sqrt{\beta}+xX^*\beta\right)p(x)\,dx\right)\biggr]. \end{align*}\]

こうして,最右辺の期待値に関する密度はもう \(\beta\) に依存しないから,次のように微分が計算できる.ただし, \[ \exp\left(-\frac{x^2\beta}{2}+xZ\sqrt{\beta}+xX^*\beta\right)p(x)\,dx \]\(p(x|y)\) の定数倍,すなわち Gibbs 測度 \(\frac{e^{-H(x,y)}}{Z(y)}dx\) の定数倍であることに注意して,これらに関する平均を引き続き \(\langle-\rangle:=\operatorname{E}[-|Y]\) で表すこととすると,

\[\begin{align*} \frac{\partial F_1(\beta)}{\partial \beta}&= \operatorname{E}\left[\frac{\displaystyle\int_\mathbb{R}\biggr(-\frac{x^2}{2}+\frac{xZ}{2\sqrt{\beta}}+xX^*\biggl)e^{-\frac{x^2\beta}{2}+xZ\sqrt{\beta}+xX^*\beta}p(x)dx}{\displaystyle\int_\mathbb{R}\exp\left(-\frac{x^2\beta}{2}+xZ\sqrt{\beta}+xX^*\beta\right)p(x)\,dx}\right]\\ &=-\frac{\operatorname{E}[\langle X^2\rangle]}{2}+\frac{1}{2\sqrt{\beta}}\operatorname{E}[\langle X\rangle Z]+\operatorname{E}[\langle X\rangle X^*]. \end{align*}\]

\(\langle X\rangle\) が中に入っているのは,\(\sigma[X^*,Z]\) に関する条件付き期待値を \(\operatorname{E}\) 内で取ったためと捉えられる.

まず,第二項は,Stein の補題 2.6 の系から, \[\begin{align*} \frac{1}{2\sqrt{\beta}}\operatorname{E}[\langle X\rangle Z]&=\frac{1}{2\sqrt{\beta}}\sqrt{\beta}\biggr(\operatorname{E}[\langle X^2\rangle]-\operatorname{E}[\langle X\rangle^2]\biggl)\\ &=\frac{\operatorname{E}[\langle X^2\rangle]}{2}-\frac{\operatorname{E}[\langle X\rangle^2]}{2} \end{align*}\]

第三項は,西森の対称性から, \[\begin{align*} \operatorname{E}[\langle X\rangle X^*]=\operatorname{E}[\langle X\rangle^2]. \end{align*}\]

以上を併せると, \[ \frac{\partial F_1(\beta)}{\partial \beta}=\frac{\operatorname{E}[\langle X\rangle^2]}{2}. \]

  1. の主張も,\(n=1\) のときは \[ I(X,Y)=\frac{\beta}{2}\int_\mathbb{R}x^2p(x)\,dx-F_1 \] であったために従う: \[\begin{align*} \frac{\partial I(X,Y)}{\partial \beta}&=\frac{\operatorname{E}[X^2]}{2}-\frac{\operatorname{E}[\langle X\rangle^2]}{2}\\ &=\frac{\MMSE}{2}. \end{align*}\]

\(\operatorname{E}[\langle X\rangle^2]\)\(q\) とも表され,スピングラスの 秩序パラメータ ともいう.7

\(I\)\(\beta\) に関する二回微分を計算することより,\(\beta\) に関する凸関数であることもわかる.

2.6 Stein の補題

命題 (Stein, 1972)

可積分な確率変数 \(X\in\mathcal{L}^1(\Omega)\) について,次は同値:

  1. \(X\) の分布は標準Gaussである:\(X\sim\gamma_1\)
  2. 任意の \(f\in C^1_b(\mathbb{R})\) について, \[ \operatorname{E}[f'(X)]=\operatorname{E}[Xf(X)]<\infty. \]
  • (1)\(\Rightarrow\)(2)

    \(f,f'\) はいずれも有界としたから, \[ \operatorname{E}[f'(X)],\operatorname{E}[f(X)]<\infty \] が成り立つ.

    \(\gamma_1\) の密度 \(\phi\)\(\phi'(x)=-x\phi(x)\) を満たすことに注意すれば,部分積分により, \[\begin{align*} \operatorname{E}[f'(X)]&=-\int_\mathbb{R}f(x)\phi'(x)dx\\ &=\int_\mathbb{R}f(x)x\phi(x)dx=\operatorname{E}[f(X)X]. \end{align*}\]

  • (2)\(\Rightarrow\)(1)

    \(X\) は可積分としたから,特性関数 \(\varphi(u):=\operatorname{E}[e^{iuX}]\) は少なくとも \(C^1(\mathbb{R})\)-級で,その微分は \(\phi(x):=e^{iux}\) に関する仮定 \(\operatorname{E}[\phi'(X)]=\operatorname{E}[X\phi(X)]\) を通じて \[\begin{align*} \varphi'(u)&=i\operatorname{E}[Xe^{iuX}]=-u\operatorname{E}[e^{iuX}]\\ &=-u\varphi(u),\qquad u\in\mathbb{R}, \end{align*}\] と計算できる.

    この微分方程式は規格化条件 \(\varphi(0)=1\) の下で一意な解 \(\varphi(u)=e^{-\frac{u^2}{2}}\) を持つ.

\(\langle X\rangle:=\operatorname{E}[X|Y]\) とこれと独立な \(Z\sim\gamma_1\) に関して,次が成り立つ:

\[\begin{align*} \operatorname{E}[\langle X\rangle Z]&=\operatorname{E}\left[\frac{\partial \langle X\rangle}{\partial Z}\right]\\ &=\sqrt{\beta}\biggr(\operatorname{E}[\langle X^2\rangle]-\operatorname{E}[\langle X\rangle^2]\biggl) \end{align*}\]

最初の等号 \[ \operatorname{E}[\langle X\rangle Z]=\operatorname{E}\left[\frac{\partial \langle X\rangle}{\partial Z}\right] \] は Stein の補題による.

続いて, \[ \langle X\rangle=\int_\mathbb{R}xp(x|Y)\,dx \]\(Y=\sigma Z+X^*\) を通じてのみ \(Z\) に依存するから, \[ \frac{\partial \langle X\rangle}{\partial Z}=\frac{\partial \langle X\rangle}{\partial Y}\frac{d Y}{d Z}=\sigma\frac{\partial \langle X\rangle}{\partial Y} \tag{2}\] が成り立つ.あとは \(\langle X\rangle=\operatorname{E}[X|Y]\)\(Y\) に関する微分を計算すれば良い.

\[ \frac{\partial p(y|x)}{\partial y}=-\frac{y-x}{\sigma^2}p(y|x). \] また, \[ p(y)=\frac{1}{\sqrt{2\pi\sigma^2}}\int_\mathbb{R}e^{-\frac{(x-y)^2}{2\sigma^2}}p(x)\,dx \] であったから, \[\begin{align*} p'(y)&=\frac{1}{\sqrt{2\pi\sigma^2}}\int_\mathbb{R}-\frac{y-x}{\sigma^2}e^{-\frac{(x-y)^2}{2\sigma^2}}p(x)\,dx\\ &=-\int_\mathbb{R}\frac{y-x}{\sigma^2}p(y|x)p(x)\,dx\\ &=-\int_\mathbb{R}\frac{y-x}{\sigma^2}p(x|y)p(y)\,dx\\ &=-\frac{y-\langle X\rangle}{\sigma^2}p(y). \end{align*}\] \[ \therefore\quad\frac{p'(Y)}{p(Y)}=\frac{\langle X\rangle-Y}{\sigma^2} \]

に注意すれば,次のように計算できる:

\[\begin{align*} \frac{\partial \langle X\rangle}{\partial Y}&=\frac{\partial }{\partial Y}\int_\mathbb{R}xp(x|Y)\,dx\\ &=\frac{\partial }{\partial Y}\int_\mathbb{R}x\frac{p(Y|x)p(x)}{p(Y)}\,dx\\ &=\int_\mathbb{R}x\frac{\partial }{\partial Y}\frac{p(Y|x)p(x)}{p(Y)}\,dx\\ &=\int_\mathbb{R}x\frac{\partial p(Y|x)}{\partial Y}\frac{p(x)}{p(Y)}\,dx\\ &\qquad+\int_\mathbb{R}x\left(\frac{\partial }{\partial Y}\frac{1}{p(Y)}\right)p(Y|x)p(x)\,dx\\ &=-\int_\mathbb{R}x\frac{Y-x}{\sigma^2}p(x|Y)\,dx\\ &\qquad-\frac{p'(Y)}{p(Y)}\int_\mathbb{R}xp(x|Y)\,dx\\ &=-\frac{Y}{\sigma^2}\langle X\rangle+\frac{\langle X^2\rangle}{\sigma^2}\\ &\qquad-\langle X\rangle\frac{\langle X\rangle-Y}{\sigma^2}\\ &=\frac{1}{\sigma^2}\biggr(\langle X^2\rangle-\langle X\rangle^2\biggl). \end{align*}\]

最後,式 (\(\ref{eq-chain-rule}\)) より, \[\begin{align*} \frac{\partial \langle X\rangle}{\partial Z}&=\sigma\frac{\partial \langle X\rangle}{\partial Y}\\ &=\sqrt{\beta}\biggr(\langle X^2\rangle-\langle X\rangle^2\biggl). \end{align*}\]

3 スパースベクトルの復号

スパースベクトルの信号推定問題を考える.ここまで,\(x,x^*\)\(\mathbb{R}\) の点としてきたが,本節では,\(\mathbb{R}^d,d=2^N\) の one-hot ベクトルであるとする.

3.1 設定

真の信号 \(x^*\in\mathbb{R}^d\) は,\(d\) 次元の one-hot ベクトルであるとする.すなわち,次の集合 \(\Delta_d\) の元であるとする: \[ \Delta_d:=\left\{x\in\mathbb{Z}^d\mid\|x\|_1=1\right\}. \]

加えて,\(\Delta_d\) 上の一様分布に従うとする:\(x^*\sim\mathrm{U}(\Delta_d)\)

これを分散 \(\frac{\sigma^2}{N}\) を持った Gauss ノイズを通じて観測する: \[ Y\sim\mathrm{N}_d\left(x^*,\frac{\sigma^2}{N}I_d\right). \]

事前分布を \(p(x)\)\(Y\) の分布を \(p(y)\) とすると,Bayes の定理より, \[\begin{align*} p(x|y)&=\frac{p(x)}{p(y)}\prod_{i=1}^d\frac{e^{-\frac{(y_i-x_i)^2}{2\sigma^2/N}}}{\sqrt{2\pi\sigma^2/N}}\\ &=\frac{\prod_{i=1}^d\phi(y_i;0,\sigma^2/N)}{p(y)}\\ &\qquad\times \frac{1}{2^N}\prod_{i=1}^d\exp\left(-\frac{x_i^2-2x_iy_i}{2\sigma^2/N}\right) \end{align*}\]

ただし,\(\phi(-;\mu,\sigma):=\frac{d \mathrm{N}_1(\mu,\sigma)}{d \ell_1}\) を正規密度とした.

3.2 スピングラス系との同一視

この事後分布 \(p(x|y)\) は,次の Hamiltonian \(H\) に関する,逆温度 \(\beta=\sigma^{-2}\) での Boltzmann 分布とみなせる:

\[\begin{align*} p(x|y)&=\frac{1}{\mathcal{Z}}e^{-\beta H(x,y)}\\ H(x,y)&:=-N\sigma^2\log2\\ &\qquad-\frac{N}{2}\sum_{i,j=1}^dx_i^*x_j^*\sqrt{(1-2y_i)(1-2y_j)} \end{align*}\]

この Hamiltonian は非物理的なものであり,planted ensemble とも呼ばれる.(Murphy, 2023, p. 843) での clamped という表現と同じニュアンスである.詳しくは次項参照:

また,\(H\) の表示については,\(x^*\in\Delta_d\) であるから,\(i,j\in[d]\) と2つの和をとっているように見えるが,二つの添え字が一致している場合しか非零な値は取らず,結局 \[ H(x,y)=-\frac{N}{2}\sum_{j=1}^d(2y_j-1)x_j+N\sigma^2\log2 \] であることに注意.

なお,分配関数は \[ \mathcal{Z}:=\frac{1}{2^N}\sum_{i=1}^d\exp\left(\frac{N}{2\sigma^2}(2y_i-1)\right), \] と表される.

3.3 自由エネルギー密度の計算

系が用意されたら,統計力学はまず,代表的な物理量の熱力学極限を計算する.特に自由エネルギー密度は,熱力学極限 \(N\to\infty\) において自己平均性(確率論では集中性という性質)を示すことが期待される.

自由エネルギー密度 \(\Phi\) は,熱力学極限を通じて \[ \Phi(\beta):=\lim_{N\to\infty}\frac{\operatorname{E}[\log\mathcal{Z}]}{N} \] と定まる.

I-MMSE 定理(第 2.5 節)はこの多次元の \(X\) に関しても有効であり, \[ \Phi_N(\beta):=\frac{\operatorname{E}[\log\mathcal{Z}]}{N} \] に関して, \[ \frac{\partial \Phi_N(\beta)}{\partial \beta}=\frac{\operatorname{E}\biggl[\lvert\langle X\rangle\rvert^2\biggr]}{2} \] が成り立つ.

まず有限の \(N\in\mathbb{N}^+\) で計算する.

\[ \frac{\partial \Phi_N(\beta)}{\partial \beta}=\frac{1}{N}\operatorname{E}\left[\frac{1}{\mathcal{Z}}\frac{\partial \mathcal{Z}}{\partial \beta}\right] \] の右辺を求めれば良い.

\[ Y_i=X_i^*+\frac{\sigma}{\sqrt{N}}Z_i \] であり,one-hot ベクトル \(x\in\Delta_d\) については \[ x_j=x_j^2,\quad\lvert x\rvert^2=1 \] でもあることに注意すれば,

\[\begin{align*} \mathcal{Z}&=\sum_{i=1}^de^{-H(x^{(i)},Y)}\\ &=\frac{1}{2^N}\sum_{i=1}^d\exp\left(-\frac{N\beta}{2}\lvert x^{(i)}\rvert^2+N\beta(Y|x^{(i)})\right)\\ &=\frac{1}{2^N}\sum_{i=1}^d\exp\left(-\frac{N\beta}{2}\lvert x^{(i)}\rvert^2+N(X^*|x^{(i)})\beta+(Z|x^{(i)})\sqrt{N\beta}\right) \end{align*}\] \[ \frac{\partial \mathcal{Z}}{\partial \beta}=\sum_{i}^d\biggr(-\frac{N}{2}\lvert x^{(i)}\rvert^2+N(X^*|x^{(i)})+\frac{\sqrt{N}}{2\sqrt{\beta}}(Z|x^{(i)})\biggl)e^{-H(x^{(i)},Y)} \] \[ \frac{1}{\mathcal{Z}}\frac{\partial \mathcal{Z}}{\partial \beta}=-\frac{N}{2}\left\langle\lvert X\rvert^2\right\rangle+N\biggl\langle(X^*|X)\biggr\rangle+\frac{\sqrt{N}}{2\sqrt{\beta}}\biggl\langle(Z|X)\biggr\rangle \] \[ \frac{1}{N}\operatorname{E}\left[\frac{1}{\mathcal{Z}}\frac{\partial \mathcal{Z}}{\partial \beta}\right]=\operatorname{E}\left[\left\langle-\frac{\langle\lvert X\rvert^2\rangle}{2}+\biggl\langle(X^*|X)\biggr\rangle+\frac{\biggl\langle(Z|X)\biggr\rangle}{2\sqrt{N\beta}}\right\rangle\right] \] これは1次元の場合の計算(第 2.5 節)と同様に, \[ \frac{\partial \Phi_N(\beta)}{\partial \beta}=\frac{\operatorname{E}[\lvert\langle X\rangle\rvert^2]}{2} \] と計算できる.

よって,\(N\to\infty\) の極限でも右辺が定数に収束し(右辺は \(2^N\) 項和を含む),この種の関係式が成り立ち続けるならば,\(\Phi\)\(\beta\) の一次関数の形であるはずである.実際,次が示せる:

命題8

\(\Delta:=\sigma^2\) の関数として,自由エネルギー密度 \(\Phi\) は次で定まる関数 \(f:\mathbb{R}^+\to\mathbb{R}_+\) に一致する: \[ f(\Delta):= \begin{cases} \frac{1}{2\Delta}-\log 2&\Delta\le\Delta_c,\\ 0&\Delta\ge\Delta_c. \end{cases} \] \[ \Delta_c:=\frac{1}{2\log 2} \]

次節 3.4 では \(\Phi_N\)\(f\) によって上下から評価することで,数学的に厳密な証明を与える.ここでは,本ベイズモデルをランダムエネルギーモデルとみなし,レプリカ法によって計算した場合の証明の概略を付す.

\(n\) 個のレプリカを複製した際の,それぞれの配置 \((i_1,\cdots,i_n)\in[d]^n\) について足し合わせることで,\(Z^n\) の disorder average を取る.

最終的に次の表示を得る: \[ e^{nN\left(\log 2+\frac{\beta}{2}\right)}\approx\int dQdM\,e^{Ns(Q,M)+N\beta\left(\sum_{a=1}^nM_a+\frac{1}{2}\sum_{a,b=1}^nQ_{a,b}\right)} \] \[ =:\int dQdM\,e^{Ng(\Delta,Q,M)}. \tag{3}\] ただし,\(M_a:=\delta_{i_a,1}\in2\) は磁化のベクトル,\(Q_{ab}:=\delta_{i_a,i_b}\) は overlap matrix と呼ばれる.

積分はこの \(M_a,Q_{ab}\) の全体について実行され,同じ \(M_a,Q_{ab}\) の値を取る配置の数を \[ \#(Q,M)=:e^{Ns(Q,M)} \] と表した.

\(N\to\infty\) の極限では,式 (3) に対して Laplace 近似を実行すれば良い.

従って,\(Q,M\) の構造のうち,特に支配的なものの特定に成功すれば,解が求まることになる.

最初の仮定として,レプリカ \(i_1,\cdots,i_d\) は交換可能で見分けがつかないはずだろう,という replica symmetric ansatz が考えられる.

このレプリカ対称性を仮定すると,次の3通りまでシナリオが絞られる:

  1. 任意のレプリカは同一の状態にある:\(i_a\equiv i\in[d]\).だが,正しいレプリカではない \(i\ne1\)

    このとき,\(Q_{ab}\equiv 1,M_a\equiv0\) となり,\(s(Q,M)=\log2\),かつ \(g(\beta,Q)=\log2+n^2/\Delta\)

    これは \(N\to\infty\) の極限で \(n\) に関して線型ではなく,物理的な解が得られるとは思えず,レプリカ法も解析接続に失敗する.

  2. 任意のレプリカは全て正しい状態にある:\(i_a\equiv1\)

    \(Q_{ab}=M_a\equiv1\) となり,\(s(Q,M)=0,g(\beta,Q)=n/\Delta+n^2/2\Delta\)

  3. レプリカ内に少なくとも2つの違う状態がある:

    このとき,\(g(\beta,Q)=n/2\Delta+n\log2\)

2と3の場合から,次の2つが解の候補として回収できた: \[ \operatorname{E}[Z^n]=e^{-nN\left(\log 2-\frac{\beta}{2}\right)}, \] \[ \operatorname{E}[Z^n]=0. \]

この2つは,次節 3.4 から導かれる厳密な結果に一致する.

最後,自由エネルギーの \(\Delta\) に関する凸性と解析性から,結論を得る.

3.4 自由エネルギーの上下評価

レプリカ法を回避し,数学的に厳密な証明を与えるには,次のように上下から評価することになる.

補題(下界)9

\[ \Phi_N(\Delta)\ge f(\Delta) \]

一般に下からの評価は,\(Z_i\) に関する項をまとめて無視して良いために,簡単である.

\[ Y_i=X_i^*+\frac{\sigma}{\sqrt{N}}Z_i, \] \[ Z_i\overset{\text{iid}}{\sim}\mathrm{N}_1(0,1), \]

であることから,\(i^*\)\(X^*_{i^*}=1\) を満たす添字 \(i^*\in[d]\) とすると,

\[\begin{align*} \mathcal{Z}&=\frac{1}{2^N}\sum_{i=1}^d\exp\left(\frac{NY_i}{\sigma^2}-\frac{N}{2\sigma^2}\right)\\ &=\frac{1}{2^N}\sum_{i=1}^d\exp\left(\frac{NX^*_i}{\sigma^2}+\frac{\sqrt{N}}{\sigma}Z_i-\frac{N}{2\sigma^2}\right)\\ &\ge\frac{1}{2^N}\exp\left(\frac{N}{\sigma^2}+\frac{\sqrt{N}}{\sigma}Z_{i^*}-\frac{N}{2\sigma^2}\right)\\ &=\frac{1}{2^N}\exp\left(\frac{N}{2\sigma^2}+\frac{\sqrt{N}}{\sigma}Z_{i^*}\right) \end{align*}\]

と評価できる.

\[ \log\mathcal{Z}\ge\frac{N}{2\sigma^2}+\frac{\sqrt{N}}{\sigma}Z_{i^*}-N\log 2. \] \[\begin{align*} \Phi_N(\Delta)&=\frac{\operatorname{E}[\log\mathcal{Z}]}{N}\\ &\ge\frac{1}{N}\left(\frac{N}{2\sigma^2}-N\log 2\right)\\ &=\frac{1}{2\Delta}-\log2. \end{align*}\]

これより,低温領域に於ては, \[ \Phi_N\ge f\;\mathrm{on}\;(0,\Delta_c) \] が確認できた.

続いて, \[\begin{align*} \frac{\partial \Phi_N(\Delta)}{\partial \Delta}&=\frac{\partial \Phi_N(\Delta)}{\partial \beta}\frac{d \beta}{d \Delta}\\ &=\frac{\operatorname{E}[\lvert\langle X\rangle\rvert^2]}{2}\left(-\frac{1}{\Delta^2}\right)\le0 \end{align*}\] であることと, \[ \lim_{\Delta\to\infty}\Phi_N(\Delta)=0 \] であることから,\([\Delta_c,\infty)\) 上においても非負であることがわかる.

以上より, \[ \Phi_N\ge f\;\mathrm{on}\;\mathbb{R}_+. \]

補題(上界)10

\[ \Phi_N(\Delta)\le f(\Delta)+o(1)\quad(N\to\infty) \]

\(\Phi_N\) の上界は,Boltzmann 分布 \(p(x|y)\) に関する期待値に対して,Jensen の不等式を用いることで導かれる.このような不等式は annealed bound とも呼ばれる.

真値 \(x^*\) とノイズ \(z\) が確定している(従って,\(x^*_{i^*}=1\) を満たす \(i^*\in[d]\) も確定している)とすると, \[\begin{align*} \mathcal{Z}&=\frac{1}{2^N}\sum_{i=1}^d\exp\left(-\frac{N\beta}{2}+Nx_i^*\beta+z_i\sqrt{N\beta}\right)\\ &=\frac{1}{2^N}\left(\exp\left(\frac{N\beta}{2}+z_{i^*}\sqrt{N\beta}\right)+\sum_{i\ne i^*}\exp\left(-\frac{N\beta}{2}+z_i\sqrt{N\beta}\right)\right) \end{align*}\] \[ \log\mathcal{Z}=\log\left(\exp\left(\frac{N\beta}{2}+z_{i^*}\sqrt{N\beta}-N\log 2\right)+\sum_{i\ne i^*}\frac{1}{2^N}\exp\left(-\frac{N\beta}{2}*Z_i\sqrt{N\beta}\right)\right) \] と計算できる.凹関数 \(\log\) に対する Jensen の不等式より, \[\begin{align*} \operatorname{E}[\log\mathcal{Z}]&\le\operatorname{E}\biggl[\log\biggr(\exp\biggr(\frac{N\beta}{2}+Z_{i^*}\sqrt{N\beta}-N\log 2\biggl)\\ &\qquad\quad\qquad+\sum_{i\ne i^*}\operatorname{E}_{Z_{-i^*}}\biggl[\frac{1}{2^N}\exp\biggr(-\frac{N\beta}{2}+Z_i\sqrt{N\beta}\biggl)\biggr]\biggl)\biggr]\\ &=\operatorname{E}\left[\log\left(\exp\left(\frac{N\beta}{2}+Z_{i^*}\sqrt{N\beta}-N\log 2\right)+\frac{2^{N-1}}{2^N}\right)\right]\\ &\le\operatorname{E}\left[\log\left(\exp\left(\frac{N\beta}{2}+Z_{i^*}\sqrt{N\beta}-N\log 2\right)+1\right)\right]\\ &=\operatorname{E}\left[\log\biggr(e^{N\left(\frac{\beta}{2}-\log 2\right)}e^{Z_{i^*}\sqrt{N\beta}}+1\biggl)\right]. \end{align*}\]

最初の等号にて,\(\xi\sim\mathrm{N}(\mu,\sigma^2)\) の積率母関数が \[ \operatorname{E}[e^{t\xi}]=\exp\left(\mu t+\frac{\sigma^2t^2}{2}\right) \] で表せることを用いた.

この \(Z_{i^*}\) という確率変数は複雑に定まっており,これを直接議論することは後回しにする.

本補題の主張は,純粋に関数 \[ g(z):=\exp\left(N\left(\frac{\beta}{2}-\log 2\right)+z\sqrt{N\beta}\right)+1 \] の性質を考察するだけで従う.この関数 \(g\) を用いると, \[\begin{align*} \Phi_N(\beta)&=\frac{\operatorname{E}[\log\mathcal{Z}]}{N}\\ &\le\frac{1}{N}\operatorname{E}\biggl[\log(g(Z_{i^*}))\biggr] \end{align*}\] と表せる.\(g\)\(\log g\) も凸関数であるから, \[\begin{align*} \log g(\lvert z\rvert)&\le\log g(0)+\lvert z\rvert\frac{d }{d z}\log g(\lvert z\rvert)\\ &=\log g(0)+\frac{g'(\lvert z\rvert)}{g(\lvert z\rvert)}\\ &\le\log g(0)+\lvert z\rvert\sqrt{N\beta}\\ &=\log\biggr(e^{N\left(\frac{\beta}{2}-\log 2\right)}+1\biggl)+\lvert z\rvert\sqrt{N\beta}. \end{align*}\]

これより, \[\begin{align*} \Phi_N(\beta)&\le\frac{1}{N}\operatorname{E}\biggl[\log(g(\lvert Z_{i^*}\rvert))\biggr]\\ &\le\frac{1}{N}\log\biggr(e^{N\left(\frac{\beta}{2}-\log 2\right)}+1\biggl)+\sqrt{\frac{\beta}{N}}\operatorname{E}[\lvert Z_{i^*}\rvert]. \end{align*}\]

よって,\(Z_{i^*}\) が可積分であることさえ認めれば,\(N\to\infty\) のとき, \[ \Delta\ge\Delta_c\quad\Leftrightarrow\quad\frac{\beta}{2}\le\log2 \] のとき,\(\log\biggr(e^{N\left(\frac{\beta}{2}-\log 2\right)}+1\biggl)\ge0\) であり,そうでない場合は \[ \log(1+e^x)\le x\quad x\in\mathbb{R}_+ \] より, \[ \Phi_N(\Delta)\le\frac{\beta}{2}-\log2+o(1)\quad(N\to\infty) \] を得る.

3.5 解釈

\(N\to\infty\) の極限において,高温領域 \(\Delta>\Delta_c\) において,最小自乗誤差(MMSE)は \(1\) であり,何をどうしても復号することはできない.Gauss ノイズ \(\Delta=\sigma^2\) が大きすぎるのである.

一方で,低温領域 \(\Delta<\Delta_c\) において,\(\partial_\beta f=\frac{1}{2}\) であり,従って MMSE は \(0\) になる.よって完全な誤りのない復号が可能であるはずである.

設定(第 3.1 節)が与えられたならば,立ち所に,\(\Delta\) が大きいほど復号が難しいことは予想がつく.しかし,ある閾値 \(\Delta_c\) に依存して,少なくとも \(N\to\infty\) の極限では,

  • 2つの領域で全く異なる振る舞いをすること
  • 2つの振る舞いのみに分類される(ある一定以上の確率で復号が可能である,などの中間状態がない)こと

は驚きである.

実は,高温領域 \(\Delta>\Delta_c\) では,自由エネルギー \(F_N\)\(0\) に指数収束する.\(F_N\) とは,完全な Gauss ノイズ \[ q(y)dy:=\mathrm{N}_d\biggr(0,\frac{\Delta}{N}I_d\biggl) \]\(p(y)\) との KL 距離距離であったから,メッセージ \(x^*\) を完全な雑音と見分けることが加速度的に難しくなっていくのである.

3.6 自由エネルギーのさらに鋭い評価

命題(KL 乖離度は指数収束する)11

高温領域 \(\Delta>\Delta_c\) において,ある \(C>0\) が存在して,任意の \(N\in\mathbb{N}^+\) について次が成り立つ:

\[\begin{align*} F_N(\Delta)=\operatorname{KL}\biggr(p(y)\,\bigg|\,q(y)\biggl)\le e^{-CN} \end{align*}\]

ただし,\(p\) は観測信号 \(Y\sim\mathrm{N}_d\left(X^*,\frac{\Delta}{N}I_d\right)\) の密度,\(q\)\(\mathrm{N}_d\left(0,\frac{\Delta}{N}I_d\right)\) の密度とした.

3.4 節で示した \(\Phi_N\) の上界評価では, \[\begin{align*} \Phi_N(\beta)&=\frac{\operatorname{E}[\log\mathcal{Z}]}{N}\\ &\le\frac{1}{N}\operatorname{E}\left[\log\left(\exp\left(N\left(\frac{\beta}{2}-\log 2\right)+Z_i^*\sqrt{N\beta}\right)+1\right)\right] \end{align*}\] を得て,\(Z_i^*\) の評価を回避したのであった.

これに正面から取り組むことで,高温領域 \(\Delta>\Delta_c\) での \(\Phi_N\) の指数収束を示すことができる.

高温領域 \(\Delta>\Delta_c\) では, \[ f:=-\frac{\beta}{2}+\log2>0 \] が成り立つ.

\(Z_{i^*}\) は,まず \(X^*\) によって条件付ければ \(Z_{i^*}|X^*\sim\mathrm{N}(0,1)\) であるから, \[\begin{align*} N\Phi_N(\beta)&\le\operatorname{E}\left[\log\biggr(e^{-fN+Z_{i^*}\sqrt{N\beta}}+1\biggl)\right]\\ &=\int_\mathbb{R}\frac{e^{-\frac{z^2}{2}}}{\sqrt{2\pi}}\log\biggr(e^{-fN+z\sqrt{N\beta}}+1\biggl)\,dz\\ &=\left(\int^{R}_{-\infty}+\int_{R}^\infty\right)\frac{e^{-\frac{z^2}{2}}}{\sqrt{2\pi}}\log\biggr(e^{-fN+z\sqrt{N\beta}}+1\biggl)\,dz \end{align*}\] と分解すると,まず \((-\infty,R)\) 上の積分は \(N\to\infty\) に関して指数収束する.

実際,\(R>0\) に対して \(N\in\mathbb{N}^+\) を十分大きく取ることで,ある \(\epsilon>0\) が存在して \[ -fN+z\sqrt{N\beta}\le-\epsilon fN \] を満たすようにできるから,

\[\begin{align*} &\quad\int^{R}_{-\infty}\frac{e^{-\frac{z^2}{2}}}{\sqrt{2\pi}}\log\biggr(e^{-fN+z\sqrt{N\beta}}+1\biggl)\,dz\\ &<\int_\mathbb{R}\frac{e^{-\frac{z^2}{2}}}{\sqrt{2\pi}}\log\biggr(e^{-\epsilon fN}+1\biggl)\,dz\\ &=\log\left(1+e^{-\epsilon fN}\right)\le e^{-\epsilon fN}. \end{align*}\] 最後の不等式は \[ \log(1+x)\le x\quad x\in\mathbb{R} \] による.

従って,あとは \((R,\infty)\) 上の積分が指数収束することを示せば良いが,再び \(\log(1+x)\le x\) に注意して \[\begin{align*} &\quad\int^\infty_\mathbb{R}\frac{e^{-\frac{z^2}{2}}}{\sqrt{2\pi}}\log\left(e^{-fN+z\sqrt{N\beta}}+1\right)\,dz\\ &\le\int^\infty_\mathbb{R}\frac{1}{\sqrt{2\pi}}e^{-fN+z\sqrt{N\beta}-\frac{z^2}{2}}\,dz\\ &=e^{\frac{N\beta}{2}-fN}\int^\infty_\mathbb{R}\frac{1}{\sqrt{2\pi}}e^{-\frac{(z-\sqrt{N\beta})^2}{2}}\,dz\\ &=e^{\frac{N\beta}{2}-fN}\operatorname{P}\biggl[Z>R-\sqrt{N\beta}\biggr] \end{align*}\] と評価できるから,あとは \(Z\sim\gamma_1\) の尾部確率が指数収束するかどうか(正確には劣 Gauss 性を持つかどうか)の問題に帰着する.

実はこれは yes である.中心化された確率変数の積率母関数が,ある \(\sigma>0\) に関して \[ \operatorname{E}[e^{\lambda\xi}]\le e^{\frac{\lambda^2\sigma^2}{2}}\quad\lambda\in\mathbb{R} \] を満たすことは,ある \(\kappa>0\) が存在して \[ \operatorname{P}[\lvert\xi\rvert\ge t]\le 2e^{-\frac{t^2}{2\kappa^2}} \] を満たすことに同値になる.特に,\(\Rightarrow\) 方向には \(\kappa=\sigma\) ととれる.12 \(\Phi_N\) の上界評価(第 3.4 節)で触れたように,(中心化された)Gauss 確率変数はこれを満たす.

よって, \[\begin{align*} &\quad e^{\frac{N\beta}{2}-fN}\operatorname{P}\biggl[Z>R-\sqrt{N\beta}\biggr]\\ &\le e^{\frac{N\beta}{2}-fN}e^{-\frac{(R-\sqrt{N\beta})^2}{2}}\\ &=e^{\frac{N\beta}{2}-fN}e^{-\frac{R^2}{2}+\sqrt{N\beta}R-\frac{N\beta}{2}}\\ &=\exp\left(-\frac{R^2}{2}+\sqrt{N\beta}R-Nf\right). \end{align*}\]

この最右辺,ある定数 \(C>0\) が存在して,\(e^{-CN}\) で抑えられる.

あるいは,任意の \(N\in\mathbb{N}^+\) に対して \[ R:=\sqrt{\frac{N}{\beta}}f-\delta\quad\delta>0 \] と取ることで,\((-\infty,R),(R,\infty)\) 上の積分のそれぞれについて,同様の評価を得る.

以上より, \[\begin{align*} F_N(\Delta)&=N\Phi_N\\ &\le e^{-KN}. \end{align*}\]

命題(劣 Gauss 確率変数の特徴付け)13

\(X\in L(\Omega)\) を確率変数とする.このとき,次の4条件は同値で,さらに \(\{K_1,\cdots,K_5\}\subset\mathbb{R}^+\) はある \(C\in\mathbb{R}\) が存在して,\(\forall_{i,j\in[5]}\;K_j\le CK_i\) を満たすように取れる.

  1. 尾部確率の評価:ある \(K_1>0\) が存在して,14 \[ \mathrm{P}[\lvert X\rvert\ge t]\le 2e^{-\frac{t^2}{K_1^2}},\qquad t\ge0. \]
  2. \(L^p\)-ノルムの評価:ある \(K_2>0\) が存在して, \[ \|X\|_{L^p}\le K_2\sqrt{p},\qquad p\ge1. \]
  3. \(X^2\) の積率母関数の \(0\) の近傍での評価:ある \(K_3>0\) が存在して, \[ \lvert\lambda\rvert\le\frac{1}{K_3}\quad\Rightarrow\quad \mathrm{E}[e^{\lambda^2 X^2}]\le e^{K_3^2\lambda^2}. \]
  4. \(X^2\) の積率母関数のある1点での値:ある \(K_4>0\) が存在して, \[ \operatorname{E}\left[e^{\frac{X^2}{K_4^2}}\right]\le2. \]
  5. さらに,\(X\) が中心化されている場合,次とも同値:ある \(K_5>0\) が存在して, \[ \operatorname{E}[e^{\lambda X}]\le e^{K^2_5\lambda^2},\qquad\lambda\in\mathbb{R}. \]

以上の同値な条件を満たす確率変数 \(X\)劣 Gauss (sub-Gaussian) という.

3.7 まとめ

大変単純化された設定 toy model であったが,比例的高次元極限 \(N\to\infty\) において,厳密に示せる相転移を示す模型である.

すなわち,ただ一つの非零成分 \(1\) に対して,ノイズの分散 \(\sigma^2\)\((2\log2)^{-1}\) より大きいかどうかで,これが復号可能かどうかが決まる.

この \(2\log2\) という値は (Donoho and Johnstone, 1994) が universal threshold と呼ぶ値の例であり,ランダムエネルギーモデルのスピングラス相転移境界と対応する.15

一般のモデルでは,この臨界温度の値は不明である上に,\(\Delta>\Delta_c\) の高温領域での効率的な推定法が見つかっていない場合も多い.

このような,高次元統計推測の問題においては,統計物理学,特にスピングラス理論の知見が活発に応用されて,漸近極限における相図の解明,統計計算手法の開発が目指されている.

Schematic representation of a typical high-dimensional inference problem from (Zdeborová and Krzakala, 2016, p. 466)

4 終わりに

3 節において,統計力学の知見は,レプリカ法などの計算手法を通じて,\(N\to\infty\) における漸近極限として,「大規模な確率分布から平均値を計算するための”ツールボックス”」(樺島祥介, 2003) として働いている.

大自由度系では,次元に関して計算量が指数約に爆発してしまう.平衡統計力学の歴史はこの問題との戦いの歴史である,と言っても過言ではない.(樺島祥介 and 杉浦正康, 2008, p. 22)

References

Derrida, B. (1980). Random-energy model: Limit of a family of disordered models. Phys. Rev. Lett., 45, 79–82.
Donoho, D. L., and Johnstone, I. M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika, 81(3), 425–455.
Guo, D., Shamai, S., and Verdu, S. (2005). Mutual information and minimum mean-square error in gaussian channels. IEEE Transactions on Information Theory, 51(4), 1261–1282.
Iba, Y. (1999). The Nishimori line and Bayesian statistics. Journal of Physics A: Mathematical and General, 32(21), 3875.
Jaynes, E. T. (1957). Information theory and statistical mechanics. Phys. Rev., 106, 620–630.
Krazakala, F., and Zdeborová, L. (2024). Statistical physics methods in optimization and machine learning.
Krzakala, F., Zdeborova, L., Angelini, M. C., and Caltagirone, F. (2015). Statistical physics of inference and bayesian estimation.
Mézard, M., and Montanari, A. (2009). Information, physics, and computation. Oxford University Press.
Murphy, K. P. (2023). Probabilistic machine learning: Advanced topics. MIT Press.
Nishimori, H. (1980). Exact results and critical properties of the ising model with competing interactions. Journal of Physics C: Solid State Physics, 13(21), 4071.
Shalev-Shwartz, S., and Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge University Press.
Stein, C. (1972). A Bound for the Error in the Normal Approximation to the Distribution of a Sum of Dependent Random Variables. Stanford University. Retrieved from https://purl.stanford.edu/jc818sv7483
Storopoli, J. (2021). Bayesian statistics with julia and turing.
Vershynin, R. (2018). High-dimensional probability,Vol. 47. Cambridge University Press.
Zdeborová, L., and Krzakala, F. (2016). Statistical physics of inference: Thresholds and algorithms. Advances in Physics, 65(5), 453–552.
樺島祥介. (2003). コトの物理学:誤り訂正符号を例として. 日本物理学会誌, 58(4), 239–246.
樺島祥介, and 杉浦正康. (2008). コトの物理学. 物性研究, 91(1), 1–33.
西森秀稔. (2005). 相転移・臨界現象の統計物理学,Vol. 35. 培風館.

Footnotes

  1. (Zdeborová and Krzakala, 2016, p. 467) も参照.↩︎

  2. (Shalev-Shwartz and Ben-David, 2014, p. 25)(Krazakala and Zdeborová, 2024, p. 119) に倣った.↩︎

  3. (Krazakala and Zdeborová, 2024, p. 122)↩︎

  4. (Zdeborová and Krzakala, 2016, p. 464)(Krazakala and Zdeborová, 2024, p. 123) 定理13,(Iba, 1999, pp. 3876–3877) などで扱われている.西森ライン上のみで見られる性質であるため,西森対称性と呼ぶ.西森ラインについては 次項 も参照.↩︎

  5. (Mézard and Montanari, 2009, p. 249)(Iba, 1999, p. 3876) などでは thermal average と quenched average の用語が採用されている.↩︎

  6. (Krazakala and Zdeborová, 2024, p. 124) 定理14.↩︎

  7. (西森秀稔, 2005, p. 123)なども参照.↩︎

  8. (Krazakala and Zdeborová, 2024, p. 125) 定理15,(樺島祥介 and 杉浦正康, 2008, p. 14) なども参照.証明は (Krazakala and Zdeborová, 2024, p. 133) 7.B 節 を参考にした.↩︎

  9. (Krazakala and Zdeborová, 2024, p. 125)補題8.↩︎

  10. (Krazakala and Zdeborová, 2024, p. 126)補題9.↩︎

  11. (Krazakala and Zdeborová, 2024, p. 132)補題10.↩︎

  12. (Vershynin, 2018, p. 25)命題2.5.2など.↩︎

  13. (Vershynin, 2018, p. 25)命題2.5.2.↩︎

  14. この定数2は,1よりも真に大きい定数ならばなんでも良い.(Vershynin, 2018, p. 27)注2.5.3 も参照.↩︎

  15. (Krzakala et al., 2015, p. 8) また p.16 も参照すべし.↩︎