ベイズ統計学と統計物理学

スパース符号の復元を題材として

Author

司馬博文

Published

6/20/2024

Modified

6/28/2024

概要
ノイズ付きで観測された情報を復元するデノイジング問題は,ベイズ推定問題として扱える.これを統計力学の観点からランダムエネルギーモデルとして解析することで,データ数無限大の極限における振る舞いを理解できる.一般に,ベイズ統計モデルはスピングラスモデルと同一視することができ,その漸近論(特に比例的高次元極限)に閾値現象が出現することはスピングラス系の常磁性相とスピングラス相の相転移と深い対応を持つ.

本稿では全ての結果に数学的に厳密な証明をつけることを優先し,簡単なモデルを取り上げた.

一般のモデルと,スピングラス理論との大局観は,次稿を参照:

1 Bayes 推定

符号の誤り訂正,または denoising の文脈で Bayes 推定を考える.

雑音が加わる通信路から受け取った観測から真の信号を推定するというデノイジング問題は,Bayes 推定が自然に選好される格好の設定である.

1.1 デノイジング問題としての設定

情報源は無記憶で,確率分布 p(x)dx に従うとし,通信路は,確率核 p(y|x)dy に従うとする.

送信符号は1つの実数 xp(x)dx であったとし,この単一の入力 xn 回独立に観測する: y1,,yniidp(y|x)dy.

この観測を経たあと,送信符号 x はいったい何だったのかを推定することを考えると,極めて自然に Bayes 推定が選択される.

まず,何の観測もない場合,x の確率分布は p(x)dx である(設定上).

しかし,すでに観測 y1,,yn を経ている.よってこの事象の上での x の条件付き分布を計算すれば良いことになる: p(x|y1,,yn)=p(y|x)p(x)p(y) (1)=p(y1|x)p(yn|x)p(x)Rp(y1|x)p(yn|x)p(x)dx

こうして,誤り訂正符号の文脈では,Bayes 事前確率・事後確率が純粋に確率(または頻度)としての解釈を持つ.通常の統計的枠組みよりも仮定が多いが,その仮定の形式が Bayes 推定の形式にピッタリなのである.

信号処理と Bayesian formalism の類似性は ()() でも指摘されている.

また,統計力学をベイズ推定の特殊な場合とみなせるという見方は,() から始まる.

1.2 例:Delta-Gauss 混合

入力は 1/2 の確率で x=0 だが,もう 1/2 の確率で標準正規分布 N(0,1) に従うとする: p(x)dx=12δ0(dx)+12N(0,1)(dx). 通信路は加法的 Gauss 型であるとする: p(x,y)=12πexp((xy)22). では真値を x=1 として,n=10 回の観測データを生成してみる:

using Random

Random.seed!(123)
data = 1 .+ randn(10)
print(data)
[1.8082879284649667, -0.12207250811417336, -0.10463610232929588, 0.5830073648350667, 1.2875879806238557, 1.2298186980518677, 0.5782313356003073, -0.355590621101197, -0.08821851393628699, 1.7037583257923017]

愚直な計算から,p(y) は次の積分から得られる:

p(y)=Rp(y|x)p(x)dx=Ri=1np(yi|x)p(x)dx=121(2π)n+1Rexp(12i=1n(yix)2+x2)dx+121(2π)nexp(12i=1n(yix)2)dx.

これを実際に計算した結果は () で与えられている.

ここでは,邪教のような計算を啓示するのではなく,Julia と Turing を通じて計算する方法を紹介する ()

using Turing, Distributions

prior = MixtureModel([Normal(0.0, 1.0), Normal(0.0, 0.005)], [0.5, 0.5])

@model function mixed_normal_model(data)
    μ ~ prior
    for i in 1:length(data)
        data[i] ~ Normal(μ, 1)
    end
end

model = mixed_normal_model(data)
chain = sample(model, NUTS(), 100000)
using MCMCChains, Plots, StatsPlots

plot(chain[:μ], seriestype = :density, xlabel = "x*", ylabel = "Density", title = "Posterior Distribution", color = "#78C2AD")

vline!([1], color = :pink, linewidth = 2, label = "x^* = 1")

x=0 に原子が存在する.

ここでは密度関数は滑らかに見えるが,実際には x=0 で不連続である.

これは,計算の都合上,δ0N(0,0.005) で代用したためである.

1.3 MAP 推定量

定義 (maximum a posterior estimator)

x^:=argmaxxRp(x|y1,,yn) で定まる推定量 RnRMAP 推定量 という.

などをはじめ,ほとんどの場面では良い推定量を与え,多くの場合の最初のチョイスとして適しているかもしれない.

しかし,例 をさらに変形することで,次のような事後分布が得られる状況は容易に想像がつく:

Code
function f(x)
    if -1.8 < x < -1.6
        return 2.5
    elseif 0 < x < 1.5
        return 1
    else 
        return 0
    end
end

plot(f, -2, 2, size=(600, 400), legend=false, color="#78C2AD")
図 1

1.4 ベイズ最適推定量

の状況でも,たしかに1点のみを選ぶならば MAP 推定量で良いかもしれないが,x0 である確率は x0 である確率よりも低いため,この意味では,x[0,3/2] の範囲に推定量が収まっていた方が好ましいかもしれない.

推定量 x^n:RnR を評価するには,何らかのアプリオリな 損失 の概念が必要である.これを損失関数 L:R2R という形で与える.

すると,損失の期待値が計算可能になり,これを 危険 という: R(x^n):=E[L(x^n(Y),X)].

このリスクを最小化する推定量を ベイズ最適推定量,その際のリスクを ベイズリスク という.

1.4.1 l2-ベイズ最適推定量

命題

L(x,y):=(xy)2 と定める.このとき,事後平均 がベイズリスクを達成する: x^(y):=Rxp(x|y)dx.

の場合では,事後平均は約 0.1 で,かろうじて正になる.

1.4.2 l1-ベイズ最適推定量

命題

L(x,y):=|xy| と定める.このとき,事後中央値 がベイズリスクを達成する.

の場合では,事後中央値は 0.5 となる.大変頑健な推定だと言えるだろう.

1.4.3 最適決定規則

今回の誤り訂正符号の文脈の目標は,x の復元であることを思い出せば,今回の損失は L(x,y)=δ0(xy) ととり,復号が成功する確率を最大とする推定量が「最良」と言うべきであろう: R(x^n)=P[x^n(Y)=X]

これは結局 MAP 推定量 x^n:=argmaxxRp(x|y) で与えられることになる.

2 統計物理からの視点

真のシグナル xR を,Bayes 事後平均によって点推定する問題を,統計力学の観点から考察する.

次節 で,スパースな一般次元のベクトル xRd を復元する問題に拡張する.

2.1 事後分布をある物理系の平衡分布と見る

ベイズの公式 () が与える事後分布 p(x|y) は,次の Boltzmann-Gibbs 分布として理解できる: p(x|y)=elogp(y|x)p(x)p(y) =eH(x,y)Z(y), H(x,y):=logp(y|x)logp(x), Z(y):=p(y).

すなわち,Bayes 事後分布 p(x|y) は,R×Rn を配位空間に持ち,Hamiltonian H(x,y) を持つ正準集団の平衡分布と捉えることができる.

従って,Bayes 事後平均とは,この系に関する熱平均になる.加えて,MAP 推定量とは,この系に関する基底状態となる.

しかし,この系の,物理的な意義どころか,統計的な意義も定かではない.

2.2 もう一つの見方

今回,通信路は加法的に Gauss ノイズを加えるものとしたのであった: p(y|x)dy=N(x,σ2)n(dy) この場合,前節 でみた方法の他に,事後分布 p(x|y) を次のように理解することもできる: p(x|y)=eH(x,y)Z(y), H(x,y):=12σ2i=1n(x22xyi)logp(x), Z(y):=(1(2πσ2)n2e|y|22σ2p(y))1.

この Hamiltonian H により定まる系の分配関数 Z(y) は,情報源 p(x) と Gauss 型通信路 p(y|x) で与えられた観測 y に関する周辺モデル p(y) と,完全にランダムなホワイトノイズ N(0,σ2)n との尤度比,または ベイズ因子 になっている.

p(x|y)=p(y|x)p(x)p(y)=p(x)p(y)1(2πσ2)n2e12σ2i=1n(xyi)2=p(x)p(y)e12σ2i=1nyi2(2πσ2)n2e12σ2i=1n(x22xyi)=p(x)e12σ2i=1n(x22xyi)Z(y)=1Z(y)exp(logp(x)12σ2i=1n(x22xyi))

さらに,この系 H における自由エントロピーは,p(y)N(0,σ2)n との間の KL 乖離度となっている: Fn:=Rnlogp(y)q(y)p(y)dy=KL(p,q). ただし,qN(0,σ2)n の密度とした.

この系の他の物理量も,自由エネルギーと定数倍違うのみとなっている:

命題(エントロピーと相互情報量)

この Hamiltonian H を持つ系について,

  1. エントロピー H は次で与えられる:

    H(Y):=Rn(logp(y))p(y)dy=n2log(2πσ2)+12σ2Rn|y|2p(y)dyFn.

  2. 相互情報量 I は次で与えられる:

    I(X,Y):=KL(p(x,y),p(x)p(y))=n2σ2Rx2p(x)dxFn.

特に,いずれも自由エネルギーの定数倍である

  1. の式変形は次のとおり: H(Y):=Rn(logp(y))p(y)dy=Rnp(y)dylogq(y)Fn=Rn(n2log(2πσ2)|y|22σ2)p(y)dyFn=n2log(2πσ2)+n2σ2Ryi2p(yi)dyiFn.

  2. 次の関係式を用いる: I(X,Y)=H(Y)H(Y|X) H(Y) は 1. から判明しており,H(Y|X) は次のように計算できる:

    H(Y|X)=Rn+1logp(y|x)p(y|x)p(x)dxdy=Rn+1log(1(2πσ2)n2exp(12σ2i=1n(yix)2))p(y|x)p(x)dxdy=Rn+1(n2log(2πσ2)+i=1n(xyi)22σ2)p(y|x)p(x)dxdy=n2log(2πσ2)+12σ2R(Rni=1n(xyi)2p(y|x)dy)p(x)dx=n2log(2πσ2)+nσ22σ2Rp(x)dx=n2log(2πσ2)+n2.

これと,yi には xi とこれと独立な分散 σ2 のノイズが加わって得られる値であることから,次のように計算できる: I(X,Y)=H(Y)n2log(2πσ2)n2=Fnn2+n2σ2Ryi2p(yi)dyi=Fnn2+n2σ2(σ2+Rx2p(x)dx)=Fn+n2σ2Rx2p(x)dx.

2.3 西森対称性

命題 ()

P:RRn を確率核,XL(Ω) は分布 νP(R) を持ち,YL(Ω;Rn) の分布は μ(dy)=Rν(dx)P(x,dy) で定まるとする.ここで,Y で条件づけた X の確率分布を PX|Y とする: ν(dx)=Rnμ(dy)PX|Y(y,dx). X(1),,X(k)iidPX|Y を独立な確率変数列とすると,次が成り立つ:任意の fLb(Rn+k) について,

E[f(Y,X(1),,X(k))]=E[f(Y,X(1),,X(k1),X)].

X(1),,X(k) で表した確率変数の PX|Y に関する積分を Boltzmann 積分または熱平均と呼び,観測を作り出す過程 (X,Y) に関する積分を無秩序積分 (disorder expectation) または quenched average という.

この設定の下で,(X,Y) の結合分布が次の2通りで表せていることに注意: ν(dx)P(x,dy)=μ(dy)PX|Y(y,dx). 従って, ν(dx)P(x,dy)PX|Y(y,dx(1),,dx(k))=μ(dy)PX|Y(y,dx)PX|Y(y,dx(1),,dx(k)) に関して f(Y,X(1),,X(k)) の期待値を取ると,次のように計算できる: E[f(Y,X(1),,X(k))]=Rn+kf(y,x(1),,x(k1),x(k))PX|Y(y,dx(1))PX|Y(y,dx(k))μ(dy)=Rn+kf(y,x(1),,x(k1),x)PX|Y(y,dx(1))PX|Y(y,dx(k1))ν(dx)P(x,dy)=E[f(Y,X(1),,X(k1),X)].

確率核 P にまつわる記法は次の記事も参照:

Article Image

数学記法一覧

本サイトで用いる記法と規約

PX|Y に関する積分を で表すことで,何をどのように物理的に解釈しているかが明確になる: X=E[X|Y].

この見方を採用すると,期待値を E[f(Y,X(1),,X(k))]=EY[f(Y,X(1),,X(k))] と二段階で捉えていることになる.右辺の外側の期待値は単に Y のみに関してとっていることになる.

節で考えたモデル H における Boltzmann 分布が PX|Y となり,平均 はこれに関する平均となる.

一方で,Hamiltonian H にもランダム性が残っているのであり,これに関する平均が (X,Y) に関する平均に当たる.

こうして,ベイズ統計モデルはスピングラス系(特にランダムエネルギーモデル ())と同一視できるようになる.

だが同時に,スピングラスのサンプリングを困難にする多谷構造も,ベイズ統計に輸入されるのである…….

スピングラスについては,次の記事も参照:

Article Image

数学者のための統計力学1

Ising 模型とスピングラス

2.4 最小自乗誤差推定量

節で扱った最小自乗誤差推定量の自乗誤差は次のように計算できる:

命題(最小自乗誤差の表示)

X:=E[X|Y] と表す.事後平均推定量の自乗誤差は次のように表せる: MMSE:=E[(XE[X|Y])2]=E[X2]E[X2].

E[V[X|Y]]=E[(E[X|Y]X)2]=E[E[X|Y]22XE[X|Y]+X2]=E[E[X|Y]2]2E[XE[X|Y]]+E[X2]=E[X2]E[E[X|Y]2].

この変形では,繰り返し期待値の法則 E[XE[X|Y]]=E[[XE[X|Y]|Y]]=E[E[X|Y]2] を西森の対称性の代わりに用いたことになる.

換言すれば,西森の対称性を証明したのと同様の方法を本命題にも適用したため,直接命題の適用は回避したことになる.

2.5 KL 乖離度の微分としての分散

次の定理は,相互情報量 I と MMSE を結びつける定理であるため,() 以来,I-MMSE 定理 と呼ばれている.

命題(自由エネルギーによる特徴付け) ()

簡単のため,n=1 とする.このとき,β:=σ2 に関して,次の式が成り立つ:

  1. 自由エネルギー F1 について, F1β=E[X2]2.

  2. 相互情報量 I(X,Y) について,

    I(X,Y)β=E[X2]E[X2]2=MMSE2

ただし,X:=E[X|Y] と定めた.

logp(y)q(y)=12πσ2Re(xy)22σ2p(x)dx12πσ2ey22σ2=Rex22xy2σ2p(x)dx.

この p(y)dy に関する積分を β で微分すれば良いのであるが,p(y) 自体が σ に依存し,そのまま計算したのでは大変煩雑になる.

そこで,y=σz+x と変数変換をすることで,標準 Gauss 確率変数 Zγ1 と真値 X は独立で,σ も含まないから,次のように計算ができる: F1(β)=Rlogp(y)q(y)p(y)dy=E[log(Rex22xY2σ2p(x)dx)]=E[log(Rexp(x22σ2+xZσ+xXσ2)p(x)dx)]=E[log(Rexp(x2β2+xZβ+xXβ)p(x)dx)].

こうして,最右辺の期待値に関する密度はもう β に依存しないから,次のように微分が計算できる.ただし, exp(x2β2+xZβ+xXβ)p(x)dxp(x|y) の定数倍,すなわち Gibbs 測度 eH(x,y)Z(y)dx の定数倍であることに注意して,これらに関する平均を引き続き :=E[|Y] で表すこととすると,

F1(β)β=E[R(x22+xZ2β+xX)ex2β2+xZβ+xXβp(x)dxRexp(x2β2+xZβ+xXβ)p(x)dx]=E[X2]2+12βE[XZ]+E[XX].

X が中に入っているのは,σ[X,Z] に関する条件付き期待値を E 内で取ったためと捉えられる.

まず,第二項は,Stein の補題 の系から, 12βE[XZ]=12ββ(E[X2]E[X2])=E[X2]2E[X2]2

第三項は,西森の対称性から, E[XX]=E[X2].

以上を併せると, F1(β)β=E[X2]2.

  1. の主張も,n=1 のときは I(X,Y)=β2Rx2p(x)dxF1 であったために従う: I(X,Y)β=E[X2]2E[X2]2=MMSE2.

E[X2]q とも表され,スピングラスの 秩序パラメータ ともいう.

Iβ に関する二回微分を計算することより,β に関する凸関数であることもわかる.

2.6 Stein の補題

命題 ()

可積分な確率変数 XL1(Ω) について,次は同値:

  1. X の分布は標準Gaussである:Xγ1
  2. 任意の fCb1(R) について, E[f(X)]=E[Xf(X)]<.
  • (1)(2)

    f,f はいずれも有界としたから, E[f(X)],E[f(X)]< が成り立つ.

    γ1 の密度 ϕϕ(x)=xϕ(x) を満たすことに注意すれば,部分積分により, E[f(X)]=Rf(x)ϕ(x)dx=Rf(x)xϕ(x)dx=E[f(X)X].

  • (2)(1)

    X は可積分としたから,特性関数 φ(u):=E[eiuX] は少なくとも C1(R)-級で,その微分は ϕ(x):=eiux に関する仮定 E[ϕ(X)]=E[Xϕ(X)] を通じて φ(u)=iE[XeiuX]=uE[eiuX]=uφ(u),uR, と計算できる.

    この微分方程式は規格化条件 φ(0)=1 の下で一意な解 φ(u)=eu22 を持つ.

X:=E[X|Y] とこれと独立な Zγ1 に関して,次が成り立つ:

E[XZ]=E[XZ]=β(E[X2]E[X2])

最初の等号 E[XZ]=E[XZ] は Stein の補題による.

続いて, X=Rxp(x|Y)dxY=σZ+X を通じてのみ Z に依存するから, (2)XZ=XYdYdZ=σXY が成り立つ.あとは X=E[X|Y]Y に関する微分を計算すれば良い.

p(y|x)y=yxσ2p(y|x). また, p(y)=12πσ2Re(xy)22σ2p(x)dx であったから, p(y)=12πσ2Ryxσ2e(xy)22σ2p(x)dx=Ryxσ2p(y|x)p(x)dx=Ryxσ2p(x|y)p(y)dx=yXσ2p(y). p(Y)p(Y)=XYσ2

に注意すれば,次のように計算できる:

XY=YRxp(x|Y)dx=YRxp(Y|x)p(x)p(Y)dx=RxYp(Y|x)p(x)p(Y)dx=Rxp(Y|x)Yp(x)p(Y)dx+Rx(Y1p(Y))p(Y|x)p(x)dx=RxYxσ2p(x|Y)dxp(Y)p(Y)Rxp(x|Y)dx=Yσ2X+X2σ2XXYσ2=1σ2(X2X2).

最後,式 (???) より, XZ=σXY=β(X2X2).

3 スパースベクトルの復号

スパースベクトルの信号推定問題を考える.ここまで,x,xR の点としてきたが,本節では,Rd,d=2N の one-hot ベクトルであるとする.

3.1 設定

真の信号 xRd は,d 次元の one-hot ベクトルであるとする.すなわち,次の集合 Δd の元であるとする: Δd:={xZdx1=1}.

加えて,Δd 上の一様分布に従うとする:xU(Δd)

これを分散 σ2N を持った Gauss ノイズを通じて観測する: YNd(x,σ2NId).

事前分布を p(x)Y の分布を p(y) とすると,Bayes の定理より, p(x|y)=p(x)p(y)i=1de(yixi)22σ2/N2πσ2/N=i=1dϕ(yi;0,σ2/N)p(y)×12Ni=1dexp(xi22xiyi2σ2/N)

ただし,ϕ(;μ,σ):=dN1(μ,σ)d1 を正規密度とした.

3.2 スピングラス系との同一視

この事後分布 p(x|y) は,次の Hamiltonian H に関する,逆温度 β=σ2 での Boltzmann 分布とみなせる:

p(x|y)=1ZeβH(x,y)H(x,y):=Nσ2log2N2i,j=1dxixj(12yi)(12yj)

この Hamiltonian は非物理的なものであり,planted ensemble とも呼ばれる.() での clamped という表現と同じニュアンスである.詳しくは次項参照:

また,H の表示については,xΔd であるから,i,j[d] と2つの和をとっているように見えるが,二つの添え字が一致している場合しか非零な値は取らず,結局 H(x,y)=N2j=1d(2yj1)xj+Nσ2log2 であることに注意.

なお,分配関数は Z:=12Ni=1dexp(N2σ2(2yi1)), と表される.

3.3 自由エネルギー密度の計算

系が用意されたら,統計力学はまず,代表的な物理量の熱力学極限を計算する.特に自由エネルギー密度は,熱力学極限 N において自己平均性(確率論では集中性という性質)を示すことが期待される.

自由エネルギー密度 Φ は,熱力学極限を通じて Φ(β):=limNE[logZ]N と定まる.

I-MMSE 定理(第 節)はこの多次元の X に関しても有効であり, ΦN(β):=E[logZ]N に関して, ΦN(β)β=E[|X|2]2 が成り立つ.

まず有限の NN+ で計算する.

ΦN(β)β=1NE[1ZZβ] の右辺を求めれば良い.

Yi=Xi+σNZi であり,one-hot ベクトル xΔd については xj=xj2,|x|2=1 でもあることに注意すれば,

Z=i=1deH(x(i),Y)=12Ni=1dexp(Nβ2|x(i)|2+Nβ(Y|x(i)))=12Ni=1dexp(Nβ2|x(i)|2+N(X|x(i))β+(Z|x(i))Nβ) Zβ=id(N2|x(i)|2+N(X|x(i))+N2β(Z|x(i)))eH(x(i),Y) 1ZZβ=N2|X|2+N(X|X)+N2β(Z|X) 1NE[1ZZβ]=E[|X|22+(X|X)+(Z|X)2Nβ] これは1次元の場合の計算(第 節)と同様に, ΦN(β)β=E[|X|2]2 と計算できる.

よって,N の極限でも右辺が定数に収束し(右辺は 2N 項和を含む),この種の関係式が成り立ち続けるならば,Φβ の一次関数の形であるはずである.実際,次が示せる:

命題

Δ:=σ2 の関数として,自由エネルギー密度 Φ は次で定まる関数 f:R+R+ に一致する: f(Δ):={12Δlog2ΔΔc,0ΔΔc. Δc:=12log2

次節 では ΦNf によって上下から評価することで,数学的に厳密な証明を与える.ここでは,本ベイズモデルをランダムエネルギーモデルとみなし,レプリカ法によって計算した場合の証明の概略を付す.

n 個のレプリカを複製した際の,それぞれの配置 (i1,,in)[d]n について足し合わせることで,Zn の disorder average を取る.

最終的に次の表示を得る: enN(log2+β2)dQdMeNs(Q,M)+Nβ(a=1nMa+12a,b=1nQa,b) (3)=:dQdMeNg(Δ,Q,M). ただし,Ma:=δia,12 は磁化のベクトル,Qab:=δia,ib は overlap matrix と呼ばれる.

積分はこの Ma,Qab の全体について実行され,同じ Ma,Qab の値を取る配置の数を #(Q,M)=:eNs(Q,M) と表した.

N の極限では,式 () に対して Laplace 近似を実行すれば良い.

従って,Q,M の構造のうち,特に支配的なものの特定に成功すれば,解が求まることになる.

最初の仮定として,レプリカ i1,,id は交換可能で見分けがつかないはずだろう,という replica symmetric ansatz が考えられる.

このレプリカ対称性を仮定すると,次の3通りまでシナリオが絞られる:

  1. 任意のレプリカは同一の状態にある:iai[d].だが,正しいレプリカではない i1

    このとき,Qab1,Ma0 となり,s(Q,M)=log2,かつ g(β,Q)=log2+n2/Δ

    これは N の極限で n に関して線型ではなく,物理的な解が得られるとは思えず,レプリカ法も解析接続に失敗する.

  2. 任意のレプリカは全て正しい状態にある:ia1

    Qab=Ma1 となり,s(Q,M)=0,g(β,Q)=n/Δ+n2/2Δ

  3. レプリカ内に少なくとも2つの違う状態がある:

    このとき,g(β,Q)=n/2Δ+nlog2

2と3の場合から,次の2つが解の候補として回収できた: E[Zn]=enN(log2β2), E[Zn]=0.

この2つは,次節 から導かれる厳密な結果に一致する.

最後,自由エネルギーの Δ に関する凸性と解析性から,結論を得る.

3.4 自由エネルギーの上下評価

レプリカ法を回避し,数学的に厳密な証明を与えるには,次のように上下から評価することになる.

補題(下界)

ΦN(Δ)f(Δ)

一般に下からの評価は,Zi に関する項をまとめて無視して良いために,簡単である.

Yi=Xi+σNZi, ZiiidN1(0,1),

であることから,iXi=1 を満たす添字 i[d] とすると,

Z=12Ni=1dexp(NYiσ2N2σ2)=12Ni=1dexp(NXiσ2+NσZiN2σ2)12Nexp(Nσ2+NσZiN2σ2)=12Nexp(N2σ2+NσZi)

と評価できる.

logZN2σ2+NσZiNlog2. ΦN(Δ)=E[logZ]N1N(N2σ2Nlog2)=12Δlog2.

これより,低温領域に於ては, ΦNfon(0,Δc) が確認できた.

続いて, ΦN(Δ)Δ=ΦN(Δ)βdβdΔ=E[|X|2]2(1Δ2)0 であることと, limΔΦN(Δ)=0 であることから,[Δc,) 上においても非負であることがわかる.

以上より, ΦNfonR+.

補題(上界)

ΦN(Δ)f(Δ)+o(1)(N)

ΦN の上界は,Boltzmann 分布 p(x|y) に関する期待値に対して,Jensen の不等式を用いることで導かれる.このような不等式は annealed bound とも呼ばれる.

真値 x とノイズ z が確定している(従って,xi=1 を満たす i[d] も確定している)とすると, Z=12Ni=1dexp(Nβ2+Nxiβ+ziNβ)=12N(exp(Nβ2+ziNβ)+iiexp(Nβ2+ziNβ)) logZ=log(exp(Nβ2+ziNβNlog2)+ii12Nexp(Nβ2ZiNβ)) と計算できる.凹関数 log に対する Jensen の不等式より, E[logZ]E[log(exp(Nβ2+ZiNβNlog2)+iiEZi[12Nexp(Nβ2+ZiNβ)])]=E[log(exp(Nβ2+ZiNβNlog2)+2N12N)]E[log(exp(Nβ2+ZiNβNlog2)+1)]=E[log(eN(β2log2)eZiNβ+1)].

最初の等号にて,ξN(μ,σ2) の積率母関数が E[etξ]=exp(μt+σ2t22) で表せることを用いた.

この Zi という確率変数は複雑に定まっており,これを直接議論することは後回しにする.

本補題の主張は,純粋に関数 g(z):=exp(N(β2log2)+zNβ)+1 の性質を考察するだけで従う.この関数 g を用いると, ΦN(β)=E[logZ]N1NE[log(g(Zi))] と表せる.glogg も凸関数であるから, logg(|z|)logg(0)+|z|ddzlogg(|z|)=logg(0)+g(|z|)g(|z|)logg(0)+|z|Nβ=log(eN(β2log2)+1)+|z|Nβ.

これより, ΦN(β)1NE[log(g(|Zi|))]1Nlog(eN(β2log2)+1)+βNE[|Zi|].

よって,Zi が可積分であることさえ認めれば,N のとき, ΔΔcβ2log2 のとき,log(eN(β2log2)+1)0 であり,そうでない場合は log(1+ex)xxR+ より, ΦN(Δ)β2log2+o(1)(N) を得る.

3.5 解釈

N の極限において,高温領域 Δ>Δc において,最小自乗誤差(MMSE)は 1 であり,何をどうしても復号することはできない.Gauss ノイズ Δ=σ2 が大きすぎるのである.

一方で,低温領域 Δ<Δc において,βf=12 であり,従って MMSE は 0 になる.よって完全な誤りのない復号が可能であるはずである.

設定(第 節)が与えられたならば,立ち所に,Δ が大きいほど復号が難しいことは予想がつく.しかし,ある閾値 Δc に依存して,少なくとも N の極限では,

  • 2つの領域で全く異なる振る舞いをすること
  • 2つの振る舞いのみに分類される(ある一定以上の確率で復号が可能である,などの中間状態がない)こと

は驚きである.

実は,高温領域 Δ>Δc では,自由エネルギー FN0 に指数収束する.FN とは,完全な Gauss ノイズ q(y)dy:=Nd(0,ΔNId)p(y) との KL 距離距離であったから,メッセージ x を完全な雑音と見分けることが加速度的に難しくなっていくのである.

3.6 自由エネルギーのさらに鋭い評価

命題(KL 乖離度は指数収束する)

高温領域 Δ>Δc において,ある C>0 が存在して,任意の NN+ について次が成り立つ:

FN(Δ)=KL(p(y)|q(y))eCN

ただし,p は観測信号 YNd(X,ΔNId) の密度,qNd(0,ΔNId) の密度とした.

節で示した ΦN の上界評価では, ΦN(β)=E[logZ]N1NE[log(exp(N(β2log2)+ZiNβ)+1)] を得て,Zi の評価を回避したのであった.

これに正面から取り組むことで,高温領域 Δ>Δc での ΦN の指数収束を示すことができる.

高温領域 Δ>Δc では, f:=β2+log2>0 が成り立つ.

Zi は,まず X によって条件付ければ Zi|XN(0,1) であるから, NΦN(β)E[log(efN+ZiNβ+1)]=Rez222πlog(efN+zNβ+1)dz=(R+R)ez222πlog(efN+zNβ+1)dz と分解すると,まず (,R) 上の積分は N に関して指数収束する.

実際,R>0 に対して NN+ を十分大きく取ることで,ある ϵ>0 が存在して fN+zNβϵfN を満たすようにできるから,

Rez222πlog(efN+zNβ+1)dz<Rez222πlog(eϵfN+1)dz=log(1+eϵfN)eϵfN. 最後の不等式は log(1+x)xxR による.

従って,あとは (R,) 上の積分が指数収束することを示せば良いが,再び log(1+x)x に注意して Rez222πlog(efN+zNβ+1)dzR12πefN+zNβz22dz=eNβ2fNR12πe(zNβ)22dz=eNβ2fNP[Z>RNβ] と評価できるから,あとは Zγ1 の尾部確率が指数収束するかどうか(正確には劣 Gauss 性を持つかどうか)の問題に帰着する.

実はこれは yes である.中心化された確率変数の積率母関数が,ある σ>0 に関して E[eλξ]eλ2σ22λR を満たすことは,ある κ>0 が存在して P[|ξ|t]2et22κ2 を満たすことに同値になる.特に, 方向には κ=σ ととれる. ΦN の上界評価(第 節)で触れたように,(中心化された)Gauss 確率変数はこれを満たす.

よって, eNβ2fNP[Z>RNβ]eNβ2fNe(RNβ)22=eNβ2fNeR22+NβRNβ2=exp(R22+NβRNf).

この最右辺,ある定数 C>0 が存在して,eCN で抑えられる.

あるいは,任意の NN+ に対して R:=Nβfδδ>0 と取ることで,(,R),(R,) 上の積分のそれぞれについて,同様の評価を得る.

以上より, FN(Δ)=NΦNeKN.

命題(劣 Gauss 確率変数の特徴付け)

XL(Ω) を確率変数とする.このとき,次の4条件は同値で,さらに {K1,,K5}R+ はある CR が存在して,i,j[5]KjCKi を満たすように取れる.

  1. 尾部確率の評価:ある K1>0 が存在して, P[|X|t]2et2K12,t0.
  2. Lp-ノルムの評価:ある K2>0 が存在して, XLpK2p,p1.
  3. X2 の積率母関数の 0 の近傍での評価:ある K3>0 が存在して, |λ|1K3E[eλ2X2]eK32λ2.
  4. X2 の積率母関数のある1点での値:ある K4>0 が存在して, E[eX2K42]2.
  5. さらに,X が中心化されている場合,次とも同値:ある K5>0 が存在して, E[eλX]eK52λ2,λR.

以上の同値な条件を満たす確率変数 X劣 Gauss (sub-Gaussian) という.

3.7 まとめ

大変単純化された設定 toy model であったが,比例的高次元極限 N において,厳密に示せる相転移を示す模型である.

すなわち,ただ一つの非零成分 1 に対して,ノイズの分散 σ2(2log2)1 より大きいかどうかで,これが復号可能かどうかが決まる.

この 2log2 という値は () が universal threshold と呼ぶ値の例であり,ランダムエネルギーモデルのスピングラス相転移境界と対応する.

一般のモデルでは,この臨界温度の値は不明である上に,Δ>Δc の高温領域での効率的な推定法が見つかっていない場合も多い.

このような,高次元統計推測の問題においては,統計物理学,特にスピングラス理論の知見が活発に応用されて,漸近極限における相図の解明,統計計算手法の開発が目指されている.

Schematic representation of a typical high-dimensional inference problem from ()

4 終わりに

節において,統計力学の知見は,レプリカ法などの計算手法を通じて,N における漸近極限として,「大規模な確率分布から平均値を計算するための”ツールボックス”」() として働いている.

大自由度系では,次元に関して計算量が指数約に爆発してしまう.平衡統計力学の歴史はこの問題との戦いの歴史である,と言っても過言ではない.()

References

Derrida, B. (1980). Random-energy model: Limit of a family of disordered models. Phys. Rev. Lett., 45, 79–82.
Donoho, D. L., and Johnstone, I. M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika, 81(3), 425–455.
Guo, D., Shamai, S., and Verdu, S. (2005). Mutual information and minimum mean-square error in gaussian channels. IEEE Transactions on Information Theory, 51(4), 1261–1282.
Iba, Y. (1999). The Nishimori line and Bayesian statistics. Journal of Physics A: Mathematical and General, 32(21), 3875.
Jaynes, E. T. (1957). Information theory and statistical mechanics. Phys. Rev., 106, 620–630.
Krazakala, F., and Zdeborová, L. (2024). Statistical physics methods in optimization and machine learning.
Krzakala, F., Zdeborova, L., Angelini, M. C., and Caltagirone, F. (2015). Statistical physics of inference and bayesian estimation.
Mézard, M., and Montanari, A. (2009). Information, physics, and computation. Oxford University Press.
Murphy, K. P. (2023). Probabilistic machine learning: Advanced topics. MIT Press.
Nishimori, H. (1980). Exact results and critical properties of the ising model with competing interactions. Journal of Physics C: Solid State Physics, 13(21), 4071.
Shalev-Shwartz, S., and Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge University Press.
Stein, C. (1972). A Bound for the Error in the Normal Approximation to the Distribution of a Sum of Dependent Random Variables. Stanford University. Retrieved from https://purl.stanford.edu/jc818sv7483
Storopoli, J. (2021). Bayesian statistics with julia and turing.
Vershynin, R. (2018). High-dimensional probability,Vol. 47. Cambridge University Press.
Zdeborová, L., and Krzakala, F. (2016). Statistical physics of inference: Thresholds and algorithms. Advances in Physics, 65(5), 453–552.
樺島祥介. (2003). コトの物理学:誤り訂正符号を例として. 日本物理学会誌, 58(4), 239–246.
樺島祥介, and 杉浦正康. (2008). コトの物理学. 物性研究, 91(1), 1–33.
西森秀稔. (2005). 相転移・臨界現象の統計物理学,Vol. 35. 培風館.

Footnotes

  1. () も参照.↩︎

  2. ()() に倣った.↩︎

  3. ()↩︎

  4. ()() 定理13,() などで扱われている.西森ライン上のみで見られる性質であるため,西森対称性と呼ぶ.西森ラインについては 次項 も参照.↩︎

  5. ()() などでは thermal average と quenched average の用語が採用されている.↩︎

  6. () 定理14.↩︎

  7. ()なども参照.↩︎

  8. () 定理15,() なども参照.証明は () 7.B 節 を参考にした.↩︎

  9. ()補題8.↩︎

  10. ()補題9.↩︎

  11. ()補題10.↩︎

  12. ()命題2.5.2など.↩︎

  13. ()命題2.5.2.↩︎

  14. この定数2は,1よりも真に大きい定数ならばなんでも良い.()注2.5.3 も参照.↩︎

  15. () また p.16 も参照すべし.↩︎