A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
はじめに
潜在変数模型とはどうやらとんでもなく広い射程を持った対象であるようである.
このように種々の文脈で登場する潜在変数模型であるが,それぞれの文脈において「潜在変数」の果たす役割は全く違う.
しかし,数学的には全く同じ枠組みで記述できる.従って,そのように扱うことは一定の価値を持つだろう.
実際,近年になり,これから本稿で解説するように,潜在変数モデルの観点から心理学,経済学,環境科学,遺伝学,信号処理,逆問題,社会学,政治科学,マーケティング分野で独自に発展した手法が,特定の手法の特別な場合と見れるという理解が進み,手法の交流と知見の交換が進んでいる.
本稿の目的
本稿では主成分分析,因子分析,構造方程式モデリング,混合モデル,独立成分分析を,潜在変数モデルとして解釈し,図式で理解する.
確率変数を丸つきの大文字で表し,
種々の 多変量解析法 を(ベイズ)階層モデルとして統一的に理解すると同時に,それぞれの文脈での「使い方の違い」に注目することを目指す.
1 主成分分析 (PCA)
1.1 はじめに
主成分分析では,
で説明しようとする.1
歴史的に主成分分析は,おろした垂線の足の二乗距離和の意味でコストが最小になるような線型射影を求める問題 (Pearson, 1901) として最初に登場し,値の分散が最大となるような線型射影を求める問題 (Hotelling, 1933) として PCA の名前がつき,心理学分野,特に psychometrika で取り上げられて大きく発展した.
このような潜在変数モデルとしての見方は probabilistic PCA (Tipping and Bishop, 1999) / SPCA (Sensible PCA) (Roweis, 1997) として,因子分析から逆輸入する形で初めて自覚された見方である(第 2.3.1 節も参照).
確率的な見地から見れば,正規性を仮定した変数
いずれの場合も追加の過程なくしてモデルは識別可能性がなく,後続タスクに応じて種々の制約を追加することで所望の解を得る,という動的な使い方がなされる.
以降,
1.2 概要
PCA ではデータ行列を
この問題は
1.3 主成分分散最大化
荷重行列
すなわち,
そのためには,確率変数
実はこれは解の1つに過ぎず,
1.4 計算上の注意
各次元に関する長さのスケールを揃えるために,PCA を始める前にデータを正規化しておくか,または共分散行列
また,実際に最適化や相関行列の固有値分解をすることはなく,基本的に SVD の方が
さらに次元
1.5 線型射影による次元縮約
これは同じ仮定の下で,データ変数
なお,一般の行列
1.6 因子分析志向の主成分分析
因子分析では,
しばしば,追加の仮定
因子分析では (Thurstone, 1947) 以来,種々の回転法とアルゴリズムが蓄積している (足立浩平 and 山本倫生, 2024).一般にこの文脈では,(Thurstone, 1947) にいう「単純構造」を達成した,解釈が容易な因子をドメイン知識に基づいて構成することを目指す.この「単純構造」とは,現代でいう一種の disentangled factor と理解できる.
2 因子分析 (FA)
2.1 はじめに
主成分分析が「低階数近似」ならば,因子分析は「高階数近似」というべきである (足立浩平, 2023).
より正確には,因子分析は,観測の各次元
この意味では,FA は独自因子
歴史的には (Spearman, 1904) が古典テスト理論の文脈で
さらに興味深いことに,FA では PCA をはじめとした多くの多変量分析手法と違い,(Lawley, 1942), (Anderson and Rubin, 1956) らにより,初期から確率的な扱いが発展した手法である (足立浩平 and 山本倫生, 2024).
FA に倣う形で,PCA にも確率論的なアプローチが導入された (Tipping and Bishop, 1999), (Roweis, 1997).
2.2 概要
FA では
PCA よりさらに識別可能性は絶望的であるが,FA では潜在変数の解釈可能性担保のため,次の仮定を課す:
また,
この問題は,
これはやはり特異値分解により解くことができる (De Leeuw, 2004).
解は直交行列による回転を除いても,やはり一意に定まらないようである.
2.3 確率的アプローチ
ここで,
2.3.1 正規性の仮定
この見方が PCA にも応用された.追加の仮定
2.3.2 共分散構造分析
一方で,分布の仮定は課さず,
例えば (Harman and Jones, 1966), (Harman and Fukuda, 1966) では,Hilbert-Schmidt ノルム
このように,データの共分散行列を低階数近似するアプローチは 共分散構造分析 (Bock and Bargmann, 1966) ともいう.
さらに,確率論的なアプローチは一般の構造方程式モデル (SEM, 次節 3 参照) へと発展 (Karl Gustav Jöreskog, 1970), (Sörbom, 1974), (Karl G. Jöreskog, 1978) し,現状,共分散構造分析は SEM の特別な場合と解される.3
2.4 スパース推定
FA のモデルは識別可能とは程遠く,解釈可能性が重要である.(Thurstone, 1947) は因子付加行列が「単純構造」を持つことを一つの指標としたが,現代的にはスパース推定の言葉で与えられた 完全単純構造 (Bernaards and Jennrich, 2003) を仮定することが増えてきた.
スパース PCA (Zou et al., 2006), (Ian T Jolliffe and Uddin, 2003) では,従来の SVD + 回転ではなく,LASSO 様の
等価だが,自動関連度決定 (ARD) を用いた Bayesian PCA (Bishop, 1998), (Archambeau and Bach, 2008) や spike-and-slab (Rattray et al., 2009) など,スパース性を促す事前分布を用いることもできる.
2.5 その他の事前分布
非正規な事前分布(特に Laplace 分布やロジスティック分布などの裾の重いもの)を用いることで,モデルが識別可能性を回復することがある.
このように,一般の設定で潜在変数モデルが識別可能になるための条件が,非線型独立分析の分野で提案されている (Khemakhem et al., 2020).
2.5.1 Gamma 分布
また,Gamma 事前分布は非負かつスパースな表現を促進し,カウントデータとよく用いられる (Canny, 2004).
これは環境科学分野の Positive Matrix Factorization (Paatero and Tapper, 1994) や信号処理分野の Nonnegative Matrix Factorization (NMF) (Lee and Seung, 1999) の,確率論的な一般化と見れる (Buntine and Jakulin, 2006).
2.5.2 Dirichlet 分布
また,Dirichlet 事前分布を用いることで,潜在変数
このモデルは multinomial PCA (Buntine and Jakulin, 2006) の他に,遺伝学で admixture (Pritchard et al., 2000),simplex factor analysis (Bhattacharya and Dunson, 2012), 科学出版で mixed-membership model (Erosheva et al., 2004),マーケティングで user rating profile model (Marlin, 2003) など,種々の分野で独立に提案されている.
2.6 非線型化
FA の一般化の方向性として,正規性の緩和の他に,線型性の緩和があり得る.
MCMC による推論 (Hoffman, 2017) をすることも,または指数型分布 (Collins et al., 2001) への拡張や,VAE による非線型化を通じて変分推論をすることも考えられる.
自己符号化器 は,まさに非線型な潜在変数モデルに対する最尤推定を行っており,4層以上のニューラルネットワークを用いることで PCA を非線型化して一般化することができる.4
また,カーネル法と Gauss 過程により非線型化することもできる (Lawrence, 2005).
2.7 混合モデリング
複数の線型 Gauss 因子分析モデルの重ね合わせとみなす mixture of factor analysers (Ghahramani and Hinton, 1996) も単純ながら表現が高く,EM アルゴリズムや SGD (Richardson and Weiss, 2018), (Zong et al., 2018) によって推定できる.
(Richardson and Weiss, 2018) では生成モデルとしての性能も GAN と劣らないこと,VAE や GAN などの生成モデルよりも分布へのフィッティングが良いことを報告している.
さらにこのアプローチはノンパラメトリックベイズ法につながる.この方法では,例えば (Paisley and Carin, 2009) では Beta 過程事前分布をおき,Gibbs サンプラーで推論することで,混合数
3 構造方程式モデリング (SEM)
3.1 はじめに
(K. G. Jöreskog, 1969) は因子分析モデルを潜在変数モデルとして,事前情報を取り入れるなど柔軟に用いた.
特に,データを(現代でいう)訓練データと検証データに分けて,因子分析により推定された潜在変数間の関数関係を検定するための方法を提案し (K. G. Jöreskog and Lawley, 1968),これを 検証的因子分析 (Confirmatory FA) と呼び,それ以前の手法に 探索的因子分析 というレトロニムを与えた.5
最終的に,潜在変数同士により一般的な関数関係も考慮したものなど多くの潜在変数モデルが,共分散構造に基づいた非線型数値最適化を推論エンジンとして統一的に推定できることに辿り着いた.6
このことに加えて,潜在変数間の関数関係に適切な仮定をおくことで,因果推論・高次の因子分析・分散分析など従来考慮されなかった新たなタスクにも適用可能であることも了解された (Karl G. Jöreskog, 1978), (Bentler, 1980).7
現代では特徴抽出,生成,表現学習にも用いられていると思うと感慨である.
これを 共分散構造分析 または 構造方程式モデリング (SEM: Structural Equation Modeling) という.8 心理学の文脈では,潜在変数のことを 構成概念 (construct) と呼び,潜在変数間は無関係とした従来の因果分析モデルを 測定方程式 と呼ぶ.9
3.2 部分最小自乗モデル (PLS)
PLS (Partial Least Square) モデル (K. G. Jöreskog and Wold, 1982), (Gustafsson, 2001) では,次のような潜在変数モデルを用いて,2つの構成概念間の因果関係を評価しようとする (豊田秀樹, 1991):
なお,パス図において,潜在変数から観測変数に矢印が伸びている場合,これは影響的指標と呼ばれ,観測のモデルと解され,誤差が入ることが想定される (豊田秀樹, 1991).10 逆の矢印は形成的指標という.
すなわち,PLS では,
このような仮定は,
というのも,被説明変数のうち必ずしも
3.3 構造方程式モデリングの発展
PLS において,潜在変数から構成概念への矢印が全て影響的であった場合,これは潜在因子の間に関係が仮定されていることを除いて,(探索的)因子分析と等価になる.
一般に,SEM は,潜在変数同士の関数関係も考慮した因子分析モデルだと理解できる.
このようなモデルは,社会学において 多重指標分析 と呼ばれていたモデルに相当し (白倉幸男, 1984) (清水和秋, 1989),経済学において 同時方程式モデル と呼ばれていたモデルに相当する (Bentler, 1980).11
加えて,心理学・行動計量学においても,多くの既存の多変量解析法(因子分析,パス解析,二段階抽出モデル,潜在構造分析,項目反応モデルなど)はいずれも SEM の特殊な形だと解釈できることが自覚された (McArdle, 1984), (Muthén, 2002).12
こうして SEM の名と LISREL プログラムの下で,多くの社会科学分野で使われていたモデルが,形式的にはほとんど等価であるという了解が形成されていった.
このことから,SEM は第二世代の多変量解析 (Fornell, 1985) とも評される.13
3.4 計算統計学という要素
構造方程式モデリングが普及した理由の一つとして,計算機統計学の発展とうまく合流した点が見逃せない.
そもそも Jöreskog は,因子分析を研究していた時期 (Karl G. Jöreskog, 1966) (K. G. Jöreskog, 1967) から,数値的な解法とコンピュータプログラムの開発にも重点を置いていた.特に,因子分析モデルを,DFP 法 に基づいて数値的に最尤推定する方法を提案した (K. G. Jöreskog, 1967).
SEM も,コンピュータプログラム LISREL (LInear Structural RELationships) (Jőreskog and Thiilo, 1972) の存在が,広い分野の人口に膾炙した要因として大きい (清水和秋, 1989), (Grimm and Yarnold, 2016).
構造方程式モデルがどのように因子分析,因果分析,共分散構造分析を統合し,LISREL プログラムと共に発展していたかは,(清水和秋, 1994) に大変わかりやすくまとまっている
3.5 正準相関分析 (CCA)
正準相関分析 (Hotelling, 1936) においては,2つの構成概念の間は相関関係で結び,すべての観測は形成的な影響を及ぼすとする(観測誤差は想定しない) (豊田秀樹, 1991):
このモデルでは
例えばマルチモーダル学習において,
複数の標本に対して同時に実行する主成分分析ともみなせるが,別々に PCA を実行した場合と違い「共通要因」を抽出することに志向がある (赤穂昭太郎, 2013).
なお,正準相関分析が,このような確率論的解釈ができることは (Bach and Jordan, 2005) で自覚されたことである.
この潜在変数モデルとしての観点から,
質的データをダミーベクトルに変換して(一般化)正準相関分析を行う,質的データの解析法を 対応分析 (correspondence analysis) または 数量化第III類 ともいう.14
4 混合モデル (MM)
4.1 はじめに
混合モデルは,次のようなたいへん基本的な設定であるが,第 2.7 節で見たように,例えば因子分析モデルと組み合わせることで極めて豊かな表現力を持つ.
混合モデルは SEM の別の選択肢としても使える.また,ランダム効果要因を明示的にモデルに組み込む意味で,一般線型モデルの確率論的な拡張と考えることもできる (狩野裕, 2002).15
4.2 正規混合モデル (GMM)
これは SGD により訓練をすることで,生成のタスクにおいても GAN に匹敵する性能も持つ (Richardson and Weiss, 2018).
また,デノイジングや deblurring, inpainting, super-resolution などの画像逆問題は,巨大な GMM の潜在変数の推定として理解できる (Zoran and Weiss, 2011), (Papyan and Elad, 2016).
4.3 正規スケール混合モデル (GSM)
Gaussian scale mixture モデルとは,
このモデルは,
4.4 潜在 Dirichlet 配分 (LDA)
4.4.1 はじめに
文書の埋め込み・数値表現を得るために,単語
これを 潜在意味索引 (LSI: Latent Semantic Indexing) (Deerwester et al., 1990) と呼ぶ.得られた低次元埋め込みを文書検索 (document retrieval) などに用いることもできる.
4.4.2 確率的潜在意味索引 (PLSI)
(Hofmann, 1999) による pLSI または aspect model は LSI を確率モデル,特に混合モデルとして解釈し直したものである.
単語数よりも少ない数の トピック
このモデルを通じて,トピック
4.4.3 Dirichlet 事前分布の追加
変数
最終的に,トピック
4.4.4 確率的トピックモデル
自然言語処理において,単語分布のモデリングの潜在変数は トピック と呼ばれて,これを確率的にモデリングする手法は PTM (Probabilistic Topic Model) (Blei, 2012) と呼ばれている.
「トピック」は短い文章の中でも激しく移り変わることが知られている (Church and Gale, 1991).
そのため,LDA では,
4.4.5 推論
LDA の推論手法には変分推論 (Blei et al., 2003) や Gibbs サンプリング (T. L. Griffiths and Steyvers, 2004),そしてスペクトルに基づく方法 (Arora et al., 2013) がある.
トピック数の決定には,尤度を 焼なまし重点サンプリング で計算する方法 (Wallach et al., 2009) の他,ノンパラメトリックベイズ法も用いられる (Yee Whye Teh and Blei, 2006).
4.4.6 時系列化
単語の並びは明らかな方向性があり,対照的なモデリングはこの消息を取り逃がしていると考えられる.
そこで,トピックの移り変わりを捉えるモデルとして dynamic topic model (Blei and Lafferty, 2006) がある.これは Kalman 平滑化と変分推論を組み合わせている様である.
また単語の時系列構造を捉えるために,LDA に隠れ Markov モデルを組み合わせた LDA-HMM (T. Griffiths et al., 2004) が提案された.TopicRNN (Dieng et al., 2017) ではより長距離の相関を捉えるために,RNN と組み合わせている.
4.5 状態空間モデル (SSM)
4.5.1 概要
状態空間モデル (State Space Model) は,混合モデルの時系列化と捉えられる:
潜在変数
HMM に関しては早くから EM 様の推定手法 Baum-Welch アルゴリズム (Baum and Eagon, 1967), (Baum et al., 1970) が提案されているが,データサイズが大きい場合は SGD が用いられる.Blocked Gibbs サンプラー (Scott, 2002) や,潜在変数を消去して,周辺尤度に関してスペクトル法/テンソル分解 (Hsu et al., 2012), (Animashree Anandkumar et al., 2012), (Anima Anandkumar et al., 2015), (Obermeyer et al., 2019) を実行するなどの代替手法がある.
4.5.2 構造的状態系列モデル (S4)
S4 (Structured State Space Sequence) (Gu et al., 2022), (Gu et al., 2020), (Goel et al., 2022) とは,時系列を深層ニューラルネットワークの力でモデリングするために,線型 Gauss で単純な SMM を上下にスタックし深層にしたものである.各層は LSSL (Linear State Space Layer) と呼ばれる.
さらに長距離の依存性に耐えるために,S5 (Smith et al., 2023) や Mamba (Gu and Dao, 2024) が提案されている.後者では,選択的に記憶を忘却できるような「選択」機構 (S6: Selective SSM) を導入している.
5 独立成分分析 (ICA)
5.1 はじめに
(線型)独立成分分析で用いるモデルは,PCA や FA のそれと全く変わらず,線型変換
ただし,潜在変数
加えて,モデルの 識別可能性 を重視する.このために,(独立)因子分析(第 2.5 節)で考えたように,正規分布より裾の重い事前分布を導入することで,モデルの識別可能性を確約する.17
この意味で,確率モデルとしては PCA / FA に等価であるが,典型的な ICA の文脈では
5.2 推定手法
最初に 音源分離 について適用された (Bell and Sejnowski, 1995) では,
最尤推定は EM アルゴリズムの他に近似 Newton 法で実行されることもあり,fast ICA (Hyvärinen and Oja, 2000) と呼ばれる.
また古典的には,探索的データ解析で考案された 射影追跡 (PP: Projection Pursuit) (Friedman and Tukey, 1974) みたく,学習される
disentangled な表現を学習したい場面では,
最小情報コピュラに基づく方法も提案されている (Bedford et al., 2016), (Sei and Yano, 2024).
他にも表現学習や認知科学の文脈を踏襲して,InfoMax やスパース符号化などの原則がある.
5.3 非線型化
おわりに
現代の深層生成モデルは,いずれも非線型な潜在変数モデルであると理解できる.
その意味で,次の記事は全て,本稿の続きであり,本稿は現代の機械学習の壮大な序章としても理解できる.
非線形性の他に本稿で扱わなかったものは深層モデルである.
だがそもそも,現代のニューラルネットワークが深層化したのは,単純で可微分なモジュール性を保ちながら表現力を高めるためのトリックであり,確率論的には本稿で扱ったモデルと等価であるはずである.
ニューラルネットワークの他にも,計算のために深層化したモデルを考える場面は多い.例えばアニーリングを用いた SMC サンプラー は,グラフカルモデル
しかし,確率核は射をなすのだから,全てのモデルは本質的には一層であるとみなすこともできるのである.
この見方をとった方が計算効率が上がるという例もある.例えば (Chen et al., 2024) では,トランスフォーマーの注意機構をランダム Fourier 特徴写像で近似し,Monte Carlo 法によって元のモデルと等価な計算を安価に行っている.
ベイズ機械学習 や 位相的機械学習 をはじめとした,丁寧なモデルへの理解が,これからも手法への統一した視点からの理解と,応用分野を横断した相互理解を促進してくれるのではないかと,筆者は意気込んでいる.
扱ったモデル一覧
付録
ここでは,歴史を感じる引用をいくつか紹介したい.
心理測定学 (psychometrics) における因子分析,計量経済学 (econometrics) における同時方程式モデル (simultaneous equation models), そして生物測定学 (biometrics) におけるパス解析 (path analysis) を,共分散構造分析の下に統一化することが可能となった契機は,潜在変数 (latent variables) の概念である (Bentler, 1980).(清水和秋, 1989)
そして,異分野横断の知見交流が進んだ契機の一つは,LISREL プログラムの存在であった.(清水和秋, 1994) では,ETS での安定した研究環境が LISREL の継続的な保守を可能にして最終的には WINDOWS 上でも安定して提供され,これを用いることを通じて異分野を巻き込みながら構造方程式モデリングが発展していった様子が詳細に解説されている.LISREL はバージョン VI まである.
紹介した文献からもわかるように,この分野は最近になってやっと日本では注目されてようになってきた。 このように日本へのこの方法論の導入が遅れた理由の一つはソフト流通の問題にあると筆者は考えている。青木 (1988) や土田 (1988) が述べているように, LISREL は大型計算機の場合, アメリカ産のコンビュータでしかサポートしてくれないとのことである。(清水和秋, 1989)
そして現代はというと,計算機統計学と機械学習が先行し(過ぎ)ていると思える.
もしその通りならば,種々の科学への応用とそれぞれ固有の課題への特殊化が,これからの未来を彩ってくれるのかもしれない.
References
Footnotes
図を見やすくするために,
や などは省略している.↩︎(足立浩平 and 山本倫生, 2024), (足立浩平, 2023) によると,この行列分解による定式化は Henk A. K. Kiers によるもので,初出は同大学からの博士論文 (Socan, 2003) が最初ではないか,とのこと.この見方を MDFA (Matrix Decomposition Factor Analysis) と呼ぶ.(足立浩平 et al., 2019) も参照.↩︎
ただし,(星野崇宏 et al., 2005) は SEM をより一般的とし,共分散構造分析とは観測変数が連続な場合の下位モデルである,と解している.↩︎
(江口真透, 1999) 第3節に,PCA をニューラルネットワークにより近似的に実行する方法が紹介されている.(Ghojogh et al., 2022) はサーベイを与えている.↩︎
(豊田秀樹, 1992) では CFA を確認的因子分析と呼んでいる.(豊田秀樹, 1991) では,古典テスト理論を確認的因子分析の下位モデルとして紹介している.また,このような因果関係の確認的方法は,社会学における (Simon, 1957) の基準などが知られていた.↩︎
(Karl Gustav Jöreskog, 1970) は具体的なモデルを例に取り,彼の検証的因果分析が,パス解析 (Wright, 1918), (Wright, 1921) のように因果分析に応用できることを示した結果だと言える (Asher, 1983).この観点から,パス解析は「検証的因果推論」と表現することもできる (甘利俊一,狩野裕,佐藤俊哉,松山裕,竹内啓,石黒真木夫, 2002, p. 73).↩︎
現代ではコンピュータの力により,新たに「生成」「表現学習」というタスクが加わったと思うと,感慨深い.↩︎
(清水和秋, 1989), (豊田秀樹, 1992), (甘利俊一,狩野裕,佐藤俊哉,松山裕,竹内啓,石黒真木夫, 2002, p. 82) も参照.↩︎
また,パス図では観測変数は四角で囲むべきであるが,ここでは省略した.↩︎
同時方程式は潜在変数を持たない模型で,経済学におけるパス解析の継承と見れる (豊田秀樹, 2007).特に Keynes 経済学におけるマクロな経済計画の発想で,Cowles 委員会 により 1940 年代から 1950 年代にかけて盛んに研究された.↩︎
「従来から存在するがやや標準的でない分析方法がSEMの枠組みで実行できることも指摘しておきたい.たとえば,三相データの分析モデルである PARAFAC,行動遺伝学における ACE モデル,イプサティブデータの分析,潜在曲線モデル,潜在構造分析などの離散潜在変数のモデル,項目反応モデルなどである.加えて,SEM で実行できる新しいモデル,たとえば,多変量二段抽出モデル,平均に特色をもたせる三相データの分析モデルや因子分析と分散分析の統合モデルなどがある.」(狩野裕, 2002, p. 139).↩︎
多変量解析の高級言語とか形容することもあるという.構造方程式モデリングについては,(豊田秀樹, 1991), (狩野裕, 2002) も参照.↩︎
オランダ学派を中心に等質性分析とも呼ぶ.↩︎
ただし,SEM は共分散構造,混合モデルは平均構造に分析の焦点がある,という志向の違いもある.(狩野裕, 2002) も参照.↩︎
は Cauchy 分布 を 上に制限したものである.truncated Cauchy または half-Cauchy という.↩︎(Hyvärinen and Oja, 2000) では,(Bell and Sejnowski, 1995) のように測定誤差を考えない場合を ICA といい,誤差も入る一般の場合を IFA (Independent Factor Analysis) と呼び分けている.(甘利俊一,狩野裕,佐藤俊哉,松山裕,竹内啓,石黒真木夫, 2002, p. 110) も参照.「これを回転の不定性という.因子分析はさまざまな考察によって,この不定性を解消しようとする.独立成分分析は,非正規性を仮定すれば,この不定性が消えることを示したものとも言える」(甘利俊一,狩野裕,佐藤俊哉,松山裕,竹内啓,石黒真木夫, 2002, p. 13).↩︎