A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
関連記事
1 はじめに
1.1 階層モデル
データが自然な 階層構造 を持つとする.例えば標本がクラスター抽出された場合,パネルデータや経時的繰り返し観測による標本,共変量統制とマッチングなど,自然な階層構造を持つデータは多い.
このようなデータに対して,個々のサブグループに対して全く同じ回帰モデルを繰り返し適用し,結果のプロットを小窓に分割して並べることで,グループごとの効果の違いを比較することができる.
この方法はナイーブながらも有力で,(10.9 節 Gelman et al., 2020, p. 148) では “secret weapon” と呼んでいる.
この別々の回帰モデルはベイズ的に統合して推論することができる.このグループごとに変動する係数を許したモデルが(ベイズ)階層モデル である.
1.2 いつ使うか?
線型回帰の枠組みで交差項を入れることで,グループごとに緩やかに異なる回帰係数を許すことができる.
さらには一般化線型モデルを用いることで,連続・離散データの簡単な非線型関係まで扱うことができる.
それでも階層モデルに進む動機として次のような点が挙げられる:
全体の係数のみに興味がある場合,グループレベルの変動やデータの階層構造は局外構造である.このような状況では,誤差が相関を持つ場合にも頑健な点推定手法として,一般化推定方程式法なども用いることができる.4
2 線型変動係数モデル
2.1 変量効果モデル
階層モデル \[ y_i=\alpha_{j[i]}+\beta x_i+\epsilon_i,\qquad\epsilon_i\sim\mathrm{N}(0,\sigma^2_y), \tag{1}\] \[ \alpha_j=\mu_\alpha+\eta_j,\qquad\eta_j\sim\mathrm{N}(0,\sigma^2_\alpha), \tag{2}\] は2つの別の階層にある回帰モデルが,1つに統合された形をしている.5
(1), (2) は 変量効果モデル,または NER (Nest Error Regression) model (Battese et al., 1988) と呼ばれる.6
2.2 中庸としての階層モデル
全く等価だが \(D_i\) を \(i\) 番目の成分のみが \(1\) のベクトル,\(\alpha=(\alpha_1,\cdots,\alpha_J)^\top\) として \[ y_i=D_i\alpha+\beta x_i+\epsilon_i \] と表すことができる.
こうみると \(J\) 個のクラスそれぞれに関する指示変数 \(D_1,\cdots,D_J\) で定数項を置き換えた単一の回帰モデルと見ることもできる.仮に複数の変動係数が存在しても共線型性が問題にならないのは,\(\alpha\) の事前分布に構造が入っているためである.
階層モデル (1), (2) において \(\sigma^2_\alpha\to0\) の極限を考えると,グループ毎に変動がないという単一の線型回帰モデルに帰着する.
他方で実は \(\sigma^2_\alpha\to\infty\) の極限を考えると,古典的な点推定の文脈では,\(J\) グループのそれぞれに別々の線型回帰を実行するというモデルに帰着する.
これは「グループ毎に全く別々で互いに関係がない」というモデルであり,真実は2つの中庸にあると思われる.
グループ毎の変動と,その間の緩い関係性の双方を許し,1つのモデルに取り込んだものが 階層モデル である.グループレベルの変動 \(\sigma^2_\alpha\) を推定するための自然なモデルでもある.
2.3 BLUE
線型最良不偏推定量 (BLUE) は (Henderson, 1950) によって提案された,\(\beta,\alpha_{j[i]}\) の推定量である.
\(\beta\) の推定量は計量経済学の文脈で変量効果推定量と呼ばれる GLS 推定量に他ならない.7
\(\alpha_{j[i]}\) の BLUE は,モデル (1), (2) においては \[ \widehat{\alpha}_j=\frac{\frac{n_j}{\alpha_y^2}}{\frac{n_j}{\alpha_y^2}+\frac{1}{\sigma^2_\alpha}}(\overline{y}_j-\beta\overline{x}_j)+\frac{\frac{1}{\sigma^2_\alpha}}{\frac{n_j}{\alpha_y^2}+\frac{1}{\sigma^2_\alpha}}\mu_\alpha \] と表せる.8
2.4 分散成分モデル
2.4.1 一般的な定義
(Henderson, 1950) に始まる分散成分モデルは,一般的には \[ y_{ij}=\beta x_i+\alpha_{j_1[i]}+\cdots+\alpha_{j_k[i]}+\epsilon_{ij} \] \[ \alpha_{j_l}\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,\tau_l^2), \] と表されるモデルと理解される (Sugasawa and Kubokawa, 2023, p. 73).\(k=1\) の場合は (Fay and Herriot, 1979) モデルともいう.
変量効果モデルにおいて誤差には完全な階層関係があったが,分散成分モデルはその non-nested な場合への拡張とみなせる.
2.4.2 分散成分モデルの例
この場合データ \(y_{ij}\) の変動を成分ごとに分解しようという志向が,分散分析の発展と見れる.例えば \[ y_{ijk}=\mu+\mu_{1i}+\mu_{2j}+\epsilon_{ijk} \] という形の場合は特に 二元分類モデル,\(\mu_{3ij}\) も加えた場合は二元交差モデルと呼ばれる.
さらにグループ階層のモデルに関して,分散成分モデルではグループレベル変数 \(\alpha_{j_l}\) は互いに独立であるとしているが,空間モデルでは互いに相関を持つと仮定することもある.
さらにこの階層は潜在変数の階層とみるとコピュラモデルや理想点モデルに近くなる.項目反応モデルは,個人毎の変動と項目毎の変動の,non-nested な2つの変動を持ったロジスティック階層モデル 3 になる.
2.4.3 分散成分の点推定法
変量効果モデルや分散成分モデルにも適用可能な,一般の階層モデルに適用可能な分散成分の推定法として,一般化推定方程式法がある.
その特別な荷重を取った場合に REML (Restricted Maximum Likelihood) 推定量がある (2.3 節 Sugasawa and Kubokawa, 2023, p. 13).
こうして得た分散成分,特に分散比 \(\rho:=\sigma^2_v/\sigma^2_e\) の推定量を得たあと,これを BLUE \(\widehat{\beta}\) に代入して得る2段階推定量を 経験 BLUE という (久保川達也, 2006, p. 143).
その縮小効果については次稿も参照:
2.5 ベイズ推定
ベイズ階層モデルの基礎は (Lindley and Smith, 1972) が敷いたと言われる.
3 階層ロジスティックモデル
3.1 項目応答モデル
3.1.1 1母数ロジットモデル
\[ g(x):=\operatorname{logit}(x)=\log\frac{x}{1-x} \] \[ g(\mu_{i})=\alpha_{j[i]}-\beta_{k[i]},\qquad\mu_{i}=\operatorname{P}[Y_{ik}=1], \] というモデルを 1母数応答モデル または (Rasch, 1960) モデルという.
このモデルは \((\alpha_j,\beta_k)\) 上の平行移動に関して識別不可能であるため,点推定の文脈では追加の制約条件が導入される.しかしベイズの文脈では不適な事前分布を避けることで自然に回避される.
階層ベイズモデルでは,自然に関心が能力パラメータ \(\alpha_j\) と難易度パラメータ \(\beta_k\) の分散に向けられる: \[ \alpha_j=\mu_\alpha+\gamma_\alpha X^\alpha_j+\epsilon_j,\qquad\epsilon_j\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,\sigma^2_\alpha), \] \[ \beta_k=\mu_\beta+X^\beta_k+\epsilon_k,\qquad\epsilon_k\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,\sigma^2_\beta). \]
3.1.2 2母数ロジットモデル
さらに項目毎の 識別力母数 (discrimination parameter) \(\gamma_k\) を導入したモデル \[ g(\mu_i)=\gamma_{k[i]}\biggr(\alpha_{j[i]}-\beta_{k[i]}\biggl), \] を 2母数ロジットモデル という.
3.1.3 多次元の潜在空間
読解力と数学力の別々の能力を要求するテストなどのデータに対して,多次元の潜在空間を持つモデルを考えたい.
両方が要求される AND の論理の場合は \[ \mu_i=g^{-1}\biggr(\gamma^{(1)}_{k[i]}(\alpha_{j[i]}-\beta^{(1)}_{k[i]})\biggl)g^{-1}\biggr(\gamma^{(2)}_{k[i]}(\alpha_{j[i]}-\beta^{(2)}_{k[i]})\biggl) \] というモデルが考えられるかもしれない.OR の論理の各因数を \(1-\mu_i, 1-g^{-1}(-)\) で置き換えれば良い.
一方で潜在空間からの関数を設定しても良いだろう.最も直感的には能力値の和で \[ \mu_i=g^{-1}\biggr(\gamma^{(1)}_{k[i]}(\alpha_{j[i]}-\beta^{(1)}_{k[i]})+\gamma^{(2)}_{k[i]}(\alpha_{j[i]}-\beta^{(2)}_{k[i]})\biggl) \] と表すものである.
3.1.4 応答曲線
リンク関数 \(g\) の選択は,潜在変数 \(\alpha_j,\beta_k,\gamma_k\) の変化が応答確率の変化にどう関係するかを規定する.
\(g\) のプロットは ICC (Item Characteristic Curve) または trace line と呼ばれる (Fox, 2010, p. 6).
これは \(g(0.5)\) を中心に対称になっているが,この対称性が不適切な場合も多い.
(Bafumi et al., 2005) などは \[ \mu_i=\pi_1+(1-\pi_0-\pi_1)g^{-1}\biggr(\gamma_k(\alpha_j-\beta_k)\biggl) \] として,最低限の \(y_i=0,1\) への反応確率 \(\pi_0,\pi_1\) をあらかじめ設定し,\([\pi_0,\pi_1]\subset[0,1]\) の範囲だけに応答曲線をフィッティングすることを考えた.
\(\pi_0,\pi_1\) も推定すべきパラメータとする.
3.2 選択モデル
3.2.1 はじめに
ロジスティックモデルは1次元の潜在空間を持つ 選択モデルと見ることができる.
これをさらに精緻化し,価値関数や効用関数などを通じてアクターの意思決定と行動をより詳細にモデリングすることも考え得る.
このようなモデルはミクロ計量経済学で歴史的に考えられたほか,政治科学における 理想点モデルはこのような選択モデルを通じて生まれた.
3.2.2 ロジットモデルになる場合
個人 \(i\in[N]\) ごとのパラメータ \(a_i,b_i,c_i\) が存在して, \[ \operatorname{P}[Y_i=1]=\operatorname{P}[a_i>b_i+c_iX_i]=\operatorname{P}\left[\frac{a_i-b_i}{c_i}>X_i\right] \] によって意思決定が決まるとした場合,\(d_i:=\frac{a_i-b_i}{c_i}\) と潜在変数 \(x_i\) との大小によって応答が変わると要約できる.
すると \(d_i\) の分布関数 \(F_i\) がロジスティックであるか正規分布であるか \(t\)-分布であるかに依って,ロジスティック回帰・プロビット回帰・ロビット回帰というモデルが得られる.
3.2.3 Tobit モデル
さらに \(y_i\) の観測値が \(x_i\) の値に依存するというモデルが (Tobin, 1958) によって提案されている: \[ Y=Y^*\lor0. \] \[ Y^*_i=\beta X_i+\epsilon_i, \]
このモデルは(1型)トービットモデルの他に,打ち切り回帰 (censored regression) とも呼ばれる.
ある閾値を超えた場合にプライバシーの問題で公開を制限する top-coding データなどに用いられる.
3.2.4 Heckman モデル
(Heckman, 1979) は標本に入るかどうかのメカニズムをモデリングする,選択バイアスのためのモデル \[ Y=\begin{cases}Y^*&S=1\\\text{missing}&S=0\end{cases} \] \[ Y^*=\beta X+\epsilon, \] \[ S=1_{\mathbb{R}_+}(S^*),\qquad S^*=\gamma Z+\eta. \] を提案した.これは2型トービットモデルとも呼ばれる.
そしてこの共分散構造 \[ \begin{pmatrix}\epsilon\\\eta\end{pmatrix}\sim\mathrm{N}\biggr(0,\begin{pmatrix}\sigma^2_\epsilon&\sigma_{\epsilon\eta}\\\sigma_{\epsilon\eta}&1\end{pmatrix}\biggl) \] を局外母数として \(\beta\) を一致推定する.
4 文献紹介
(12 章 Gelman and Hill, 2006) が筆者の知る限り最も丁寧な階層モデルへの導入である.
変動係数モデルに関して (Sugasawa and Kubokawa, 2023) が極めて見通しが良い.小地域推定を主なテーマとしている.
項目応答モデルと理想点モデルは (14.3 Gelman and Hill, 2006) において一般化線型階層モデルの文脈で扱われている.
選択モデルは (27 章 Hansen, 2022) を参照.
References
Footnotes
(11.5 節 Gelman and Hill, 2006, p. 246) も参照.↩︎
一般に階層モデルは,全ての説明変数を組み込んだモデルから,特定の係数の部分集合を括り出し,その部分集合に super-population model を仮定したものと見れる.(13.6 節 Gelman and Hill, 2006, p. 296) の議論も参照.↩︎
例えば小地域推定においては極めて自然なモデルである (久保川達也, 2006), (Sugasawa and Kubokawa, 2023) も参照.↩︎
この点については (11.6 節 Gelman and Hill, 2006, p. 248),(Carlin et al., 2001) などを参照.↩︎
この第二階層の構造を \(\alpha_j\sim\mathrm{N}(\mu_\alpha,\sigma^2_\alpha)\) という事前分布とみて,この未知パラメータの推定から始める点推定法を経験ベイズという (Sugasawa and Kubokawa, 2023, pp. 11–12).↩︎
(Sugasawa and Kubokawa, 2023) では,\(\beta\) が \(j[i]\in[J]\) 毎に異なるとき,これを変量係数モデルと呼んでいる.ここでは (Gelman, 2005) などに倣って,全てまとめて変動係数 (varying coefficient) モデルと呼ぶことにする.↩︎
(Sugasawa and Kubokawa, 2023, p. 10) に GLS 推定量が BLUE であることの証明がある.変量効果推定量については (17.6 Hansen, 2022, pp. 601–603) を参照した.↩︎
正規性の仮定の下では一般に経験ベイズ推定量と一致することが (Sugasawa and Kubokawa, 2023, pp. 11–12) で示されている.↩︎