理想点解析のハンズオン
MCMCpack
パッケージとオリジナル Stan
コードを使って
PDMP サンプラーによる変数選択と共に
司馬 博文
11/22/2024
12/13/2024
理想点解析とは,政治学において国会議員のイデオロギーを定量化・視覚化する方法論である.この手法は多くの側面を持ち,項目反応モデルであると同時に多次元展開法 (MDU: Multidimensional Unfolding)でもある.
A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
理想点解析とは,項目反応モデルを利用した各議員(立法府の構成員など)の行動様式・イデオロギーの定量化・視覚化の手法である.
詳しくは次項を参照:
本稿では理想点解析を目標として,項目反応モデル,特に二項選択モデルをベイズ推定する方法を考える.
その中でも,理想点 \(x_i\in\mathbb{R}^d\) の次元 \(d\) に関してモデル選択を行うことを考える.
まずは次の標準的な理想点モデルを考える (Imai et al., 2016, p. 633) 参照:
\(i\in[N]\) 番目の議員が \(j\in[J]\) 番目の法案に対して賛成ならば \(y^i_j=1\),反対ならば \(y^i_j=0\) のデータ \(y\in M_{N,J}(2)\) が得られているとする.
このとき \(i\in[N]\) 番目の議員の理想点 \(x_i\in\mathbb{R}^d\) は,\(y^i\) を次のように予測する潜在変数とする: \[\begin{align*} y^i_j&=1_{\mathbb{R}^+}(\widetilde{y}^i_j)\\ \widetilde{y}^i_j&=x_i^\top\beta_j+\epsilon^i_j,\qquad\epsilon^i_j\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,1). \end{align*}\]
すなわち \(d\)-母数のロジット項目反応モデルにおいて,議員ごとの母数である \(x_i\in\mathbb{R}^d\) を 理想点 と呼ぶ.項目識別母数 \(\beta_j\in\mathbb{R}^d\) は法案ごとの性質の違いを表しているものと考える.
換言すれば,\(\Phi\) を \(\mathrm{N}(0,1)\) の分布関数として,次のプロビットモデルが想定されたことになる: \[ \operatorname{P}[y^i_j=1]=\Phi(x_i^\top\beta_j). \]
このモデルの潜在変数 \(\widetilde{y}\) とパラメータ \((x_i)_{i=1}^N\in M_{dN}(\mathbb{R}),(\beta_j)_{j=1}^J\in M_{dJ}(\mathbb{R})\) の事後分布を推定すると同時に,理想点の次元 \(d\) についてモデル選択を行うことを考える.
\((x_i),(\beta_j)\)
\[\begin{align*} p(\widetilde{y},x,\beta|y)&= \end{align*}\]
このモデルはテーブルデータ \(y^i_j\) の対称性の崩れに全ての情報が委ねられている.その性質上強い多峰性を持った事後分布になるはずであり,本質的に MCMC のサンプリングが困難である.
そこでここでは PDMP サンプラーを用いた事後分布サンプリングを試みる.
(Martin and Quinn, 2002) は最高裁判事の理想点の経時変化を解析し,その MCMC を通じた推定法が MCMCpack
パッケージで実装されている (Martin et al., 2011).
しかしこの方法は極めて時間がかかることで知られており,(Imai et al., 2016, p. 643) は代わりに変分ベイズ推論による推定法を提案し,5日の推定時間が4秒に短縮されたとしている.
(Bafumi et al., 2005) では従来のモデル \[ y^*_l=\alpha_{j[l]}+x_{i[l]}^\top\beta_{j[l]}+\epsilon_l,\qquad\epsilon_l\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,1) \] に次の階層構造を加えたモデルを考察している: \[ x_{i[l]}=\gamma_{g[i[l]]}^\top z_{i[l]}+\eta_{i[l]},\qquad\eta_{i[l]}\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,\sigma^2_{g[i[l]]}). \]
これにより議員 \(i[l]\in [N]\) ごとに異なる共変量 \(z_{i[l]}\in\mathbb{R}^M\) をモデルに加味することが可能になっている.
\(g:[N]\to\mathbb{N}\) は議員のグループを表している.
\(g:[N]\to\mathbb{N}\) を議員番号とし,\(i[l]\) を当該議員の累計議員経験年数とする(○○議員3期目,など).
加えて \(z_{i[l]}\) を累計議員経験年数と取ると,議員ごとに係数 \(\gamma_{g[i[l]]}\) を持った線型トレンドをモデリングすることに相当する.
このモデルは DW-NOMINATE (Poole and Rosenthal, 1997) が用いたのちに (Bailey, 2007) などでも継承されている.
本稿は (Imai et al., 2016) と (Hardcastle et al., 2024) に触発されて書かれた.(Imai et al., 2016) では種々の理想点モデルを,最も純粋なものから真に興味深い複雑なものまで,変分ベイズ推論の観点で統一的に扱っている.(Hardcastle et al., 2024) では大規模な polyhazard モデルとそのモデル選択を,単一の PDMP サンプラーで行っている.
(Imai et al., 2016) では変分 EM アルゴリズムとパラメトリックブートストラップが一貫して用いられているが,本稿はあくまで MCMC の正統進化としての PDMP サンプラーを主軸に据えることを提案する.政治科学におけるモデルは不確実性が大きく,これを直接に取り扱えるベイズの方法が望ましいと信じるためである(最終的な目標にモデル平均による推定がある).
ベイズ計算手法としては,PDMP の採用により正確でバイアスのない推定を,従来よりもはるかに高速に推定できることを示す.加えて PDMP サンプラーでは次のような追加の利点がある
This work was supported in part by The Graduate University for Advanced Studies, SOKENDAI.
The author(s) would like to thank the Isaac Newton Institute for Mathematical Sciences, Cambridge, for support and hospitality during the programme Monte Carlo sampling: beyond the diffusive regime, where work on this paper was undertaken. This work was supported by EPSRC grant EP/Z000580/1.