ベイズ理想点解析

PDMP サンプラーによる変数選択と共に

Bayesian
Statistics
MCMC
Computation
Author

司馬 博文

Published

11/22/2024

Modified

12/13/2024

概要

理想点解析とは,政治学において国会議員のイデオロギーを定量化・視覚化する方法論である.この手法は多くの側面を持ち,項目反応モデルであると同時に多次元展開法 (MDU: Multidimensional Unfolding)でもある.

1 理想点解析と項目反応モデル

理想点解析とは,項目反応モデルを利用した各議員(立法府の構成員など)の行動様式・イデオロギーの定量化・視覚化の手法である.

詳しくは次項を参照:

本稿では理想点解析を目標として,項目反応モデル,特に二項選択モデルをベイズ推定する方法を考える.

その中でも,理想点 \(x_i\in\mathbb{R}^d\) の次元 \(d\) に関してモデル選択を行うことを考える.

2 変数選択と Sticky PDMP サンプラー

2.1 はじめに

まずは次の標準的な理想点モデルを考える (Imai et al., 2016, p. 633) 参照:

標準的な理想点モデル

\(i\in[N]\) 番目の議員が \(j\in[J]\) 番目の法案に対して賛成ならば \(y^i_j=1\),反対ならば \(y^i_j=0\) のデータ \(y\in M_{N,J}(2)\) が得られているとする.

このとき \(i\in[N]\) 番目の議員の理想点 \(x_i\in\mathbb{R}^d\) は,\(y^i\) を次のように予測する潜在変数とする: \[\begin{align*} y^i_j&=1_{\mathbb{R}^+}(\widetilde{y}^i_j)\\ \widetilde{y}^i_j&=x_i^\top\beta_j+\epsilon^i_j,\qquad\epsilon^i_j\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,1). \end{align*}\]

すなわち \(d\)-母数のロジット項目反応モデルにおいて,議員ごとの母数である \(x_i\in\mathbb{R}^d\)理想点 と呼ぶ.項目識別母数 \(\beta_j\in\mathbb{R}^d\) は法案ごとの性質の違いを表しているものと考える.

換言すれば,\(\Phi\)\(\mathrm{N}(0,1)\) の分布関数として,次のプロビットモデルが想定されたことになる: \[ \operatorname{P}[y^i_j=1]=\Phi(x_i^\top\beta_j). \]

このモデルの潜在変数 \(\widetilde{y}\) とパラメータ \((x_i)_{i=1}^N\in M_{dN}(\mathbb{R}),(\beta_j)_{j=1}^J\in M_{dJ}(\mathbb{R})\) の事後分布を推定すると同時に,理想点の次元 \(d\) についてモデル選択を行うことを考える.

2.2 事後分布の表示

\((x_i),(\beta_j)\)

\[\begin{align*} p(\widetilde{y},x,\beta|y)&= \end{align*}\]

このモデルはテーブルデータ \(y^i_j\) の対称性の崩れに全ての情報が委ねられている.その性質上強い多峰性を持った事後分布になるはずであり,本質的に MCMC のサンプリングが困難である.

そこでここでは PDMP サンプラーを用いた事後分布サンプリングを試みる.

3 モデルの拡張

3.1 時系列データへの適用

(Martin and Quinn, 2002) は最高裁判事の理想点の経時変化を解析し,その MCMC を通じた推定法が MCMCpack パッケージで実装されている (Martin et al., 2011)

しかしこの方法は極めて時間がかかることで知られており,(Imai et al., 2016, p. 643) は代わりに変分ベイズ推論による推定法を提案し,5日の推定時間が4秒に短縮されたとしている.

3.2 階層化

(Bafumi et al., 2005) では従来のモデル \[ y^*_l=\alpha_{j[l]}+x_{i[l]}^\top\beta_{j[l]}+\epsilon_l,\qquad\epsilon_l\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,1) \] に次の階層構造を加えたモデルを考察している: \[ x_{i[l]}=\gamma_{g[i[l]]}^\top z_{i[l]}+\eta_{i[l]},\qquad\eta_{i[l]}\overset{\text{i.i.d.}}{\sim}\mathrm{N}(0,\sigma^2_{g[i[l]]}). \]

これにより議員 \(i[l]\in [N]\) ごとに異なる共変量 \(z_{i[l]}\in\mathbb{R}^M\) をモデルに加味することが可能になっている.

\(g:[N]\to\mathbb{N}\) は議員のグループを表している.

\(g:[N]\to\mathbb{N}\) を議員番号とし,\(i[l]\) を当該議員の累計議員経験年数とする(○○議員3期目,など).

加えて \(z_{i[l]}\) を累計議員経験年数と取ると,議員ごとに係数 \(\gamma_{g[i[l]]}\) を持った線型トレンドをモデリングすることに相当する.

このモデルは DW-NOMINATE (Poole and Rosenthal, 1997) が用いたのちに (Bailey, 2007) などでも継承されている.

4 クラスタリングと ZigZag-within-Gibbs サンプラー

5

本稿は (Imai et al., 2016)(Hardcastle et al., 2024) に触発されて書かれた.(Imai et al., 2016) では種々の理想点モデルを,最も純粋なものから真に興味深い複雑なものまで,変分ベイズ推論の観点で統一的に扱っている.(Hardcastle et al., 2024) では大規模な polyhazard モデルとそのモデル選択を,単一の PDMP サンプラーで行っている.

(Imai et al., 2016) では変分 EM アルゴリズムとパラメトリックブートストラップが一貫して用いられているが,本稿はあくまで MCMC の正統進化としての PDMP サンプラーを主軸に据えることを提案する.政治科学におけるモデルは不確実性が大きく,これを直接に取り扱えるベイズの方法が望ましいと信じるためである(最終的な目標にモデル平均による推定がある).

ベイズ計算手法としては,PDMP の採用により正確でバイアスのない推定を,従来よりもはるかに高速に推定できることを示す.加えて PDMP サンプラーでは次のような追加の利点がある

  • (Imai et al., 2016) のようなパラメトリックブートストラップをせずとも自然な不確実性の定量化を与える.
  • モデル選択と平均を同時に行うことができる.

6 Acknowledgement

This work was supported in part by The Graduate University for Advanced Studies, SOKENDAI.

The author(s) would like to thank the Isaac Newton Institute for Mathematical Sciences, Cambridge, for support and hospitality during the programme Monte Carlo sampling: beyond the diffusive regime, where work on this paper was undertaken. This work was supported by EPSRC grant EP/Z000580/1.

References

Bafumi, J., Gelman, A., Park, D. K., and Kaplan, N. (2005). Practical Issues in Implementing and Understanding Bayesian Ideal Point Estimation. Political Analysis, 13(2), 171–187.
Bailey, M. A. (2007). Comparable preference estimates across time and institutions for the court, congress, and presidency. American Journal of Political Science, 51(3), 433–448.
Hardcastle, L., Livingstone, S., and Baio, G. (2024). Averaging polyhazard models using piecewise deterministic monte carlo with applications to data with long-term survivors.
Imai, K., Lo, J., and Olmsted, J. (2016). Fast Estimation of Ideal Points with Massive Data. American Political Science Review, 110(4), 631–656.
Martin, A. D., and Quinn, K. M. (2002). Dynamic ideal point estimation via markov chain monte carlo for the u.s. Supreme court, 1953–1999. Political Analysis, 10(2), 134–153.
Martin, A. D., Quinn, K. M., and Park, J. H. (2011). MCMCpack: Markov chain Monte Carlo in R. Journal of Statistical Software, 42(9), 1–21.
Poole, K. T., and Rosenthal, H. (1997). Congress: A Political-Economic History of Roll Call Voting. New York: Oxford University Press.