大規模な不均衡データに対するロジスティック回帰
離散時間 MCMC から連続時間 MCMC へ
司馬博文
7/16/2024
9/17/2024
理想点解析とは,政治学においてイデオロギーを定量化する方法論として用いられる,多次元展開法 (MDU: Multidimensional Unfolding) の一手法である.
A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
理想点推定 は政治学においては,イデオロギーを定量化する方法論として用いられる.
態度測定 (飽戸弘, 1966) や Hinich-Ordeshook 空間分析 (spatial analysis) (Enelow and Hinich, 1984) (岡田謙介 and 加藤淳子, 2016) とも呼ばれる.
この際の理論的根拠として,空間理論 (Downs, 1957) が源流にあり,これを定量化する際の技術が理想点推定であると位置付けられる.
政治学における空間理論とは,イデオロギーの「近さ」が影響力を持つとする枠組みである.
空間理論はもともと,経済学における交渉理論(特に bargaining theory)において,(Hotelling, 1929) が立地を考慮に入れたことから始まり,(Black, 1948) が定式化したものある.これにより,価格などの一次元的な尺度に限らずより一般的な選好を考慮した交渉の議論が可能になる.1
one way to try to account for political choices is to imagine that each chooser occupies a fixed position in a space of one or more dimensions, and to suppose that every choice presented to him is a choice between two or more points in that space. (MacRae, 1958)
現代では,空間理論は政治学,特に議会などにおける政治過程の研究に応用される.交渉における空間理論については (林光, 2016) も参照.
特に,リベラル - 保守,左 - 右などといった空間的な理解は,政治学において古典的に用いられた理解の枠組みである.
各政治家に対して,これらの尺度を定量化する手法が理想点解析であり,近年では1次元ではなく,多次元への拡張も焦点になっている.
理想点解析は,古典的には各政治家が 点呼投票 (Roll Call Voting) を通じて意見表明をした際の記録が用いられる.
これを解析する方法には,次の2つがある:
D-NOMINATE (K. T. Poole and Rosenthal, 2001), (K. T. Poole and Rosenthal, 2007).
元々 NOMINATE (Nominal Three-Step Estimation) とは (K. T. Poole and Rosenthal, 1985) において提案された,分散が最大な次元を特定した後に,残った変動を最も説明する次元を特定しようとする,多次元展開法の一種である (岡田謙介 and 加藤淳子, 2016).D は dynamic,W は weighted の略である.R パッケージ wnominate
(K. Poole et al., 2011) で利用可能.
BIRT (Clinton et al., 2004)
ベイズによる方法.
しかし,点呼投票データは政党規律や戦略的投票行動がある際には,必ずしも個人の政治的信条を反映しないという欠点がある.
特に日本では政党規律が強く,点呼投票データが適さないため,政治家へのサーベイや質問,専門家調査 (加藤淳子, 2021) によってデータが収集されることが多いという (三輪洋文, 2017), (Miwa and Taniguchi, 2017).
このテキストベースのアプローチは,政党が公開しているマニフェストなどの客観的なデータから空間分析が可能であるという点に美点がある (岡田謙介 and 加藤淳子, 2016).
また近年では,Twitter が政治家の政策と信条の空間的位置について多くの情報を含んでいる情報源として注目されている (Barberá, 2015), (三輪洋文, 2017).
(Barberá, 2015) は特に,Twitter において誰が誰をフォローしているかのデータに注目した.
\((y_{ij})\in M_n(2)\) を,ユーザー \(i\) がユーザー \(j\) をフォローしているかを2値で表した \(0,1\) 成分行列とし,この関係が政策空間 \(\mathbb{R}^d\) におけるユーザー \(i,j\) の距離の近さによって決定されているとする.
\(\theta_i:[n]\to\mathbb{R}^d\) をユーザーの政策空間への埋め込みとすると,\(g\) をリンク関数として \[ g\biggr(\operatorname{P}[Y_{ij}=1\,|\,\alpha_j,\beta_i,\theta]\biggl)=\alpha_i+\beta_j-d(\theta_i,\theta_j) \] とするのである.
ただし,\(\alpha_j\) は知名度,\(\beta_i\) は政治的関心を表す説明変数とした.
これにより,Gibbs サンプラーにより \(\alpha,\beta,\theta\) の推定が可能になるが,この方法では推定が遅く,また大規模なデータや偏りのあるデータに弱い.
この問題点は,Zig-Zag サンプラーによって解決され,さらに推定が高速になる可能性がある.詳しくは次の稿も参照:
このようにして,観測の階層モデルを立てて MCMC により推定する方法が,(Jackman, 2001) や (Martin and Quinn, 2002) 以来中心的である.
(Bakker and Poole, 2013) は政治学のための,多次元尺度法のベイズ化の方法を提案している.
また,(Imai et al., 2016),(三輪洋文, 2017) のように,変分 EM アルゴリズムなどを用いることもできる.これにより,\(d=1\) として推定した結果が (三輪洋文, 2017) で公開されている:
空間理論(第 1.2 節)の端緒からして,単なる1次元の左-右といった軸ではなく,多次元の潜在空間上に各政治家の理想点を写像したい,という悲願がある (岡田謙介 and 加藤淳子, 2016).
このように新たな次元も考慮に入れることで,リベラル - 保守といった概念への理解が進むことが期待される上に,予測などの下流タスクの精度の大きな向上も望めるだろう.
これを実現する統計手法が必要とされている.
特に識別可能性の問題が深刻になるが,それがベイズのアプローチでは,\(\ell_2\)-ノルムベースであったところを \(\ell_1\)-ノルムベースにすることで,推定の安定性と効率性が向上することなどが考えられている (Lim et al., 2024).
従来の理想点解析における参照軸は,純粋に複雑な政治的現象を理解するための構成概念として利用された.
一方でそもそも,項目反応理論と多次元尺度法は,歴史的に認知科学と深い関係を持ち,認知科学的変数を取り入れたモデルも数多く提案されてきた (Lee, 2001).例えば個々人の認知過程の違い (Embretson (Whitely), 1984) や発達段階の違い (Wilson, 1984) も変数に取り入れることが考えられている.
そこで近年,理想点推定が出力する「次元」に対する人間の空間的認知との関係を明示的に取り入れたモデリングをしようという試みが,行動計量学との接点で考えられている (岡田謙介 and 加藤淳子, 2016).
理想点解析や多次元尺度構成法は,非線型次元縮約法,多様体学習法,埋め込み法などといった種々の名前の下で考察されている.
逆に言えば,これらの他手法と比較したり,長所と短所を洗い出すことで,個々の手法に対する理解が深まるかもしれない.
(Escolar et al., 2023) では特許のデータを用い,各企業を技術空間 \(\mathbb{R}^{430}\) 内に埋め込んだ後,mapper (Singh et al., 2007) によりグラフ化したところ,企業の独自戦略が可視化されたという.
項目反応理論の概観には (一大, 2022) が良い.
この交渉理論におけるコンテクストから,理想点 というのである.各主体が理想とする点,という意味である.↩︎