A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
関連記事
回帰モデルや分散分析では,暗黙裡に応答変数が連続であることが仮定されている.
本節では質的な変数,特に順序構造がある離散変数のモデリングを考える.このようなものを 順序応答 (ordinal response) という.
このようなデータには,多くの場合背後に 連続潜在変数 を仮定してモデリングを行う.
その結果,潜在変数の存在が Gibbs サンプラーの構成を容易にする.
1 2項モデル
1.1 はじめに
この際,パラメータ
多くの場合,リンク関数
1.2 ロジスティックモデル
仮に変数
このような状況で,
1.3 潜在変数解釈
この潜在変数
一方で
第 2.3 節でまた別の,効用関数による潜在変数表現を扱う.
1.4 順序応答
前節 1.3 の潜在変数解釈は容易に2値応答以外の場合に拡張できる.その結果多項モデルを用いたソフトマックス回帰 2.2 などとは別のアプローチが,多値順序応答に対して可能になる.
これはそのまま 順序多項回帰 (ordered multinomial regression) (Walker and Duncan, 1967) に相当する.
この場合
ベイズ推論は
1.5 識別可能性と分離
線型回帰において,共線型性 があると識別可能性が失われる.ロジスティック回帰にはもう一つ識別不可能性の典型的な原因がある.
多くの点推定手法において,説明変数の線型変換が極めて強力な説明変数になる場合,やはり「正解」が何個も存在する状況が現れるため,モデルの非識別性が暗黙のうちに問題になる.これを 分離 (separation) という (Gelman et al., 2014, p. 412).
特に最尤推定法,一様事前分布を持ったベイズ推定は不安定になるが,このような場合でも裾の重い事前分布を採用することでベイズ推論が安定的に実行可能である(同様にして正則化を加えた最尤推定も可能である) (Gelman and Hill, 2006, p. 104).
特に係数に(互いに独立な)
ただし,
1.6 ベイズ計算
一般に二項回帰モデルはベイズ計算法の良いベンチマークになる.
大規模なモデルでは事前調整ありの期待伝搬と乱歩 MH が強いが,Gibbs サンプラーや SMC サンプラーも十分良い性能を示す一方で,NUTS などの HMC ベースの手法は苦しむという (Chopin and Ridgway, 2017).
特に説明変数の次元
1.7 分散分析
(Gelman et al., 2014, p. 423) 16.5 節は良い例である.アメリカ合衆国における国民の投票行動をロジットリンクにより二項モデルで一般化線型回帰をしている.Bayes ANOVA により人種による大きな効果と同時に,人種と州の強い交差効果が発見できている.
1.8 選択モデル
計量経済学の分野で古くから使われている潜在変数表現 1.3 の拡張として,選択モデル (choice model) がある.
これに関しては 階層ロジスティックモデルの稿 で詳しく扱う.
2 多項モデル
2.1 はじめに
順序応答
一方で多項モデル(正確にはカテゴリカルモデル)
2.2 名目応答に対する多項モデル
名目応答が
リンク関数
係数は,説明変数が
一方で条件付きロジスティック回帰 (conditional logistic regression) なる方法もある (22.2節 Kruschke, 2015, pp. 655–).
2.3 効用による表現
多項ロジスティックモデルも潜在変数解釈 1.3 が可能である.
ただしこの表示からはっきりわかるように,各選択肢を選ぶ効用は他の選択肢とは独立に決まることが仮定されている.これを IIA (Independence of Irrelevant Alternatives) ともいう.
このような仮定は,文脈効果(「選択肢セットの配置によって消費者の選好する選択肢が容易に変化する」 (竹内真登 and 猪狩良介, 2022) 現象)を主な関心とするマーケティングの分野では非常に不適当なものになる.
2.4 順序応答に対する多項モデル
応答
この場合リンク関数はロジットやプロビットが使える:
このモデルを,
異なるパラメータ付け
2.5 Poisson モデル
応答が
カウント総数
リンク関数には対数関数
2.6 トーナメントデータ
一度に2人の単位が勝負をし,どちらが勝利したかのデータに対する標準的なモデルに,(Bradley and Terry, 1952) モデルがある.国際チェス連盟や欧州囲碁連盟で選手のランクづけにも採用されている (Hastie and Tibshirani, 1998).
このモデルでは各プレイヤーに能力パラメータ
このモデルは「勝利」「引き分け」「敗北」の3応答に対する確率モデルを調節することで,引き分け (Rao and Kupper, 1967) や先手有利 (Davidson and Beaver, 1977), (Agresti, 2012) などの情報も取り入れられるように簡単に拡張できる.
このように2値応答ではなく多値応答とみても,前節の Poisson モデルの定式化に帰着させることで,一般化線型モデリングの枠組みに合流させることができる (Gelman et al., 2014, pp. 427–428).
2.7 順位データ
ランキングデータは,トーナメントのような常に1対1比較のみを通じて情報が得られるわけではない.多者比較 (multiple comparison) も取り入れた Bradley-Terry モデルより一般的なものが (Plackett, 1975)-(Luce, 1959) モデルである.
Plackett-Luce モデルでは,参加者
このモデルは,「陽の目を見る瞬間」
このような潜在変数表現を元にした MM アルゴリズム (Hunter, 2004) や Gibbs サンプラー (Caron and Doucet, 2012) に基づく推論法が存在する.PlackettLuce
パッケージ (Turner et al., 2020) も参照.
さらに Plackett-Luce モデルで引き分けを許すように拡張したものが Gibbs サンプラーとともに (Henderson, 2024) で提案されている.順位データとレーティング(点数付け)のデータを同時に扱うことができるような拡張が (Pearce and Erosheva, 2025) で提案されている.
2.8 対数線型モデル
この際には 対数線型モデル (log-linear model) も考えられる.
それぞれのセルに Poisson モデルをおき,そのパラメータを代理応答変数として,対数リンクにより一般化線型回帰を行うものである.
このモデルは,サンプルサイズ
対数線型モデルは分割表解析だけでなく,多重代入法 などの欠測データ解析にも応用される.
3 コピュラモデル
3.1 はじめに
以上の質的変数のモデルは,いずれも潜在的な連続変数の離散化としてデータを理解するものであった.
仮にこの潜在変数により興味がある場合,この潜在変数をより具体的に,特にその相関構造をモデリングしたいということになる.
4 文献紹介
(Gelman et al., 2014) の 16 章で一般化線型モデルが扱われている.(Kruschke, 2015) はさらに詳しく,22 章で名目応答,23 章で順序応答,24 章でカウントデータを扱っている.
(12 章 Hoff, 2009) にて正規コピュラモデルが ordinal probit モデルの,潜在変数を多次元に拡張した場合として導入されている.
(Chib and Winkelmann, 2001) はリンクを対数関数とし,Poisson 周辺分布を持つカウントデータのコピュラモデリングを実行している.
(Quinn, 2017) は連続確率変数に対してコピュラモデリングを実行している.
References
Footnotes
(Ding, 2024, p. 222) も参照.↩︎