A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
関連記事
1 回帰分析の一般事項
1.1 はじめに:正規線型回帰
回帰分析とは,2つの確率変数
例えば
1.2 ベイズ回帰分析
ベイズ回帰分析では,
実際,ベイズ回帰分析では事前分布
パラメータ
尤度によりデータ
ベイズ回帰分析とは,尤度がパラメータ
1.3 強線型性
仮に2つの説明変数に完全な線型関係がある場合,複数のパラメータ値が同一のモデルを表現するため,パラメータ推定が複数の解を持つ(=識別不可能).
この場合 OLS 推定は数値的に不安定になる危険性がある.
一方でベイズ推定は事前分布から与えられる情報によりこのような不安定性が回避でき,多くのデフォルト事前分布はそのように設計されている.(8.4 節 Gelman, Hill, et al., 2020, p. 109) も参照.2
この美点は階層モデリングにおいても引き継がれる.
しかし階層モデリングにおいては係数に超階層モデルが想定されるため,ここから伝ってくる事前情報が自然に正則化を行い,適切にベイズ推定が行われる (Gelman and Hill, 2006, p. 393).さらに縮小推定が働き,ほとんどの場合より推定の効率が上がる 2.5.
1.4 ベイズ回帰分析ワークフロー
の依存構造が単純(線型)になるような変数変換を行う(一般化線型モデルの利用を含む). の事前分布を設定する(初めは一様分布やデフォルトの無情報事前分布で良い).- 事後分布を計算し,事後予測分布を見てデータが再現できているかを基にモデルを検証する.
その後,十分に階層化をして,パラメータの空間上の事前分布がほとんど情報を持たなくて良いようにする,完全ベイズ推論が一つの悲願とされる.3
モデルの挙動がもはや事前分布に依存しなくなった際,モデルの階層構造や尤度の構造が十分にデータを反映できていると思われるためである.4
推定すべきものはモデルの尤度であってパラメターの値ではないというのが赤池氏の主張です.いいかえると,推定すべきは確率構造であってパラメターではないというのです.(田邉國士, 2010)
1.5 ベイズ線型回帰からの脱出
前節の立場にたてば,最初の解析は常に(弱い情報を持った事前分布による)ベイズ回帰分析であるべきである.6
これは若干の正則化を加えたロバスト最尤推定に,不確実性の定量化を加えたものと等価であるが,これを MCMC を回すことで一度に実行できる点が美点である.
多くのデフォルト事前分布が開発されており,ほとんど自動的に最初のベイズ回帰分析が実行できる.共線型性が懸念される場合や,小さなデータセットに大きなモデルをフィッティングしようとしている場合などの識別不可能性が生じる状況でも安定した推定値が得られる.
事後分布は豊富な情報を持っており,何より事後予測分布を計算することで予測モデルとしての妥当性を即時に確認できる (PPC: Posterior Predictive Check).
同時に解析の目標は,適切な関数関係や階層関係を持った階層モデルの発見と,これに適合する(ベイズだろうと点推定だろうと)パラメータ推定法の構成による,ナイーブなベイズ線型回帰からの脱出である.
それにあたって,MCMC の収束鈍化も大きな情報である (Bürkner, 2021, p. 32).
This is the game we (should) play.
2 階層モデル
2.1 はじめに
階層モデルは複雑なモデルを構築するための強力なツールであり,ベイズのワークフローにおいて基本的な要素になる.
層別抽出やクラスター抽出をはじめとして,多くの場合階層別に知識が存在し,これらを系統的に組み込んだ形でモデルを構築できる.
しかし同時に計算が困難になり,第一近似として正規性が仮定される場合が多い.
2.2 混合効果モデル
標本を
このような所属変数
例えば
変量効果の追加は,同一グループ内の
さらに
ベイズの立場からは,「変量」と「固定」の名称は歴史的なもので,実質的な違いは「次の階層で回帰モデルを仮定するか,モデルを持たない最終階層の変数と扱い一様事前分布に従うとするか」という仮定の違いにすぎない.詳しくは次節:
この2種の取り扱いをする回帰係数を混在させた場合は 混合モデル (mixed model) という (Gelman et al., 2014, p. 383).
2.3 階層モデルから見た分散分析
ベイズのワークフローにおいて,複数の説明変数間の階層関係の特定や「どのグループの回帰係数を共通とするか」の見極めが極めて重要である 1.4.
特に,膨大な説明変数の中から「因子」(性別・教育水準・出身地など)とその「水準」(女性・大学院生・山形県民など)とを峻別することが重要であり,どのクラスに独自の回帰係数
この際の
Analysis of variance (Anova) represents a key idea in statistical modeling of complex data structures. (Gelman et al., 2014, p. 395)
こうして設定された各因子の各水準ごとの係数
2.4 水準ごとの分散
このように分散分析を階層モデルのベイズ推定と再解釈することで,膨大な数の水準の組み合わせに関して,その効果量を定量的に比較することができる.
ここからさらに,
この際,
2.5 縮小推定
階層モデルでは,自然に他のグループの情報が共有され,各グループの平均が全体の平均に向けて「縮小」されて推定される.これを (Stein, 1956) から Stein 効果ともいう (Hoff, 2009, p. 146).9
3 一般化線型モデル
3.1 線型 Gauss 性からの乖離
正規線型モデルから,次の2つの自由度を追加したモデルを 一般化線型モデル (Nelder and Wedderburn, 1972) という:
その結果質的データ解析にも応用可能な広いクラスのモデルを得る.
3.2 指数分布族
なお正準リンクとは,Poisson 分布族や二項分布族を指数分布族とみなした際のリンク関数のことである.
例えば二項分布族
指数分布族と正準リンク関数を用いた一般化線型モデリングは,パラメトリック分布族の十分統計量を代理の応答変数として線型回帰を行なっているものとみなせる.
3.3 分散分析
線型モデルにおいて分散分析は,第一義的には帰無モデルの検定であった.後続の多重比較による解析は,説明変数ごとの効果量の比較を行う.
しかし線型モデルにおいてその方法は分散の分解に基づいており,この一般化線型モデルへの拡張は自明ではない.
一般化線型モデルにおいても残差を定義し,これに基づいてモデルの検証を行うことはできる (Davison and Tsai, 1992).
4 終わりに
4.1 文献紹介
(Gelman et al., 2014) 第14章で回帰分析,15章で階層モデルが議論されている.15.6, 15.7 章で Bayesian Anova が解説されている.
(Gelman, Hill, et al., 2020) が回帰に特化した本である.
rstanarm
パッケージを通じて
library(rstanarm)
<- stan_glm(y ~ x, data = mydata) fit
というコードでベイズ線型回帰を実行できる.family
を指定していないため,線型モデルと解釈される.(Muth, 2018) が最適なイントロダクションである.
rstanarm
パッケージは特に R
の built-in の OLS 推定をする関数
<- lm(y ~ x, data = mydata) fit
や lmer
との接続性を意識されているパッケージで,古典的な解析とベイズ分析との往復が容易にできる.
<- stan_glm(y ~ x, data = mydata, algorithm = "optimizing") fit
により変分推論による高速な近似推定も可能である.ベイズ回帰は探索的な用途でも多く使われることを考えると大変有用な機能である.
4.2 「回帰」という名前
回帰分析は従って,
これが「平均への回帰」と呼ばれ,regression の名前の由来となった.
この現象は利用可能性バイアスにより人間に偽の因果関係を簡単に知覚させる (Tversky and Kahneman, 1973).regression fallacy という名前もついている.
Galton の例では
仮に
日常の場面で体感される利用可能な情報がそれだけである以上,これを「褒めると逆効果だ」と知覚しがちなのである.(Kahneman and Tversky, 1973) に素晴らしい例がある.
これゆえ定量的な評価が必要なのである.(6.5 節 Gelman, Hill, et al., 2020, p. 87) も参照.
References
Footnotes
ただし回帰モデルを「因果効果」の推定に用いる際には,通常とは異なる,仮定に対する精査が必要になる.最も安全には,
が変化した際の の変化量を単なる「比較」の文脈で説明することである.この「違い」が の変化により生み出されたとは限らないためである.(6.4 節 Gelman, Hill, et al., 2020, p. 85) も参照.↩︎improper な一様事前分布を用いた場合,引き続き不安定なままな可能性はある.だが多くのデフォルト事前分布は,weakly informative というように,軽微な情報を加えることで正則化が働くように設定されている裾の(適度に)広い事前分布であることが多い.↩︎
従来は事前分布の経験ベイズ推定と呼ばれていた考え方である (Gelman, Vehtari, et al., 2020, p. 6).↩︎
一方で多くの頻度論的な手法は,無情報事前分布を仮定したベイズ推論とみなせる.そこでベイズの,有効な頻度論的モデルを探索するための方法としての美点が見えてくるのである.↩︎
この点については (Gelman, 2014) も参照.大統領選における有権者の行動のモデリングを,ベイズ階層モデルに基づいて探索的に実行しており,“multilevel Bayesian modeling can be considered as an elaborate form of exploratory data analysis” と結論している.↩︎
もちろん重要な事前情報や予備解析が存在する場合は,これを事前分布としてどう更新されるかをみるのが良い.(1.6 節 Gelman, Hill, et al., 2020, p. 16) に簡潔な概観的議論がある.↩︎
(Bafumi and Gelman, 2007) では unmodeled varying intercept と呼んでいる.↩︎
すると「自由度」とは変動係数の数に他ならない.↩︎
同様の縮小効果を得るための点推定手続きが,経験ベイズ の名称で研究されている (Efron and Morris, 1973), (Efron and Morris, 1975).これについては (久保川達也, 2006) も参照.↩︎