関連記事
A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
1 はじめに
1.1 概観
現代の因果推論は平均処置効果 (ATE) \[ \tau:=\operatorname{E}[Y_i^1]-\operatorname{E}[Y_i^0] \] と関連する推定対象 (estimand / target parameter) に集中している.
1.1.1 潜在結果モデル
このように 因果効果 と呼ばれる推定対象を設定し,良い実験計画を構築してこれを推定するという枠組みは (Neyman et al., 1990) から始まるもので,(Rubin, 1974) の因果モデルや 潜在結果モデル (potential outcome model),または 反実仮想モデル (counterfactual model) とも呼ばれる.
この方法では,ランダム化された実験,あるいは欠測メカニズムが推定しやすいように工夫された「擬似実験」を行なうことで,ほとんどモデリングの議論を表に出さずとも ATE やその他の実験科学者が設定する量を不偏推定可能にする,というアプローチをとる.1
最終的に ATE の推定においては,各個体 \(i\in[n]\) に対して処置を行った場合の結果 \(Y_i^1\) と行わなかった場合の結果 \(Y_i^0\) とのいずれかは必ず欠測するということである.2
端的に言えば,統計学のサンプリング論と科学の実験計画論との邂逅である (Ding, 2024).
1.1.2 構造的因果モデル
しかし他の多くの科学では実験的介入が難しかったり,実験計画だけでは背後の交絡要因が統制しきれない状況がある.
またはそもそも,科学的な興味の対象が「因果効果」だけでなくデータの背後にある「モデル」にもある場合も多い.
このような場合には,変数同士の関係を丁寧にモデリングし,加えて識別可能性を確保するなどの理論的な配慮が欠かせない.
これを可能にするのが 構造的因果モデル (SCM: Structural Causal Model) またはノンパラメトリック構造方程式モデルの枠組みである (Bongers et al., 2021).
多くはグラフィカルモデルと計算機的な方法を組み合わせることで,推定可能な高次元モデルを構築する.このモデルに対する「変換」として,介入操作と因果効果を定義する.
1.1.3 まとめ
歴史的には,どちらかというと構造的因果モデル → 潜在結果モデルという順に注目された.
この現象は特に経済学で顕著に起こった.Cowles 委員会のイニシアティブの下で,初めは構造的なアプローチを取っていた経済学が,実験事実との乖離が激しいことの自覚から,実験と統計的推論を取り入れるように生まれ変わった現象は 信頼性革命 と呼ばれている.
本章では以降,各分野における因果推論の歴史を議論する.
1.2 経済学における因果推論の歴史
経済学において,(Haavelmo, 1943) は「構造推定」の枠組みで政策介入の因果効果を推定しようとした.4
構造推定では「同時方程式」により統計モデルを定義するが,その際には識別可能性が問題になる.
当時の計算資源では十分な推定を実行することができず,加えて,マクロなモデルに対する「介入」の定義を正しく与えていなかった (Lucas, 1976).5
時代が下ると,このアプローチでの経済学は大きな批判に晒され,より実験的なアプローチを採用するように変化を余儀なくされた.これが信頼性革命である.
1.3 計量経済学における信頼性革命
(Leamer, 1983) は計量経済学の手法と古典的な実験科学とを比較し,計量経済学の信頼性は感度解析とロバストを取り入れることによって(のみ)回復されるだろうと論じた.
(LaLonde, 1986) は職業訓練の効果に関する観察研究と実験研究の結果が大きく異なることを示し,当時の計量経済学が抱えていた体質に抜本的改革を迫った.
(Leamer, 1983) が「よく計画された実験を超える統計的手法など出てこないかもしれない」と論じていた通り,その後の信頼性革命は主に実験計画を改善することと擬似ランダム化の適切な取り扱いによって達成された (Angrist and Pischke, 2010).
そのキーワードは「自然実験」や「擬似実験」と呼ばれており,サーベイ手法での「擬似ランダム化」アプローチに相当する.擬似ランダム化については次稿も参照.
1.4 媒介分析
媒介分析 (mediation analysis) (J. M. Robins and Greenland, 1992) においては,因果の流れが複数あり得る場合に,媒介因子 \(Z\) を経由した 間接効果 の量を総合効果の中から識別することを目標とする.
一方でモデリングに基づいた方法も可能である (Pearl, 2012), (Nguyen et al., 2021).6
はじめ社会学や社会心理学においてはモデルによる媒介分析が試みられていた (Alwin and Hauser, 1975), (Baron and Kenny, 1986).
2 交絡調整法
2.1 はじめに
因果推論において,実験計画による工夫に限界がある際は,条件 \[ (Y^0_i,Y^1_i)\perp\!\!\!\perp A_i|X_i \tag{1}\] を満たす共変量 \(X_i\) の特定を目指す.
この \(X_i\) を 交絡因子 (cofounders) といい,条件 (1) を 非交絡性 (unconfoundedness) または 無視可能性 (ignorability) という.
2.2 操作変数法
操作変数 (instrumental variable) とは,処置変数(または説明変数)をよく予測するような補助変数であり,補助変数と処置変数の間の関係を推定することで擬似的に層別サンプリングが行われたとみなせるようなものである.7
未観測の交絡因子が予期される場合でも,操作変数が利用可能である場合はこれを調整することができる.
操作変数が存在するとき,遵守者の平均処置効果,すなわち 局所平均処置効果 (LATE: Local Average Treatment Effect) が識別可能になる (Imbens and Angrist, 1994).
2.3 回帰非連続デザイン
回帰不連続デザイン (RDD: Regression Discontinuity Design) では,割り当ての閾値の近傍では擬似ランダム化が行われていると仮定できる状況において,閾値の近傍に位置した部分標本を用いて,その部分標本での処置効果を推定する.
2.4 差の差法
差分の差法 (DID: Difference-in-Differences) は,被曝群と比較群それぞれの処置前後の差分に現れる差分を,処置効果の近似とみなす方法である.
被曝群と比較群をマッチングすることで共変量を統制することが期待されるが,処置の有無と関係を持つ未統制の共変量の調整が問題となる (Bertrand et al., 2004).
2.5 周辺構造モデル
周辺構造モデルは平均処置効果をパラメータに持つモデルであり (J. M. Robins, 2000),潜在結果変数の(周辺)平均構造をモデリングする: \[ g(\operatorname{E}[Y^a_i|L_i])=\psi_0+\psi_1a+\psi_2L_i+\psi_3L_ia. \]
統計ソフトの充実によりよく使われるようになったが,後述の構造的ネストモデルと \(G\)-推定の方が一般的であり,より効率的である (Vansteelandt and Joffe, 2014).
2.6 \(G\)-推定
\(G\)-推定 (J. M. Robins et al., 2000) は不服従など処置変数 \(D\) に依存した交絡を調整するために,構造的平均モデル,パラメトリック \(G\)-公式 (J. Robins, 1986),構造的ネストモデル (structural nested model) (J. M. Robins et al., 1992) と同時に提案された.
構造的平均モデル (SMM: Structural Mean Model) では,リンク関数 \(g\) の自由度を残して \[ g(\operatorname{E}[Y^a|L=l,A=a])-g(\operatorname{E}[Y^0|L=l,A=a])=\gamma^*(l,a;\psi^*) \] により処置 \(A=a\) の平均因果効果にパラメトリックな仮定をおく.
3 モデルフリー推定手法
3.1 はじめに
疫学では一般化推定方程式,計量経済学では一般化モーメント法など,モデルを全面に押し出さずに推定目標を定義し,これを推定する手法が用いられる.
このように関心のある母数以外の 局外母数 (nuisance parameter) にはモデルを明示的に想定しない手法を セミパラメトリック法 (semi-parametric method) という.
このような手法では,興味のあるパラメータがはっきりしているため,それ以外のモデルの仮定にはひとまず興味がなく,誤特定の下でも効率的な推論ができるロバスト性が重視される.9
3.2 共通の枠組み
ある関数 \(g\) に関して, \[ \operatorname{E}[g(\beta,X,Y)]=0 \tag{2}\] によって推定対象 \(\beta\) を特徴付ける場面は多い.10
条件 (2) によって推定対象 \(\beta\) が定義されているとき,標本上の対応する方程式 \[ \frac{1}{n}\sum_{i=1}^ng(\beta,X_i,Y_i)=0 \tag{3}\] の解として推定量を構成することが自然な発想になる.
特に一般化モーメント法は,モデルの議論を伴わないリサーチクエスチョンに応えるために格好の枠組みである.
例えば線型回帰係数に対する OLS 推定量は \(g(\beta,X)=X(Y-X^\top\beta)\) によって定まる一般化モーメント推定量である.
操作変数推定量は \(g(\beta,X,Y,Z)=Z(Y-X^\top\beta)\) によって定まる一般化モーメント推定量である.
このような推定量はモデルに依存しない方法を与える上に,漸近論の観点で好ましい性質を持つ (L. P. Hansen, 1982).
3.3 \(M\)-推定量
最尤推定量のように,特定の目的関数 \[ M_n(\theta):=\frac{1}{n}\sum_{i=1}^nm_\theta(X_i) \] を最大化する点として定義される推定量 \(\widehat{\theta}\) は \(M\)-推定量 と呼ばれる.
同時に最尤推定量は,スコア関数の零点としても特徴付けられる (Carmer, 1946).
大変大雑把に言えば,モーメント法 → 最尤推定量 → \(Z\)-推定量という歴史的な流れがある (Le Cam, 1952).
頑健統計に起源を持つように,\(M\)-推定量,一般に \(Z\)-推定量は極めて安定して一致性と漸近正規性をもつ.
推定方程式 (3) を近似的に解いても大丈夫だし,推定関数の不偏性 (2) が漸近的にしか成り立たなくてもほとんど問題がない.
3.4 一般化推定方程式
一般化推定方程式は,一般化線型モデル (Nelder and Wedderburn, 1972) における,擬似スコア \[ U(Y_j,\beta|X_j)=(\partial_\beta\mu(X_j^\top\beta))^\top V_i^{-1}(Y_i-\mu(X_i^\top\beta)) \] を推定関数に用いた一般化モーメント法である.
\(U\) を擬似スコアと呼んだのは,誤差の分散 \(V_i\) はモデルの仮定により定まるわけではなく,主に推定効率のために「作業仮設として」設定されたものであるためである.
実際,正規化した \(V_i\) は作業相関係数⾏列ともいう.\(V_i\) を代入した尤度を 擬似尤度 (quasi-likelihood) (Wedderburn, 1974) という.
この方法では,真の誤差分布が相関を持つようなものであった場合でも,平均構造 \(\mu\) の特定にさえ成功すれば,\(\beta\) に関して不偏推定を可能にする.ある種の最尤推定の迂回路である.
\(V_i\) の特定に成功した場合は,セミパラメトリック最適な推定量を与える.
二次のモーメントに関しても関心がある場合は,混合効果モデルなどを通じたモデル化が必要になる.詳しくは この稿 を参照.
3.5 経験尤度法
データ \(\{x_i\}_{i=1}^n\subset\mathbb{R}^d\) に関する 経験尤度 (empirical likelihood) (Owen, 1988) とは,分布関数の汎函数 \[ L(F):=\prod_{i=1}^nF(X_i)-F(X_i-)=\prod_{i=1}^n\operatorname{P}[X=x_i] \] をいう.
この観点から,経験分布関数 \(F_n\) は経験尤度を最大にするノンパラメトリック推定量である.
最尤法はモデルの全ての母数を特定化しない限り実行できないが,経験尤度の最大化ならば可能である.12
\[ \sum_{i=1}^np_ig(x_i,\theta)=0 \] を満たす中で経験尤度を最大化する \(\theta\) を 最大経験尤度推定量 (MELE: maximum empirical likelihood estimator) (Qin and Lawless, 1994) という.
4 文献案内
4.1 ベイズ推定
平均処置効果のベイズ推定は初めから (Rubin, 1978) により考えられていた.
近年のレビューには (Li et al., 2023) がある.
First and most importantly, by enabling imputation of all missing potential outcomes, the Bayesian paradigm provides a unified inferential framework for any causal estimand. (Li et al., 2023, p. 18)
頻度論的な因果推論手法は特にモデルフリーな感覚があり,応用分野に浸透しきっている.モデリングの必要性を感じにくいこともあり,ベイズ的な方法が出遅れたままの感がある.
ベイズ手法の成功事例には (Dorie et al., 2019) がある.ここでは,2016 年の Atlantic Causal Inference Conference のデータ解析コンペティションで,BART (Bayesian Additive Regression Trees) に基づく手法が優勝したことが考察されている.
In general, Bayesian nonparametrics offers both the flexibility of modern machine learning algorithms and the statistically-principled uncertainty quantification of Bayesian inference. (Linero and Antonelli, 2023)
4.2 計量経済学
(川口康平 and 澤田真行, 2024) は日本語の文献であるが,最新の手法も含めた潜在結果モデルの因果推論手法を,計量経済学の構造推定の文脈から切り離して紹介しており,計量経済学に限らず広い聴衆にリーチすべき内容になっている.GitHub サポートページはこちら.
4.3 生物統計学
(Hernán and Robins, 2020) は 2024 年 reviesed 版も 無料で公開されている.
4.4 社会科学
(Morgan and Winship, 2014) は社会学の本である.4章で媒介解析を扱うと同時に,第5章では Rubin の周辺構造モデルも扱っている.
(Brand et al., 2023) は社会学に力点が置かれているが,因果推論手法一般について極めて良い概観を与える読みやすいレビューである.
4.5 統計学
(Rosenbaum, 2023) は統計学の本である.
References
Footnotes
科学的な興味の対象は多くの場合モデル全体ではなく,特定の1つのパラメータであり,そのような場合は実験計画を工夫することでモデルに関係なく推定可能になるという発想は (Heckman, 2010) により “Marschak’s Maxim” と呼ばれる.詳しくは (Laan and Rose, 2011) のPearl による foreword も参照.↩︎
因果推論の根本問題 (Holland, 1986) とも呼ばれる.↩︎
(川口康平 and 澤田真行, 2024), (Pearl, 2015) も参照.↩︎
詳しくは ルーカス批判 (Wikipedia) も参照.↩︎
(Laan and Rose, 2011) の Pearl による Foreword も参照.(Ryosuke Fujii and Suzuki, 2022) の オンラインページも参照.↩︎
ただし当然結果に依存してはいけない.(Section 2 Imbens and Angrist, 1994, p. 468) や (Section 3.1 Hernán and Robins, 2020, p. 28) も参照.↩︎
(Section 12.5 B. E. Hansen, 2022, p. 335) も参照.↩︎
それゆえ最尤法やベイズ法のように,一旦はモデルの想定が必要な手法が忌避されるところがある.↩︎
\(X,Y\) を任意の定数とした際に,\(\beta\) に関して一意な解を持つとき,モーメント条件は 識別可能 であるという.↩︎
他には \(L\)-, \(R\)-推定量があった (Section 3.2 P. J. Huber, 1981, p. 43).↩︎
一般化推定方程式のように,作業的な値を代入して得る尤度は 擬似尤度 (quasi-likelihood) という.↩︎