セミパラメトリック重回帰分析

自乗残差最小化の視点から

Statistics
Nonparametrics
Author

司馬博文

Published

12/29/2024

Modified

12/30/2024

概要

重回帰モデルにおける OLS 推定量は,部分回帰推定量としての解釈を持つ. この性質を用いた手法が媒介分析や操作変数法である. OLS 推定量は不均一分散の場合でも不偏性・一致性・漸近正規性を持ち得るが,漸近有効性は失われる. これを回復するには,誤差の分散を推定して重み付けを行う必要がある. このような方法は一般化最小二乗法と呼ばれる. さらに相関を持つデータを分析するために,より一般の共分散構造を持ったモデルに対してこの手法が拡張されている. 疫学では一般化推定方程式,さらに一般には計量経済学で一般化モーメント法と呼ばれる方法である. これらの方法は作業共分散の選択により,セミパラメトリック漸近最適な分散を達成したり,バイアスを小さくしたりできるが, いずれもトレードオフの範疇にある.

1

回帰モデルの点推定で最も広く用いられるアルゴリズムは OLS である: \[ \widehat{\beta}:=\operatorname*{argmin}_{b\in\mathbb{R}^p}\lvert Y-Xb\rvert^2_2. \]

その他の推定法は別稿で扱う:

OLS は応答 \(Y\) を最もよく復元する推定量 \(X\widehat{\beta}\) を構成する.損失を \(Y\) のなす Euclid 空間 \(\mathbb{R}^n\) 内の距離とした \(M\)-推定量である.

尤度を使わない推定法であるが,Gauss-Markov モデル(均一誤差モデル) \[ \operatorname{E}[\epsilon|X]=0,\qquad\mathrm{C}[\epsilon|X]=\sigma^2I_n \] に関しては,誤差 \(\epsilon\) の分布に依らず,(セミパラメトリック)漸近有効性を持つ.しかも \(\epsilon_i\) は i.i.d. とは限らない.

その構成から予期される通り,OLS 推定量は極めて良い線型代数的な性質を持つ.実際, \[ \widehat{\beta}=(X^\top X)^{-1}X^\top Y \] という表示をもち,\(X\widehat{\beta}\)\(Y\)\(X\) の列ベクトルの貼る空間への線型射影である.

ここでは重回帰モデルにおける OLS 推定量の性質を調べる.

2 重回帰

2.1 設定

計画行列 \(X=(X_1\;X_2)\) に関して,回帰モデル \[ Y=X\widehat{\beta}+\widehat{\epsilon} \tag{1}\] に対して,\(X_1\) を入れなかった場合 \[ Y=X_2\widetilde{\beta}_2+\widetilde{\epsilon} \tag{2}\] を考える.

部分モデル (2) の回帰係数 \(\widetilde{\beta}_2\)\[ \widetilde{\beta}_2=(X_2^\top X_2)^{-1}X_2^\top Y \] で得られる.

2.2 Frisch-Waugh-Lovell の定理

次の結果は少なくとも (Yule, 1907) から知られていたが,計量経済学では (Frisch and Waugh, 1933)(Lovell, 1963) の名前で知られる.

Frisch-Waugh-Lovell の定理

\(X_1\) の列ベクトルが貼る空間の \(\mathbb{R}^n\) 上の補空間への射影を \[ H_2:=I_n-H_1,\qquad H_1:=X_1(X_1^\top X_1)^{-1}X_1^\top \] で表すと, \[ \widehat{\beta}_2=(\widetilde{X}_2^\top\widetilde{X}_2)^{-1}\widetilde{X}_2^\top\widetilde{Y},\qquad\widetilde{X}_2:=H_2X_2,\widetilde{Y}:=H_2Y. \]

すなわち,\(X_1,X_2\) で回帰した (1) の係数 \(\widehat{\beta}_2\) は,まず \(X_2\)\(X_1\) を説明変数で回帰した後に,(2) の代わりに \(Y\) をその残差 \(\widetilde{X}_2\) で回帰して得る係数に等しい.

これを重回帰係数の 部分回帰係数 としての解釈とも呼ぶ (Ding, 2024, p. 60)

2.3 Cochran の公式

\(X_1\)\(X_2\) で回帰した際の係数を \(\widehat{\delta}\) とする: \[ X_1=X_2\widehat{\delta}+\widehat{U}. \] このとき, \[ \widetilde{\beta}_2=\widehat{\beta}_2+\widehat{\delta}\widehat{\beta}_1. \]

これは \(X_2\)\(Y\) への影響のうち,\(X_1\) を通じたもの \(\widehat{\delta}\widehat{\beta}_1\) とそうでないものとを分解していると見れる.\(\widehat{\beta}_2\)\(\widehat{\beta}_1\) の方向に縮小するとも見れる.

\(\widehat{\delta}\widehat{\beta}_1\) の符号によっては,\(\widetilde{\beta}_2,\widehat{\beta}_2\) の符号が異なることがある.このような現象は (Simpson, 1951) のパラドックスともいう.2

計量経済学では \(\widehat{\delta}\widehat{\beta}_1\) の項を 欠落変数バイアス (omitted variable bias) とも呼ぶ. \[ \widehat{\delta}=\frac{\mathrm{C}[X_1,X_2]}{\sqrt{\mathrm{V}[X_1]\mathrm{V}[X_2]}} \] であるから,\(X_1,X_2\) が無相関であった場合はこの項は零になる.

すなわち,誤差 \(\epsilon\) が外生性の仮定 \(\operatorname{E}[\epsilon|X]=0\) を満たすまでに十分多くの説明変数を回帰モデルに入れないと,OLS 推定量はバイアスを持ってしまう.軽量経済学において,\(X\)\(\epsilon\) と相関を持つことを 内生性 (endogeneity) という (B. E. Hansen, 2022, p. 335), (Hayashi, 2000, p. 64)3

(Baron and Kenny, 1986) の媒介分析はこのように OLS 推定を複数の回帰モデルに対して実行し,直接効果と間接効果の量を推定する.この手続きは (Wright, 1918) のパス分析と深い関係がある.

2.4 交絡と共変量統制

具体的に,処置変数を \(Z_i\in\{0,1\}\) とした回帰分析 \[ Y_i=\widetilde{\beta}_0+\widetilde{\beta}_1Z_i+\widetilde{\beta}_2^\top X_i+\widetilde{\epsilon}_i \] を考える.この際,欠落した説明変数 \(U_i\) であって,処置変数 \(Z_i\) と相関を持つものを 交絡因子 という.4

フルモデル \[ Y_i=\widehat{\beta}_0+\widehat{\beta}_1Z_i+\widehat{\beta}_2^\top X_i+\widehat{\beta}_3^\top U_i+\widehat{\epsilon}_i \] に関して,Cochran の公式によれば,\(Z_i\)\(U_i\) に関して回帰した際の \(U_i\) の係数を \(\widehat{\delta}\) とすると, \[ \widetilde{\beta}_1-\widehat{\beta}_1=\widehat{\beta}_3\widehat{\delta} \] が成り立つ.加えて,\(U_i\)\(X_i\) に関して回帰して得る残差を \(e_i\) とすると,\(\widehat{\delta}\) の値はこの \(e_i\) の値のグループ間差に等しい: \[ \widehat{\delta}=\overline{e}^{(1)}-\overline{e}^{(0)}. \]

すなわち,\(X_i\) で説明される分を除いて,\(U_i\) の値が処置群と管理群とで平均的に大きな差があるほど,交絡によるバイアスは大きいものとなる.

2.5 leverage score

射影行列 \[ H:=X(X^\top X)^{-1}X^\top \] は鍵となる値で,この対角成分は leverage score と呼ばれ,次を満たす5 \[ \operatorname{tr}(H)=\operatorname{rank}(H)=p. \]

2.6 VIF

命題6

\(\widehat{\beta}_j\)\(Y\)\((1_n,X_1,\cdots,X_q)\) に関して回帰した際の係数とする.真のモデルがある関数 \(f\) に関して \(y_i=f(x_i)+\epsilon_i\)\(\epsilon_i\sim(0,\sigma^2)\) が互いに相関を持たない場合,次が成り立つ: \[ \mathrm{V}[\widehat{\beta}_j]=\frac{\sigma^2}{\sum_{i=1}^n(x_{ij}-\overline{x}_j)^2}\frac{1}{1-R^2_j}. \] ただし \(R_j^2\) とは \(X_j\)\((1_n,X_1,\cdots,X_{j-1},X_{j+1},\cdots,X_q)\) に関して回帰した際の決定係数とした.

この際,最初の因子は \(Y\)\((1_n,X_j)\) に関して回帰した際の係数 \(\widetilde{\beta}_j\) の分散に一致する.従って次の因子 \[ \operatorname{VIF}_j:=1/(1-R_j^2) \] は,他の説明変数 \(X_1,\cdots,X_{j-1},X_{j+1},\cdots,X_q\) を加えたことによる,\(X_j\) の推定係数の増大具合を表す.

これを 分散拡大係数 (VIF: Variance Inflation Factor) と呼ぶ.

2.7 Bias-Variance Tradeoff

一般に全ての関連する説明変数を入れた方が現実に近く,推定・予測精度は高くなると考えられる.

しかし VIF の命題から,説明変数を増やすたびに OLS 推定量の分散は増大することがわかる.

このようなトレードオフを バイアス-分散トレードオフ (Bias-Variance Tradeoff) という.

2.8 操作変数

仮に \(X_2\) が内生性を持つとする: \[ \operatorname{E}[\epsilon|X_1]=0,\qquad\operatorname{E}[\epsilon|X_2]\ne0. \]

このとき \(U\) であって次を満たすものを 操作変数 という:

  1. (広義)外生性 \[ \mathrm{C}[U,\epsilon]=0 \]

  2. 関連性 \[ \mathrm{C}[U,X_2]\ne0 \]

操作変数 \(U\) を用いれば,回帰モデル (1) の両辺の \(U\) との相関を考えると,外生性から \[ \mathrm{C}[U,V]=\mathrm{C}[U,X]\widehat{\beta} \] が成り立ち,これを通じて \(\widehat{\beta}\) を推定できる.これを IV 推定量 という.

\(\epsilon,\epsilon_2\) の相関を測ることで,内生性の強さを定量化することもできる (Chan and Tobias, 2020, p. 14)

2.9 2段階 OLS

以上の手続きは,ここまで議論してきた方法の特別な場合である.

実際,\(X_2\)\(U\) に関して回帰することを考える: \[ X_2=U\delta+\epsilon_2. \]

この回帰により得る推定値 \(\widehat{X}_2=U\widehat{\delta}\)\(\epsilon\) と相関を持たない.相関が取り除かれた成分を射影によって取り出していると見れる.

続いて \(X_2\)\(\widehat{X}_2\) に取り替えて,\(Y\) に向かって回帰することで得る推定量を TSLS (Two-Stage Least Squares) 推定量 という.

\(U\) が2値変数であるときは (Wald, 1940) 推定量ともいう.\(X_2\) の次元と \(U\) の次元が一致するとき,TSLS 推定量は IV 推定量と一致する.

一般に TSLS も一致性と漸近正規性を持つ (B. E. Hansen, 2022, pp. 351–352)

3 不均一分散

3.1 OLS の漸近正規性

Guass-Markov モデルの線型モデルとしての最大の仮定は,均一の分散 \(\sigma^2\) を仮定していたことである.

しかしこの仮定を外しても,OLS 推定量は不偏性・一致性・漸近正規性を持つ(この順に追加の条件が厳しくなる).

命題7

\[ Y_i=X_i\beta+\epsilon_i,\qquad\epsilon_i\overset{\text{i.i.d.}}{\sim}(0,\sigma_i^2), \] に関して,計画行列 \(X\) は最大階数であるとする.このとき,次が成り立つ:

  1. OLS 推定量 \(\widehat{\beta}\) は不偏性を持つ.
  2. 次の \(B_n\) が可逆な極限 \(B_n\to B\) を持つとき,一致性も持つ: \[ B_n:=\frac{1}{n}\sum_{i=1}^nX_i^\top X_i\in\mathrm{GL}_{p\land n}(\mathbb{R}). \]
  3. 2の条件に加えて,\(x_i,\epsilon_i\) が3次のモーメントを持つとき,漸近正規性も成り立つ:

一致性(と漸近正規性)の成立のために追加の条件が入っていることがわかる.不偏性さえあれば,「極限での不偏性」とも思える一致性が成り立って然るべきな気がする.

この追加の条件は,有限個の \(Y_i\) の説明にしか参加しない予測子を排除するためにある.

例えばある分布 \(P(\mu,\sigma^2)\) に関して \(Y_i\overset{\text{i.i.d.}}{\sim}P(\mu_i,\sigma_i^2)\) とする. \[ Y_i=\beta_1X_i^{(1)}+\beta_2X_i^{(2)}+\epsilon_i,\qquad\epsilon_i\overset{\text{i.i.d.}}{\sim}P(0,\sigma_i^2) \] \[ X_i^{(1)}=1_{\left\{1\right\}}(i),\qquad X_i^{(2)}=1_{\left\{2,\cdots,n\right\}}(i) \] とモデルすると,計画行列はフルランクであるが,OLS 推定量は \(\widehat{\beta}_1=\epsilon_1\sim P(0,\sigma_1^2)\) となる.

これは標本サイズ \(n\) に依らない値であり,\(n\to\infty\) を考えても \(\widehat{\beta}_1\) は一致性はもたず,漸近正規分布もしない.一方で \(\widehat{\beta}_2\) はする.

3.2 EHW 頑健標準誤差

この漸近正規性に基づく分散推定量 \[ \widehat{V}:=n^{-1}\left(\frac{1}{n}\sum_{i=1}^nX_i^\top X_i\right)^{-1}\left(\frac{1}{n}\sum_{i=1}^n\epsilon_i^2X_i^\top X_i\right)\left(\frac{1}{n}\sum_{i=1}^nX_i^\top X_i\right)^{-1} \] は,誤差分布が不均一な場合でも頑健な分散推定量となる.

これを計量経済学では (White, 1980) の推定量と呼ぶが,初めに提案したのは (Eicker, 1967)(Huber, 1967) であるようである.

3.3 有効性

では OLS は何を失うのか?

\(\sigma^2\) が不均一になった場合,観測によってノイズの大きさが違うわけである.

したがって特に情報量が大きい観測と,ノイズが大きくてあまり意味をなさない観測というものが相対的に出てくる.

これを峻別して適切に観測に重み付けることが必要である.

これができない OLS は有効性を失う.代わりに重み付けを行った OLS は有効性を持つ.

BLUE

既知の正定値行列 \(\Sigma\) に関して, \[ \operatorname{E}[\epsilon]=0,\qquad\mathrm{C}[\epsilon]=\sigma^2\Sigma, \] を満たすとする.このとき,BLUE は次のように表せる: \[ \widehat{\beta}_\Sigma=(X^\top\Sigma^{-1}X)^{-1}X^\top\Sigma^{-1}Y. \]

3.4 WLS

3.1 節で考えた不均一分散の設定は \[ \Sigma=\mathrm{diag}(\sigma_1^2,\cdots,\sigma_n^2)=:\mathrm{diag}(w_1^{-1},\cdots,w_n^{-1}) \] の場合に当たる.このときの BLUE は次の最適化条件でも特徴付けられる: \[ \widehat{\beta}_w:=\operatorname*{argmin}_{b\in\mathbb{R}^p}(Y-Xb)^\top\Sigma^{-1}(Y-Xb)=\operatorname*{argmin}_{b\in\mathbb{R}^p}\sum_{i=1}^nw_i\lvert Y_i-X_ib\rvert^2_2. \tag{3}\] これを WLS (Weighted Least Squares) 推定量 という.

一般には解析を始める前に \(\Sigma\) の形は未知であるから,これの推定から始める.その手続きを計量経済学では FGLS (Feasible Generalized Least Squares) と呼ぶ.

この重み付けの考え方は標本抽出の際にも重要であり,(Horvitz and Thompson, 1952) の逆確率重み付け法とも呼ばれる:

3.5 局所線型回帰

局所線型回帰 (local linear regression) はカーネル法を用いてデータ点を適切に重み付けることで,非線型な回帰を達成する方法である.

具体的には,基準点 \(x_0\) の近傍でのベストな線型近似 \[ y(x)=\alpha+\beta(x-x_0) \] を得るために,あるカーネル \(K\) と帯域幅 \(h>0\) を通じて \[ (\widehat{\alpha},\widehat{\beta}):=\operatorname*{argmin}_{a,b}\sum_{i=1}^nw_i\biggl|y_i-a-b(x_i-x_0)\biggr|^2_2,\qquad w_i:=K\left(\frac{x_i-x_0}{h}\right), \] によって定める.

3.6 一般化線型モデルの解放

一般化線型モデル \[ \operatorname{E}[Y_i|X_i]=\mu(X_i\beta) \] は基本的に分布が特定されたパラメトリックモデルである.これについても,EHW 頑健標準偏差推定量 3.2 に当たる,分布の誤特定に頑健な標準偏差推定量が存在する.

その肝となる事実は,あらゆる関数 \(\widetilde{\sigma}^2(x,\beta)\) に関して, \[ \operatorname{E}\left[\sum_{i=1}^n\frac{Y_i-\mu(X_i\beta)}{\widetilde{\sigma}^2(X_i,\beta)}\frac{\partial \mu(X_i\beta)}{\partial \beta}\right]=0 \tag{4}\] が真値 \(\beta\) に関して成り立ち続けることである.

したがって \(\widetilde{\sigma}^2\) を何らかの方法で決定し,これに関して式 (4) を通じた \(M\)-推定量 \(\widehat{\beta}\) が構成できる.\(\widetilde{\sigma}^2(x_i,\beta)=\mathrm{V}[Y_i|X_i=x_i]\) と正しく特定できた場合,これは最尤推定量になる.

多くの場合 \(\widetilde{\sigma}^2\) は一般化線型モデルの仮定に基づいて算出するが,語特定されているものとしている場合が多く,作業分散 ともいう.

\((X_i,Y_i)\) が独立同分布に従うとするとき,第 3.1 節のような漸近正規性の結果は,一般の \(M\)-推定量に関する次の結果から導かれる:

Restricted Mean Model に対する \(M\)-推定8

\((X_i,Y_i)\) が独立同分布に従うとする.このとき, \[ \sqrt{n}(\widehat{\beta}-\beta)\Rightarrow\mathrm{N}(0,B^{-1}MB^{-1}), \] \[ B:=\operatorname{E}\left[\frac{1}{\widetilde{\sigma}^2(x,\beta)}\frac{\partial \mu(X\beta)}{\partial \beta}\frac{\partial \mu(X\beta)}{\partial \beta^\top}\right],\qquad M:=\operatorname{E}\left[\frac{\sigma^2(x)}{\widetilde{\sigma}^2(x,\beta)^2}\frac{\partial \mu(X\beta)}{\partial \beta}\frac{\partial \mu(X\beta)}{\partial \beta^\top}\right]. \]

この結果を用いれば,指数型分布族などのパラメトリックモデルに依らずとも,漸近論に基礎付けられた点推定が達成できる.

なお指数分布族の仮定の下で \(\widetilde{\sigma}^2\) がが正しく特定されていた場合,\(B=M\) は Fisher 情報行列となる.

3.7 相関の考慮

ここまでの議論をまとめよう.OLS の漸近正規性 3.1 は,誤差分布が不均一であるばかりでなく,\(Y_i\) が相関を持つ場合(\(\Sigma\) の非対角成分が非零の場合)でも成り立つ.

GLS (Generalized Least Squares) はこの相関を持つ場合でもセミパラメトリック漸近最適性を達成する.

この結果を任意の逆リンク \(\mu\) に関して \[ \operatorname{E}[Y_i|X_i]=\mu(X_i\beta) \] という非線型な回帰モデルにも拡張することを考えたいが,前節ではまだ \(Y_i\) が i.i.d. であるという仮定を置いていた.

最後にこの仮定を取り払い,一般の誤差分布 \(\mathrm{C}[\epsilon|X]=\Sigma\) を考えたい.

このために開発されたのが 一般化推定方程式 (GEE: Generalized Estimating Equations) (Liang and Zeger, 1986) である.

3.8 一般化推定方程式

\((X_i,Y_i)\) を i.i.d. とした場合の推定方程式 (4) を拡張した推定方程式 \[ \sum_{i=1}^n\frac{\partial \mu(X_i\beta)}{\partial \beta}\widetilde{\Sigma}^{-1}(X_i,\beta)\biggr(Y_i-\mu(X_i\beta)\biggl)=0 \tag{5}\] を一般化推定方程式といい,\(\widetilde{\Sigma}(X_i,\beta)\)作業共分散行列 という.

この式は今までで最も一般的な形をしており,最適化条件 (3) で推定を実行する GLS に対して,1次の最適性条件に基づいて導出する方法ということができる.それ故,逆リンク \(\mu\) の一般性も許容できている.

実際,一般化推定方程式 (5) は,最適化条件 (3) を \(b\) に関して微分して得る一次の最適性条件に見える.

一般化推定方程式 (5) による推定も,i.i.d. とは限らない場合の \(M\)-推定の理論から,漸近正規性が導ける.この漸近論から得られる EHW 推定量の一般化は,\(\mu\) の特定さえ正しければ,\(\widetilde{\Sigma}\) の誤特定に頑健な分散推定量となる (Liang and Zeger, 1986), (Altonji and Segal, 1996)

3.9 GEE の仮定

しかし GEE には重要な仮定 \[ \operatorname{E}[Y_{it}|X_i]=\operatorname{E}[Y_{it}|X_{it}],\qquad t\in[n_i], \] が存在する.これは \((X_{it},Y_{it})\) が状態空間モデルに従うことを意味する.

しかし \(\widetilde{\Sigma}\) の非対角成分が零になる,独立作業共分散行列を用いた場合は,この仮定が成り立たない場合でも,\(\mu\) の特定が正しければやはり一致性が成り立つが,推定量の分散は少し膨らむ.

また関数関係 \(\mu\)\(t\in[n_i]\) に依存しないという仮定も含まれている.

4 終わりに

以上の枠組みは全て 一般化モーメント法 (GMM: Generalized Method of Moments) (L. P. Hansen, 1982) の枠組みの中に位置する.

GMM という名前は,OLS 推定の1次の最適性条件として得る直交条件 \[ \operatorname{E}[X(Y-\mu(X\beta))]=0 \] が,モーメント法の課す条件と似ており,どれも \[ \operatorname{E}[g(\beta)]=0 \] という形をしているという点から来る.

さらには経験尤度法 (Owen, 1988), (Qin and Lawless, 1994) も漸近正規性を持つノンパラメトリック手法であり,GMM の後釜として期待されている.特に直交条件の数が多い GMM よりバイアスが少ない.

しかし GMM の方が分散が大きいことがあり,bias-variance のトレードオフがある (Newey and Smith, 2004)

References

Altonji, J. G., and Segal, L. M. (1996). Small-sample bias in GMM estimation of covariance structures. Journal of Business & Economic Statistics, 14(3), 353–366.
Baron, R. M., and Kenny, D. A. (1986). The moderator–mediator variable distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51(6), 1173–1182.
Chan, J., and Tobias, J. L. (2020). Bayesian econometric methods.
Cochran, W. G. (1938). The omission or addition of an independent variate in multiple linear regression. Supplement to the Journal of the Royal Statistical Society, 5(2), 171–176.
Ding, P. (2024). Linear model and extensions.
Eicker, F. (1967). Limit theorems for regressions with unequal and dependent errors. In L. M. Le Cam and J. Neyman, editors, Proceedings of the fifth berkeley symposium on mathematical statistics and probability, volume 1: statistics,Vol. 1, pages 59–82.
Frisch, R., and Waugh, F. V. (1933). Partial time regressions as compared with individual trends. Econometrica, 1(4), 387–401.
Hansen, B. E. (2022). Econometrics. Princeton University Press.
Hansen, L. P. (1982). Large sample properties of generalized method of moments estimators. Econometrica, 50(4), 1029–1054.
Hayashi, F. (2000). Econometrics. Princeton University Press.
Horvitz, D. G., and Thompson, D. J. (1952). A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association, 47(260), 663–685.
Huber, P. J. (1967). The behavior of maximum likelihood estimates under nonstandard conditions. In L. M. Le Cam and J. Neyman, editors, Proceedings of the fifth berkeley symposium on mathematical statistics and probability, volume 1: statistics,Vol. 1, pages 221–233.
Liang, K.-Y., and Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73(1), 13–22.
Lovell, M. C. (1963). Seasonal Adjustment of Economic Time Series and Multiple Regression (Cowles Foundation Discussion Papers No. 151). Cowles Foundation for Research in Economics, Yale University. Retrieved from https://ideas.repec.org/p/cwl/cwldpp/151.html
Newey, W. K., and Smith, R. J. (2004). Higher order properties of GMM and generalized empirical likelihood estimators. Econometrica, 72(1), 219–255.
Owen, A. B. (1988). Empirical likelihood ratio confidence intervals for a single functional. Biometrika, 75(2), 237–249.
Qin, J., and Lawless, J. (1994). Empirical Likelihood and General Estimating Equations. The Annals of Statistics, 22(1), 300–325.
Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society. Series B (Methodological), 13(2), 238–241.
Wald, A. (1940). The fitting of straight lines if both variables are subject to error. The Annals of Mathematical Statistics, 11(3), 283–300.
White, H. (1980). A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity. Econometrica, 48(4), 817–838.
Wright, S. (1918). On the nature of size factors. Genetics, 3(4), 367.
Yule, G. U. (1907). On the theory of correlation for any number of variables, treated by a new system of notation. Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, 79(529), 182–193.

Footnotes

  1. (Ding, 2024, p. 81) 定理9.1.The proof of Theorem 9.1 is very simple. However, it is one of the most insightful formulas in statistics.↩︎

  2. 生態学的誤謬 (ecological fallacy) ともいう.↩︎

  3. この意味での「内生性」は,「外生的じゃない」こととも意味がズレてしまう.\(\operatorname{E}[\epsilon|X]=0\) を満たすならば \(\mathrm{C}[\epsilon,X]=0\) が必要であるから,「内生的ならば外生的でない」は成り立つ.ここでは内生的じゃないことを 広義外生性 と呼ぼう.また多くの場合他の経済学の文脈では,「モデル内で決定される変数」程度の意味で内生変数と呼ぶことも多い.↩︎

  4. 処置変数と相関を持たないということは,非交絡性 \(Y_i\perp\!\!\!\perp Z_i\mid U_i\) よりは弱い条件である.なお,この「非交絡性」は疫学の言い方であり,計量経済学では 無視可能性 または \(U_i\) が観測可能である場合は selection on observables などとも呼ぶ.逆に言えば,交絡とは selection on unobservables のことである.↩︎

  5. (Ding, 2024, p. 95) も参照.↩︎

  6. (Ding, 2024, p. 130) 定理13.1.↩︎

  7. (Ding, 2024, p. 44) 定理6.1.↩︎

  8. (Ding, 2024, p. 268) 定理24.2.↩︎