A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
関連記事
1 非確率標本とは何か?
Generally speaking, these designs have not been explored in detail by survey researchers even though they are frequently used in other applied research fields. (Baker et al., 2013, p. 91)
母集団 \([N]\) から部分集合 \(S\subset[N]\) が標本として抽出されたとする.
この抽出計画 (sampling design / mechanism) が未知である場合,これを 非確率標本 (nonprobability sample) という.
1.1 非確率標本
確率抽出 (probability sampling) とは \([N]\) の部分集合の全体 \(P([N])\) 上の既知の確率分布に従っているとみなせる標本で,さらに何人も標本に選ばれる確率が零でないもの \[ \pi_i:=\operatorname{P}[i\in S]>0 \] をいう.詳しくは,前稿 も参照.
すなわち非確率標本とは,\(S\in\mathcal{L}(\Omega;P([N]))\) の従う分布が未知であったり,抽出計画上絶対に標本に入り得ない単位が存在する場合をいう.
1.2 例
母集団 \([N]\) を国民全体だとした場合,確率抽出は国勢調査規模の営為によってのみしか達成し得ない.
多くの科学分野で実施されるような,特定の学校の学生や特定の地域の構成員を対象としたサンプル 便宜的標本 (convenience sample) は全て非確率標本に分類されることになる.
また多くのウェブアンケート代行業者は,事前にアンケートに協力することを約束したユーザーのプールからランダムに抽出して実行する.このような,自主的な応募によって得られたパネルを opt-in panel / panel of volunteers といい,ここからのサンプルもまた便宜的(二段階抽出)標本である.
以上の理由から,多くの「ビッグデータ」と呼ばれるデータは非確率標本である (Meng, 2018), (Jae-Kwang Kim and Tam, 2021).
そのほかの非確率的標本の例については,(Section 3 AAOR, 2013) を参照.
1.3 自己選択バイアスの問題
このような非確率標本では,特定のクラスの単位を包摂できていない問題 (frame undercoverage) や,自ら進んで応募して標本に入ることで生じる交絡とバイアス (self-selection bias) が問題になる.1
端的に言えば,ランダムな欠測 (MAR: Missing At Random) (Rubin, 1976) の仮定が成り立たず,多くの欠測データ手法はそのままでは適用できないことが問題になる.
1.4 データ統合
非確率標本単体では出来ることが限られているかもしれないが,補助情報と組み合わせてモデルを立てることで統計的推論を試みることができる.
Data | Design | Representative? | X | Y |
---|---|---|---|---|
A | Probability | Yes | X | missing |
B | Nonprobability | No | X | Y |
確率標本 A をビッグデータ B と紐づけられるという状況はかなら理想的であるが,仮にこのような dual frame estimation (Hartley, 1962), (Skinner and Rao, 1996) の一部として非確率標本を扱えるときは,B を A の補助情報とみることで従来の校正荷重による推定の理論が利用可能になる.校正推定量については前稿も参照.
例えば A を実験データ,B を観察データとしたデータ統合の試みは計量経済学においても進んでいる (Athey et al., 2019), (Athey et al., 2020), (Park and Sasaki, 2024).B をオルタナティブデータと呼ぶ向きもある.
実はこれから見るように,非確率標本の過小包摂性 (under coverage) は,単純ランダム抽出ではない抽出計画による確率標本のバイアス補正の議論に帰着し,自己選択バイアス (self-selection bias) の補正は欠測データの議論に帰着する (Jae-Kwang Kim and Tam, 2021).
1.5 データ統合の方法
大きく分けて次の3通りが考えられる (Salvatore et al., 2024):
1.6 バイアス低減
各単位 \(i\in[N]\) が標本に包含される確率 \[ \pi_i:=\operatorname{P}[i\in S],\qquad i\in [N], \] が未知である場合でも,母集団 \([N]\) 上で \[ \pi_i^{-1}\,\propto\,x_i^\top\lambda,\qquad i\in[N], \] を満たす補助変数 \(x_i\;(i\in[N])\) が利用可能ならば,推定のバイアスを低減することが可能である.
1.7 傾向スコア
したがって \(\pi_i\) を推定することが問題になる.
\(\delta_i:=1_S(i)\) が \(\delta_i=1\) を満たすときのみ \(y_i\) が観測されるとすると,
\[ \pi(x):=\operatorname{P}[\delta=1|X=x] \] を 包含確率 または 傾向スコア (propensity score) (Rosenbaum and Rubin, 1983) という.2
「未知のランダム化メカニズム \(\pi\)」を想定し,これを推定することで確率標本の議論に帰着させるというアプローチは quasi-randomization approach とも呼ばれる (Elliott and Valliant, 2017), (Beresovsky et al., 2024).
2 校正推定量
2.1 確率標本に対する校正推定量
GREG モデルと呼ばれる超母集団模型 \[ y_i=x_i^\top\beta+e_i,\qquad e_i\overset{\text{iid}}{\sim}(0,c_i(x_i)\sigma^2), \tag{1}\] を仮定する.校正条件 \[ \sum_{i\in S}\omega_ix_i=\sum_{i=1}^Nx_i \tag{2}\] を満たす荷重 \((\omega_i)\) を用いた線型推定量 \[ \widehat{Y}_{\mathrm{cal}}:=\sum_{i\in S}\omega_iy_i \] を 校正推定量 (calibration estimator) といい,抽出計画が 無視可能 (ignorable) である限り \(Y\) の不偏推定量になる.
ここまでは 前稿 で見た通りである.
2.2 非確率標本に対する校正推定量
こうなると \(\sum_{i=1}^Nx_i\) が判明・推定すれば良いので,校正推定量に関しては 欠測データに対する対処 と同様に,傾向スコアの推定を通じて非確率標本に対応することができる.
これには超母集団模型 (1) に加えて,傾向スコア \[ \operatorname{P}[\delta=1|X=x]=:\pi(x) \] に対してもモデル \((\pi_\phi)\) をおく必要がある.
このとき,\(G\in C^2(\mathbb{R})\) を強凸関数,\(g:=G'\) として \[ Q(\omega):=\sum_{i\in S}G(\omega_i)c_i(x_i) \] を,校正条件 (2) と完全情報の下で最尤推定された \(\widehat{\phi}\) を用いて推定した傾向スコア \(\widehat{\pi}_i:=\pi(\widehat{\phi}(x_i))\) に関して \[ \sum_{i\in S}\omega_ig(\widehat{\pi}_i^{-1})c_i=\sum_{i=1}^Ng(\widehat{\pi}_i^{-1})c_i(x_i) \tag{3}\] を満たす中で最小化する荷重 \((\omega_i)\) を用いた校正推定量は,二重頑健性を持つ.
制約 (3) は選択バイアスを抑える役割を持ち,脱偏倚制約 (de-biasing constraint) とも呼ばれる (Jae Kwang Kim, 2024, p. 198).
3 文献案内
(Jae Kwang Kim, 2024) を最も参考にした.他によく読んだものは (AAOR, 2013), (Elliott and Valliant, 2017).
セミパラメトリック推定に関する日本語文献は (逸見昌之, 2014).
非確率標本の確率標本と組み合わせた利用については,計量経済学の文献を除いても (Lohr and Raghunathan, 2017), (Meng, 2018), (Hand, 2018), (Robbins et al., 2020), (Rao, 2021), (Beaumont and Rao, 2021), (Angelopoulos et al., 2023), (Golini and Righi, 2024), (Salvatore et al., 2024) などがあり,大変盛り上がってきている印象がある.