ベイズデータ解析4

アンケートデータとデータ統合

Bayesian
Statistics
Author

司馬博文

Published

9/24/2024

Modified

9/27/2024

概要

応募法 (voluntary sampling) や多くのウェブアンケートは,確率標本抽出に該当しない.このような場合でも母集団に関する補助情報がある限り,バイアスを軽減し推定精度を高めることができる.

関連記事

1 非確率標本とは何か?

Generally speaking, these designs have not been explored in detail by survey researchers even though they are frequently used in other applied research fields. (Baker et al., 2013, p. 91)

母集団 \([N]\) から部分集合 \(S\subset[N]\) が標本として抽出されたとする.

この抽出計画 (sampling design / mechanism) が未知である場合,これを 非確率標本 (nonprobability sample) という.

1.1 非確率標本

確率抽出 (probability sampling) とは \([N]\) の部分集合の全体 \(P([N])\) 上の既知の確率分布に従っているとみなせる標本で,さらに何人も標本に選ばれる確率が零でないもの \[ \pi_i:=\operatorname{P}[i\in S]>0 \] をいう.詳しくは,前稿 も参照.

すなわち非確率標本とは,\(S\in\mathcal{L}(\Omega;P([N]))\) の従う分布が未知であったり,抽出計画上絶対に標本に入り得ない単位が存在する場合をいう.

1.2

母集団 \([N]\) を国民全体だとした場合,確率抽出は国勢調査規模の営為によってのみしか達成し得ない.

多くの科学分野で実施されるような,特定の学校の学生や特定の地域の構成員を対象としたサンプル 便宜的標本 (convenience sample) は全て非確率標本に分類されることになる.

また多くのウェブアンケート代行業者は,事前にアンケートに協力することを約束したユーザーのプールからランダムに抽出して実行する.このような,自主的な応募によって得られたパネルを opt-in panel / panel of volunteers といい,ここからのサンプルもまた便宜的(二段階抽出)標本である.

以上の理由から,多くの「ビッグデータ」と呼ばれるデータは非確率標本である (Meng, 2018), (Jae-Kwang Kim and Tam, 2021)

そのほかの非確率的標本の例については,(Section 3 AAOR, 2013) を参照.

1.3 自己選択バイアスの問題

このような非確率標本では,特定のクラスの単位を包摂できていない問題 (frame undercoverage) や,自ら進んで応募して標本に入ることで生じる交絡とバイアス (self-selection bias) が問題になる.1

端的に言えば,ランダムな欠測 (MAR: Missing At Random) (Rubin, 1976) の仮定が成り立たず,多くの欠測データ手法はそのままでは適用できないことが問題になる.

1.4 データ統合

非確率標本単体では出来ることが限られているかもしれないが,補助情報と組み合わせてモデルを立てることで統計的推論を試みることができる.

典型的なデータの例
Data Design Representative? X Y
A Probability Yes X missing
B Nonprobability No X Y

確率標本 A をビッグデータ B と紐づけられるという状況はかなら理想的であるが,仮にこのような dual frame estimation (Hartley, 1962), (Skinner and Rao, 1996) の一部として非確率標本を扱えるときは,B を A の補助情報とみることで従来の校正荷重による推定の理論が利用可能になる.校正推定量については前稿も参照

例えば A を実験データ,B を観察データとしたデータ統合の試みは計量経済学においても進んでいる (Athey et al., 2019), (Athey et al., 2020), (Park and Sasaki, 2024).B をオルタナティブデータと呼ぶ向きもある.

実はこれから見るように,非確率標本の過小包摂性 (under coverage) は,単純ランダム抽出ではない抽出計画による確率標本のバイアス補正の議論に帰着し,自己選択バイアス (self-selection bias) の補正は欠測データの議論に帰着する (Jae-Kwang Kim and Tam, 2021)

1.5 データ統合の方法

大きく分けて次の3通りが考えられる (Salvatore et al., 2024)

  1. 荷重校正による方法 (Elliot, 2009), (Robbins et al., 2020)

非確率標本はあくまで確率標本の補助情報とし,荷重校正を実施する.

  1. 擬似ランダム化による方法 (Elliott and Valliant, 2017)

自然によるランダム化が行われたとし,これを推定するステップを追加することで確率標本の議論に帰着させる.

  1. 大量代入 (mass imputation) による方法 (Jae Kwang Kim et al., 2021)

1.6 バイアス低減

各単位 \(i\in[N]\) が標本に包含される確率 \[ \pi_i:=\operatorname{P}[i\in S],\qquad i\in [N], \] が未知である場合でも,母集団 \([N]\) 上で \[ \pi_i^{-1}\,\propto\,x_i^\top\lambda,\qquad i\in[N], \] を満たす補助変数 \(x_i\;(i\in[N])\) が利用可能ならば,推定のバイアスを低減することが可能である.

1.7 傾向スコア

したがって \(\pi_i\) を推定することが問題になる.

\(\delta_i:=1_S(i)\)\(\delta_i=1\) を満たすときのみ \(y_i\) が観測されるとすると,

\[ \pi(x):=\operatorname{P}[\delta=1|X=x] \]包含確率 または 傾向スコア (propensity score) (Rosenbaum and Rubin, 1983) という.2

「未知のランダム化メカニズム \(\pi\)」を想定し,これを推定することで確率標本の議論に帰着させるというアプローチは quasi-randomization approach とも呼ばれる (Elliott and Valliant, 2017), (Beresovsky et al., 2024)

2 校正推定量

2.1 確率標本に対する校正推定量

GREG モデルと呼ばれる超母集団模型 \[ y_i=x_i^\top\beta+e_i,\qquad e_i\overset{\text{iid}}{\sim}(0,c_i(x_i)\sigma^2), \tag{1}\] を仮定する.校正条件 \[ \sum_{i\in S}\omega_ix_i=\sum_{i=1}^Nx_i \tag{2}\] を満たす荷重 \((\omega_i)\) を用いた線型推定量 \[ \widehat{Y}_{\mathrm{cal}}:=\sum_{i\in S}\omega_iy_i \]校正推定量 (calibration estimator) といい,抽出計画が 無視可能 (ignorable) である限り \(Y\) の不偏推定量になる.

ここまでは 前稿 で見た通りである.

2.2 非確率標本に対する校正推定量

こうなると \(\sum_{i=1}^Nx_i\) が判明・推定すれば良いので,校正推定量に関しては 欠測データに対する対処 と同様に,傾向スコアの推定を通じて非確率標本に対応することができる.

これには超母集団模型 (1) に加えて,傾向スコア \[ \operatorname{P}[\delta=1|X=x]=:\pi(x) \] に対してもモデル \((\pi_\phi)\) をおく必要がある.

このとき,\(G\in C^2(\mathbb{R})\) を強凸関数,\(g:=G'\) として \[ Q(\omega):=\sum_{i\in S}G(\omega_i)c_i(x_i) \] を,校正条件 (2) と完全情報の下で最尤推定された \(\widehat{\phi}\) を用いて推定した傾向スコア \(\widehat{\pi}_i:=\pi(\widehat{\phi}(x_i))\) に関して \[ \sum_{i\in S}\omega_ig(\widehat{\pi}_i^{-1})c_i=\sum_{i=1}^Ng(\widehat{\pi}_i^{-1})c_i(x_i) \tag{3}\] を満たす中で最小化する荷重 \((\omega_i)\) を用いた校正推定量は,二重頑健性を持つ.

制約 (3) は選択バイアスを抑える役割を持ち,脱偏倚制約 (de-biasing constraint) とも呼ばれる (Jae Kwang Kim, 2024, p. 198)

3 文献案内

(Jae Kwang Kim, 2024) を最も参考にした.他によく読んだものは (AAOR, 2013), (Elliott and Valliant, 2017)

セミパラメトリック推定に関する日本語文献は (逸見昌之, 2014)

非確率標本の確率標本と組み合わせた利用については,計量経済学の文献を除いても (Lohr and Raghunathan, 2017), (Meng, 2018), (Hand, 2018), (Robbins et al., 2020), (Rao, 2021), (Beaumont and Rao, 2021), (Angelopoulos et al., 2023), (Golini and Righi, 2024), (Salvatore et al., 2024) などがあり,大変盛り上がってきている印象がある.

References

AAOR. (2013). Report of the AAPOR task force on non-probability sampling. American Association for Public Opinion Research.
Angelopoulos, A. N., Bates, S., Fannjiang, C., Jordan, M. I., and Zrnic, T. (2023). Prediction-powered inference. Science, 382(6671), 669–674.
Athey, S., Chetty, R., and Imbens, G. (2020). Combining experimental and observational data to estimate treatment effects on long term outcomes.
Athey, S., Chetty, R., Imbens, G. W., and Kang, H. (2019). The surrogate index: Combining short-term proxies to estimate long-term treatment effects more rapidly and precisely. National Bureau of Economic Research.
Baker, R., Brick, J. M., Bates, N. A., Battaglia, M., Couper, M. P., Dever, J. A., … Tourangeau, R. (2013). Summary Report of the AAPOR Task Force on Non-probability Sampling. Journal of Survey Statistics and Methodology, 1(2), 90–143.
Beaumont, J.-F., and Rao, J. N. K. (2021). Pitfalls of Making Inference from Non-probability Samples: Can Data Integration through Probability Samples Provide Remedies? The Survey Statistician, 83, 11–22.
Beresovsky, V., Gershunskaya, J., and Savitsky, T. D. (2024). Review of quasi-randomization approaches for estimation from non-probability samples.
Elliot, M. R. (2009). Combining Data from Probability and Non- Probability Samples Using Pseudo-Weights. Survey Practice, 2(6).
Elliott, M. R., and Valliant, R. (2017). Inference for nonprobability samples. Statistical Science, 32(2), 249–264.
Golini, N., and Righi, P. (2024). Integrating probability and big non-probability samples data to produce official statistics. Statistical Methods & Applications, 33(2), 555–580.
Hand, D. J. (2018). Statistical Challenges of Administrative and Transaction Data. Journal of the Royal Statistical Society Series A: Statistics in Society, 181(3), 555–605.
Hartley, H. O. (1962). Multiple frame surveys. In Proceedings of social statistics section, pages 203–206.
Kim, Jae Kwang. (2024). Statistics in survey sampling.
Kim, Jae Kwang, Park, S., Chen, Y., and Wu, C. (2021). Combining Non-Probability and Probability Survey Samples Through Mass Imputation. Journal of the Royal Statistical Society Series A: Statistics in Society, 184(3), 941–963.
Kim, Jae-Kwang, and Tam, S.-M. (2021). Data integration by combining big data and survey sample data for finite population inference. International Statistical Review, 89(2), 382–401.
Lohr, S. L., and Raghunathan, T. E. (2017). Combining Survey Data with Other Data Sources. Statistical Science, 32(2), 293–312.
Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics, 12(2), 685–726.
Park, Y., and Sasaki, Y. (2024). The informativeness of combined experimental and observational data under dynamic selection.
Rao, J. N. K. (2021). On making valid inferences by integrating data from surveys and other sources. Sankhya B, 83(1), 242–272.
Robbins, M. W., Ghosh-Dastidar, B., and Ramchand, R. (2020). Blending Probability and Nonprobability Samples with Applications to a Survey of Military Caregivers. Journal of Survey Statistics and Methodology, 9(5), 1114–1145.
Rosenbaum, P. R., and Rubin, D. B. (1983). The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika, 70(1), 41–55.
Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3), 581–592.
Salvatore, C., Biffignandi, S., Sakshaug, J. W., Wiśniowski, A., and Struminskaya, B. (2024). Bayesian Integration of Probability and Nonprobability Samples for Logistic Regression. Journal of Survey Statistics and Methodology, 12(2), 458–492.
Skinner, C. J., and Rao, J. N. K. (1996). Estimation in dual frame surveys with complex designs. Journal of the American Statistical Association, 91(433), 349–356.
逸見昌之. (2014). 欠測データに対するセミパラメトリックな解析法――その理論的背景について――. 統計数理, 62(1), 103–122.

Footnotes

  1. すごく大雑把には,収入が高い人ほど収入に関するアンケートに参加しやすい,ウェブに関心のある人ほどウェブアンケートを受けやすい,など.↩︎

  2. 包含確率の用語は標本調査論による.傾向スコアは欠測データ解析による.↩︎