ノンパラメトリック回帰分析

Statistics
Nonparametrics
Author

司馬 博文

Published

12/30/2024

Modified

12/30/2024

関連ページ

1 ノンパラメトリック回帰

1.1 カーネル密度推定量 (KDE)

データ \(\{x_n\}\subset\mathcal{X}\) と半正定値核 \(K\) に対して, \[ p(x|\{x_n\})=\frac{1}{N}\sum_{n=1}^NK_\ell(x,x_n) \] は再び半正定値核である.これを Parzen 窓推定量 または カーネル密度推定量 という.

これはデータの経験分布と確率核 \(K\) との畳み込みになっている.\(K\) として Gauss 核を用いると,これはデータ分布の軟化として使え,デノイジングスコアマッチングなどに応用を持つ.

ただし,\(\ell\) (bandwidth) とよばれるハイパーパラメータである.例えば \(K\) が動径 \(r\) の関数であるとき, \[ K_\ell(r):=\frac{1}{\ell}K\left(\frac{r}{\ell}\right) \] などと導入できる.

1.2 カーネル回帰

データが \(\mathcal{D}=\{(x_i,y_i)\}_{i=1}^n\) という形で与えられ,平均 \(\operatorname{E}[Y|X,\mathcal{D}]\) を推定することを考える.

この際,まず結合密度を次の形で推定する: \[ p(y,x|\mathcal{D})=\frac{1}{n}\sum_{i=1}^nK_\ell(x,x_i)K_\ell(y,y_i) \] これを用いると,次のように平均が推定できる: \[ \operatorname{E}[Y|X,\mathcal{D}]=\int_{\mathcal{Y}} yp(y|X,\mathcal{D})\,dy=\sum_{i=1}^ny_iw_i(x),\qquad w_i(x):=\frac{K_\ell(x,x_i)}{\sum_{j=1}^nK_\ell(x,x_j)}. \]

この手続きを,カーネル回帰 / カーネル平滑化,または回帰関数に関する (Nadaraya, 1964)-(Watson, 1964) 推定量という.

1.3 局所線型回帰 (LLR)

カーネル回帰では \(\operatorname{E}[Y|X,\mathcal{D}]\) を,\(\{y_i\}\) の適切な線型和として予測していた.実は \[ \sum_{i=1}^ny_iw_i(x)=\min_\beta\sum_{i=1}^n(y_i-\beta)^2K_\ell(x,x_i) \] の解として特徴付けられる.

代わりに, \[ \mu(x):=\min_{\beta}\sum_{i=1}^n\biggr(y_i-\beta^\top\phi(x_i)\biggl)^2K_\ell(x,x_i) \] によって \(\operatorname{E}[Y|X,\mathcal{D}]\) を予測することを,局所線型回帰 (LLR: locally linear regression) または LOWESS (Locally Weighted Scatterplot Smoothing) (Cleveland, 1979), (Cleveland and Devlin, 1988),または Savitsky-Golay フィルター (Savitzky and Golay, 1964) という.

2 密度推定

Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatterplots. Journal of the American Statistical Association, 74(368), 829–836.
Cleveland, W. S., and Devlin, S. J. (1988). Locally weighted regression: An approach to regression analysis by local fitting. Journal of the American Statistical Association, 83(403), 596–610.
Nadaraya, E. A. (1964). On estimating regression. Theory of Probability & Its Applications, 9(1), 141–142.
Savitzky, Abraham., and Golay, M. J. E. (1964). Smoothing and differentiation of data by simplified least squares procedures. Analytical Chemistry, 36(8), 1627–1639. doi: 10.1021/ac60214a047.
Watson, G. S. (1964). Smooth regression analysis. Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), 26(4), 359–372.