Gauss 過程を用いたベイズ推論

理論編

Bayesian
Kernel
Process
Author

司馬博文

Published

2/11/2024

Modified

8/08/2024

概要
Gauss 過程は関数に対するノンパラメトリックモデルである.正確には,関数空間上の共役確率分布を定めるため,Gauss 過程を用いて回帰関数に関する効率的な Bayes 推論が可能になる.ニューラルネットワークも,例えば1層で全結合のものは,隠れ素子数が無限になる極限で Gauss 過程回帰と等価になる.

実践編も参照(画像をタップでリンクを開く)

実践編も参照(画像をタップでリンクを開く)

1 導入

ガウス過程はベイズ統計の立場から見たカーネル法ということができます.(持橋大地 and 大羽成征, 2019)

1.1 Gauss 過程とは

Gauss 過程 \(\{X_t\}_{t\in T}\subset\mathcal{L}(\Omega;\mathbb{R}^d)\) とは,各変数 \(X_t\) が正規分布を持つ確率過程である.転置 \[ X_-:\omega\mapsto\mathrm{Map}(T;\mathbb{R}^d) \] を考えれば,これはランダムに定まる添え字集合 \(T\) 上の関数と見れる.

それゆえ,Gauss 過程は,関数空間 \(\mathrm{Map}(T;\mathbb{R}^d)\) 上の確率分布を定める際に使うことが出来る.

1.2 クリギング (Kriging)

Gauss 過程回帰の歴史的端緒の1つは,空間統計学における クリギング (Krige, 1951) である.

これは空間上の各地で取られているデータから,データのない地点におけるデータを内挿する方法である.((Krige, 1951) は特に鉱山評価において用いている).

現代的な言葉で言えば,これは \(T=\mathbb{R}^2\) 上での Gauss 過程回帰を用いた統計推測である.

1.3 Gauss 過程回帰

尤度も Gauss である場合,事後分布も Gauss 過程になるため,正確な計算が可能である.

一方で一般の尤度の場合は,変分推論 (Wilkinson et al., 2023) が行われる.

タスクが分類である場合は,Pólya-Gamma 分布に基づくデータ拡張に基づく変分推論 (Wenzel et al., 2019), (Galy-Fajou et al., 2020) も用いられる.

1.4 ニューラルネットワークとの対応

独立同分布な事前分布の下で,1層の全結合ニューラルネットワークは,隠れ素子数が無限になる極限で Gauss 過程回帰と等価である (Neal, 1996)

したがって,(Williams, 1996) などの方法で対応する Gauss 過程が特定できれば,当該のニューラルネットワークと等価な Bayes 推論が可能になる.

Gauss 過程との同様の対応は,多層のニューラルネットワークの間にもつけられている (Lee et al., 2018).この際の Gauss 過程のカーネルは NN-GP 核と呼ばれており,CNN (Novak et al., 2019) や一般化 (Tensor Program (Yang, 2020)) など,各方面で特徴づけが進んでいる.

しかしニューラルネットワークは隠れ層において適応的に適切な基底関数を学習できる一方で,Gauss 過程回帰は実行する前に適切な正定値カーネルを選ぶ必要がある.

2 推論法

2.1 Expectation Propagation 法

EP might not converge in some cases since quadrature is used. GPML 4.2 Documentation

2.2 FITC (Fully Independent Training Conditional) (Snelson and Ghahramani, 2005)

複数のデータを1つのデータに要約し,有効的なデータ数を減らす方法を inducing point または pseudo-input と呼ぶ.

2.3 MCMC

MCMC は唯一ブラックボックスとして用いることが出来ない推論手法である.また,勾配ベースの周辺尤度最適化も MCMC では不可能である.

Inference by MCMC sampling is the only inference method that cannot be used as a black box. Also gradient-based marginal likelihood optimisation is not possible with MCMC. Please see usageSampling for a toy example illustrating the usage of the implemented samplers. GPML 4.2 Documentation

この関門が乗り越えられたならば,Gauss 過程による機械学習の応用は大きく進展するだろう.

\(S^1\)-値の Gauss 過程は,データ拡張に基づく MCMC により推論できる (Jona-Lasinio et al., 2012)

また,関数空間からの事後分布サンプリングを高速化することも考えられている (J. Wilson et al., 2020)

2.4 Kalman フィルター

事前分布として設定した Gauss 過程を,線型 Gauss な状態空間モデルとして解釈することで,Gauss 過程回帰を Kalman フィルタリングによって解く (Hartikainen and Särkkä, 2010) ことも考えられている.

この方法は特に,時系列データに対して,Gauss 過程回帰を通じて外挿をするタスクにおいて考えられている (Särkkä et al., 2013), (Adam et al., 2020)

3 カーネルの学習

Gauss 過程を用いて,ニューラルネットワークのような外挿汎化性を獲得するためには,適切な正定値カーネルをデータから適応的に学習できるようになる必要がある (A. Wilson and Adams, 2013), (Andrew G. Wilson et al., 2014)

実はこのカーネル学習はニューラルネットワークの学習と類似していく.実際,NN と GP が相補的な役割を果たすことが最も良い実践を生むかもしれない.

3.1 Deep Kernel Learning (DKL) (Andrew Gordon Wilson et al., 2016)

\[ K(x,y)=\exp\left(-\frac{1}{2\sigma^2}\lvert h_\theta(x)-h_\theta(y)\rvert^2\right) \] というように,深層学習と Gauss 過程回帰を組み合わせる発想は (Hinton and Salakhutdinov, 2007) から存在した.

この方法は,ニューラルネットワークの最後の一層を Gauss 過程に取り替えることに相当する.

しかし (Ober et al., 2021) によると,通常のニューラルネット以上に深刻な過適応を見せやすく,完全にベイズによるアプローチを採る方法を議論している.

3.2 Deep Gaussian Process (DGS) (Damianou and Lawrence, 2013)

GP をスタックして深層な階層モデルにするという発想であるが,学習が極めて困難になる.

3.3 Neural Tangent Kernel (NTK) (Jacot et al., 2018)

ある一定の条件の下では,訓練中/訓練後の DNN が,学習率 \(\eta\to0\),幅無限大の極限でどのようなカーネルを持った GP に対応するかを導くことができる.

しかし,NTK の仮定は特に「初期値からほとんどパラメータ値は変化しない (lazy training) (Chizat et al., 2019)」というものも含意しており,これが実際と乖離している (Woodworth et al., 2020)

実際,幅無限大の極限で,元々の NTK の理論では特徴学習をしないということが示せてしまう.しかし,これはパラメータの変換を通じて修正することができ,NTK 理論の射程はさらに広がっている (Yang and Hu, 2021)1

4 文献紹介

(Görtler et al., 2019) というサイトに注目.インタラクティブに,Gauss 過程の表現力の高さが経験できる.

(Duvenaud, 2014) は種々のカーネルを可視化して比較している.

(Liu et al., 2020) は GP のスケーラビリティに関するサーベイである.

References

Adam, V., Eleftheriadis, S., Artemev, A., Durrande, N., and Hensman, J. (2020). Doubly sparse variational gaussian processes. In S. Chiappa and R. Calandra, editors, Proceedings of the twenty third international conference on artificial intelligence and statistics,Vol. 108, pages 2874–2884. PMLR.
Chizat, L., Oyallon, E., and Bach, F. (2019). On lazy training in differentiable programming. In H. Wallach, H. Larochelle, A. Beygelzimer, F. dAlché-Buc, E. Fox, and R. Garnett, editors, Advances in neural information processing systems,Vol. 32. Curran Associates, Inc.
Damianou, A., and Lawrence, N. D. (2013). Deep Gaussian processes. In C. M. Carvalho and P. Ravikumar, editors, Proceedings of the sixteenth international conference on artificial intelligence and statistics,Vol. 31, pages 207–215. Scottsdale, Arizona, USA: PMLR.
Duvenaud, D. K. (2014). The kernel cookbook: Advice on covariance functions.
Galy-Fajou, T., Wenzel, F., and Opper, M. (2020). Automated augmented conjugate inference for non-conjugate gaussian process models. In S. Chiappa and R. Calandra, editors, Proceedings of the twenty third international conference on artificial intelligence and statistics,Vol. 108, pages 3025–3035. PMLR.
Görtler, J., Kehlbeck, R., and Deussen, O. (2019). A visual exploration of gaussian processes. Distill.
Hartikainen, J., and Särkkä, S. (2010). Kalman filtering and smoothing solutions to temporal gaussian process regression models. In 2010 IEEE international workshop on machine learning for signal processing, pages 379–384.
Hinton, G. E., and Salakhutdinov, R. R. (2007). Using deep belief nets to learn covariance kernels for gaussian processes. In J. Platt, D. Koller, Y. Singer, and S. Roweis, editors, Advances in neural information processing systems,Vol. 20. Curran Associates, Inc.
Jacot, A., Gabriel, F., and Hongler, C. (2018). Neural tangent kernel: Convergence and generalization in neural networks. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in neural information processing systems,Vol. 31. Curran Associates, Inc.
Jona-Lasinio, G., Gelfand, A., and Jona-Lasinio, M. (2012). SPATIAL ANALYSIS OF WAVE DIRECTION DATA USING WRAPPED GAUSSIAN PROCESSES. The Annals of Applied Statistics, 6(4), 1478–1498.
Krige, D. G. (1951). A statistical approach to some mine valuation and allied problems on the witwatersrand (Master’s thesis). University of the Witwatersrand, Faculty of Engineering. Retrieved from http://hdl.handle.net/10539/17975
Lee, J., Sohl-dickstein, J., Pennington, J., Novak, R., Schoenholz, S., and Bahri, Y. (2018). Deep neural networks as gaussian processes. In International conference on learning representations.
Liu, H., Ong, Y.-S., Shen, X., and Cai, J. (2020). When gaussian process meets big data: A review of scalable GPs. IEEE Transactions on Neural Networks and Learning Systems, 31(11), 4405–4423.
Neal, R. M. (1996). Bayesian learning for neural networks,Vol. 118. Springer New York.
Novak, R., Xiao, L., Bahri, Y., Lee, J., Yang, G., Abolafia, D. A., … Sohl-dickstein, J. (2019). Bayesian deep convolutional networks with many channels are gaussian processes. In International conference on learning representations.
Ober, S. W., Rasmussen, C. E., and Wilk, M. van der. (2021). The promises and pitfalls of deep kernel learning. In C. de Campos and M. H. Maathuis, editors, Proceedings of the thirty-seventh conference on uncertainty in artificial intelligence,Vol. 161, pages 1206–1216. PMLR.
Särkkä, S., Solin, A., and Hartikainen, J. (2013). Spatiotemporal learning via infinite-dimensional bayesian filtering and smoothing: A look at gaussian process regression through kalman filtering. IEEE Signal Processing Magazine, 30(4), 51–61.
Snelson, E., and Ghahramani, Z. (2005). Sparse gaussian processes using pseudo-inputs. In Y. Weiss, B. Schölkopf, and J. Platt, editors, Advances in neural information processing systems,Vol. 18. MIT Press.
Wenzel, F., Galy-Fajou, T., Donner, C., Kolft, M., and Opper, M. (2019). Efficient gaussian process classification using pólya-gamma data augmentation. In Proceedings of the AAAI conference on artificial intelligence,Vol. 33.
Wilkinson, W. J., Särkkä, S., and Solin, A. (2023). Bayes-newton methods for approximate bayesian inference with PSD guarantees. Journal of Machine Learning Research, 24(83), 1–50.
Williams, C. K. I. (1996). Computing with infinite networks. In Advances in neural information processing systems 9, pages 295–301.
Wilson, Andrew G., Gilboa, E., Nehorai, A., and Cunningham, J. P. (2014). Fast kernel learning for multidimensional pattern extrapolation. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in neural information processing systems,Vol. 27. Curran Associates, Inc.
Wilson, Andrew Gordon, Hu, Z., Salakhutdinov, R., and Xing, E. P. (2016). Deep kernel learning. Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, 51, 370–378.
Wilson, A., and Adams, R. (2013). Gaussian process kernels for pattern discovery and extrapolation. In S. Dasgupta and D. McAllester, editors, Proceedings of the 30th international conference on machine learning,Vol. 28, pages 1067–1075. Atlanta, Georgia, USA: PMLR.
Wilson, J., Borovitskiy, V., Terenin, A., Mostowsky, P., and Deisenroth, M. (2020). Efficiently sampling functions from Gaussian process posteriors. In H. D. III and A. Singh, editors, Proceedings of the 37th international conference on machine learning,Vol. 119, pages 10292–10302. PMLR.
Woodworth, B., Gunasekar, S., Lee, J. D., Moroshko, E., Savarese, P., Golan, I., … Srebro, N. (2020). Kernel and rich regimes in overparametrized models. In J. Abernethy and S. Agarwal, editors, Proceedings of thirty third conference on learning theory,Vol. 125, pages 3635–3673. PMLR.
Yang, G. (2020). Scaling limits of wide neural networks with weight sharing: Gaussian process behavior, gradient independence, and neural tangent kernel derivation.
Yang, G., and Hu, E. J. (2021). Tensor programs IV: Feature learning in infinite-width neural networks. In M. Meila and T. Zhang, editors, Proceedings of the 38th international conference on machine learning,Vol. 139, pages 11727–11737. PMLR.
持橋大地, and 大羽成征. (2019). ガウス過程と機械学習. 講談社.

Footnotes

  1. (Yang and Hu, 2021) は幅無限大極限において特徴学習が起こるための十分条件も与えている.↩︎