表現学習と非線型独立成分分析

「データ理解」に向けた深層潜在変数モデル

Deep
Author

司馬博文

Published

7/29/2024

Modified

8/12/2024

概要
表現学習,非線型独立成分分析など,「生成」以外の潜在変数模型の応用法を横断してレビューする.識別性を保った深層潜在モデルを学習しようとする方法は,因果的表現学習とも呼ばれている.

関連ページ

1 表現学習とは何か?

表現学習5つのアプローチ
  1. 教師あり学習による表現学習
  2. 生成による表現学習
  3. 自己教師あり表現学習
  4. ノイズ対照による表現学習
  5. 独立成分分析による表現学習

極めて高精度な分類器が完成してすぐのころ,分類タスクが極めて上手なニューラルネットワークは他の下流タスクでも良い成績が観察され,最初に考えられた方法が1であった(距離学習でも同様).

一方でこのスキームではすぐにドメインシフトと転移学習が問題になった.

これを克服するのが2の方法である.高精度なデータを生成できる深層潜在模型が学習された場合,その潜在変数は現実の何らかの表象になっているだろう,というアイデアは analysis-by-synthesis (Roberts, 1963), (Lee and Mumford, 2003) とも呼ばれている.

この方法は,文字のストローク(トメ,ハネ)が集まった構造に注目するなど,データの生成過程がある程度明らかなものでは特に性能が良い (Lake et al., 2015)

\(\beta\)-VAE (Higgins et al., 2017) や BiGAN (Donahue et al., 2017) はその例であるが,ImageNet などの大規模データに対する分類や分割のタスクで十分な性能はまだ見られていないという.

2 生成から雑音除去へ

2よりも表現学習として良い性質を持つのが3である.

生成のためには大変多くの特徴量が必要であるが,下流タスクに重要なのはその一部のみに限る.このような場合,Denoising Autoencoder (Vincent et al., 2008) のように「データにノイズを印加してこれを戻すのに必要な知識は何か?」を問うことが極めて普遍的な力を持つ.

雑音除去と同様に,表現学習に極めて有効なタスクがマスク除去 (Devlin et al., 2019) である.これは画像領域にも応用されている:BEiT (Bao et al., 2022)masked autoencoder (He et al., 2022) が現在の state of the art であるようである.

3 対照学習による表現学習

ノイズ対照学習に基づいた方法が第4勢力として登場(再興)してきている.multiview representation learning とも呼ばれる.

3.1 ノイズ対照学習 (NCL)

この方法では,雑音やマスク除去とは違った方法で,「真のデータをノイズと見分ける」という予測問題として表現学習を解く.1

この方法は最初自然言語処理で大きな成功を収めた (Mnih and Kavukcuoglu, 2013).例えば word2vec (Mikolov, Chen, et al., 2013), (Mikolov, Sutskever, et al., 2013) も NCL に基づく.

一方で前述の通り,BART や GPT などの現代の言語モデルは,ノイズ対照の先へ行き,デノイジングやデマスキングによる表現学習を行っている.

しかし NCL には,雑音・マスク除去と違い,ある程度どのようなデータを「似ている」とするかの制御が効くという美点がある.これを 距離学習 ともいう.2

発展した対照学習法,例えば CPC (Contrastive Predictive Coding) (Oord et al., 2019) は,言語,音声,画像,3次元空間での強化学習など,多くの領域で有力な代替を提供するようである.

また CLIP (Radford et al., 2019) では,データのモーダリティを超えて,言語と画像の関係について大規模に事前学習をさせることが可能になっている.

3.2 対照的予測符号化 (CPC) (Oord et al., 2019)

Contrastive Predictive Coding (Oord et al., 2019)

まずエンコーダー \(z_t=g_{\text{enc}}(x_t)\) を作る.続いて,自己回帰モデル \(g_{\text{ar}}\) を用いて \(z_{1:t}\) を要約して予測しようとする.

この段階で潜在表現 \(c_t=g_{\text{ar}}(z_{1:t})\) が作られることを期待するのであるが,直接 \(p(x|c)\) を予測しようとしてしまうと,必ずしも有用な潜在表現 \(c\) が得られるとは限らない.

そこで,距離 \(k\) だけ離れたデータ \(x_{t+k}\) の尤度比 \[ f_k(x_{t+k},c_t)\,\propto\,\frac{p(x_{t+k}|c_t)}{p(x_{t+k})} \] を, \[ f_k(x_{t+k},c_t)=\exp\left(z_{t+k}^\top W_kc_t\right) \] の形で予測しようとし,この荷重 \(W_k\) の推定を考える.

これは,表現学習においては予測 \(p(x|c)\) が至上命題であるわけではなく,\(x\)\(c\) の相互情報量が近ければ十分であるために用意された,表現学習のための代理目標(InfoMax (Linsker, 1988) ともいう)であり,InfoNCE 損失 または \(n\)-ペア損失 (Sohn, 2016) とも呼ばれる.3

このモデルに対しては,GAN 様の敵対的生成であるノイズ対照学習の損失を用いることができる.(Oord et al., 2019) では,エンコーダとして残差接続を持つ strided convolutional layer が,自己回帰モデルとして GRU (Gated Recurrent Unit) (Cho et al., 2014) という RNN の変種が使われている.

こうして推定された \((z_t,c_t)\) は,\(x_{1:t}\) までのヒストリを見た要約が欲しい場合は \(c_t\) を,そうでない場合は \(z_t\) を,データ \(x_t\) の潜在表現として使える.

3.3 対照的言語-画像事前学習 (CLIP) (Radford et al., 2019)

ノイズ対照学習に基づくアプローチの美点は,別のモーダリティを持つデータを統合しやすい点にある.

これを用いて,言語と画像の関係について大規模に事前学習をさせたのが OpenAI の CLIP (Radford et al., 2019) である.

画像に対する種々のノイズ対照学習法がどのようなノイズと対照させるか (Murphy, 2023, p. 1055)

対照学習による深層距離学習において重要なのは,正のノイズと負のノイズを各サンプル \(x\) に対してどう作るか?である (Tian, Sun, et al., 2020)

SimCLR (Chen et al., 2020) は,\(x\) に対する変換(ランダムなトリミング,リサイズ,並行移動など)を学習し,データ拡張によって正のノイズと負のノイズを作る.

CMC (Contrastive Multiple Coding) (Tian, Krishnan, et al., 2020) は,\(x\) の輝度 (luma) と彩度 (chroma) を取り出して正のノイズと負のノイズとする.

SupCon (Supervised Contrastive Learning) (Khosla et al., 2020) は画像に対するラベルングが得られるとき,これを教師的に用いて正のノイズと負のノイズを作る.これは 近傍成分分析 (NCA) (Goldberger et al., 2004) と対照学習を組み合わせた発想であり,実際後続の分類タスクがうまく,ロバストになるという.

3.4 非対照学習

Vision Transformer (ViT) で用いられる DINO (Self-Distilation with no Labels) (Caron et al., 2021) などは,負のノイズを使わず,正のノイズのみを使った表現学習法である.

BYOL (Bootstrap Your Own Latent) (Grill et al., 2020) も負のノイズを使わない手法であるが,目的関数には似ているノイズを寄せるための項しかなく,深層表現が退化しない理由はどうやら学習ダイナミクスの方にあるという.

Barlow Twins (Zbontar et al., 2021) では,正のノイズとの間の,各特徴量に関する相関係数行列 \(C\) から定まる \[ \mathcal{L}:=\sum_{i=1}^p(1-C_{ii})^2+\lambda\sum_{i\ne j}C_{ij}^2 \] を目的関数とする.

第二項の存在により,負のノイズがなくとも表現が縮退することが回避される.この方法は,HSIC (Gretton et al., 2007) などのカーネル独立性検定法を,表現学習に応用している形とみれる.

4 独立成分分析による表現学習

表現学習の1つの目標である disentangle とは,要因ごとにデータ内の変動を説明して分離することをいう.

これを達成するには,データやモデルに追加の仮定が必要な場合が多い (Locatello et al., 2020).どのような状況で安定した disentanglement が可能であるかについて,独立成分分析の知見,特に指数型分布族と識別可能性の概念を通じて理解する試みがある (Khemakhem et al., 2020), (Roeder et al., 2021), (Hälvä et al., 2021)

特に,独立成分分析が目指すように,現実に何らかの意味で則した方法でデータの潜在表現を得ることが,表現学習で最も好ましい,あるべき disentanglement であるとするならば,「深層模型がいつ識別可能になるか?」は基本的な問題だというべきだろう (Khemakhem et al., 2020)4

このような立場を 因果的表現学習 (causal representation learning) ともいう.5

VAE などの深層生成モデル,ノイズ対照学習,独立成分分析などはいずれも,多層の階層モデルを学習するという点では共通しており,1つの分野の発見が他に資することが多い.

5 深層潜在モデルの識別可能性

仮に追加に観測されている変数 \(u\) が存在して,事前分布 \(p_\theta(z|u)\)\(z\) 上で積の形に分解し,指数型分布族に属するとする.すなわち,潜在変数は \(U\) で条件づければ互いに独立であるとする.この仮定が識別可能性の鍵となる (Hyvarinen et al., 2019)

\(u\) はタイムスタンプや前時点での観測,信頼できないラベルなどがありえる (Hyvärinen and Morioka, 2016)

観測 \(X\) と潜在変数 \(Z\) に対して,\(\theta=(f,T,\lambda)\) をパラメータとして \[ p_\theta(x,z|u)=p_f(x|z)p_{T,\lambda}(z|u), \] \[ X=f(Z)+\epsilon,\qquad \epsilon\sim p_\epsilon(\epsilon). \] という形のモデルは,\(p_{T,\lambda}\) が十分統計量 \(T\) とパラメータ \(\lambda\) を持つ指数型分布族である限り,いくつかの正則性条件を満たせば識別可能になる:

次の4条件が成り立つ場合,パラメータ \(\theta\) は,ある線型変換 \(A\) に対して \[ T\circ f^{-1}=A\circ \widetilde{T}\circ\widetilde{f}^{-1}+c \] の違いを除いて識別可能である:

  1. \(p_\epsilon\) の特性関数は殆ど至る所零にならない.
  2. \(f\) は単射である.
  3. 十分統計量 \(\{T_{i,j}\}_{i\in[n],j\in[k]}\) は殆ど至る所可微分で,任意の測度正集合上に線型独立な関数を定める.
  4. ある点 \(u^0,\cdots,u^{nk}\) が存在して,行列 \((\lambda(u^1)\;\cdots\;\lambda(u^{nk}))-(\lambda(u^0)\;\cdots\;\lambda(u^0))\) は可逆:

加えて,モデルが真の分布を含む場合,変分下界の最大化は上述の線型変換 \(A\) の違いを除いて \(\theta\) の一致推定に成功する.

6 非線型独立成分分析

非線型独立成分分析は,ある独立な成分からなる潜在変数 \[ p(z)=\prod_{i=1}^dp_i(z_i) \] に対して,観測がこの非線型変換 \(x=f(z)\) であると仮定し,データ生成過程を特定しようとする営みである.

これは上のモデルの \(\epsilon=0\) とした場合に他ならない.

つまるところ,従来からの深層生成モデリングのうち,統計的に特別な意味を持つものが非線型独立成分分析と捉えることもできるはずである.すなわち,生成モデルと非線型独立成分分析は,モデルの骨子自体は共通で,その適用目的が違うに過ぎない(この稿 も参照).

ただし,統計モデルと見る以上は識別可能性が肝要である.しかし近年の ICA は,識別可能性を緩めた形 5 で得ることに成功しており,これにより深層生成モデルとの同一視が進むことになる (Hyvarinen et al., 2019), (Khemakhem et al., 2020)

7 VAE の識別可能性

これにより,VAE などの深層生成モデルをより統計的に意味のあるものとすることができる.上述の定理により識別可能性を確保した VAE を iVAE (identifiable VAE) (Khemakhem et al., 2020) と呼ぶ.

また逆の方向には,非線型 ICA モデルを変分ベイズや確率的勾配降下法により推定することができる.

また (Kivva et al., 2021), (Kivva et al., 2022), (Lopez et al., 2024) によると,VAE の事前分布が特定の混合分布の形を持つならば,補助変数 \(u\) が存在しない場合でも,VAE は識別可能な因果グラフを与えるという.

8 InfoMax

CPC 3.2 が目指したように,元データの情報量を最大限保った潜在表現を獲得することが,後続タスクにおいて有利になるだろう.

実は,生物の脳の認識様式もこれに沿っていると考えられ,視覚神経に関する研究を起源として 効率的符号化仮説 (Efficient Coding Hypothesis) (H. B. Barlow, 1961), (H. B. Barlow, 1972) または情報処理分野において 情報量最大化仮説 (InfoMax) (Linsker, 1988), (Bell and Sejnowski, 1995) と呼ばれている.

この仮説は視覚の研究における vision as inverse graphics (Romaszko et al., 2017) / analysis by synthesis (Kersten et al., 2004), (Yuille and Kersten, 2006) から,一般に脳が外界モデルを獲得するプロセスに拡張され,ベイズ脳仮説 (Doya et al., 2006) とも呼ばれる (島崎秀昭, 2019)

情報理論においては,information bottleneck principle (Tishby et al., 2000), (Tishby and Zaslavsky, 2015) としても継承されている.

9 参考文献

(Hyvärinen and Morioka, 2016), (Hyvarinen and Morioka, 2017), (Hyvarinen et al., 2019) は深層潜在モデルが識別可能になるための条件を示した非線型 ICA の論文である.

Efficient coding 仮説と InfoMax については,(島崎秀昭, 2019) が大変良い日本語文献である.

例えばハエの視覚細胞を用いた実験で神経細胞の非線形な応答関数が外界の視覚刺激の分布に適応し,出力が一様に分布することで神経細胞のダイナミックレンジが効率よく使用されていることが示されている (Laughlin, 1981), (Brenner et al., 2000).このように非線形器を外界の分布に適応させる過程を学習と呼ぶ. (島崎秀昭, 2019)

References

Bao, H., Dong, L., Piao, S., and Wei, F. (2022). BEiT: BERT pre-training of image transformers. In International conference on learning representations.
Barlow, H. B. (1961). Possible Principles Underlying the Transformations of Sensory Messages. In Sensory Communication. The MIT Press.
Barlow, H. B. (1972). Single units and sensation: A neuron doctrine for perceptual psychology? Perception, 1(4), 371–394.
Bell, A. J., and Sejnowski, T. J. (1995). An Information-Maximization Approach to Blind Separation and Blind Deconvolution. Neural Computation, 7(6), 1129–1159.
Brenner, N., Bialek, W., and de Ruyter van Steveninck, R. (2000). Adaptive rescaling maximizes information transmission. Neuron, 26(3), 695–702.
Caron, M., Touvron, H., Misra, I., Jegou, H., Mairal, J., Bojanowski, P., and Joulin, A. (2021). Emerging properties in self-supervised vision transformers. In 2021 IEEE/CVF international conference on computer vision (ICCV), pages 9630–9640.
Chen, T., Kornblith, S., Norouzi, M., and Hinton, G. (2020). A simple framework for contrastive learning of visual representations. In H. D. III and A. Singh, editors, Proceedings of the 37th international conference on machine learning,Vol. 119, pages 1597–1607. PMLR.
Cho, K., Merriënboer, B. van, Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., and Bengio, Y. (2014). Learning phrase representations using RNN encoderdecoder for statistical machine translation. In A. Moschitti, B. Pang, and W. Daelemans, editors, Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1724–1734. Doha, Qatar: Association for Computational Linguistics.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 conference of the north american chapter of the association for computational linguistics: Human language technologies,Vol. 1, pages 4171–4186.
Donahue, J., Krähenbühl, P., and Darrell, T. (2017). Adversarial feature learning. In International conference on learning representations.
Doya, K., Ishii, S., Pouget, A., and Rao, R. P. N. (2006). Bayesian Brain: Probabilistic Approaches to Neural Coding . The MIT Press.
Elias, P. (1955). Predictive coding–i. IRE Transactions on Information Theory, 1(1), 16–24.
Goldberger, J., Hinton, G. E., Roweis, S., and Salakhutdinov, R. R. (2004). Neighbourhood components analysis. In L. Saul, Y. Weiss, and L. Bottou, editors, Advances in neural information processing systems,Vol. 17. MIT Press.
Gretton, A., Fukumizu, K., Teo, C., Song, L., Schölkopf, B., and Smola, A. (2007). A kernel statistical test of independence. In J. Platt, D. Koller, Y. Singer, and S. Roweis, editors, Advances in neural information processing systems,Vol. 20. Curran Associates, Inc.
Grill, J.-B., Strub, F., Altché, F., Tallec, C., Richemond, P., Buchatskaya, E., … Valko, M. (2020). Bootstrap your own latent - a new approach to self-supervised learning. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in neural information processing systems,Vol. 33, pages 21271–21284. Curran Associates, Inc.
Hälvä, H., Le Corff, S., Lehéricy, L., So, J., Zhu, Y., Gassiat, E., and Hyvarinen, A. (2021). Disentangling identifiable features from noisy data with structured nonlinear ICA. In M. Ranzato, A. Beygelzimer, Y. Dauphin, P. S. Liang, and J. W. Vaughan, editors, Advances in neural information processing systems,Vol. 34, pages 1624–1633. Curran Associates, Inc.
He, K., Chen, X., Xie, S., Li, Y., Dollár, P., and Girshick, R. (2022). Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR), pages 16000–16009.
Higgins, I., Matthey, L., Pal, A., Burgess, C., Glorot, X., Botvinick, M., … Lerchner, A. (2017). Beta-VAE: Learning basic visual concepts with a constrained variational framework. In International conference on learning representations.
Hyvarinen, A., and Morioka, H. (2017). Nonlinear ICA of Temporally Dependent Stationary Sources. In A. Singh and J. Zhu, editors, Proceedings of the 20th international conference on artificial intelligence and statistics,Vol. 54, pages 460–469. PMLR.
Hyvarinen, A., Sasaki, H., and Turner, R. (2019). Nonlinear ICA using auxiliary variables and generalized contrastive learning. In K. Chaudhuri and M. Sugiyama, editors, Proceedings of the twenty-second international conference on artificial intelligence and statistics,Vol. 89, pages 859–868. PMLR.
Hyvärinen, A., and Morioka, H. (2016). Unsupervised feature extraction by time-contrastive learning and nonlinear ICA. In Proceedings of the 30th international conference on neural information processing systems, pages 3772–3780. Red Hook, NY, USA: Curran Associates Inc.
Kersten, D., Mamassian, P., and Yuille, A. (2004). Object perception as bayesian inference. Annual Review of Psychology, 55(Volume 55, 2004), 271–304. Journal Article.
Khemakhem, I., Kingma, D., Monti, R., and Hyvarinen, A. (2020). Variational autoencoders and nonlinear ICA: A unifying framework. In S. Chiappa and R. Calandra, editors, Proceedings of the twenty third international conference on artificial intelligence and statistics,Vol. 108, pages 2207–2217. PMLR.
Khosla, P., Teterwak, P., Wang, C., Sarna, A., Tian, Y., Isola, P., … Krishnan, D. (2020). Supervised contrastive learning. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in neural information processing systems,Vol. 33, pages 18661–18673. Curran Associates, Inc.
Kivva, B., Rajendran, G., Ravikumar, P. K., and Aragam, B. (2022). Identifiability of deep generative models under mixture priors without auxiliary information. In UAI 2022 workshop on causal representation learning.
Kivva, B., Rajendran, G., Ravikumar, P., and Aragam, B. (2021). Learning latent causal graphs via mixture oracles. In M. Ranzato, A. Beygelzimer, Y. Dauphin, P. S. Liang, and J. W. Vaughan, editors, Advances in neural information processing systems,Vol. 34, pages 18087–18101. Curran Associates, Inc.
Lake, B. M., Salakhutdinov, R., and Tenenbaum, J. B. (2015). Human-level concept learning through probabilistic program induction. Science, 350(6266), 1332–1338.
Laughlin, S. (1981). A simple coding procedure enhances a neuron’s information capacity. Zeitschrift für Naturforschung C, 36(9-10), 910–912.
Lee, T. S., and Mumford, D. (2003). Hierarchical bayesian inference in the visual cortex. J. Opt. Soc. Am. A, 20(7), 1434–1448.
Linsker, R. (1988). Self-Organization in a Perceptual Network. Computer, 21(3), 105–117.
Locatello, F., Bauer, S., Lucic, M., Raetsch, G., Gelly, S., Schölkopf, B., and Bachem, O. (2020). A sober look at the unsupervised learning of disentangled representations and their evaluation. Journal of Machine Learning Research, 21(209), 1–62.
Lopez, R., Huetter, J.-C., Hajiramezanali, E., Pritchard, J. K., and Regev, A. (2024). Toward the identifiability of comparative deep generative models. In F. Locatello and V. Didelez, editors, Proceedings of the third conference on causal learning and reasoning,Vol. 236, pages 868–912. PMLR.
Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation of word representations in vector space.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In C. J. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, editors, Advances in neural information processing systems,Vol. 26. Curran Associates, Inc.
Mnih, A., and Kavukcuoglu, K. (2013). Learning word embeddings efficiently with noise-contrastive estimation. In C. J. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, editors, Advances in neural information processing systems,Vol. 26. Curran Associates, Inc.
Murphy, K. P. (2023). Probabilistic machine learning: Advanced topics. MIT Press.
Oord, A. van den, Li, Y., and Vinyals, O. (2019). Representation learning with contrastive predictive coding.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I. (2019). Language models are unsupervised multitask learners.
Rao, R. P. N., and Ballard, D. H. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2(1), 79–87.
Roberts, L. G. (1963). Machine perception of three-dimensional solids (PhD thesis). Massachusetts Institute of Technology. Retrieved from http://hdl.handle.net/1721.1/11589
Roeder, G., Metz, L., and Kingma, D. (2021). On linear identifiability of learned representations. In M. Meila and T. Zhang, editors, Proceedings of the 38th international conference on machine learning,Vol. 139, pages 9030–9039. PMLR.
Romaszko, L., Williams, C. K. I., Moreno, P., and Kohli, P. (2017). Vision-as-inverse-graphics: Obtaining a rich 3D explanation of a scene from a single image. In 2017 IEEE international conference on computer vision workshops (ICCVW), pages 940–948.
Sohn, K. (2016). Improved deep metric learning with multi-class n-pair loss objective. In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in neural information processing systems,Vol. 29. Curran Associates, Inc.
Tian, Y., Krishnan, D., and Isola, P. (2020). Contrastive multiview coding. In A. Vedaldi, H. Bischof, T. Brox, and J.-M. Frahm, editors, Computer vision – ECCV 2020, pages 776–794. Cham: Springer International Publishing.
Tian, Y., Sun, C., Poole, B., Krishnan, D., Schmid, C., and Isola, P. (2020). What makes for good views for contrastive learning? In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in neural information processing systems,Vol. 33, pages 6827–6839. Curran Associates, Inc.
Tishby, N., Pereira, F. C., and Bialek, W. (2000). The information bottleneck method.
Tishby, N., and Zaslavsky, N. (2015). Deep learning and the information bottleneck principle. In 2015 IEEE information theory workshop (ITW), pages 1–5.
Vincent, P., Larochelle, H., Bengio, Y., and Manzagol, P.-A. (2008). Extracting and composing robust features with denoising autoencoders. In Proceedings of the 25th international conference on machine learning, pages 1096–1103. New York, NY, USA: Association for Computing Machinery.
Yuille, A., and Kersten, D. (2006). Vision as Bayesian Inference: Analysis by Synthesis? Trends in Cognitive Sciences, 10(7), 301–308.
Zbontar, J., Jing, L., Misra, I., LeCun, Y., and Deny, S. (2021). Barlow twins: Self-supervised learning via redundancy reduction. In M. Meila and T. Zhang, editors, Proceedings of the 38th international conference on machine learning,Vol. 139, pages 12310–12320. PMLR.
島崎秀昭. (2019). ベイズ統計と熱力学から見る生物の学習と認識のダイナミクス. 日本神経回路学会誌, 26(3), 72–98.

Footnotes

  1. 予測符号化 (predictive coding) (Elias, 1955) は従来からデータ圧縮の原理であると同時に,認知科学において,脳のメンタルモデルとしても有名である (Rao and Ballard, 1999)↩︎

  2. (Murphy, 2023, p. 1056) 第32.3.4.2節も参照.↩︎

  3. 相互情報量は\[I(x;c)=\sum p(x,c)\log\frac{p(x|c)}{p(x)}\] と表される.密度比の推定が成功していれば,相互情報量は殆ど変わらない.↩︎

  4. The advantage of the new framework over typical deep latent-variable models used with VAEs is that we actually recover the original latents, thus providing principled disentanglement. (Khemakhem et al., 2020) Section 6.↩︎

  5. (Murphy, 2023, p. 1060) 33.4.1節も参照.↩︎