統計的学習理論4

ドメイン汎化と転移学習

AI
Foundation
Author

司馬 博文

Published

3/10/2024

概要
転移学習とは

機械学習モデルの社会実装が進むにつけて,経験リスク最小化 の枠組みでは足りず,さらに汎化性能を重要視した枠組みが必要になってくる.

構造的リスク最小化 もその例であるが,基盤モデル の台頭を見た現代では,分布外リスク最小化 (IRM: Invariant Risk Minimization) という新たな枠組みが (Arjovsky et al., 2020) により提案されている.

1 ドメイン汎化 (J. Wang et al., 2023)

現状の多くの理論と手法は,訓練データとテストデータは同じ標本を分割したものにすぎず,同じ分布に従うことを前提としている.しかし新たに生じた多くの応用の場面では,新たな分布に対しての汎化性能が特に肝要である.

これに対処するために,複数のドメインを用意し,未知のドメインに対する汎化性能を高めたいとする問題を ドメイン汎化 (domain generalization) または 分布外汎化 (out-of-distribution generalization) と呼ぶ.1

1.1 枠組み

ドメイン汎化では,入力空間 \(\mathcal{X}\) と出力空間 \(\mathcal{Y}\) は固定されている.

ある分布 \(\mathbb{P}\sim\mathcal{P}(\mathcal{X}\times\mathcal{Y})\) からの独立同分布列 \(\mathcal{S}=\{(x_i,y_i)\}_{i=1}^N\subset\mathcal{X}\times\mathcal{Y}\)ドメイン という.

ドメイン汎化は,複数のドメイン \(\mathcal{S}_1,\mathcal{S}_2,\ldots,\mathcal{S}_K\) が与えられた状態から,まだ見ぬドメイン \(\mathcal{S}\) におけるリスクの最小化を目指す問題である.

1.2 関連する話題

  • マルチタスク学習 (Caruana, 1997)

    複数のタスクにおいて同時に良い性能を出すモデルを学習する枠組み.複数のドメイン \(\mathcal{S}_1,\cdots,\mathcal{S}_K\) において平均的に良い性能を出すことを目指す,などの問題も含む.

  • 転移学習 (Zhuang et al., 2021)

    始域タスクと終域タスクが異なる場合の学習を指す.終域タスクが既知であるという前提があり,事前学習-事後調整 (pretraining-finetuning) という手法が最も一般的である.

  • ドメイン適応 (M. Wang and Deng, 2018)

    特にドメインが異なる場合の転移学習を指す.終域ドメインが既知であるという点がドメイン汎化と異なる.

  • メタ学習 (Vanschoren, 2018), (Hospedales et al., 2022)

    新たなタスクに対して「学習法を学習する」というメタ的な学習を目指す.ドメイン汎化は同じタスクでドメインを変えたものに対する汎化を目指すため,メタ学習はドメイン汎化における有力な手法の一つということになる.

  • 継続学習 (continual / lifelong learning) (Biesialska et al., 2020)

  • 例示なし学習 (zero-shot learning)

    例示なしで新たなクラスに対する分類を行う問題.ドメイン汎化はクラスは同じで分布のみが異なる.

1.3 ドメイン汎化の手法

大きく分けて次の3通りの手法が存在する.

  1. 表現学習 (representation learning)

    最も主要なアプローチは,ドメイン汎化に適した特徴空間をデザインすることである.主に次の2つの接近がある.

    1. ドメイン不変な表現学習 (domain-invariant representation learning) を行うことを考える.主な手法には 分布外リスク最小化 による学習や,敵対的学習による方法 (Ganin et al., 2016) などがある.
    2. 特徴分離 (feature disentanglement) により,ドメインに依存しない特徴とドメイン依存の特徴とを分離する.
  2. データ操作 (data manipulation)

    同じくドメイン汎化に適した特徴空間をデザインするのが目的であるが,これを データ拡張 やデータの生成によって達成することを目指すこともできる.

  3. 学習枠組み (learning paradigm)

    集合学習 (ensemble learning) や メタ学習 などのように,学習のアプローチから変えることも考えられる.

1.3.1 分布外リスク最小化

ドメイン汎化が失敗する理由の一つに,因果関係がないが相関関係がある要素(擬似相関)を学習して予測に使ってしまうことがある.

この問題は分布外リスク最小化 (Arjovsky et al., 2020) によって対処できることが実験的に示されており,近年理論的な解明 (Toyota and Fukumizu, 2024) も進んでいる.

References

Arjovsky, M., Bottou, L., Gulrajani, I., and Lopez-Paz, D. (2020). Invariant risk minimization.
Biesialska, M., Biesialska, K., and Costa-jussà, M. R. (2020). Continual lifelong learning in natural language processing: A survey. In D. Scott, N. Bel, and C. Zong, editors, Proceedings of the 28th international conference on computational linguistics, pages 6523–6541. Barcelona, Spain (Online): International Committee on Computational Linguistics.
Caruana, R. (1997). Multitask learning. Machine Learning, 28(1), 41–75.
Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., … Lempitsky, V. (2016). Domain-adversarial training of neural networks. Journal of Machine Learning Research, 17(59), 1–35.
Hospedales, T., Antoniou, A., Micaelli, P., and Storkey, A. (2022). Meta-learning in neural networks: A survey. IEEE Transactions on Pattern Analysis &Amp; Machine Intelligence, 44(09), 5149–5169.
Toyota, S., and Fukumizu, K. (2024). Out-of-distribution optimality of invariant risk minimization. Transactions on Machine Learning Research.
Vanschoren, J. (2018). Meta-learning: A survey.
Wang, Jindong, and Chen, Y. (2023). Introduction to transfer learning: Algorithms and practice. Springer Singapore.
Wang, J., Lan, C., Liu, C., Ouyang, Y., Qin, T., Lu, W., … Yu, P. S. (2023). Generalizing to unseen domains: A survey on domain generalization. IEEE Transactions on Knowledge &Amp; Data Engineering, 35(08), 8052–8072.
Wang, M., and Deng, W. (2018). Deep visual domain adaptation: A survey. Neurocomputing, 312, 135–153.
Zhuang, F., Qi, Z., Duan, K., Xi, D., Zhu, Y., Zhu, H., … He, Q. (2021). A comprehensive survey on transfer learning. Proceedings of the IEEE, 109(1), 43–76.

Footnotes

  1. (J. Wang et al., 2023) がドメイン汎化に対する最初のサーベイである.(Jindong Wang and Chen, 2023, p. 175) 11章 も参照.↩︎