拡散モデルでの動的暗黙正則化

Bonnaire, Urfin, Biroli & Mézard (2025, NeurIPS)
Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

司馬 博文

1/26/2026

1 概観 (Section 1)

2 実験パート (Section 2)

2.1 設定

  • スコア学習に使う NN:U-Net, 時刻 t は sinusoidal position embedding
  • 損失関数:DDPM loss.ここまで全て (Ho et al., 2020) の設定に従う.
  • データ:cropped & grayscaled CelebA, d=32^2, n\in\{128,\cdots,32768\}
  • 訓練:SGD, momentum \beta=0.95, fixed \eta=0.01, batch size B=n\land512

3 理論パート (Section 3)

4 まとめ

4.1 Open Question

empirical score と population score の違いは,生成の最終段階において,関数的には近いかもしれないが,スペクトル的には高周波成分がひらすら noisy になる.しかし NN の spectral bias により,低周波成分だけを学んでいることが,汎化の主な理由なのではないか?

data dependent な高周波成分の学習時間が O(n) のスケールでかかるのも独立で興味に値する新たな発見になっている.

5 参考文献

Ho, J., Jain, A., and Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. In Advances in neural information processing systems,Vol. 33.