A Blog Entry on Bayesian Computation by an Applied Mathematician
$$
$$
関連ページ
1 ニューラル常微分方程式 (NODE)
1.1 ベクトル場のモデリング
ベクトル場
CNF (Continuous Normalizing Flow) では,
この積分曲線をモデリングするために,ベクトル場
1.2 Neural ODE
この式の形から,
連続時間アプローチではこの出力
従って NODE ではその強みを活かし,
1.3 訓練
(Chen et al., 2018) では,最適制御の分野で知られていた (Pontryagin et al., 1962) の 随伴感度法 (adjoint sensitivity method) を用いた誤差逆伝播法の連続時間への拡張を提案している.
時刻
出力
この ODE にも
1.4 Jacobian の計算
NODE を連続な正則化流として用いるためには,損失
そして尤度の評価のためにはフロー
残差ネットワークによる正規化流 においては,Hutchinson の跡推定量 を用いたり,残差接続の関数形を単純にして Jacobian を解析的に計算可能にしたりという方法で,Jacobian の計算
NODE では,Jacobian
こうして,勾配
1.5 Hutchinson の跡推定量による更なる軽量化
FFJORD (Free-Form Jacobian of Reversible Dynamics) (Grathwohl et al., 2019) では,
これにより最終的に
1.6 Neural SDE
Neural SDE (Tzen and Raginsky, 2019), (Peluchetti and Favaro, 2020) は ODE を SDE に拡張することでモデリングの柔軟性をさらに高めた.
これらの方法では SDE の係数をニューラルネットワークでモデリングし,サンプリングは SDE ソルバーによって行う.
これについては 拡散モデル の稿を参照:
2 フローマッチング (FM)
2.1 はじめに
拡散模型をスコアマッチングと見ることでさらに効率的な訓練が可能になったように,NODE を フローマッチング (FM: Flow Matching) (Lipman et al., 2023) と見ることでよりスケーラブルな代替訓練方法が与えられる.
FM ではベクトル場
直接的な目標
拡散過程 も,与えられた SDE と等価な輸送を行う ODE (Y. Song et al., 2021), (Maoutsa et al., 2020) を通じてベクトル場のモデリングに議論を帰着できるから,FM により Neural ODE を効率的に訓練できたら,拡散模型のサンプリングの遅さの問題も解決できる.しかし,フローマッチングの美点はそれにとどまらない.
始点と終点がノイズ分布とデータ分布である限り,輸送はそもそも拡散過程に基づいたものである必要はない.フローマッチングでは,
当時,Denoising Score Matching が使える拡散模型と違い,CNF にはスケーラブルな訓練手法が存在しなかった.この拡散模型の加速の問題を,CNF の訓練の加速の問題と同時に解いたのが FM (Lipman et al., 2023) である.
その発想の鍵は,
2.2 フローマッチング (FM)
Flow Matching (Lipman et al., 2023) のアイデアは,ノイズ分布とデータ分布を結ぶ輸送
すなわち,ベクトル場ネットワーク
アイデアは大変シンプルであり,拡散模型とスコアマッチングのアナロジーに沿うものであるが,条件を満たす
これは Monte Carlo 法により解決できる.
2.3 条件付きフローマッチング (CFM)
まずデータ分布
すると,各データ点
これを,
このことに基づき,次の代理目標が得られる:
実は,単に代理目標となっているだけでなく,
条件付き変数
2.4 架橋の選択
最後に,条件付き確率の (4) を満たす輸送
式 (4) の始点と終点が Gauss 分布であることを見れば,Gauss 空間内での輸送
2.5 モデルから輸送へ
FM の貢献は,所望のフロー
VAE と DDPM は確率モデルとして考案されたが,生成モデリングのために確率モデルを考える必要はなかったのである.1
重要なのは,「事前分布
GAN や VAE, NF は最尤推定が目標であった.拡散模型において,確率モデルの最尤推定の見方と輸送計画のスコア場を通じた学習としての見方の2つが出揃ったが,SGM はまだ輸送の問題を SDE の言葉で暗に捉えているのみであった.
フローとその
2.6 ODE により輸送問題を解く
FM, Rectified Flow, 確率的補間はいずれも,ODE を通じて輸送問題を解く.
所望の輸送
この ODE を 連続方程式 という.この連続方程式を解くベクトル場
2.7 FM 再論
FM では各データ点
この
CFM は訓練可能な代理目標を定める非常に有用な方法であるが,条件付きベクトル場
以降,FM の例(とみなせる手法)を3つ見る:
2.8 Rectified Flow
Rectified Flow (Liu et al., 2023) はこの最適輸送を定めるベクトル場
これは,
これは任意のサンプル
従って recrified flow の有用性は実証的に認められなければならないが,(Liu et al., 2023) は FID と recall に関する SOTA を CIFAR-10 で達成している.
これは,rectified flow は繰り返すことができることによる.目的関数 (8) を最小化するベクトル場
Rectified Flow は Stable Diffusion 3 のアーキテクチャ (Esser et al., 2024) に採用されており,従来の拡散モデルの方法より画像生成用途に優れていると結論付けている.8
2.9 繰り返し -ブレンディング (IADB)
IADB (Iterative
同時に,ニューラルネットワークによりこの軌道を訓練するための,Rectified Flow 様の目的関数 (8) も導入している.
実は,この結果学習される軌道は,DDIM (J. Song et al., 2021) のものと一致するため,拡散モデルの決定論的な代替として機能する.
2.10 確率的補間
(Michael Samuel Albergo and Vanden-Eijnden, 2023) により提案されたもので,SiT (Scalable Interpolant Transformer) (Ma et al., 2024) でも用いられている技術である.
この方法では
この方法では,目標
また,学習されたダイナミクスは,ある Langevin 過程の時間変換に等しくなる (命題4 Michael Samuel Albergo and Vanden-Eijnden, 2023, p. 7).
2.11 軌道推定
さて,輸送問題 2.5 は,確率過程
こうみると,拡散模型とフローマッチングの違いは,2つの
すると拡散模型は,これを Langevin 拡散により内挿する問題,そして FM をはじめとして Rectified Flow や
一般に,確率過程
作用マッチング (Action Matching) (Neklyudov et al., 2023) では,生成モデリングを軌道推定の問題として解く.
ただし,軌道はある作用
この
一方で Neural Lagrangian Schrödinger 橋 (Koshizuka and Sato, 2023) では,同様にラグランジアンの言葉で帰納バイアスを導入しながら,拡散過程のダイナミクスを学習する.
3 文献紹介
(Lettermann et al., 2024) は NODE に触れつつ,随伴感度法を用いた複雑系のモデリングとパラメータ推定の方法を解説したチュートリアルである.
(Michael S. Albergo et al., 2023) は確率的補間の観点をさらに推し進め,CNF と Diffusion モデルを統一的な観点から提示している.
Cambridge MLG による An Introduction to Flow Matching の web ページ (Fjelde et al., 2024) も参照.
軌道推定の見方は新しいようで古い.はじめ TrajectoryNet (Tong et al., 2020) という CNF 手法は軌道推定に用いられており,のちに OT-CFM として生成モデリングにも使えることが自覚されたのである.
TrajectoryNet では,OT によりより直線的な軌道が学習されるような帰納バイアスを導入することが主眼であった.
References
Footnotes
生成モデルとしての VAE の学習された潜在変数が,何らかの現実を意味していると仮定して解釈を試みることはないだろう.↩︎
フローをナイーブに確率モデルとしてみると無限層のニューラルネットワークと見る.これを打開した NODE のアイデアが,尤度原理という蒙昧の打開に必要であったのかもしれない.「拡散過程はサンプリングが遅い」というのは,この発想の転換の最後の離陸の段階であったのだろう.これは拡散過程の正確なシミュレーションが困難である一方で,区分確定的過程のシミュレーションが容易であることに対応する.↩︎
(Liu et al., 2023) と (Michael Samuel Albergo and Vanden-Eijnden, 2023), (Heitz et al., 2023) の問題設定に従った.↩︎
(Liu et al., 2023) はこのような輸送の問題として,GAN や VAE をはじめとした生成モデリングと,ドメイン転移の問題をみた.↩︎
(Michael Samuel Albergo and Vanden-Eijnden, 2023, p. 2) など.正確なステートメントは,(Ambrosio et al., 2008, p. 183) 定理8.3.1 など参照.↩︎
さらに,
の極限をとっており,CFM がまだ確率的であるのに対して,Rectified Flow では は完全に Delta 分布になる.↩︎さらに,Rectified Flow が直線を考えているのに対して,
という回転様の補間を考えている.↩︎DDPM (Ho et al., 2020) と同様,正確な訓練目標ではなく,困難なデノイジングでの成功を強調する uniform reweighting した訓練目標を用いている点に注意.↩︎
(Hashimoto et al., 2016), (Koshizuka and Sato, 2023) などは scRNA-seq データへの応用を念頭に population dynamics と呼んでいる.古典的な横断面データ (cross-sectional data) の設定に似ている.↩︎