【扩散模型】（一）变分推断基础

原创

已于 2023-07-21 12:59:19 修改 · 722 阅读

文章标签：

#概率论 #深度学习 #神经网络 #stable diffusion

于 2023-07-15 23:29:44 首次发布

文章介绍了变分贝叶斯方法在处理扩散模型时的角色，如何用高斯分布作为先验，以及如何通过近似计算后验概率。重点讨论了使用KL散度作为优化目标和证据下界(ELBO)的概念，以及在坐标下降法中如何逐个优化参数分布。

扩散模型需要一点变分贝叶斯的知识，基本出于功利性目的，停留在浅尝辄止的程度。

朴素贝叶斯

数据（Data） $,xn}{\bold x}=\{x_1,x_2,\cdots,x_n\}$
参数（Parameter） $,zm}{\bold z}=\{z_1,z_2,\cdots,z_m\}$
先验（Prior） $p(z)p({\bold z})$
后验（Posterior） $p(z∣x)p({\bold z}\vert{\bold x})$

先验一般使用常见的概率分布，比如扩散模型（Diffusion Model）选择高斯分布 $N(0,I){\cal N}({\bold 0},{\bold I})$ 。

后验 $p(z∣x)p({\bold z}\vert{\bold x})$ 即在 $x\bold x$ 的分布下 $z\bold z$ 的条件概率，也就是根据数据 $x\bold x$ 来估计参数 $z\bold z$ 。相比于先验，后验经过了数据 $x{\bold x}$ 的修正，因此能够更加贴合真实值。

后验的计算方法（贝叶斯公式）：
$p({\bold z}\vert{\bold x})=\frac{p({\bold z},{\bold x})}{p({\bold x})}=\frac{p({\bold x}\vert{\bold z})\cdot p({\bold z})}{p({\bold x})}$

似然（Likelihood） $p(x∣z)p({\bold x}\vert{\bold z})$
证据（Evidence） $p(x)p({\bold x})$

变分贝叶斯

后验没有解析表示，需要采用近似方法计算。马尔科夫链蒙特卡洛（MCMC）就是一种典型思路，虽然它能得到相对精确的结果，但是速度非常慢。巧妙一点的方法是把问题转化到凸优化上来。

假设在某一函数族 $Q{\mathbb Q}$ 内寻找与 $x\bold x$ 无关的概率密度函数 $q(z)q({\bold z})$ 来近似 $p(z∣x)p({\bold z}\vert{\bold x})$ ，优化目标：
$q^*({\bold z})=\mathop{\arg\min}\limits_{q({\bold z})\in{\mathbb Q}}{ {\cal L}\left(q({\bold z}),p({\bold z}\vert{\bold x})\right)}$
$q∗(z)q^*({\bold z})$ 是我们追求的理想近似函数， $L\cal L$ 是我们的度量函数，用于衡量函数的近似水平。

扩散模型一般选择 KL 散度：
$\begin{aligned} \mathop{\rm KL}{\left(q({\bold z})\middle\Vert p({\bold z}\vert{\bold x})\right)} &=\int_{\bold z}{q({\bold z})\log\frac{q({\bold z})}{p({\bold z}\vert{\bold x})}{ {\rm d}{\bold z}}} \\ &=\int_{\bold z}{q({\bold z})\log\frac{q({\bold z})\cdot p({\bold x})}{p({\bold z},{\bold x})}{ {\rm d}{\bold z}}} \\ &=\int_{\bold z}{q({\bold z})\log{q({\bold z})}{ {\rm d}{\bold z}}} -\int_{\bold z}{q({\bold z})\log{p({\bold z},{\bold x})}{ {\rm d}{\bold z}}} +\log{p({\bold x})\int_{\bold z}{q({\bold z})}{ {\rm d}{\bold z}}} \\ &=\mathop{ {\bf E}_q}{\log{q({\bold z})}}-\mathop{ {\bf E}_q}{\log{p({\bold z},{\bold x})}}+\log{p({\bold x})} \end{aligned}$