Generative Modeling by Estimating Gradients of the Data Distribution(paper reading)

原创

已于 2022-12-09 15:13:54 修改 · 2k 阅读

于 2022-12-09 15:07:11 首次发布

本文介绍了一种基于估计数据分布梯度的生成模型方法，重点讲解了分数（Score）的概念、Langevin动力学原理及去噪分数匹配技术，并提出了Noise Conditional Score Networks (NCSN)模型，用于解决传统方法在低密度区域分数估计不准确的问题。

Generative Modeling by Estimating Gradients of the Data Distribution (Paper reading)

Yang Song, Stanford University, NeurIPS2019, Cited:498, Code, Paper

精简目录

- Generative Modeling by Estimating Gradients of the Data Distribution (Paper reading)
简简介

简简介

Score-based model的开篇之作？扩散模型的理解点这里, 从VAE到Diffusion Moedl的理解。

1. 什么是分数Score和朴素分数模型。

1.1 Score

假设我们的数据集包含了来自未知分布 $p_{data}(x)$ 的独立同分布的样本 $x_{i}$ ，那么分数Score的定义就是概率密度函数 $p (x)$ 的对数似然的梯度 $\bigtriangledown _{x}logp(x)$ 。分数网络Score network就是训练一个神经网络用来估计真实分布 $p_{data}(x)$ 。基于分数的生成模型通常有两个成分：分数匹配和Langevin动力学。

1.2 Langevin动力学

Langevin动力学是一个采样算法，这个算法仅仅依赖于分数函数 $\bigtriangledown _{x}logp(x)$ 就可以从 $p (x)$ 中生成样本。具体算法如下，给定一个特点的步长 $\epsilon>0$ 和一个初始值 $\tilde{x} \sim \pi(x)$ ，这里 $\pi$ 指任意的先验分布(高斯分布等)。Langevin的方法可以写成迭代的形式：
$\tilde{x_{t}} =\tilde{x}_{t-1}+\frac{\epsilon}{2}\bigtriangledown_{x}logp(\tilde{x}_{t-1})+\sqrt{\epsilon}z_{t} \tag{1}$
其中 $z_{t} \sim N(0,I)$ ，当 $\epsilon \longrightarrow 0$ 时且 $\longrightarrow \infty$ 时，我们可以认为 $\tilde{x}_{T}$ 的分布等于 $p (x)$ ，也就是说当 $\epsilon$ 很小， $T$ 很大， $\tilde{x}_{T}$ 就是从 $p (x)$ 中生成的样本。我们可以从公式（1）中看到，整个Langevin算法仅仅依赖于上一步概率密度函数的分数 $\bigtriangledown_{x}logp(\tilde{x}_{t-1})$ 。真实分布 $p_{data}(x)$ 我们无法获得，因此我们需要训练分数网络来近似 $s_{\theta}(x) \approx \bigtriangledown_{x}logp_{data}(\tilde{x})$ 并替换公式（1）中的分数。这就是基于分数生成模型的主要思想。