第13章深度生成模型

最新推荐文章于 2026-06-11 09:10:12 发布

原创最新推荐文章于 2026-06-11 09:10:12 发布 · 903 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

神经网络与深度学习

第13章深度生成模型

深度生成模型（Deep Generative Model）是深度学习领域的核心方向之一，核心目标是学习数据的真实分布——不仅能像判别模型（比如分类器）那样做预测，还能“理解”数据的内在规律，甚至生成和真实数据高度相似的新样本（比如生成逼真的图片、文本、语音）。本章会聚焦两类最经典的深度生成模型：变分自编码器（VAE）和生成对抗网络（GAN），用通俗的语言拆解其原理、结构和训练逻辑，适合本科生和研究生入门学习。

13.1 概率生成模型的核心思想

在讲具体模型之前，先明确“生成模型”到底是什么——它和我们熟悉的“判别模型”（比如Logistic回归、CNN分类器）的核心区别在于：

判别模型：学习“输入→输出”的映射（比如“图片→类别标签”），只关注不同类别之间的差异；
生成模型：学习“输入本身的概率分布”（比如“所有猫图片的分布”），关注数据的整体规律。

生成模型的核心价值有两个：

生成新数据：学会数据分布后，能随机采样生成全新的、逼真的样本（比如生成不存在但像真实猫的图片）；
无监督/半监督学习：不需要大量标注数据，能从无标签数据中学习特征（比如从一堆无标签图片中自动学到“边缘”“形状”等特征）。

13.1.1 密度估计

“密度估计”是生成模型的基础任务——简单说，就是估计数据的概率密度函数（PDF）。比如对于“猫图片”，密度估计就是找到一个函数，能计算任意一张图片是“猫图片”的概率（符合猫图片分布的概率高，不符合的概率低）。

13.1.2 生成样本

当模型学会数据的概率分布后，“生成样本”就很简单了：从这个分布中随机“抽一个点”，这个点对应的就是一张新的、符合数据规律的样本（比如从猫图片分布中抽样，得到一张新的猫图片）。

13.1.3 应用于监督学习

生成模型也能辅助监督学习（比如分类）：

半监督学习：用少量标注数据+大量无标签数据训练生成模型，先学到数据的通用特征，再微调分类头，提升分类准确率；
数据增强：生成新的标注样本，补充训练集（比如生成更多手写数字样本，帮助分类器泛化）。

13.2 变分自编码器（VAE）

变分自编码器（Variational Autoencoder, VAE）是2014年提出的生成模型，它结合了“自编码器（AE）”和“变分推断”，既保留了自编码器的特征学习能力，又解决了传统生成模型训练难的问题。

13.2.1 含隐变量的生成模型

VAE的核心创新是引入了“隐变量（Latent Variable）”——可以理解为“数据的内在特征编码”。比如对于猫图片，隐变量可能包含“猫的品种”“姿态”“颜色”等关键信息（这些信息无法直接从图片中观察到，但决定了图片的样子）。

VAE的生成逻辑是：

隐变量z服从简单的先验分布（比如正态分布N(0,1)）；
生成模型从先验分布中采样一个隐变量z；
通过神经网络将z映射成一张图片x（即x = 生成网络(z)）；
最终，模型学到的是“z→x”的映射，以及z的先验分布，从而能通过采样z生成新的x。

13.2.2 推断网络（Encoder）

但这里有个问题：真实数据x的隐变量z是未知的（比如我们不知道某张猫图片的“品种”“姿态”编码是什么）。为了解决这个问题，VAE引入了“推断网络”（也叫编码器Encoder）：

输入：真实图片x；
输出：隐变量z的后验分布的参数（比如正态分布的均值μ和方差σ²）；
作用：给定x，快速推断出它对应的隐变量z可能服从的分布（不用像传统变分推断那样做复杂计算）。

简单说，编码器的作用是“把数据x压缩成隐变量z的分布”。

13.2.3 生成网络（Decoder）

生成网络（也叫解码器Decoder）是VAE的“生成核心”：

输入：从编码器推断出的隐变量z（或从先验分布采样的z）；
输出：重构的图片x̂（或生成的新图片x）；
作用：把隐变量z的编码“还原”成数据，相当于“解压缩”+“生成”。

13.2.4 模型汇总（VAE的整体结构）

VAE的整体结构可以总结为“编码器→隐变量→解码器”的闭环：

编码器（推断网络）：x → 估计z的分布（μ, σ²）；
采样：从z的分布中随机采样一个z（这里用了“再参数化技巧”，后面会讲）；
解码器（生成网络）：z → 生成x̂（重构x）；
训练目标：让x̂尽可能接近x（重构误差），同时让z的分布尽可能接近先验分布（比如正态分布，正则化项）。

13.2.5 再参数化技巧（Reparameterization Trick）

VAE训练的关键难点是：从z的分布中采样z的过程是“不可导”的（采样是随机操作，梯度无法反向传播）。为了解决这个问题，VAE引入了“再参数化技巧”：

不直接从z的分布N(μ, σ²)中采样z；
而是先从标准正态分布N(0,1)中采样一个随机变量ε；
再通过z = μ + ε·σ 计算z（σ是方差的平方根）。

这样一来，采样过程的随机性被转移到了ε上，μ和σ是神经网络的输出（可导），梯度就能通过μ和σ反向传播，从而训练编码器和解码器。

13.2.6 训练过程

VAE的训练目标是“证据下界（Evidence Lower Bound, ELBO）”，可以拆解为两部分：

重构损失（Reconstruction Loss）：让解码器生成的x̂尽可能接近输入x（比如用MSE损失，衡量像素级差异）；
KL散度损失（KL Divergence Loss）：让编码器输出的z的分布尽可能接近先验分布（比如正态分布），避免z的分布过于集中（保证生成的多样性）。

训练步骤：

输入真实数据x到编码器，得到z的分布参数μ和σ；
用再参数化技巧采样z；
把z输入解码器，得到重构数据x̂；
计算重构损失和KL散度损失，总损失为两者之和；
反向传播更新编码器和解码器的参数；
训练完成后，生成新样本时，直接从先验分布采样z，输入解码器即可。

13.3 生成对抗网络（GAN）

生成对抗网络（Generative Adversarial Network, GAN）是2014年由Ian Goodfellow提出的生成模型，核心思想是“对抗训练”——让两个神经网络（生成器和判别器）相互竞争、共同进步，最终让生成器能生成以假乱真的样本。

13.3.1 显式密度模型和隐式密度模型

VAE是“显式密度模型”——它明确建模了数据的概率分布（通过隐变量的先验和后验分布）；而GAN是“隐式密度模型”——它不直接建模概率分布，而是通过“生成器生成样本”和“判别器判断样本真假”的对抗过程，间接学习数据分布（不需要计算复杂的概率密度）。

13.3.2 网络分解（生成器和判别器）

GAN的核心是两个对立又协作的神经网络：

1. 生成器（Generator, G）

角色：“造假者”，目标是生成“以假乱真”的样本；
输入：随机噪声z（比如服从正态分布的向量）；
输出：生成的假样本G(z)（比如一张假的猫图片）；
训练目标：让判别器无法区分G(z)和真实样本x。

2. 判别器（Discriminator, D）

角色：“鉴别师”，目标是准确区分“真实样本x”和“生成器的假样本G(z)”；
输入：样本（真实样本x或假样本G(z)）；
输出：样本为真实样本的概率D(x)（0~1之间，1表示“真实”，0表示“虚假”）；
训练目标：让D(x)尽可能接近1（真实样本判为真），D(G(z))尽可能接近0（假样本判为假）。

13.3.3 训练过程（对抗博弈）

GAN的训练过程是一个“极小极大博弈”，可以通俗理解为“造假者和鉴别师的斗争”：

初始化生成器G和判别器D的参数；
迭代训练：
a. 训练判别器D：
- 从真实数据集中采样一批真实样本x；
- 从噪声分布中采样一批噪声z，通过G生成一批假样本G(z)；
- 把x和G(z)输入D，计算损失（比如交叉熵损失），更新D的参数（让D更擅长区分真假）；
  b. 训练生成器G：
- 从噪声分布中采样一批噪声z，通过G生成一批假样本G(z)；
- 把G(z)输入D，计算损失（让D误以为G(z)是真实样本，即D(G(z))尽可能接近1）；
- 更新G的参数（让G生成的样本更逼真，欺骗D）；
收敛条件：当判别器无法区分真假样本时（D(x)≈0.5，D(G(z))≈0.5），生成器就学到了数据的分布，能生成以假乱真的样本。

13.3.4 一个具体实现：DCGAN

深度卷积生成对抗网络（Deep Convolutional GAN, DCGAN）是GAN的经典实现，主要改进是用卷积神经网络（CNN）替代了传统的全连接网络，让生成的图像更清晰、更逼真。

DCGAN的结构特点：

生成器G：用转置卷积（也叫反卷积）逐步放大输入的噪声z，从低维噪声映射到高维图像（比如从100维噪声→3×64×64的彩色图像）；
判别器D：用普通卷积逐步缩小输入图像，最后输出一个概率（判断图像真假）；
其他技巧：移除全连接层、使用批量归一化（BatchNorm）、生成器用ReLU激活、判别器用LeakyReLU激活，这些都能提升训练稳定性和生成效果。

13.3.5 模型分析

GAN的优势和挑战：

优势：生成的样本质量高（尤其是图像），不需要显式建模概率分布，训练逻辑直观；
挑战：训练不稳定（容易出现“模式崩溃”——生成器只生成少数几种样本，缺乏多样性）、需要仔细调整超参数（学习率、 batch size等）、收敛判断模糊（没有明确的损失收敛标准）。

13.3.6 改进模型

为了解决GAN的训练问题，研究者提出了很多改进版本，常见的有：

Wasserstein GAN（WGAN）：用Wasserstein距离替代交叉熵损失，提升训练稳定性，缓解模式崩溃；
CycleGAN：引入“循环一致性损失”，能实现无监督图像风格迁移（比如把马变成斑马，不需要成对的马和斑马图片）；
StyleGAN：引入“风格向量”，能精确控制生成样本的风格（比如生成不同发型、表情的人脸）。

13.4 总结和深入阅读

深度生成模型是深度学习中最具创造性的方向之一，VAE和GAN是两大核心框架，它们的核心区别可以总结为：

模型	核心思想	生成样本质量	训练难度	适用场景
VAE	变分推断+自编码器	中等（图像偏模糊）	低（稳定易训练）	无监督特征学习、数据生成、降维
GAN	对抗训练（生成器vs判别器）	高（图像逼真）	高（需调参，易崩溃）	图像生成、风格迁移、超分辨率重建

学习建议

对于本科生和研究生来说，学习深度生成模型的关键是：

先理解“生成模型”和“判别模型”的区别，明确生成模型的核心目标（学习数据分布）；
掌握VAE的“隐变量+再参数化技巧”——这是VAE能训练的核心；
理解GAN的“对抗博弈”逻辑——生成器和判别器的目标对立又统一；
实践优先：用PyTorch/TensorFlow实现简单的VAE和DCGAN，观察生成样本的变化，直观理解训练过程。

深入阅读资料

书籍：《Deep Learning》（Goodfellow等著，第16-20章详细讲解生成模型）；
论文：
- VAE：Kingma 2014年论文《Auto-Encoding Variational Bayes》；
- GAN：Goodfellow 2014年论文《Generative Adversarial Nets》；
- DCGAN：Radford 2016年论文《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》；
工具：TensorFlow/PyTorch的官方生成模型教程，包含VAE、DCGAN的完整代码和注释。

深度生成模型的应用场景还在不断扩展（比如文本生成、语音合成、分子生成等），理解其核心原理能帮助你快速跟进后续的新技术和新模型。

标签

#机器学习 #深度学习