23、深度解析高级GAN架构：从ProGAN到VQ - GAN

原创于 2025-08-24 15:40:13 发布 · 75 阅读

0 GEO检测

标签

#ProGAN # StyleGAN # StyleGAN2

收录于

生成式AI的魔法之旅专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度解析高级GAN架构：从ProGAN到VQ - GAN

1. ProGAN的关键技术

ProGAN在生成对抗网络（GAN）的发展中具有重要地位，它采用了两项关键技术来提升性能。
- 均衡学习率（Equalized learning rates）
- 传统初始化问题 ：通常，神经网络权重使用He初始化等方法，其标准偏差与层输入数量的平方根成反比。但与Adam或RMSProp等现代优化器结合使用时，会导致不同层训练速度失衡。因为这些优化器对每个权重的梯度更新进行归一化，使得动态范围大（输入少的层）的权重调整时间比动态范围小（输入多的层）的权重要长。
- ProGAN的解决方案 ：ProGAN使用简单的标准高斯分布初始化权重，无论层的输入数量如何。归一化在调用层时动态应用，而不仅仅在初始化时。这样，优化器会认为每个权重具有大致相同的动态范围，从而应用相同的学习率。只有在调用层时，权重才会按He初始化器的因子进行缩放。
- 逐像素归一化（Pixelwise normalization）
ProGAN的生成器使用逐像素归一化，而非批量归一化。它将每个像素的特征向量归一化为单位长度，有助于防止信号在网络传播过程中失控。该归一化层没有可训练的权重。

ProGAN不仅在CelebA数据集上表现出色，还在Large - scale Scene Understanding（LSUN）数据集上取得了优秀成果，为后续的StyleGAN和StyleGAN2等架构奠定了基础。