BEGAN 论文阅读及代码实现

最新推荐文章于 2025-07-25 09:10:27 发布

原创最新推荐文章于 2025-07-25 09:10:27 发布 · 2.7k 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

深度学习论文阅读及算法详解同时被 2 个专栏收录

102 篇文章

订阅专栏

生成对抗网络

7 篇文章

订阅专栏

本文主要记录BEGAN的原理及代码实现。BEGAN由Google在17年3月提出，可解决传统GAN存在的模式崩溃等问题。它有诸多创新点，如提出新网络结构、均衡概念等。文中介绍了其网络结构、损失函数及推导，还给出代码实现链接。

GAN存在的问题

关于原始的GAN存在的问题，可以看我专栏里面GAN原理那篇文章，这篇文章主要用于记录BEGAN的原理及代码实现。

介绍

BEGAN是Google在17年3月提出的，这篇论文和GAN的最大的区别在于他可以解决传统GAN存在的模式崩溃，难以训练，难以控制生成器和判别器的平衡等问题。GAN之后出现的DCGAN,WGAN,WGAN-GP等都是使用了概率估计的方法，BEGAN的做法是不是去估计生成分布 $P_G$ 和真实分布 $P_x$ 的差距，而是去估计分布的误差的分布之间的差距，作者认为只要分布之间的误差分布也相近的话，也可以认为这些分布是相近的。

BEGAN的创新点

提出了一种新的简单强大GAN网络结构，使用标准的训练方式不加训练trick也能很快且稳定的收敛。
对于GAN中，生成器和判别器的平衡提出了一种均衡的概念，就是现在有一个变量可以明确指示GAN网络处于哪种均衡状态。
提出了一个超参数，这个超参数可以在图像的多样性和生成质量之间做均衡。
提出了一种收敛程度的估计，这个机制只在WGAN中出现过。论文中也说过，他们的灵感来自于WGAN。

BEGAN网络结构

在这里插入图片描述上图是BEGAN在mnist数据上设计的一个模型，借助了EBGAN的encoder-decoder作为D网络结构的思想。一共有三个网络，分别是G网络，以及D网络中的encoder和decoder。其中G网络和decoder的网络结构是一样的，这两个网络旁边灰色部分是可选的优化结构（跳跃连接和加入h0信息）。

BEGAN的损失函数

在这里插入图片描述其中 $L$ 表示重构误差， $L(x)=L1_{loss}$ (采样而来的真实图片y和y经过D网络重构出的图片)， $L(G(z_G))=L1_{loss}$ (随机向量 $z_G$ 经过decoder生成的图片和G网络生成的图片经过D网络重构出来)， $\gamma\in[0,1]$ 是一个超参数，值越小代表生成的样本多样性越低。 $\lambda_k$ 是 $k_{t+1}$ 的更新步长、最后论文提出了一个衡量模型收敛性的公式：
$M_{global}=L(x)+|\gamma L(x)-L(G(z_G))|$ 。

BEGAN的损失函数推导

$L$ 是一个自编码器的重构误差函数。我们现在假设自编码器有2个重构误差的分布函数分别是 $\mu_1$ 和 $\mu_2$ ，并用 $\Gamma(\mu_1,\mu_2)$ 表示 $\mu_1$ 和 $\mu_2$ 的所有肯呢个集合， $m_{1,2}$ 为 $\mu_1,\mu_2$ 的期望。这样我们可以将Wasserstein距离定义为：在这里插入图片描述其中， $x_1,x_2$ 分别为从 $\gamma=(\mu_1,\mu_2)$ 中采样出来的两个损失函数的值，要真正优化上面的公式是不可能的，因为 $\Gamma$ 的样本空间太大了。但是使用Jensen不等式我们可以得到：
$m_1-m_2|$ 是Wasserstein距离的一个更低的界。在BEGAN里，我们令 $u_1$ 为 $\Gamma(x)$ 的分布， $u_2$ 为 $L (G (z))$ 的分布。又因为最大化 $m_1-m_2|$ ，只有2种情况：
在这里插入图片描述同时我们目标是让G网络生成的图片更接近真实。因此我们选择（b），于是有：
这就是BEGAN的损失函数了。为了控制G网络和D网络之间能力的平衡，以及G网络生成样本多样性和质量之间的平衡，作者还引入一开始介绍的BEGAN损失函数最终形式中的k和 $\gamma$ 两个参数。

代码实现

https://github.com/artcg/BEGAN