GAN_VS

在微博上看见过一句话：「 GAN 就是把 VAE 的 encoder 和 decoder 倒了过来」。在结构上仿佛是这样的，GAN 的 generator 和 VAE 里的 decoder 差不多，都可以从 latent variable 得到样本，而 VAE 的 encoder 和 GAN 的 discriminator 都是在近似 $P(z\vert X)$ ，只不过里面的 $z$ ，一个是 latent variable ，一个是 label 。

但是，除此之外，这两者方方面面都有很大区别。

Bengio 在 quora 上也回答过这个问题。他的回答有以下几点：

第一，VAE 的评判指标很清晰，就是 log-likelihood ，而 GAN 并没有这种指标。

事实上，关于 GAN 的论文，在与之前工作比较时，通常使用的是 inception score ，即：

$exp(\mathbb{E}_{x} KL (p(y|x)||p(y)))$

y 为 x 在 inception-net 下的 label

这里面的 intuition 是，如果生成样本足够真实，那么 $p(y\vert x)$ 的熵应该比较小（$x$ 确实代表了某一类）；而 $p(y)$ 的熵应该较大（这意味着生成的样本应该很丰富），结合起来就有了 inception score 。openai 说明 inception-score 与之前用的 TURK 在线人工分辨样本的指标吻合得很好。

但是 inception-score 也有失灵的时候，当生成样本变成某种对抗样本时，图像质量很低，但 inception-score 会出奇的好。这篇文章讨论了这种情况。

同时，没有一个清楚的目标函数，也造成了 GAN 训练的困难。普通的训练只有一个 loss ，训练时收敛了，我们就认为训练完成了。但 GAN 有两个 loss ，你要时时刻刻提防着不同的情况，比如 discriminator 的 loss 一直降到 0 的时候（并不是好事，此时有可能对 generator 的 gradient 提供不足），又比如说陷入了 mode drop ，等等不一而足。所以没办法设置一个阈值来停止训练。

第二，由于 VAE 学出的那个 identity 并没有这么完美（强制让 $z$ 近似一个分布，再从 $z$ 中采样，这就带来了可能的噪声。再说 AE 本身就不完美），VAE 生成的图片并没有 GAN 看起来这么 sharp 。

我不知道这是否与 reconstruction error 的度量方式有一定关系，如果有的话，那我觉得 VAE-GAN 可能是个好点子。

第三，最大似然通常使得预测的概率密度远离数据流形。但 GAN 却可以训练出概率上不一定符合真实概率但质量更加优秀的样本。

「最大似然通常使得预测的概率密度远离数据流形」，这句话不清楚为什么……

个人补充：

VAE 在训练过程中，可以直接学到样本的一个 representation ，而 GAN 虽然也是有 latent variable 生成，但没办法直接把样本投影回去，在这方面，Inverting The Generator Of A Generative Adversarial Network 做了一些工作。

VAE 可以通过挑选相应的图片传入 encoder 来直接研究 latent space ，而且通常 representation 也会集中在若干有显著意义的几个维度。而 vanilla GAN 中的 latent space 只是噪声。当然通过 Info-GAN 可以使得 latent-space 中的一部分维度有显著意义。