原文:Generative Modeling by Estimating Gradients of the Data Distribution

作者讲解视频看这里哦

原理

生成模型可以被用于生成新数据,其应用包括生成高保真度的图片、合成逼真的语音和音乐片段等等。目前主要进展可以分为两个流派:基于似然的方法生成对抗网络(GAN)。前者以对数似然作为训练目标(即尽量逼近真实的数据分布),后者通过对抗训练最小化模型输出与真实数据之间的差距。

但上述两种方法都存在这局限性,似然法需要通过特殊的模型结构或其他代理损失来得到规范化的概率函数,GAN则存在着训练不稳定的问题。

在本文中提出了一种基于对数概率密度(即输入数据点的对数概率密度函数梯度)的分数进行估计和采样的生成建模方法。Score其实是一个向量场,指向对数数据密度增长最大的方向。我们使用通过分数匹配训练神经网络从数据中学习这个向量场。然后,我们利用 Langevin 动力学生成样本,其工作原理是将随机初始样本沿着(估计的)分数矢量场逐渐移动到高密度区域。然而,这种方法面临两大挑战。首先,如果数据分布在低维的流形上(就像许多现实世界的数据集通常假设的那样)那么分数在流行空间外将是未定义的,分数匹配将无法提供一致的分数估计。其次,低数据密度区域(如远离流形的区域)的训练数据稀缺会影响分数估计的准确性,并减慢朗温动力学采样的混合速度。由于朗文动力学通常会在数据分布的低密度区域初始化,因此在这些区域不准确的分数估计会对采样过程产生负面影响。

为了应对这两个挑战,我们建议用不同大小的随机高斯噪声对数据进行扰动。添加随机噪声可确保生成的分布不会坍缩为低维流形。较大的噪声水平将在原始(未扰动)数据分布的低密度区域产生样本,从而改进分数估计。最重要的是,我们训练了一个以噪声水平为条件的单一分数网络,并估算了所有噪声量级下的分数。然后,我们提出了退火版本的朗格文动力学,在该版本中,我们最初使用与最高噪声水平相对应的分数,然后逐渐退火降低噪声水平,直到噪声小到与原始数据分布无法区分为止。

分类: NIPS导读 标签: 暂无标签

评论

暂无评论数据

暂无评论数据

目录