100字范文 > StyleGAN2探骊得珠（一）：论文精读与注释文中的SCALE这个词到底是什么意思？

StyleGAN2探骊得珠（一）：论文精读与注释文中的SCALE这个词到底是什么意思？

时间：2019-08-11 07:51:44

StyleGAN2的论文标题是：《Analyzing and Improving the Image Quality of StyleGAN》，它剖析了第一代StyleGAN实践中发现的一些深层次问题，并就此进行了一些卓有成效的优化。

研究这篇论文，让我们有机会能够一窥神经网络实践中的一些奥妙，有助于我们理解神经网络的设计原理和技巧，使得我们有可能设计自己的神经网络并对它进行优化。

StyleGAN2论文的下载地址是：/abs/1912.04958

也可以到百度网盘下载：/s/15jv2hVVrcC-dsPjqZ_p9Xw 提取码: rvir

我们打开论文进行阅读，遇到一个让人感到十分困惑的单词：scale。仔细数了一下，scale这个单词在StyleGAN2论文的正文里一共出现了11次，参考文献里出现了6次（这里面的论文我还没有一一阅读，从字面上看这里的scale更接近于“规模”的意思），附录里出现了15次；同时，以动名词scaling的形式，在正文里出现了2次，在附录里出现了2次。显然，这是一个非常重要的单词，那它到底指的是什么意思呢？

在常见的计算机用语中，scale比较常见的翻译一个是“规模”，如：large scale parellel computing通常翻译为“大规模并行计算”；另外一个是“伸缩、扩展”，如：scalability通常翻译为“可伸缩性”或“可扩展性”。

另外，根据必应词典给出的解释：

scale- 必应词典

美[skeɪl] 英[skeɪl]

n.秤；比例尺；范围；刻度

v.攀登；到达…顶点；去鳞；刮除牙石

网络缩放；规模；音阶

变形复数：scales；过去分词：scaled；现在分词：scaling；

搭配largescale；scaleappreciate；smallscale；increasescale

把以上这些对scale的翻译与解释，代入到StyleGAN2的论文里，其所表达的含义总是似是而非，以至于对整篇论文的主旨都搞得一头雾水。

直到有一天，看到一篇名为《多样本尺度参数的非参数检验》的文章，讲到统计学里关于尺度参数的检验问题，才豁然开朗，原来论文中的scale就是“尺度”。

在《多样本尺度参数的非参数检验》这篇文章里，尺度是这样定义的：尺度参数主要用来描述总体概率分布的离散程度，常用的方差、标准差、平均差等都是关于尺度的参数。

我对尺度的理解如下：

StyleGAN2本质上是通过假图像生成器generator与真图像判别器discrimnator之间的对抗，最终使判别器无法判别真假（对于由假图像和真图像共同组成的数据集，判别器给出正确标签的概率为 50%）。其过程表现为两个神经网络的权重和偏置不断调整，使得对于生成器生成的假图像，判别器判别为假的概率最小，即：生成器神经网络的运算矩阵所表达的特征期望平均值（度量标准包括：FID、PPL、LPIPS等）逼近真实图像样本的平均值，且特征期望方差为最小；同时判别器对真假图像的混合数据集能给出正确标签（即：判定真图像为真，假图像为假）的概率最大。

在这个过程中，“尺度”就是特征方差、标准差、平均差所代表的概率分布的离散程度。在训练开始的时候，生成器生成的图像特征的概率分布是随机的“白噪声”，运算矩阵不掌握任何输入样本所内含的特征信息，特征方差很大。在训练的过程中，我们必须保证“尺度”的度量标准始终是不变的，在此前提下不断通过“梯度下降”优化网络权重和偏置，在迭代的终点使得特征尺度“收敛”到一个稳定的期望平均值（对于FID、PPL、LPIPS等而言，通常是一个比较小的值）和最小的方差，在视觉上就是在概率分布图上得到一个足够窄、足够高的尖峰，同时这个尖峰所覆盖的面积占到总体概率分布100%的相当大的一个比例。这个过程也可以描述为逐步发现一个特征聚类中心（尖峰），并且使得这个尖峰越来越明显，越来越突出；与此同时，把周边的概率分布也吸引到这个尖峰的附近。

作为名词，scale可以翻译为“尺度”；作为动词，scale或者scaling就可以翻译为“调整尺度”。调整尺度的含义在于，在训练过程中，尺度的度量标准会使用各种不同的方法进行计算，在进行数学计算的过程中可能会人为放大或缩小了尺度，因此为了在整个训练过程中保证尺度度量标准的一致性，就需要通过缩小或放大来消除数学计算引入的尺度比例的变化，将用于度量的尺度计算结果复原到本阶段原始的尺度水平上。

按照以上对于scale这个单词的理解，我们再来读StyleGAN2论文，似乎文章的内容就容易理解一些了，举几个例子：

翻译：我们假设液滴伪影是生成器故意为之的结果，生成器会携带信号强度信息偷偷越过实例归一化操作，其方法是：生成一个非常强的、在统计上占有绝对优势的局部尖峰，生成器就可以在其他地方按照它偏好的方式有效地对信号的尺度大小进行调整。

翻译：基于输入的样式，调制操作对卷积的每个输入特征图的尺度进行调整，这可以通过调整卷积权重的尺度而替代性地予以实现。

翻译：随后的归一化操作，其目的是将输出复原到单位标准差。基于公式 2，这可以通过将每个输出特征图 j 都乘以 1/σj 来实现。

翻译：进行优化之前，我们通过映射网络 f 运行10000次随机的潜码 z，可以得到 μw= Ez f(z)。我们也可以近似地得到W的尺度，计算的方法是：σw²=Ez ||f(z)-μw||₂²，即算出到几何中心的欧氏距离平方的平均值。

（完）

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。