对于客观评价标准,目前我主要了解可以从以下几方面入手。
1、转换质量
转换质量又可以用转换程度与转换的多样性来衡量。
对于转换程度评价,可以通过预训练ResNet [1],GoogleNet等具有较高分类能力的深层网络模型,根据目标域标签对转换结果进行分类,分类准确率越高也就说明了从源域到目标域的转换越成功。因为style translation本身是一个域与域之间的转换,所以使用分类器对转换结果分类不失为一个良好的质量评价标准,但是存在一定局限性,如无法衡量转换的程度、会受到数据集的限制等。
考虑到转换结果不能趋向于单一的风格,可以利用生成样本的颜色或梯度直方图来衡量多样性,如 [2];也可以利用Inception Scores [3]来衡量生成样本的多样性,我对已投论文的结果也进行了测试,结果是符合预期的。
2、不相关区域的保持
在对特定区域(属性)进行转换时,我们不希望不相关区域(属性)也跟着转换,丢失原来的身份信息。可以使用MS-SSIM [4]来对不相关区域的保持程度(结构、颜色)进行评价。ResidualGAN中使用了ERT [5]算法通过转换前后特征点的对比来验证不相关区域的保持; 总体而言,很难去衡量源域身份特征、结构特征是否改变,而且受数据及限制语义相关性又往往不能避免,所以确实没有一个良好的评价方式,往往是一言堂。
3、转换速度
因为style transfer [6]的提出中一张图片的转换往往耗时较长,所以转换的速度成了一个评价标准,但因为现在基本上的实现思路都是预训练一个模型,然后再生成图片,速度上都会比较快,所以我认为不需要过分关注。
4、视觉效果
style translation涉及到很多视觉上的感受,人与人之间的感受本身也有差距,目前没有合适的客观解决方案,也只能借助于AMT这样的众包平台去进行评估。
[1]Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Deep Residual Learning for Image Recognition.
[2]Dmitry Ulyanov, Vadim Lebedev, Andrea, Victor Lempitsky
Texture Networks: Feed-forward Synthesis of Textures and Stylized Images
[3]Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen
Improved Techniques for Training GANs.
[4]Zhou Wang ; A.C. Bovik ; H.R. Sheikh ; E.P. Simoncelli
Image quality assessment: from error visibility to structural similarity
[5]Vahid Kazemi, Josephine Sullivan
One Millisecond Face Alignment with an Ensemble of Regression Trees.
[6]Leon A. Gatys, Alexander S. Ecker, Matthias Bethge
A Neural Algorithm of Artistic Style.
[7]Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks.