文章学习37“When Image Denoising Meets High-Level Vision Tasks: A Deep Learning Approach”

最近出现很多将低级图像任务和高级图像任务结合在一起的工作,比如说一个图像分类的任务,但是图像是有噪声的,就可以将图像先喂到去噪网络里,然后将去噪的结果喂到分类网络中。事实上,我觉得这个做法和GAN的思想很像,就是生成器完成去噪工作,然后判别器进行分类。从理论上进行分析,这件事的可行性是很大的,因为人眼和计算机对图像的理解是不一样的,从计算机的语义层面上进行低级图像任务是可靠的。

本文是IJCAI2018年的一篇paper,将图像去噪和图像分类或者图像分割一起做的任务,事实上思想很简单,去噪网络使用类似于U-Net的结构,其中b和c分别为Feature Encoding和Feature Decoding模块。经过上采样和下采样将去噪部分分成三个scale,分别用skip结构连接,缩小的尺寸有助于减少计算成本。

去噪结束之后将去噪的结果喂到检测网络中,形成一个级联的网络,检测的结果也会及时反馈到去噪的网络中,真的就很像GAN的网络,只是GAN只有一个任务是由生成器完成,判别器只是用以辅助,而这里是multi-task的学习过程。

文章中又提到了psnr作为唯一的标准太单一的问题,因为文中的去噪方法psnr值并不是很高,如下表所示,psnr值提升不明显,但文章demo的一些图片上显示去噪效果很棒。如下图所示,能看出细节纹理恢复很好。

而在噪声图像下的分类model采用的是VGG-16,在 ILSVRC2012 上的分类结果如下表所示:级联的网络相比与直接用VGG和其他去噪方法结合VGG的分类结果有所提升。这个实验结果应该是很好理解的,有噪声的图像自然难以分类,其他去噪方法又不如文章中所给,所以效果好也是必然。

图像检测网络采用的是DeepLab-LargeFOV,在PascalVOC2012数据集的结果如下:

这篇文章应该是低级图像任务与高级图像任务结合的开创者,这个思路是可行的,让计算机自行理解。

你可能感兴趣的:(文章学习37“When Image Denoising Meets High-Level Vision Tasks: A Deep Learning Approach”)