本次会议主要安排了2个Tutorial和5个Workshop. Tutorial主要讨论了生成对抗网络GAN(基本原理以及GAN的应用和拓展),这次会议中其他很多Seminar阐述的工作都用到了GAN的思想。另一个Tutorial讨论了运动恢复结构与视觉SLAM等。因为之前准备是做图像分割,所以选择去听Pixel Level Image Understanding的相关报告。以及去听了几个关于MATLAP(Methods and Technologies for Looking At People)的工作。
Pixel Level Image Understanding
这次有关分享像素级的语义理解时主要有三个方面:其一,弱监督的语义分割算法。由于当前分割实验,图像标注的成本较高。对于语义分割任务,image-level的标签和物体的bounding box相比pixel-level(像素层面)的标签则是一种弱监督的标注。仅利用image-level的标注信息,通过弱监督方式学出一个模型,该模型可以预测出图像的语义分割结果。简单来说,就是通过CAM(Class activation mapping)的方法,从仅有image-level标注信息的图片中获取到Localization的信息,将这些信息作为种子点进行区域生长,达到语义分割的目的。
其二,中科院信工所的刘偲做图像的理解与编辑。她做的工作相对比较有趣。在图像语义分割的基础上,做了更细致的研究,图像中的人像分析,得到人像的属性。以及一些属性特征的迁移。其三,商汤的董超分享了使用图像分割来做超分辨率的图像重建。主体网络是GAN,其中,主要使用图像分割来作为先验知识来调整模型的参数,使得图像重建后的边缘更加清晰。另外一个工作是通过受PhotoShop的启发,使用强化学习来做图像重建。
相关参考资料:
[1] Deeply supervised salient objectdetection with short connections, Q Hou, MM Cheng, X Hu, Z Tu, A Borji, Z Tu, PTorr, IEEE CVPR, 2017. (华为Mate 10, 荣耀V 10产品发布会展示)
[2] Surveillance Video Parsing with SingleFrame Supervision, S Liu, C Wang, R Qian, H Yu, R Bao, Y Sun, CVPR 2017(第一个在监控视频中做人像解析的实时算法)
[3] Richer Convolutional Features for EdgeDetection, Y Liu, MM Cheng, X Hu, K Wang, X Bai, IEEE CVPR, 2017. (第一个在最流行的BSD500数据集上超过人工标注的实时算法)
[4] Global Contrast based Salient RegionDetection. Ming-Ming Cheng, Niloy J. Mitra, Xiaolei Huang, Philip H. S. Torr,Shi-Min Hu. IEEE TPAMI, 2015. (2000+次他引)
[5]Image Super-Resolution Using DeepConvolutional Networks, C Dong, C Loy, K He, X Tang, IEEE TPAMI, 2016.
[6] Pyramid Scene ParsingNetwork, H Zhao, J Shi, X Qi, X Wang, J Jia. IEEE CVPR, 2017.(ImageNet场景理解竞赛冠军,130+次他引)
[7] STC: A Simple to Complex Framework forWeakly-supervised Semantic Segmentation. TPAMI 2017
[8] Object Region Mining with AdversarialErasing: A Simple Classification to Semantic Segmentation Approach. CVPR 2017
[9] Transferable Semi-supervised SemanticSegmentation. AAAI 2018
[10]Revisiting Dilated Convolution: ASimple Approach for Weakly- and Semi-Supervised Semantic Segmentation. CVPR2018
[11] Adversarial Complementary Learning forWeakly Supervised Object Localization. CVPR 2018
[12] Weakly-Supervised SemanticSegmentation Network with Deep Seeded Region Growing. CVPR 2018.
MATLAP(Methods andTechnologies for Looking At People)
感觉今年做人像识别方面的人依然很多,有十几篇poster也都在研究这个领域。研究人脸识别的方面,大家主要介绍了关于人脸表情识别,多模态的人脸识别和属性学习(有多个报告提到了多模态的研究)。其中,Face++的俞刚分享了关于使用Cascaded Pyramid Network做实时多个人体姿态跟踪。在一段跳舞的视频上进行了实验,舞蹈的动作比较复杂,并且动作变化的速度很快。实验检测的效果较为流畅,能够精准的捕捉到一些关键点。不过在视频中人有重叠的地方,效果较差。对于这一点,后来还看了在展区的云天励飞的实时人体姿态跟踪做的比较好,加入了一些人体(胳膊、腿)的位置的先验,效果更好一些。另外,比较比较有意思的是西电的高新波教授做的将异质图像的合成与识别,将人工画像与相机拍摄人脸图片的合成与识别,用于当前的警方刑侦的人脸画像的识别工作。
相关参考资料:
[1] Learning Robust and DiscriminativeLow-rank Representations for Face Recognition with Occlusion. PR2017. GuangweiGao, Jian Yang, Xiao-Yuan Jing.(南京邮电大学)
[2] Joint Pose and Expression Modeling forFacial Expression Recognition. CVPR2018张飞飞, 张天柱, 毛启容, 徐常胜. (江苏大学)
[3] Disentangling Features in 3D FaceShapes for Joint Face Reconstruction and Recognition. CVPR2018,刘峰, 曾丹, 赵启军, 刘小明. (四川大学)
[4] Shiming Ge, Jia Li, Qiting Ye, ZhaoLuo. Detecting Masked Faces in the Wildwith LLE-CNNs. CVPR2017 (中科院信工所)
[5] Yibo Hu, Xiang Wu, Bing Yu, Ran He,Zhenan Sun. Pose-Guided Photorealistic Face Rotation. CVPR2018 (中科院自动化所)
[6] Qianyi Wu, Juyong Zhang, Yu-Kun Lai,Jianmin Zheng, Jianfei Cai. Alive Caricature from 2D to 3D. CVPR2018 (中国科学技术大学)
视觉与其他领域结合,产生了很多好的成果。视觉与自然语言的结合,应用于Visual Question Answering、Medical(基于肺CT图像的自动诊断报告的生成)。其中,跟几个参会的老师讨论,主要听他们说,现在计算机视觉与医疗结合的交叉课题较多。上面关于肺CT图像中,肺结节的自动图像诊断是图像领域相对比较容易做的,肺CT图像相对更清晰。医生对于识别的准确率要求较高,在实际应用中的要求比实验室更高。
这次大会,感受比较多的就是Deep Learning几乎用在每一项工作中。从脑神经的角度启发网络的建模与学习,多种网络结构的融合,以及网络的压缩与加速。相对于端到端的黑盒Deep Learning来说,结合知识的Deep Learning有更多可以理解的思想,从视觉技术的角度来理解神经网络。
看了那么多大牛的报告,觉得自己做的还远远不够,还需要更加努力。
“你必须非常努力,才能看起来毫不费力。”