旷视科技(Face++)和孙剑博士近期一些研究工作总结

孙剑博士,前微软亚研院首席研究员,现任旷视科技首席科学家。在计算机视觉方向做出了很多经典的研究工作,例如:物体检测算法(Faster-RCNN 系列),深度残差网络 (Residual Network),经典去雾算法( Single Image Haze Removal using Dark Channel Prior)等。2016年6月底,孙剑博士加入AI领域初创Face++(旷视科技)担任首席科学家,在当时的AI圈引起了不小骚动。下面旷视科技(Face++)和孙剑博士近期一些研究工作总结,以期从中管中窥豹,略见一斑。


1. https://arxiv.org/pdf/1612.00603,“A Point Set Generation Network for 3D Object Reconstruction from a Single Image”
这篇文章研究是如何从单幅照片重构照片中物体三维形状。文中提出利用三维点云来表示物体三维形状的方法。与传统的基于三维网格的方法相比,三维点云的表示更灵活。文中利用C-GAN (Conditional Generative Adversarial Network)的想法,将点云的生成看成一个采用过程,利用深度神经网络建模概率密度函数。得到了优于其他方法的效果。


2. https://arxiv.org/abs/1612.08843, “FastMask: Segment Multi-scale Object Candidates in One Shot”
这篇文章研究的物体分割问题(Segmentation),文中提出一种One-Shot的方式处理图像中物体的多尺度问题。多尺度(物体在图像中的尺度)问题是物体检测,分割任务的基本问题之一。多尺度的传统的处理是使用图像金字塔的方法来处理(即所谓的Multi-Shot)。传统方法的主要问题是计算复杂度高,很好时。本文提出一种新的One-Shot的物体分割算法框架,该框架有三个功能模块Body-Neck-Head:Body模块对输入图像进行处理,得到图像的特征图(feature map);Neck模块递归地缩小特征图,处理物体的多尺度问题;Head模块利用滑动窗口的方法重构出物体的分割图。该方法在 MS-COCO基准测试上取得了目前最好的效果,并且比传统方法块2-5倍。在略微损失精度的情况下,速度可以达到13fps (800*600清晰度图片)。


3. https://arxiv.org/abs/1704.03155, "EAST: An Efficient and Accurate Scene Text Detector"
这篇文章研究的是现实场景中文字识别问题。文中提出了一种端到端的场景文字识别算法框架。其想法是利用深度神经网络直接从图像中预测文本框的几何位置(四边形位置,文本方向),其中处理多尺度的方法是U-Net(or FPN)想法。本文的方法在ICDAR 2015, COCO-Text 和MSRA-TD500数据集上取得了目前最好的精度和效率。


4. https://arxiv.org/abs/1703.02719, "Large Kernel Matters-Improve Semantic Segmentation by Global Convolutional Network"
这篇文章研究的是图像分割问题。文中提出了一个GCN(Global Convolutional Network)来处理物体的分类和位置预测。利用了类似U-Net的想法在特征图上处理多尺度问题,将k*k卷积核拆分k*1 + 1*k两个卷积核达到既增加Receptive Field又不增加模型复杂度的目的,在PASCAL VOC 2012和Cityscapes数据集合上取得了优于以前算法的效果。


5. https://arxiv.org/abs/1702.00953, "Deep Learning with Low Precision by Half-wave Gaussian Quantization"
这篇研究的神经网络加速问题。文中考虑的网络激活(特征层)的量化问题。本文的主要想法是基于网络中每一层的激活值的分布(例如Guassian分布)量化激活。特别文中考虑如何逼近ReLU激活,文中给出了ReLU激活量化方法(Forward形式和Backward形式)。对AlexNet, ResNet, GoogLeNet 和 VGG-Net取得了超过以前的1-bit权重,2-bit激活网络的效果。

你可能感兴趣的:(计算机视觉,论文阅读)