【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法

转自:http://www.sohu.com/a/201822261_473283

【新智元导读】物体分割(instance segmentation)是如今视觉领域最热最核心的一个问题。在这届国际图像识别权威竞赛MS COCO当中,香港中文大学团队UCenter取得了物体分割任务第一名,相对去年的冠军,团队取得了9.1个点的提升,相对提升达24%。他们通过深度剖析FPN、Mask R-CNN、PSPNet的信息传递机制,提出了多路网络(Multi-Path Network),旨在更好地运用网络信息。

10月29日,在威尼斯水城举行的ICCV 2017“Joint COCO and Places Recognition Challenge” Workshop落下帷幕,来自Facebook、MSRA(微软亚洲研究院)、Google、商汤科技、旷视科技等科技公司以及卡耐基梅隆大学、香港中文大学,上海交通大学、中国科学院自动化研究所等顶级高校的多支团队参加了本次竞赛。

经过激烈角逐,由香港中文大学在读博士生、商汤科技研究员组成的“UCenter”团队超过微软亚洲研究院与Facebook FAIR团队,拿下了COCO实例分割(instance segmentation)任务的第一名。这是COCO比赛最难的问题之一,因为需要分割每一个像素,判断这个像素属于哪一个类别哪一个实例。相对去年的冠军,UCenter团队取得了9.1个点的提升,相对提升达24%。

此外,在COCO物体检测任务中,UCenter团队拿到了亚军,相对去年冠军,提升了9.5个点,相对提升22%。

【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法_第1张图片

团队组成,参加大规模公开比赛任务练手练兵

“UCenter”团队由刘枢、亓鲁、秦海芳、石建萍和贾佳亚组成。贾佳亚教授是香港中文大学终身教授,腾讯优图实验室杰出科学家。石建萍博士是贾佳亚教授以前的博士生,现就职于商汤科技。刘枢、亓鲁是香港中文大学的在读博士生,也是贾佳亚教授现在的学生,石建萍博士是他们的Mentor。秦海芳参与比赛时是商汤科技的实习生。

参与这个比赛是石建萍与其博士导师贾佳亚教授一起计划的联合培养课题。他们都认为,类似COCO这样的大规模公开比赛任务,不仅是验证算法的边界,提炼真正有用技术方案一个很好的平台,更是培养和锻炼学生极好的练兵场。

刘枢对实例分割这个任务相对比较熟悉,因为这个方向是他在贾老师组内攻读PhD的主要研究方向。亓鲁与秦海芳则是刚刚接触使用深度学习解决物体检测与实例分割这个任务。商汤科技宽松友好的学术氛围以及远超高校实验室的计算资源为同学们的算法研究提供了有力支持,也帮助几位同学的成长。

香港中文大学贾佳亚教授的视觉研究组在今年也有相当不错的ICCV论文发表。在之前的报道里提到,他的学生在腾讯优图实习或工作期间共同合作发表了三篇ICCV oral论文(每篇接受率只有2.1%)。一键卸妆的黑科技也出自此他们在腾讯的工作。

除此之外,在去年最大的ImageNet场景分析比赛(scene parsing challenge 2016),他们刚进入第二年的博士生赵恒爽就以主力参与者身份,通过在商汤的暑期实习和与其他学生和商汤研究员的合作,取得第一名,比基准方法有了差不多10个点的提升。此方法在当时最大的道路场景分割数据集上(Cityscapes testing set)也是排名第一。除此之外,贾佳亚中文大学视觉研究组里的同学现在每年有很多机会在全球各个业界顶尖研究院和高校交流和实习。

COCO-17 实例分割第一名算法细节:多路网络(Multi-Path Network)

在本次的COCO竞赛中,与其他参赛团队一样,UCenter团队以Mask R-CNN作为实例分割的基础框架。不同的是,他们通过深度剖析FPN、Mask R-CNN、PSPNet的信息传递机制,提出了多路网络(Multi-Path Network),旨在更好地运用网络信息。他们的改变主要集中在以下三点。

首先,与传统FPN中按照物体候选区域大小将其分配到对应层级特征图上的方式不同,他们将物体候选区域映射到所有的特征层级去获取对应的特征,将其融合之后供后续分类网络使用。UCenter团队发现,对于每个候选区域,不同层级的信息都是有用的,采用这样的方法,相比传统FPN,大物体能够获取底层的细节信息,小物体可以获取更多由高层更大感受野提供的上下文信息,在候选区域内不同层级上面有用的信息可以被有效利用。

【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法_第2张图片

其次,他们发现,低层级的特征图对预测大物体也是十分有效。于是他们在FPN的基础上,增加了一个自下而上的分支,帮助更好的传递底层信息到最高层级。低层级特征在之前的工作中也有被应用,但基本都是为了预测小物体或者精细化一些细节,而低层级特征对于大物体的作用在之前并没有被很认真地探讨过。

【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法_第3张图片

最后,在掩膜预测的部分,他们也进行了改进。在Mask R-CNN中,进行掩膜预测的是一个小的全卷积网络,这样速度快,而且特征都可以直接对齐到图片。但是他们发现,全连接层与全卷积层是有一些互补的特征,比如全卷积层是位置敏感的,不同的位置的预测是由不同的参数给出的,而且每个位置的预测都是基于全局信息。于是,他们将这两种网络结合在一起进行掩膜的预测,从而得到更高质量的结果。

【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法_第4张图片

这些改变使训练的网络在不同大小的物体上面取得更为显著的提高,相应的技术细节也即将投稿于CVPR2018。

值得一提的是,UCenter团队并没有在超参方面进行精调,而是直接采用Mask RCNN和FPN的文章中的超参,相信他们更希望通过使用更好的模型而不是更好的超参取胜。他们使用的初始模型也全部来源于网络上已经开源的模型。

他们也提到,现在GPU的显存已经成为模型效能提升的一个瓶颈。他们在比赛期间主要使用的是TitanXP,只有12G显存,即使使用了sublinear memory optimization的方法优化显存占用,使用大型初始网络时,显存压力依然很大。为了能够充分使用这些机器,他们使用较小的图片进行训练,更贴近工业界实际生产和应用环境需求。基于小型初始网络的经验,他们相信使用完整的图片以及更大尺度训练,模型性能会得到进一步提升。

UCenter团队成员表示,在CVPR截稿之后,他们会整理代码并将其开源,分享给更多的计算机视觉工作者、爱好者。

新智元世界人工智能大会,贾佳亚教授分享计算机视觉新认知

11月8日,在新智元AI World 2017世界人工智能大会上,贾佳亚教授将发表演讲,分享计算机视觉的新认知。

贾佳亚教授介绍说:“计算机视觉的研究和应用经历了一个长时间的发展,其中有一大段时间是不被企业界重视的。

“在这个演讲中,我会把先进的计算机视觉研究成果做一个重新划分和归类,展示给大家一个有很多具体内容的视觉研究画卷。一直以来,我们都在创新;所以我也会给大家看到新的有趣的应用,同时拨开云遮雾绕,还原视觉AI的技术真实水平。最后我也会和大家介绍腾讯优图实验室视觉AI的发展。”

贾佳亚 腾讯优图实验室杰出科学家

香港中文大学终身教授贾佳亚博士加盟腾讯优图实验室。作为杰出科学家,贾佳亚教授将负责计算机视觉、图像处理、模式识别、机器学习等人工智能领域的研 究,及人工智能与各种应用场景结合的深度探索。

贾佳亚教授是香港中文大学终身教授,拥有香港科技大学联合微软亚洲研究院计算机 科学博士学位。加入腾讯前,贾佳亚教授曾与微软研究院、谷歌、高通、英特尔、Adobe 等图像和人 工智能研究机构开展过深度联合研究工作。他是前期和中期计算机视觉最著名的专家 之一。在香港中文大学任职期间,他创立的视觉实验室对图像滤波、图像去模糊、图像增强、图像稀疏处理、多频段图像信号的融合,以及大范围运动估计等研究做出了 巨大的贡献。其中,图像滤波和逆向视觉问题解法被许多高校教科书、课件和开源视觉代码库(包括 OpenCV)收录,同时也在视觉商业系统中得到广泛应用。现阶段,其实验室在语义分割、自然语言和视觉联合系统、人像深度处理和几何深度理解等领域均取得了重要成果。


你可能感兴趣的:(Deep,Learning)