深度学习语义分割

午餐之后,下午的演讲由两场语义分割开始,这意味着识别和描述图片中的物体。在道路场景解析(自动驾驶汽车),机器人抓取物体和医疗保健(分割肿瘤,龋齿等)等中是很有用的任务。

Sven Behnke,波恩大学计算机科学系主管,讲述了两个算法,神经抽象金字塔和语义RGB-D感知器。《神经抽象金字塔(NAP)》是他的历史著作(约98年, 论文)。NAP是一个神经网络,其包括横向连接,与人类视觉系统工作方式十分接近。它成功地应用于图像去噪和人脸定位。他最近的工作集中在语义RGB-D感知器方面,它是DNNs,输入数据来自于类似体感传感器,包括距离信息。使用这些距离信息,可以计算出每个像素的高度并相应地缩放输入,由此得到更好得分割和语义解释(论文PDF)。此外,他们还在原始对象上使用深度遮罩,并且将色彩画的深度图像作为CNN的输入,由此取得了良好的效果( 论文PDF)。

使用距离信息得到更好的语义分割

Bernardino Romera Paredes,牛津大学博士后研究助理,接着分享了语义分割的一种新算法( 论文),它采用了全卷积网络再加上一个条件随机域作为递归神经网络,端到端地训练。他们取得了最好的准确性,但目前算法在实时使用上还不够快。他们发布了一个很棒的在线演示:http://crfasrnn.torr.vision

猫是DL从业人员常用的图像

接下来是Miriam Redi,雅虎实验室的研究科学家,她的演讲内容是《机器视觉的主观眼》。她的研究目标是在图像,特征中找到隐藏的元素,比如情感,社会,美学,创意和文化。她展示了四个不同的项目:

  • 计算机肖像美学( 论文)。使用画面特征和摄影师注解,他们能够预测肖像的美感,发现图像的特征,比如对比度和清晰度与感官美有高相关性,而性别,年龄和种族与感官美无相关性;
  • 帮助发现美但不流行的图片( 论文)。目标是在Flicker上发现美的但是被忽视的内容。他们首先在诸多资源中创建大型美感注解的数据集,然后创建能够找到新的美丽图画的模型;
  • 跨文化情感预测( 论文)。他们创建了12种语言的情感标注数据集。有趣的是,他们试图使用迁移学习,最后发现在拉丁语(使用法语标注训练出的分类器能够很好的预测拉丁语情绪)中迁移学习表现良好,而从拉丁语数据集中学习到的模型在预测汉语情绪上效果不佳;
  • 使用Vine视频预测创造性( 论文)。从诸多注解的视频和视频特征中,他们发现,当兼顾美学特征和新奇特征时,他们可以对创造性的定义进行建模。

你可能感兴趣的:(深度学习)