Saliency Detection by Multi-Context Deep Learning 读后笔记

       菜鸟一枚,刚接触DL,第一次写博客,不知道该怎么写,大致把论文每段的意思概括了一下,多多包涵。

    论文地址:http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Zhao_Saliency_Detection_by_2015_CVPR_paper.html

       摘要
    问题:低层次的显着性线索或先验不能够产生足够好的显着性检测结果,特别是当显着对象在低对比度的背景与混乱的视觉外观中的时候。
    我们的解决方法:提出一个为显着性检测的多情景深度学习框架,该框架采用深度卷积神经网络在图像中去检测目标的显著性,全局背景和局部背景综合考虑,共同塑造一个统一的多背景深度学习框架。

   为深度卷积神经网络提供更好的初始化,探究了不同的预训练策略和一个设计用多背景模型适应显著性检测的特殊任务预训练方案。在五个公共数据集实验,结果表明不错。

1. Introduction
     显着性检测目的:在图像中突出视觉显著区域或目标,它可以广泛的应用在计算机视觉和图像处理任务中
     常规显著性检测方法注重低级显著性线索或者建模背景先验。存着俩个问题:
   一 计算显着性的模型需要有效的特征表现估计显着性,但有时手动寻找的低级特征的反差不能帮助显著性对象从背景中脱颖而出。
   二 对比不仅在不同的视觉线索,也涉及到高级的认知和理解。 结论:显著性检测在我们工作中被认为是一个高级任务。
    CNN提取高级特征表示很强悍,可以很好的解决上述问题。显着性检测是一个任务,用来模拟人的注意力的机制,被人类大脑控制的神经认知反应。Deep CNN的目标是在人脑中模拟新皮层过滤器和非层次线性运算的功能。同时说明预训练很重要。
  显著性目标的适当范围(局部环境)对帮助一个显着对象从背景中脱颖而出,继续抑制背景的非显着对象也很重要。但是由于位置的极大变化和不同类的对象范围,全局环境才是更适合确定显著性对象。
  基于以上的动机,一个新的多环境深度学习框架显着性检测算法。我们的工作有两大贡献:

       一:一个多环境深度模型被设计用来捕捉显著性对象。全局背景用来在整张图片中【建模显著性】,
局部背景用来在小的区域内预测显著性。
  二:探讨了不同的预训练策略的影响。

2Related Work
 2.1显著性目标分割
  显著性对象分割方法大致可以分为两种:自底向上的方法和自顶向下的方法。
  自下而上的方法可以进一步分成两类,即局部和全局。局部方法通过考虑每一个图片
元素之间的对比和它的周围的邻居来设计显著性线索。全局方法估计显著性得分通过计算
在整体统计在整个图像中的每个图像元素的唯一性。
  自上而下的方法,利用高级特定类别的优势作为先验知识信息,并且通常的任务有关。
 2.2。对象性和对象建议
  引入对象性是用来衡量一个区域中包含对象的可能性,无论对象的类别。
  对象建议列举了进行目标检测的可能的候选目标,无论它们的对比关系。
   2.3。显着性检测的层次结构
  一些人提出的一些改进。
   2.4。深度卷积神经网络
  CNN应用广泛,效果很好。
        我们提出了一个多背景深度模型来整合全局背景和局部背景在一个统一的框架。
3.我们的方法
     我们提出了一个多环境深度学习框架用于显着性检测,并专注于全局背景和局部背景同时显著性建模。此外,对不同的预训练策略进行了研究,以及有效的特定任务预训练方案出台。
3.1。通过深度CNN进行全局环境建模
     概括说明CNN的输入以及如何区分显著性目标和背景。
    介绍一个很好的分类模型-clarifar模型,包含5个卷积层和2个完全连接层,具体的网络结构
     介绍了一些其他的当代的模型。
3.2。整体多环境模型
     超像素中心的输入窗口的预测是通过估计显着性概率执行的。
     score(x gc , x lc ) = P(y = 1 | x gc , x lc ; θ 1 ),    (1)
     x gc,x lc分别是全局背景和局部背景模型倒数第二层的输出,y是中心超像素的显著性预测,
  y=1时是显著性超像素,y=0时是背景。
      我们训练了一个二元分类在最后一个网络层的顶部,为了分类背景和显著性,通过在分类结果和groundtruth标签之间统一的softmax函数的最小值。
       L( θ; {x (i)gc ,x(i)lc,y (i) } mi=1 ) =                (2)
      在我们的方法中,我们框架的参数可以分为几个部分。
       θ j = { w gc,j , w lc,j , α, β}   w gc,j是全局背景模型中神经网络的最后一层参数,
   w lc,j是局部背景模型的最后一层参数,α,β 是一个含糊不清的模型功能控制局部背景模型的需要的参数。
       我们的目的是推断标签的概率同时通过俩个组件。
      (3)【原文中的公式】
      (4)
       具体地说,Φ试图估计显着性概率基于全局背景模型
      (5) 
       Ψ是基于全局背景范和局部背景同时的情况
      (6)
       相应的非归一化显着性预测得分函数被表达为
      (7)
      (8)
       我们的问题可归结为最小化以下损失函数
       (9)       
3.3。特定任务的预训练和微调
       微调可以显著的目标任务的性能。
       预训练任务和微调任务有以下几点不同。
       一输入数据,图片分类任务需要整张图片
作为输入,而我们全局环境模型要求超像素中心窗口用平均像素值填充,局部环境模型需要裁剪
输入,其作用是提供局部环境下更精确的预测。全局环境和局部环境的输入都改变了相对于原始图像
的范围和翻译,导致了我们多环境模型学校不同的特征表现。
       二类标签,深度CNN预先训练为1000类分类可概括为微调分类问题在几个类的情况下。
       三损失函数。在图像分类任务中的损失函数的目的是区分1000类,而在我们的方法中显著性检测
的损失函数被定义为在方程(9)来执行二元分类。
       特定任务的预训练已经被证明在目标检测中非常有效。
       预训练的内容。
       在我们的实验中,将阈值设定为0.5。
       四种预训练策略:1没有预训练,随机初始化微调的模型参数。2使用1000类的图像级别注释进行
预训练。3使用目标级别注释。4使用超像素级别注释。
       特殊任务的预训练策略为微调提供了更好的初始化。
       微调的过程及结果。
4. Experimental Results
4.1。标准数据集     
4.2。评价多环境模型
4.3. Evaluation on Task-specific Pre-training
     超像素>图像级别>目标级别>随机初始化参数
4.4. Evaluation on Contemporary Deep Structures
4.5. Evaluation on Overall Performance
5总结
6感谢







    

你可能感兴趣的:(深度学习)