CNN处理图像的一点总结

结合寒老师的课,对CNN近几年的发展进行总结,主要分两部分进行,1.cnn基础模型的改进。2.图像处理框架的改进

1.基础模型改进。

针对CNN模型的主要难点其实分为两个方面,(1)深度网络,难以训练,使用随机梯度下降法在将误差往前传的过程中可能就变成0了,(2)网络初始值难以确定,没有一个合适的初始值,想要训练好一个网络几乎是不可能的。对于第一个问题,除了一些大团队大量的计算外,就是对RELU函数的优化,由此出现的Leaky ReLUMaxout等激活函数,而且发现Tanh在处理某些问题上来说,有较好的效果。对于第二个问题,深度现如今的爆发其实很大程度的源于AlexNet给与我们一个训练的参数初始值,使人们能够基于已有参数的基础上去进行fine tuning,但是,有一些参数问题并没有得到完全的解决,还有一部分是需要人为监控的,然后就有了一批文章专门来研究这参数的问题,如何去初始化,直到12google提出了Batch Normalization,在全连接层,激活函数前加一层,对权重进行处理(正态分布+线性变化)试权重能够处在一个既不发散也不收敛,在可控范围内震荡的状态。

2.图像处理框架的改进

  图像框架的改进,这方面其实可以回归到事物的发展规律,从简单到复杂,从一个到多个,(classificationlocalizationobject detection)在发展过程中,问题的根本其实又回到了机器学习考虑的问题,将回归问题转化为分类问题,针对具体问题的优化,优化算法加快计算速度等。


最初的工作就是用CNN去识别图片中单一的物体(框架如下),发现效果很好,

 CNN处理图像的一点总结_第1张图片

于是就是考虑是否可以把缩小范围去对事物进行更具体的定位,即用一个框把小猫给框出来,所以就需要一些长宽以及坐标信息,分类问题也就转化为了回归问题。给出了如下框架在尾部加入一个回归层,在分类层训练完成的基础上,使用训练好的权重作为初始值,对回归层参数进行fine tuning。这样即可得到物体的位置信息。CNN处理图像的一点总结_第2张图片

接下来的出的文章就是在这个基础上的优化,因为毕竟回归问题的效果不如分类问题,因此,按机器学习的的思考方式,就是将回归问题向局部问题转化,就提出了,在之前的基础上,对图片不同位置,取不同大小的窗口,对窗口进行评分,取最高的评分这种思想。

 CNN处理图像的一点总结_第3张图片

取窗问题在单个物体来说,还不用考虑特别复杂,但是当物体从一个上升到多个的时候,即问题变成object detection的时候,就变得麻烦了起来。


15,16年大量的文章都是在对如何取窗进行讨论,比如窗的大小,滑动方式等,最具代表性的就是RCNNFast-RCNNFsater-RCNNYOLO

RCNNFast-RCNN在取窗方面都是采用的selective search,当然有算法上的其他优化。

CNN处理图像的一点总结_第4张图片CNN处理图像的一点总结_第5张图片

Fsater-RCNN就直接把取窗的工作交个了另一个神经网络RPNYOLO则是直接分好了窗

CNN处理图像的一点总结_第6张图片CNN处理图像的一点总结_第7张图片

目前来看效果已经达到了实时的程度,在这方面的有进展较难。

在物体能够非常精确识别的基础上,在加上文本模型上的成熟,因此能够实现对图像的精确描述,也是在情理之中,从大方向来看,也就是投入人力对区域更加细致的描述,工作量的问题要远大于创新上的问题。

然后把问题延伸到视频,其实也是相对图像引入了一个空间向量。因此16年微软就建立了针对视频描述的数据库MSR-VTT数据库包含了 41.2小时的视频和 200 K短语,覆盖了最全的种类和最多样化的视觉内容。在句子和词汇上目前做到了最大,并开展了相应的竞赛(目前复赛还没有结束),但是在刚结束的ECCV中,已经有基于该项目的成果出现,台湾国立清华大学林嘉文和孙民利的文章Title Generation for User Generated Videos,使用一个重点检测器(highlight detector)对视频描述生成器进行初始化,让视频描述生成器能够关注重点部分。框架能够同时训练标题生成模型和视频重点定位模型。然后,我们将高度句子多样性引入视频描述生成器,这样生成的标题更加能吸引人。

然后,最近LIfeifei组包括微软的方向都在通过照片生成故事。

你可能感兴趣的:(CNN处理图像的一点总结)