深度学习方法在道路提取、图像检索上的几篇文章阅读笔记

关于全卷积神经网络的upsampling还没有搞清楚,如果你有合适的资料或者好方法,欢迎评论交流!

深度学习方法在道路提取上的应用

1、【传统方法】A review of road extraction from remote sensing images
2、【充分利用道路特征-FCN+改进的损失函数】Road Structure Refined CNN for Road Extraction in Aerial Image
A.重新设计了反卷积层和融合层,提出了一种新的损失函数,将道路结构的几何信息与交叉熵损失相结合
B.introduction:两个方向的研究:
启发式:数学形态学、纹理渐进分析,利用关于道路的一些知识
数据驱动式:聚类、马尔可夫随机场(MRFs)、条件随机场(CRFs)
新:神经网络:忽略了道路的几何约束特征,导致提取效果不好。
a.本文考虑了CNN框架中道路结构的空间相关性和几何信息,结合了反卷积和融合层来提供结构化的输出。
FCN:全卷积神经网络https://blog.csdn.net/taigw/article/details/51401448
   https://blog.csdn.net/xg123321123/article/details/53092154
与传统CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全连接层+softmax)不同,FCN可以接受任意尺寸的输入图像,然后通过反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在与输入图等大小的特征图上对每个像素进行分类,逐像素地用softmax分类计算损失,相当于每个像素对应一个训练样本
优点:
1、可以接受任意大小的输入图像,而不用要求所有的训练图像和测试图像具有同样的尺寸。
2、更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。
缺点:
1、得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多,但是上采样的结果还是比较模糊和平滑,对图像中的细节不敏感。
2、对各个像素进行分类,没有充分考虑像素与像素之间的关系,忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性。
b.新的损失函数,不仅利用每个像素间的最小欧几里得距离来生成一个权重映射,而且道路几何结构也被建模为全球道路结构。
C.思想:
1)VGG前13个卷积层提取图像的层次特征,训练模型RSRCNN
2)对模型RSRCNN进行参数微调
3)三个额外的卷积层c14,c15,c16适应道路结构
4)设计deconvolution\fusion\crop layer
deconvolution layer:原文Fig. 2. ,上采样???(input2*2) * (filter4*4)=(output4*4)
fusion layer:
输入为conv和deconv的结果,要把conv大小调整成和deconv一样
通过pixel-wise将两个层组合在一起,(高级语义信息+底层细节信息)
crop layer:保证模型输入输出大小相同
5)结合道路结构和交叉熵损失,设计损失函数
靠近路网的像素出现偏差对损失函数大,所以惩罚大;远离路网的像素出现偏差对损失函数影响小,所以惩罚小
D.结论:
收敛速度更快;对道路结构的保护更好;60000轮迭代之后出现过拟合
E.结论分析:平衡训练样本(图片裁切,重采样),自损失函数(4)对于图像背景的权重较小。
Q:1损失函数靠近道路网络的惩罚较大,远离路网结构的惩罚较小(背景的惩罚较小):
靠近路网的像素出现偏差对损失函数大,所以惩罚大;远离路网的像素出现偏差对损失函数影响小,所以惩罚小
   2upsampling??? https://www.zhihu.com/question/43609045?sort=created




深度学习方法在图像检索上的应用
1、【基准】Exploiting Deep Features for Remote Sensing Image Retrieval
图像检索——从视觉特征、相似性度量、相关性反馈三个核心方面提出RS图像特征提取的基准(武大)
文章安排如下,详见笔记:
introduction
A.基于文本&内容的图像检索
B.大数据下:更合适的相似性度量:自适应修正图像特征之间的相似度
相关性反馈:捕捉用户的查询意图
C.特征提取:low-level、middle-level、high-level
overview:
A.从输入和参考中提取特征
B.相似性计算,排序返回
C.优化图像检索返回的排序
features:
A.conv层特征:细粒度特征+encode
1)介绍各种pooling method:本实验中mean 最好
2)介绍各种encode方式:本实验中IFK最好>BOW>VLAD
3)多尺度:RS19中(300*300+600*600最好)UCM(原始最好),使用多尺度有点好处
B.FC层特征:
1)除softmax的输出作为特征
2)multi-patch pooling,分成多个子块分别池化,mean最好
3)caffenet\VGG16 19 M 层数增加fc6和fc7性能接近,fc6比较好
C.微调:
1)数据集不需要很大RSSCN7微调,RS19和UCM测试
experiment&result:
A.评价标准
ANMRR平均归一化调整的检索秩
mAP平均精度均值
B.结论:
降维比较好
Googlenet比较好,inception(5b) RS19 和avg_layer UCM性能最好


2、【选择性搜索region proposal+CNN classification+NMS_USB-BBR优化边界框冗余问题】
Accurate Object Localization in Remote Sensing Images Based on Convolutional Neural Networks
A.问题:由复杂的上下文信息所引起的遥感图像中对象定位的两个主要问题是,描述对象的特征和精确目标位置
B.思想:选择性搜索region proposal+CNN classification+NMS_USB-BBR优化边界框冗余问题
减少生成的感兴趣对象        分类 优化边界框
C.做法:
1)region proposal:每幅图像找1500个候选区域,从低密度地区也抽取一些感兴趣区域。根据颜色、纹理、形状等生成,intersection of union>0.5合并
2)feature extraction:旋转平移缩放后分类
使用Alexnet和Googlenet修改模型
a.在最后一层之前加一个64D的层(Alexnet将第2个FC从4096降到64,Googlenet加一个64D的层)
因为全连接层越多,参数越多,训练速度越慢,拟合能力越好,可能导致训练很慢,且训练集效果好测试集不好
b.Alexnet+Googlenet组合起来
c.对组合模型和单个模型分别计算类别和分数,分数取平均,类别取分数大的那一个的类别
3)accurate object localization:优化边界框,降低假的positive samples
NMS:广泛应用于边界框冗余问题,但是无法合并,当IoU和分数都较大的时候,拒绝
USB-BBR:对于同一个对象(用ground truth 和 检测出的框overlap大于阈值认为是一个对象)的一组分数G,按面积升序排列。
计算两个框的overlap,>0.5归为同一组,对每一组迭代找出一个最佳边界框
4)tips:
local response normalization:局部响应归一化LRN(一般是在激活、池化后进行的一中处理方法,对局部神经元的活动创建竞争机 制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力)
https://blog.csdn.net/yangdashi888/article/details/77918311
https://blog.csdn.net/sinat_21585785/article/details/75087768
momentum:加速梯度下降的收敛(undo:共轭梯度下降……)
overlaping pooling:
dropout:丢弃一些参数记忆,泛化
D.结论
1)fine-tune效果比较好,可以提高P-R
2)combined model比single model效果好,计算成本也高
3)降维好
4)对比特征提取CNN > EFT-HOG+SVM > LBP-HT+SVM
5)对于立交桥的检测效果不好

你可能感兴趣的:(笔记)