深度学习专题-计算机视觉一

一 早期的图像处理技术

缺点有提取了全局的特征而丢了细节。
特征提取-索引技术-相关反馈-重排序
深度学习专题-计算机视觉一_第1张图片
简单的特征变换包括了:
中心化,变量减去它的均值,相当于平移之后,所有数据觉得中心是(0,0);
归一化,指的是,所有数据减去均值再除以标准差;
去相关,消除或减弱多光谱图像波段之间的相关性:KL变换、HIS(色度、亮度、饱和度)变换;
白化:使图像的像素值转化为零均值和单位方差。
深度学习专题-计算机视觉一_第2张图片
深度学习专题-计算机视觉一_第3张图片
特征提取-索引技术-相关反馈-重排序
KD-tree\LSH(Locality Sensitive Hashing)
特征提取-索引技术-**相关反馈-**重排序
•Explicit feedback :反馈正例或者负例
•Implicit feedback: 根据可观察的行为推断用户意图

语义鸿沟:图像的底层视觉特征和高层语义概念之间的鸿沟。(包括底层相同,高层语义不同:长得像的人和狗;底层不同,高层语义相同:高人和矮人)

二 中期的图像处理技术

特征提取–向量化–索引技术–后处理
中期提取的是局部特征
词袋模型
视觉词袋
深度学习专题-计算机视觉一_第4张图片
局部检测器 Harris、DoG…
局部描述器:SIFT、PCA-SIFT、GLOH
sift在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。

视觉词典的生成

首先通过SIFT将特征描述出来,然后形成一些特征空间,使用聚类(K-MEANS、AFFINITY、Propagation)形成一些视觉的关键词。

向量化:将局部特征转化为视觉关键词:特征量化,
对每一个局部特征,查找其在视觉词典里距离 近的视觉关键词,把局部特征的向量转化为该视觉关键词在词典中 的序号。

深度学习专题-计算机视觉一_第5张图片

图像识别基本框架
深度学习专题-计算机视觉一_第6张图片
传统的就是人工特征提取+分类器

三 深度学习的主要应用:

图像分类、目标检测、目标分割、图像回归

图像分类

常见数据集
•MNIST(Mixed National Institute of Standards and Technology)
•CIFAR(Canada Institute For Advanced Research) http://www.cs.toronto.edu/~kriz/cifar.html
•Places2
主页:http://places2.csail.mit.edu/index.html •论文:http://places2.csail.mit.edu/PAMI_places.pdf
•Cats vs Dogs
•下载链接:https://www.kaggle.com/c/dogs-vs-cats/data
•ImageNet
最大的:http://www.image-net.org/
•PASCAL VOC
下载链接:http://pjreddie.com/projects/pascal-voc-datasetmirror/

图像分类的模型:
•LeNet-5 •AlexNet •VGGNet •Inception Net •ResNet •DenseNet

目标检测

常见数据集:
•PASCAL VOC 这个数据集用于多种竞赛:图像标题生成,目标检测,关键点 检测和物体分割 主页:http://cocodataset.org/ •论文:https://arxiv.org/pdf/1405.0312.pdf
•ImageNet
MS COCO
•KITTI
前国际上大的自动驾驶场景下的计算机视觉算法评测数据集。 •该数据集用于**评测立体图像(stereo),光流(opticalflow),视觉测距(visualodometry),3D物体检测(objectdetection)和3D跟踪 (tracking)**等计算机视觉技术在车载环境下的性能
整个数据集由389对立体图像和光流图,39.2km视觉测距序列以 及超过200k3D标注物体的图像组成,以10Hz的频率采样及同步。
•总体上看,原始数据集被分为Road,City,Residential,Campus 和Person五大类。•对于3D物体检测,label细分为car,van,truck,pedestrian, pedestrian(sitting),cyclist,tram以及misc组成
论文 •http://www.cvlibs.net/publications/Geiger2013IJRR.pdf
•http://www.cvlibs.net/publications/Geiger2012CVPR.pdf
•MS
深度学习专题-计算机视觉一_第7张图片
深度学习专题-计算机视觉一_第8张图片

类别不平衡是 一阶段 精度差的原因

一阶段的目标检测早期会生成大量的BBOX,但是大多数是背景,只有极少部分是目标。然而,在类别极不平衡的BBOX中进行难度极大的细分类,来输出bbox和分类结果,很难!!!原有的交叉熵损失作为分类任务的损失函数,无法抗衡“类别极不平衡”。所以一阶段的检测虽然检测速度快,但是丧失了检测精度。
方法:
将回归任务使用的交叉熵损失改为焦点损失。loss就是增加了(1-pt)^y
深度学习专题-计算机视觉一_第9张图片
交叉熵损失
CE(p,y) = -ylog§-(1-y)log(1-p)

深度学习专题-计算机视觉一_第10张图片正负样本的损失的下降的速度!
正样本和负样本:对于分类问题,正样本是想要正确分类出的类别(目标类别)对应的样本,负样本则是其他类别的样本。

你可能感兴趣的:(神经网络结构)