*检测和分割的定义
*检测和分割的现状
*挑战和未来
*classification(分类)
*object detection(目标检测)
*semantic segmentation(语义分割)
*instance segmentation (实例分割)
*keypoint detection (关键点检测)
*VQA
定义:在分割中不同类用Pixel,一个mask来表示;检测:框检测。
人骨架识别,动作检测;如果有一些遮挡,很难处理的比较好。
AP(average precision)和mAP
VOC数据集–precision(AP);
Coco数据集–mmAP;
以IOU交/并之比作为(设定阈值)来作为是否正确的被检测出来。
mmAP
引入mmAP–对定位框准确度的评价;
不同的类别比如person,cat,bike,car有不同的AP,对所有的AP求average,得到mAP,之前提到IOU的阈值,假设对阈值(假设初始值0.5)做一些调整,比如0.55,0.6,0.7,0.8,0.9…会到不同的mAP的值,再对这些不同阈值下的mAP求一次average,就得到mmAP;
IoU
精度 Precision 和召回 Recall 也是揭示最终分割结果性能好坏的基本指标;Precision表征分割结果的精确程度,recall反映了分割区域的完整性,是不是所有的待分割目标区域都被分割出来了。
*相似点
**per-pixel localization(每个像素点的定位)
***spatial resolution
**recognition(识别)
***context
*区别点
**thing vs stuff
**表示方式
遍历所有Window的–滑窗法
1.每个框都是独立的,会导致上下文信息的丢失;
2.计算量很大。
全卷积网络;
1.复用计算,减少计算量;
2.不会丢失上下文信息,对整个篇幅的分类有帮助。
feature+classifier(特征+分类器)
**特征
***haar feature
***HOG (histogram of gradient)
***LBP(local binary pattern)
***ACF(aggregated channel feature)
**分类器
***SVM
***Boosting
***Random Forest
*传统方法
**easy to debug,analyze the cases(容易debug)
**reasonable performance on limited training data(小数据集上结果可以)
**efficient to compute on CPU(在CPU上计算量不大)
*缺点
**limited performance on large dataset (在大数据集上结果受限)
**hard to be accelerated by GPU (很难GPU并行)
根据是否需要“proposal and refine”
*one stage
**example:Densebox,YOLO(you only look once),SSD,RetinaNet
**key word:anchor,divide and conquer,loss sampling
*two stage
**example:RCNN,RFCN,FPN,MaskRCNN
**key word:speed,performance
没有引入anchor先验框,正负样本数比较平衡;
*存在的问题:
此后,SSD引入anchor的定义。
对于遮挡问题做了较好的优化,关注offset_set;
SSD–>Retinanet
RCNN–Feature提取器,缺少神经网络的优化;
在训练次数非常少时,结果已经非常优秀。
不单是对检测有非常好的效果,对分割也是。
*sliding window:不可行
*全卷积网络
***分割的流程
*resolution and context
*相似的流程:主干+head
*but:
***检测:scale,anchor,loss sampling,multi-stage
***分割:resolution,context
*detection=segmentation +box localization