时间序列 Informer 之前的时间信息/任务 LSTM RNN Transformer
图像分割:在原始图像中逐像素找到指定物体
对每个像素点二分类(做分类任务) 归属类别
图像检测:框选 预测坐标值
分割任务:逐像素点分类任务 对每个点做分类 如:人、天、草地、树 四分类
各个类别概率,属于哪个类型就用哪个颜色显示
每个像素都打上标签,只区分类别,不区分类别中具体单位(只分大类,部分小类)
惩罚——做什么是对的,什么是错了 衡量
逐像素交叉熵——希望将每个像素点都判断对
考虑样本均衡问题
IoU(Intersection over Union,交并比)
MIOU计算所有类别的平均值,一般当作分割任务评估指标 I/U I交集 U并集
整体结构
编码解码过程 编码器:图像转特征 解码器:融合特征得到输出结果
简单使用应用广,最初是做医学方向
例如:输入图像有飞机、人、花、树四个类别,图像大小224×224×3
输出 224×224×4 是为了得到每个像素点的类别概率
每个点做类别的判断
上采样:插值(最近邻插值、线性插值、双线性插值、双三次插值高阶插值)、反卷积
特征拼接操作
拼接、多监督(不同位置增加损失函数)
特征融合,拼接更全面
与densenet思想一致
把能拼能凑的特征全用的升级版
Deep Supervision
多输出
损失由多个位置计算,再更新 多个中间位置增加损失函数
细胞数据、标签
[4, 3, 96, 96] 一次训练4张图,RGB通道数为3,高96, 宽96
不光区分类别,还要区分类别中每一个个体(即分大类,也分小类)
针对视频
按照帧切为序列,每块100帧
采环境的特征,每25帧取一次,共4张
采动作的特征,每隔2帧提取,共50张
3D卷积——提特征——汇总分类任务——类别中是哪一个
判断人在干什么,做的事是类别中的一个事情
当前人的动作、环境
通用的行为识别框架(facebook),适用高频与低频特征,直接融合特征进行预测
基本思想:
核心网络结构
图像检测:框选 预测坐标值
定位,找到目标所在的位置
DETR(Detection Transformer)目标检测,框选——边界特征重要
optimal speed and accuracy of object Detection
本质思想:集百家之长,简化百家 速度块,准确率不高
贡献:
Mosaic data augmentation 马赛克数据增强
数据增强
算法:快速理解——看源码
Label Smoothing 标签平滑
BOS(Bag of specials)
参考:目标检测回归损失函数——IOU、GIOU、DIOU、CIOU、EIOU - 知乎
IOU Loss:没有相交则IOU=0无法梯度计算,相同的IOU却反映不出实际情况
GIOU Loss:引入了最小封闭形状C(C可以把A, B包含在内)
针对IOU Loss缺点:
引入了最小封闭形状C(C可以把A,B包含在内),在不重叠情况下能让预测框尽可能朝着真实框前进
存在问题:
GIOU仍然严重依赖IOU,因此在两个垂直方向,误差很大,基本很难收敛,这就是GIoU不稳定的原因。
DIOU Loss
其中分子计算预测框与真实框的中心点欧式距离d,分母是能覆盖预测框与真实框的最小Box的对角线长度c,直接优化距离,速度更快,并解决GIOU的问题
存在问题:
虽然DIOU能够直接最小化预测框和真实框的中心点距离加速收敛,但是Bounding box的回归还有一个重要的因素纵横比暂未考虑。
CIOU Loss
CIOU在DIOU的基础上将Bounding box的纵横比考虑进损失函数中,进一步提升了回归精度。
CIOU的惩罚项是在DIOU的惩罚项基础上加了一个影响因子αv,这个因子把预测框纵横比拟合真实框的纵横比考虑进去。惩罚项公式如下:
损失函数必须考虑三个几何因素:重叠面积、中心点距离、长宽比
其中α可以当作权重参数
存在问题:
纵横比权重的设计还不太明白,是否有更好的设计方式有待更新。
ELOU Loss
CIOU Loss虽然考虑了边界框回归的重叠面积、中心点距离、纵横比。但是通过其公式中的v反映的纵横比的差异,而不是宽高分别与其置信度的真实差异,所以有时会阻碍模型有效的优化相似性。针对这一问题,有学者在CIOU的基础上将纵横比拆开,提出了EIOU Loss,并且加入Focal聚焦优质的锚框
存在问题:
针对边界框回归任务,在之前基于CIOU损失的基础上提出了两个优化方法:
不足之处或许在于Focal的表达形式是否有待改进。
DIOU-NMS损失
之前使用NMS来决定是否删除一个框,现在改用DIOU-NMS
SOFT-NMS
SPPNet(Spatial Pyramid Pooling)
三个不同池化层,结果拼接 特征多样性(每条路径将自己的特征提取好后汇总)
CSPNet(Cross Stage Partial Network)
保留一半,剩下一半进行卷积;每一个block按照特征图的channel维度拆分成两部分
一份正常走网络,另一份直接concat到这个block的输出
CBAM
加入注意力机制 某些点权重较大 算出来的权重乘上当前点的特征得到实际的特征
V4中用SAM,空间注意力机制
空间注意力机制 速度相对更快 SAM
PAN(Path Aggregation Network)
自顶向下模式,将高层特征传下来
注意力机制:关注边界多或中心多;高度遮蔽、重叠
将低分辨率图像——>高分辨率图像
概率论/集合论
原图 → 缩小 → 缩小图 → 通过模型重建 → 重建图 → 对比后调整模型 → 原图
I^y=F(Ix;θ) Ix低清图像 Iy超分图像 F超分模型 θ模型中参数
模型的学习目标
θ=argminθL(I^y, Iy)+λΦ(θ) L损失函数 Φ(θ)为正则项 λ为惩罚系数
获得低分辨率图像
Ix=D(Iy;δ) D表示降级映射 δ为模型中参数
降级模型——简单下采样 Ix=(Iy)⬇s s表示下采样的倍数、
加入模糊与噪声的下采样Ix=(Iy卷积k)⬇s+n k为卷积核,n为噪声
影响图像因素:散焦、压缩失真、噪点、传感器噪声
1、预上采样:低尺寸--upsample--目标尺寸--经过一系列卷积--输出图像
SRCNN
无需考虑输入图像和输出图像尺寸不匹配问题
缺点:在高维中计算,增加计算复杂度;产生虚假纹理,干扰训练
2、后上采样
低尺寸图像--经过一系列卷积--upsample--输出图像
降低计算复杂
缺点:过多信息缺失,不能适应不同放大倍数
3、逐步上采样
低尺寸图像--多个模块(每个模块包含:一系列卷积和upsample)--输出图像
降低学习难度,兼容放大倍数
缺点:训练难度较高
4、交替式上下采样
挖掘低清晰和高清晰图像的依赖关系
低尺寸图像--卷积--upsample downsample--......--upsample--输出图像
无人驾驶需考虑周围物体