目标跟踪研究(一)

目标跟踪研究(一)

  • 前言
  • 网络研究一:孪生网络(Siamese Network)
  • 网络研究二:递归神经网络(RNN)
  • 网络研究三:长短期记忆网络:(LSTM)
  • 网络研究四:ResNet网络

前言

  近年来,基于深度学习的单目标跟踪算法取了显著的进步,但深度学习在多目标跟踪领域仍局限于基于图像识别领域的成果进行迁移,缺乏对跟踪场景复杂性的考虑,因此多目标跟踪问题仍没有得到充分研究。除了单目标跟踪中存在的光照变化、尺度变化、背景杂波,目标的形状变化、姿态变化、部分遮挡、快速运动、运动模糊等问题,在多目标跟踪中相较于单目标跟踪还存在以下问题:a.目标数量影响;b.维持目标ID;c.目标间的交互和遮挡;d.相似外观;e.轨迹起始和终止;f.目标再识别(跟踪目标再次出现)等问题。
  因此需要解决测量帧内目标的相似度,包括外观相似(摄像头分辨困难),运动模式相似(雷达分辨困难),轨迹交叉、目标遮挡或碰撞(摄像头和雷达分辨均困难),相互运动模式(其中有两种,分别为社会力模式,即目标会根据对环境和其他物体的观察,改变自我运动模式;人群运动模式,该属于目标特别密集的场景,个人运动模式和外观难以分辨)等。
目标跟踪研究(一)_第1张图片
  根据图可以看出,基于视觉的目标跟踪算法主要有2个方向:(1)基于相关滤波和深度学习的结合;(2)端到端的深度神经网络框架。左边为深度学习方向的积累,属于广度高但深度不足情况;而右边相关滤波方向的发展,呈迭代式深层发展。视觉跟踪领域的神经网络框架中,以2017年提出2018年流行的Siamese网络为主流,近年来的目标跟踪研究均在其基础上进行修改和改进。

网络研究一:孪生网络(Siamese Network)

目标跟踪研究(一)_第2张图片
  该网络是近几年视觉目标跟踪领域研究热度特别火的神经网络框架,而且Siamese Network属于一种神经网络结构,其中可以根据具体处理的任务需要更换、调整所需要子神经网络框架。
  如图所示,其中Siamese Network有两个结构完全相同,并且共享权值的子网络,并且将目标跟踪问题转化为了分类问题,即检测前后帧是否属于同一目标,根据分类结果优化神经网络的权值,使得网络能够尽可能的区分同一目标和不同目标,实现同一目标的跟踪。模型训练过程如下所示:
(1) 第一个子网络称为模板分支,用于提取模板帧的特征;
(2) 第二个子网络称为检测分支,提取出检测帧的特征;
(3) 在目标空间内基于距离公式进行相似度比较;
(4) 根据前后帧是否为同一个目标优化网络参数。

相较以前的跟踪算法的优点:
(1)把跟踪任务转变为了一个检测/匹配任务,整个跟踪过程不需要更新网络,克服了在线学习模型耗时特别长的缺点;
(2)由于Siamese Network是一种神经网络结构(或者说是一种解决问题的方式),因此在该结构中可以根据需要自行增加需要的模块,比如说:前后帧的语义信息,环境信息,目标特征等。

缺点:
(1)模板支只在第一帧进行,这使得模版的特征对目标的变化不是很适应,当目标发生较大变化时,来自第一帧的特征可能不足以表征目标的特征。
(2)Siamese的方法只能得到目标的中心位置,但是得不到目标的尺寸,目标跟踪效果还不够精确。

结论:
   本文基于毫米波雷达和CCD摄像机基础上,对它们的信息进行了D-S融合,其融合效果能正确识别障碍物及障碍物的距离、方位、宽度和高度,后续研究重点是光照和阴影影响。

网络研究二:递归神经网络(RNN)

   处理序列数据的神经网络,具有“记忆”功能,即一个序列当前的输出与前面的输出也有关,表现为对前面的信息进行记忆并应用于当前输出的计算中,隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
具体应用领域:考虑时间先后顺序的问题,例如:(1)自然语言处理;(2)机器翻译;(3)语音识别;(4)图像描述生成;(5)音乐推荐等领域。
目标跟踪研究(一)_第3张图片
潜在的问题:
(1)存在梯度消失的问题;
(2)难以处理较长的序列;

网络研究三:长短期记忆网络:(LSTM)

   LSTM是RNN的特例情况,重新设计了一种复杂的隐藏层结构,可以避免常规RNN网络的梯度消失问题,在工业界得到广泛应用。
目标跟踪研究(一)_第4张图片
这个图中表示了LSTM网络的一般结构,主要包含3个部分:
(1)遗忘门:控制是否遗忘上一层的隐藏细胞状态;
(2)输入门:处理当前位置序列输入,即利用两个激活函数分别处理过去状态和当前输入;
(3)输出门:将综合处理后的结果输出。
该网络潜在的问题:
(1)具体应用中的模型结构设计问题;
(2) 由于参数增加,导致调参异常困难

网络研究四:ResNet网络

   随着网络深度的不断增加,人们发现深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,test dataset的分类准确率也变得更差。排除数据集过小带来的模型过拟合等问题后,我们发现过深的网络仍然还会使分类准确度下降(相对于较浅些的网络而言)。

残差网络(Residual Net):
1、 神经网络层数:网络的层数越多,意味着能够提取到不同level的特征越丰富。并且,越深的网络提取的特征越抽象,越具有语义信息;
2、 层数限制:因为简单地增加网络层数会导致梯度消失和梯度爆炸,因此,人们提出了正则化初始化和中间的正则化层(Batch Normalization),但是 又引发了另外一个问题——退化问题,即随着网络层数地增加,训练集上的准确率却饱和甚至下降。这个问题并不是由过拟合(overfit)造成的,因为过拟合表现应该表现为在训练集上变现更好。

   当下Resnet已经代替VGG成为一般计算机视觉领域问题中的基础特征提取网络。主要思想:在网络中增加了直连通道,允许保留之前网络层的一定比例的输出。

你可能感兴趣的:(神经网络,计算机视觉,机器学习)