浅谈SiameseFC的优点与不足

一、SiameseFC基本结构

                 浅谈SiameseFC的优点与不足_第1张图片

        孪生结构网络是卷积神经网络中的一种特殊结构。其结构如上图所示,它由两个结构相同的子网络构成,网络的输入是两张像,其中一张称为模板图像,通常选取的是序列第一帧,另外一张称为搜索图像,选取的是后续帧,每一个子网络负责处理一张图像,通过子网络的前向计算,可以提取图像的特征,最后将两者特征通过相似性度量函数,最终计算得到一个17×17×1的热力图,代表着搜索图像中各个位置与模板图像的相似度值。并根据以下函数计算相似度(卷积函数):

                                                         

其中z是模板图像,x是搜索图像, φ代表的是一种特征映射操作,将原始图像映射成特定的空间特征,这里采用的是卷积神经网络里的卷积层和池化层,f是相似性度量函数,这里代表的是卷积函数。模板图像虽然使用的是视频序列的第一帧,但是它是经过裁剪而来的,以待跟踪目标为中心,把原图像裁剪成127×127的尺寸。 也是经过裁剪而来的,它是以网络上一次输出的目标位置的中心点作为裁剪的中心,裁剪成固定的255×255的尺寸。 在这里就相当于充当一个待跟踪目标的外观模型,与后续图像帧里面的对象进行配对,热力图最里面分值最高的那个点则认为是与待跟踪对象外观模型最相似,就认为它是后续帧里的待跟踪对象。

二、SiameseFC的优点

1、实时性(>24帧/s):SiamFC-3s   FPS : 86帧/s

                                            SiamFC-5s   FPS : 58帧/s

该网络把跟踪任务转换成一个模板匹配的问题而不是一个常见的二分类问题,整个跟踪过程中不需要更新模板,使得算法的速度大幅度提高。这也是深度学习领域神经网络在目标跟踪一直以来难以到达的一个关键点,直到孪生网络应用于目标跟踪使得在跟踪精度较高的条件下还达到了实时性,在深度学习领域不愧为重大的突破,继此网络后,基于此网络为基本框架的目标跟踪算法层出不尽并且精度、速度能达到一个兼顾,占据深度学习应用在目标跟踪中的主流方向。

2、小范围晃动        

对于小范围晃动,背景信息变化不大使得模板匹配的结果较好

           

3、运动模糊    

               

 4、短时局部遮挡

模板匹配对短暂性局部遮挡处理较好

三、SiameseFC的不足

SiameseFC是一个模板匹配的任务,在跟踪过程中并不更新目标模板和网络权值,这造成如下问题:

(1)当目标发生较大的形变时,会造成目标候选框与目标模板出现较大差异,从而导致跟踪失败。网络权值不更新导致要使用同一套网络结构和网络参数适应所有的跟踪场景,这是很难做到的。

(2)对于没有处于复杂背景下的跟踪来说,该算法能基本平衡实时性与准确性要求,但是跟踪目标一旦发生遮挡、快速运动、相似外观,搜索图像的大小可能就覆盖不了目标,通过最后的相似性度量函数得出来的结果就是错误的,随着跟踪过程中发生的错误累加,导致跟踪不可恢复,所以孪生结构网络的跟踪性能在背景复杂的情况下会下降。

1、光照差异                                                                            2、背景复杂、对比度不明显

浅谈SiameseFC的优点与不足_第2张图片浅谈SiameseFC的优点与不足_第3张图片

3、尺度剧烈变化                                                                    4、背景复杂、颜色相似

浅谈SiameseFC的优点与不足_第4张图片浅谈SiameseFC的优点与不足_第5张图片

5、快速运动、形变

浅谈SiameseFC的优点与不足_第6张图片

6、相似外观

浅谈SiameseFC的优点与不足_第7张图片浅谈SiameseFC的优点与不足_第8张图片

失败原因:   1、    目标特征不够具体、突出、全面  (AlexNet提取特征不够细致)                

                       2、    没能利用好空间信息、运动信息  (运动模型不够合理)        

                       3、    搜索域方法的局限性                      (多尺度增加计算量,无法适应尺度变化)

                       4、    匹配与分类的本质差别                  (分类对背景前景区分较好)

解决思路:

1、加入在线更新的策略(增加目标信息,牺牲速度或者增强特征的提取)

2、需要对首帧标注图像做处理(抑制背景信息,增加前景和背景的区分度)      

        SiamFC选用第一帧作为模板并不予更新,因此首帧目标信息为关键信息,而SiamFC模型中,最后采用相似度学习,如果不能降模板图像中背景信息的干扰,则必然会对结果造成影响。 因此应当对标注图像进行进一步的目标提取,并对背景信息进行抑制。

3、利用空间信息,估计运动模型      

         在存在较多相似目标的场景中,可能特征匹配难以准确地判断哪个才是真正的目标。而人在这种场景下追踪目标的策略往往是根据

(1)目标的空间信息,例如一队人中的第几个,或者目标周围有哪些参照物。这一点可以通过对目标旁边的背景进行建模实现。

(2)根据目标的运动轨迹进行预测,因为目标的变化(无论是位置还是外观)在序列中往往是连续可微的。

你可能感兴趣的:(浅谈SiameseFC的优点与不足)