作者将一个图像(image patch)看做是一个保留了原始图像结构的二阶张量,然后设计了两个图来描绘目标和背景所在的张量样本中固有的局部几何结构,从而构建一个判别式嵌入空间。图嵌入可以在降低张量维度的同时保留着图的结构。此外,作者提出了两种思路(?)用来寻找原始张量样本到基于张量的图嵌入空间的变换矩阵。为了能够在嵌入空间编码出更多的判别信息,作者提出了基于迁移学习的的半监督策略,用以交替迭代修正嵌入空间,使得其之前获得的判别信息迁移过来。算法应用到目标追踪中能很好地捕获目标的外观特征,通过粒子滤波估计最优目标状态。最后,作者在CVPR2013基准数据库上证明了算法在追踪领域上的高效性。
注:半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标注样本进行标注。论文中使用从当前帧收集到的很多未标签图像块,来修正判别式嵌入空间。
将图像patch拉伸成为向量,破坏了图像固有的二维结构。
尽管提取的特征能够很好用于判别式学习方法中,仍然会有很多有用的信息会被特征所遗漏。
基于张量的子空间学习可以被用到目标追踪中[11][13][24][25][26],其中一些基于张量的追踪算法[13][24][25]在k模展开矩阵中运用PCA降维,[11][26]在k模展开矩阵上运用协方差矩阵特征值分解。这些算法存在如下局限:
注:二维线性判别分析(2DLDA)可以用来检测二阶张量样本的判别结构,然而,还是不能够检测出样本固有的局部集合结构,因为2DLDA没有考虑到同类样本的变化。
用于降维的图嵌入提供了解决上述局限的新框架。
在该算法中,作者设计了:
由于子空间学习退化问题的存在,该嵌入可能不能包含足够的判别信息用于追踪。为了编码出更多判别信息,作者提出,通过用半监督学习的方式,使用未标注的张量样本来修正基于张量的判别式嵌入空间。
在判别式追踪中,已有的基于矩阵的方法通过给目标函数增加约束项来修正判别式空间。这种方法很难直接在基于二阶张量的图嵌入学习(需要两个变换矩阵)中使用,因为很难定义一个合适的正则化器来处理两个相关的变换矩阵。
作者在文章中提出了在交替迭代下基于迁移学习的半监督改进方法。在每次迭代中,在前一个迭代中最可能被误判的未标记张量样本是根据它们与在早期的跟踪阶段收集的标记样本的相似程度而选择的。修正后的类标签被分配给所选的未标记的样本,并用于学习新的判别嵌入空间,在新嵌入空间中关于目标早期形变的判别信息得到迁移。从不同的迭代中学习的嵌入空间被线性组合成终极版嵌入空间。
文章的贡献有以下3点:
张量的内积:
张量的k模展开与矩阵M的积:
<=> C(k)=MA(k) C ( k ) = M A ( k )
图嵌入算法使用无向有权图来描述数据集的流行结构,在保持图的邻接关系的前提下,寻找图在低维空间中的表示,目前很多流行学习算法都可以统一到这个框架下。
令 {Xi∈RI1×I2×...×In}i=1,2,...,N { X i ∈ R I 1 × I 2 × . . . × I n } i = 1 , 2 , . . . , N 表示N个训练样本集合,每个样本是一个n阶张量。
固有图 G G 和惩罚图 Gp G p 用来描述张量样本的局部几何和判别结构。
令 W、Wp W 、 W p 分别表示 G、Gp G 、 G p 的边权重矩阵,
基于张量的图嵌入的任务是寻找一个最优的低维张量表示固有图中的每个顶点。这样一个低维张量可以很好地描述顶点间的相似性特征,使得原始的固有图的特征被保留下来,同时惩罚图所识别的特征也被抑制了。
令 {Mk∈Rlk×Ik}k=1,2,...,n,lk<Ik { M k ∈ R l k × I k } k = 1 , 2 , . . . , n , l k < I k 表示从样本 {Xi}i=1,2,...,N { X i } i = 1 , 2 , . . . , N 到N个顶点 {Yi∈Rl1×l2×...×ln}i=1,2,...,N { Y i ∈ R l 1 × l 2 × . . . × l n } i = 1 , 2 , . . . , N 的n个变换矩阵集合。换句话说, Yi=Xi×1M1×2M2...×nMn Y i = X i × 1 M 1 × 2 M 2 . . . × n M n 。
【注】: Xi∈RI1×I2×...×In→Yi∈Rl1×l2×...×ln X i ∈ R I 1 × I 2 × . . . × I n → Y i ∈ R l 1 × l 2 × . . . × l n ,都是n阶张量,但是每一阶的维度降低了!
通过求解下面的优化问题可以求出一个能保留着图结构的最优变换矩阵:
其中,d是常数。注意目标函数里是 Wij W i j ,约束条件里是 Wpij W i j p ,这样一个低维张量 Y Y 可以很好地描述顶点间的相似性特征,使得原始的固有图的特征被保留下来,同时惩罚图所识别的特征也被抑制了。
在很多实际应用中,诸如判别式追踪,样本可以用一个二阶张量形式 {Xi∈RI1×I2}i=1,2,...,N { X i ∈ R I 1 × I 2 } i = 1 , 2 , . . . , N 表示,并且样本集包含了已标注训练样本和未标注样本。未标注样本通常会被分类器误判。令“+1”表示标注的正样本,“-1”表示标注的负样本,“+2”表示伪正样本,“-2”表示伪负样本。于是,每个训练样本的类标为 Li∈{−2,−1,+1,+2} L i ∈ { − 2 , − 1 , + 1 , + 2 } ,令 nc(c∈{−2,−1,+1,+2}) n c ( c ∈ { − 2 , − 1 , + 1 , + 2 } ) 表示每一类的样本数,则有 ∑+2c=−2nc=N ∑ c = − 2 + 2 n c = N 。
在图嵌入框架中固有图描述了类内紧密性,惩罚图描述了类间可分性。样本的分布,例如跟踪时的背景样本,是无序的、不规则的和多模式的。注意到,用于定义图形结构的样本之间的全局连接,对于分布广泛的类来说可能不是有效的。因此难以用它来最大化类间散度。相反,用于定义图形结构的样本之间的局部连接更适合保存分散的样本分布(?)。文章设计了两种图,即 G、Gp G 、 G p ,对张量样本的局部几何和判别结构进行建模。
记 Aij A i j 表示样本i和样本j之间的密切度。
有了样本间密切度 Aij A i j 的定义,张量样本的局部空间关系则可以被包含在图结构中。
固有图 G G 的边权重如下定义:
惩罚图 Gp G p 的边权重如下定义:
- 当 LiLj>0 L i L j > 0 时, Wij W i j 为负数。
- 当 LiLj<0 L i L j < 0 时, Wij W i j 为正数。
由于惩罚图是用来将目标从背景中分离出来,所以作者赋予不同类标的两个样本间一个正的权重,从而增加目标样本和背景样本的可分性;赋予同一类标的两个样本间一个负的权重,增加它们的不可分性。
4.2节中, Yi=Xi×1M1×2M2...×nMn Y i = X i × 1 M 1 × 2 M 2 . . . × n M n ;当n=2时, Yi=Xi×1M1×2M2=UTXiV Y i = X i × 1 M 1 × 2 M 2 = U T X i V (详见下面推导),
即4.2节的优化问题在二阶张量下可以写为:
交替迭代求解U、V
正负样本的权值中心点定义为:
最后,分类器的分类结果如下:
h(X)=sign(f(X)) h ( X ) = s i g n ( f ( X ) )
作者构建了一种半监督的方法,利用未标注的数据来修正学习的判别嵌入空间。
作者引入迁移学习到半监督学习中。在跟踪应用程序中,
为了保持跟踪的适应性和稳定性,作者构建了两个样本集:
环境变化会引起样本分布发生变化。所以,源数据的分布可能与目标数据的分布有很大的不同。如何将源域中的信息迁移到目标域中呢?
通过这种方式,关于目标在早期形变的判别信息被迁移到图嵌入空间中。这种基于迁移学习的半监督改进方法使得模型对跟踪漂移问题更加鲁棒。
通过这种方式,相似性高的样本通常就会有相同的类标。
本节,首先描述了基于分块的相似性估计,然后是基于迁移学习的半监督改进方法。
在每一个样本图像patch中,记每个像素的特征向量为:
记以下三个数据集的定义:
张量分类器 H(X):RI1×I2→R H ( X ) : R I 1 × I 2 → R 是由前 T^ T ^ 次迭代的张量分类器线性组合而成的:
其中,
在每一次迭代中,如何求解 h(t)(X)、αt h ( t ) ( X ) 、 α t 呢?在第 T^+1 T ^ + 1
次迭代中,优化问题如下:
其中,
这里解释一下step5为什么要寻找max |Pj−Qj| | P j − Q j | 对应的样本。
如果一个未标注的样本 Xj X j 和辅助集中的一个正样本高度相似,但是却被当前的图嵌入张量分类器错误预测为负样本,那么这个未标注样本对应的 Pj P j 会很大, Qj Q j 会很小。将这个样本选择出来,赋予类标为 2∗sign(Pj−Qj) 2 ∗ s i g n ( P j − Q j ) 。
并且,选择 |Pj−Qj| | P j − Q j | 的前几个较大值用来改进最终分类器 H(X) H ( X ) 。这些被选择的未标记的样本可以帮助基于张量的图嵌入空间在早期对判别信息进行编码,以补偿丢失的判别信息。
作者将上述基于迁移学习的半监督基于张量的图嵌入学习算法应用到目标追踪中。算法流程如下:
用一个仿射参数向量 η η 表示目标的状态。在粒子滤波中,用高斯分布 G(ηt−1,∑) G ( η t − 1 , ∑ ) 来模拟与动态模型相对应的状态迁移分布。高斯分布的均值 ηt−1 η t − 1 是从前t-1帧中估计得到的,协方差矩阵 ∑ ∑ 则是经验值。当前帧t中的粒子是从状态迁移分布中抽取出来的,对应 H(X) H ( X ) ,在粒子滤波中每个粒子的权重定义如下,并且通过极大似然估计(MAP)计算当前帧的追踪结果: