1,为了解决训练样本不足的问题,提出了LSTD模型,并整合了SSD与faster rcnn模型的优点(即SSD部分模型与faster rcnn部分模型结合)
2,为了进一步提高检测的微调,提出了一种新的正则化方法:基于原域和目标域的转移指数(TK)和背景抑制(BD)的正则化方法.
3,Low-shot;少量注释图片的检测
1,为了解决这个问题,之前的解决办法是引入额外的易于注释的标签图像,但这种缺乏训练集的充分监督. 还有一种解决办法是对深度学习进行转移(弱监督:有标签没有框框.半监督:有标签,部分有框.)
2,Low-shot存在的挑战:a,在不引入额外的图像下,深度学习转移对检测是不适用的,因为这是小目标,涉及到微调.b,深度检测在转移学习中比分类更容易出现过拟合.c,简单的微调会降低可转移性.
3,TK主要在目标提案中transfer标签知识.BD主要是用框来做特征图的额外监督,这样可以在transferring中抑制背景的干扰
Basic Deep Architecture of LSTD:
利用SSD设计边界盒回归,对于每一层都有默认的候选框.每一层都用smooth L1来对框的回归进行训练.(这对few-shot来说,很重要,因为缺少大小多样性的样本,也减少了后面的微调负担). 用faster rcnn设计目标分类,对于默认的框,根据每个框的分类得分,来选折RPN的目标提案.然后将ROI应用于卷积网络的中层,对每个proposals生成固定大小卷积特征.最后用两个卷积层代替faster rcnn原始的全连接层来进行分类.(注意:这里就是将原始faster rcnn的框的回归换成了SSD的多尺度框的回归,原始的RoI层中的特征层,用SSD的卷积的中层特征代替)
Regularized Transfer Learning for LSTD
首先用大量的源数据训练图1中的模型(basic LSTD). 然后用本文提出的正则化方法在目标域中进行微调预训练的LSTD(图一的模型),微调的总的损失函数如下:
指在LSTD中的多个尺度层的回归损失和微调目标分类的损失(即后面的两个卷积),(源域与目标域相关但不同,因为low-shot检测在少量目标数据中之前没有出现过的类别).因此在目标域中需要重新初始化.即源域训练好的用来当做目标域的初始化,然后来进行微调.为了避免过拟合,加了正则化项.:
分别表示的是,背景抑制和知识迁移项.
Background-Depression (BD) Regularization
由于复杂的背景信息会影响localization性能,所以在目标域中用object knowledge 设计了BD正则化.从卷积的中间层生成特征立方(candidate boxes) 然后用groud truth bounding boxes取匹配框,找出与背景对应的特征区域即.然后使用L2正则化.
Transfer-Knowledge(TK) Regularization
由于源域与目标域的类别不同,所以在目标域中就要微调,如果只用目标域的数据进行微调,就不能充分利用源域的知识.所以提出了TK正则化,它将源域的目标标签预测作为源知识去正则化目标网络
算法如下:
(1) Source-Domain Knowledge:我们将training图片分别喂到源和目的LSTD里面,然后将目标域的提案应用于源域的LSTD的ROI池层.最终从源域对象分类器中生成知识向量.
其中As是vector for each object proposal,τ参数,可以产生soften label和richer-relation information.
(2)Target-Domian Prediction of Source-Domain Categories.:将(1)中的目LSTD微调成多目标学习框架:添加a source-object soften classifier at end of target-domain lSTD:
其中Apre是 each proposal.
(3) TK Regularization.