论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”

对于行人检测,以往的深度学习将其作为二值分类问题,这样易与困难的负样本混淆。本文将行人检测细分为行人属性(背部,性别和视角)和场景属性(车辆,树木等),目标是在高层特征空间分离或聚合相似的属性结构,如图2(c)所示。
论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”_第1张图片

为了避免大量负样本的标记,作者使用了数据库背景场景分割的结果。提出TACNN使用多种数据库学习多类问题。不同数据的背景B数据分布不同,作者transfer了两类场景属性,包括共享的属性和非共享的属性。

方法描述
行人检测系统框架如下图所示,使用一个TACNN联合学习行人分类,行人属性和场景属性。将Caltech中的正样本使用9类属性来标记,这些属性主要由进行监控分析的HK警方提供。

9类正样本及共享和非共享的负样本属性如下表所示
论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”_第2张图片

公式化TA-CNN
TA-CNN是优化以下log后验概率:
这里写图片描述 (1)
为了解决P及B之间的差距,作者计算每个样本 xn 的结构化投影向量 zn ,loss函数变为:
这里写图片描述 (2)

SPV
将P中的正负样本组织到两个树形结构中,每个子节点对父节点进行聚类,SPV通过串联距离和每个叶子节点的均值获得。在每个父节点,提取样本的HOG特征并使用k-means聚集数据。正负样本的树形结构如下图所示:
论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”_第3张图片

TA-CNN网络学习
为了学习网络参数W,将(2)式重新公式化为softmax损失函数,即,
论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”_第4张图片 (3)

公式(3)将8个损失函数放在一起优化,会导致两个问题,1)不同的任务收敛速率不同,多任务同时训练会导致过拟合;2)如果特征维度比较高,网络高层的参数会很多,为了解决这两个问题,将(3)式转化为multivariate cross-entropy loss,

你可能感兴趣的:(论文提要“Pedestrian Detection aided by Deep Learning Semantic Tasks”)