C3D:Learning Spatiotemporal Features with 3D Convolutional Networks

1.首先固定h和w均为3,构造小网络进行对比实验找寻最佳的3D kernel depth,最终确定为3.

2.使用3X3X3的卷积构造C3D。

论文写作灵感:

A实验:iDT+SVM

B实验:C3D+SVM

C实验:iDT+C3D+SVM

D实验:C3D+SVM+imagenet pretrain

C大于A和B:可解释为iDT和C3D具有互补性

D相对于B没什么提升:C3D已经具有良好的空间特征提取能力,因此imagenet预训练没什么大提升。

判断所提取的特征是否generic,在不微调的情况下跨数据集测试,这只能用于在某个数据集上有预训练的情况下(特征可视化):1.从imagenet预训练的C3D的fc6中提取UCF101的特征。2.从imagenet预训练的模型(Alexnet)中提取UCF101的特征,t—SNE可视化,观察特征,看哪个模型提取的特征更加generic。

判断所提取的特征是否compact and discriminative:PCA+linear SVM 对特征多次降维然后做横向(discriminative和别的特征)和纵向(compact降维前)对比。

你可能感兴趣的:(video,action,recognition)