视频特征提取常用范式总结

简单总结一下视频特征提取的常见范式:

  1. 直接使用3D卷积(时间轴stride>=2,实现时间维度的下采样) + 3D avg pooling,得到视频的全局表征
  2. 使用帧级别的图像特征 + 序列模型:
  •  使用2D卷积神经网络提取帧图像特征
  •  使用3D卷积神经网络提取帧图像特征(使每帧的图像特征考虑到了近邻帧的特征)   
  •  使用ViT模型抽取图像帧特征, patch embedding可以考虑使用2d或者3d嵌入

使用2D卷积提取视频特征的时候,时间轴维度T,先堆叠到batch维度, e.g. NxTxCxHxW - > (NxT)xCxHxW -> 特征提取: (NxT)xD -> reshape回序列特征: NxTxD

序列模型:可以使用lstm以及transformer模型

你可能感兴趣的:(深度学习,算法,人工智能,python)