动作识别:S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learnin

动作识别:S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learnin_第1张图片

论文作者:Mireille El-Assal,Pierre Tirilly,Ioan Marius Bilasco

作者单位:Univ. Lille,CNRS,Centrale Lille

论文链接:http://arxiv.org/abs/2309.12761v1

内容简介:

1)方向:视频分析

2)应用:动作识别

3)背景:近年来,视频分析是一个受到广泛关注的计算机视觉任务。目前,使用高计算成本和需要大量标记数据进行训练的深度神经网络(DNNs)可以实现视频分析的最先进性能。而脉冲神经网络(SNNs)在神经形态硬件上的实现具有显著较低的计算成本(比常规非脉冲网络低几千倍)。已经使用了3D脉冲卷积神经网络(3D CSNNs)等方法进行视频分析。然而,与脉冲2D CSNN相比,这些网络的参数数量显著增加。这不仅增加了计算成本,还使得这些网络在神经形态硬件上更难实现。

4)方法:本文使用以Spike Timing-Dependent Plasticity(STDP)规则无监督训练的CSNNs,并首次引入了脉冲分离的空间和时间卷积(S3TCs),以减少视频分析所需的参数数量。这种无监督学习的优点是不需要大量标记数据进行训练。将单个时空脉冲卷积分解为空间和时间脉冲卷积可以减少网络的参数数量。

5)结果:作者使用KTH、Weizmann和IXMAS数据集对所提出网络进行测试,并展示了S3TCs成功从视频中提取时空信息,同时增加了输出的脉冲活动,并且优于脉冲3D卷积。

动作识别:S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learnin_第2张图片

动作识别:S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learnin_第3张图片

动作识别:S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learnin_第4张图片

动作识别:S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learnin_第5张图片

你可能感兴趣的:(计算机视觉,人工智能)