案例来源:@阿里巴巴机器智能
案例地址:https://mp.weixin.qq.com/s/rUuaaBI3McesED3VVVbsBw
1. 目标:识别视频中的异常事件(如车祸)
2. 难点:正例数据量远远小于负例,同时正例之间的差异性很大,因此难以采用有监督方法进行训练。传统解决方法是使用无监督方法为正常视频建模,然后将异常值视为异常事件。
3. 解决思路:
1)利用视频数据训练时空自编码器
2)让时空自编码器对视频帧进行重建
3)常规视频片段重建误差低,异常视频片段误差高
4. 过程
1)特征抽取:将多个视频帧叠加,使用3D卷积的方式提取空间维度特征
2)数据增强:对视频采样的帧做随机裁剪、亮度变化、高斯模糊
3)网络架构:
a. 编码
b. 解码:有两个解码器,一个重建过去帧,一个预测未来帧。预测任务可以引导模型获取运动目标的轨迹以及让编码器更好地提取时间特征
5. 效果
1)在 UCSD Pedestrian 和 CUHK Avenue 数据集上的比较
2)示例