High Speed and High Dynamic Range Video with an Event Camera论文阅读笔记

叠甲:本人三本985大二差生,什么都不会,文章都是自己的学习记录,没有任何参考价值,难免有不少错误,请大家轻点喷。

一、数据

因为不存在具有事件数据和对应的地真图像的大规模数据集,所以在合成事件数据上训练网络(该网络可以泛化到真实的事件数据),利用ESIM以高帧率沿相机轨迹渲染图像,并在每个像素处插值亮度信号,以近似模拟事件相机所需的连续强度信号。事件数据的表示如下:

对每个模拟场景模拟不同的正反差阈值集和负反差阈值集进一步丰富训练数据

二、网络体系结构(核心)

一个循环的、完全卷积的网络,灵感来自于UNet架构。(unet介绍unet详解_UNet解释及Python实现_weixin_39747807的博客-CSDN博客)

High Speed and High Dynamic Range Video with an Event Camera论文阅读笔记_第1张图片

 需要注意的是:

首先,没有将最后K个重构图像作为输入传递给网络。相反,保持一个内部状态——它学会从过去事件张量的任意长序列中更新这个状态——而不是只使用最后K张图像。其次,我们的网络没有使用RNN体系结构而是使用了堆叠的ConvLSTM门,这防止了在长序列上通过时间反向传播期间梯度的消失,提高了网络处理包含可变数量事件的窗口的能力。此外,这使得训练时间比(L¼40 vs L¼8)长得多的事件序列成为可能。

三、损失

使用了图像重建损失和时间一致性损失的组合

High Speed and High Dynamic Range Video with an Event Camera论文阅读笔记_第2张图片

图像损失:通过ImageNet上训练的VGG网络传递重建图像和目标图像,并跨多层平均VGG特征之间的距离。通过最小化LPIPS,该网络有效地学习赋予重构图像自然统计(即特征接近于自然图像的特征)

时间损失(新颖): 

四、效果

定量

High Speed and High Dynamic Range Video with an Event Camera论文阅读笔记_第3张图片

 定性

 

 五、应用(篇幅很长)

1.模型可以用于高帧率视频合成、高动态范围视频重建、彩色视频重建(Color-DAVIS346)。

2.用时间合成的视频可以直接用于下游任务,目标分类和视觉惯性测程法,优于目前直接用事件处理的方法。

六、总结

提出了一种新的基于模拟事件数据训练的循环卷积网络的事件到视频重构框架。除了在真实事件数据上大大优于最先进的重建方法外(> 20%的改进),还展示了我们的方法在仅从事件数据合成高帧率、高动态范围和彩色视频重建方面的适用性。最后,我们展示了我们的重建作为连接事件摄像机和主流计算机视觉的中间表示的有效性。

七、结语

能坐得住看天书已经不容易了,看来还有很多知识要自学,继续努力。

你可能感兴趣的:(计算机视觉)