SCI三区论文大修笔记

本人5月份往Journal of Process Control期刊投了一篇论文,是基于深度学习图像序列预测的。前几天收到一审结果,大修。两个审稿人给了几篇参考文献,此贴专门用来做笔记方便自己查阅,也希望能够帮助到一些做图像序列预测和视频检测的新手。

论文1: Video salient object detection via fully convolutional networks
提出了一种深度学习模型,可以有效地检测视频中的显着区域。解决了两个重要问题:
1)深度视频显着性模型训练,缺少足够大和按像素标注的视频数据;
2)快速视频显着性训练和检测。

  • 所提出的深度视频显着性网络包括两个模块,分别用于捕获空间和时间显着性信息。动态显着性模型结合静态显着性模型的显着性估计,直接产生时空显着性推断而无需耗时的光流计算。并提出了一种新颖的数据增强技术。
  • 利用大量图像训练数据来合成视频数据的新技术。CNN模型可以在丰富的视频和图像上进行有效且完整的训练,从而成功地学习静态和动态显着特征。

SCI三区论文大修笔记_第1张图片
显着性模型由两个模块组成,这两个模块设计用于同时捕获空间和时间显着性信息。静态显着性网络将单帧作为输入并输出静态显着性估计。动态显着性网络从帧对中学习动态显着性,并将第一个模块生成的静态显着性作为先验,从而产生最终的时空显着图。
SCI三区论文大修笔记_第2张图片
静态显着性检测网络的插图。网络采用单帧图像(例如,224 × 224 )作为输入,采用多层卷积网络,将输入图像转换为多维特征表示,然后应用一堆反卷积网络对从卷积网络中提取的特征进行上采样。最后,一个完全卷积网络1 × 1 内核和sigmoid活动函数用于输出与输入相同大小的概率图,其中较大的值表示较高的显着性值。
SCI三区论文大修笔记_第3张图片
网络动态显着性检测的插图。连续帧对来自真实视频数据或从现有图像数据集合成,以及从我们的静态显着性网络推断出的静态显着性信息被连接并馈送到动态网络中,该动态网络具有与静态网络类似的FCN架构。动态网络捕获动态显着性,同时考虑静态显着性,从而直接生成时空显着性估计。
总结:
1、论文一直强调将单个视频帧输入到神经网络训练,往往没有学习时间信息,但在我的网络中,LSTM部分似乎可以解释学习到了时间信息。
2、论文中的数据集是将大量图像数据合成视频数据,而我本来就是用视频根据时间顺序按帧提取的,同样包含时间信息。

论文2: A deep network solution for attention and aesthetics aware photo cropping
研究照片裁剪的问题,其目的在于找到输入图像的裁剪窗口,以尽可能地保留其重要部分,同时在美学上令人愉悦。(感觉与我论文的内容不太相关,没有深入研究)

论文3: Stochastic Configuration Networks: Fundamentals and Algorithms
提出的学习者模型由随机配置(SC)算法(称为SC网络(SCN))递增地生成。与现有的单层前馈网络随机学习算法相比,根据监督机制随机分配隐藏节点的输入权重和偏差,并以建设性或选择性方式对输出权重进行分析评估。
主要和原始贡献在于为随机参数分配不等式约束并自适应地选择随机参数的范围,确保构建随机化的通用逼近性质。SCN的三种算法实现,即算法SC-I,SC-II和SC-III,具有用于配置随机参数的相同监督机制,但是计算输出权重的方法不同。具体地说,SC-I采用一种建设性方案来仅为新添加的隐藏节点评估输出权重,并保持所有先前获得的输出权重不变; SC-II通过用户指定的移位窗口大小求解局部最小二乘问题来重新计算当前输出权重的一部分; 和SC-III通过解决当前学习者模型的全局最小二乘问题,一起找到输出权重。
神经网络的过程不是用固定的架构训练学习者模型,而是从小型网络开始,然后逐步添加隐藏节点,直到达到可接受的容差。该方法不需要关于给定任务的网络复杂性的任何先验知识。
总结:与用于单层前馈神经网络(例如,随机向量功能链路网络)的已知随机学习算法相比,随机配置网络(SCN)根据监督机制随机分配隐藏节点的输入权重和偏差。 同时以建设性或选择性方式对输出权重进行分析评估。(随机学习算法,在线性回归和图像分类任务中表现优)

你可能感兴趣的:(论文)