深度学习---学习一篇最新的论文

CVPR2018

还没选好文章,这也是一个漫长的学习过程啊

第一组:mask cnn

第二组:3D目标检测

KITTI数据集

2D:

两级检测框架:先找区域再分类

单级检测框架:直接产生物体的类别概率和位置坐标值;You Only Look Once算法

3D:

三维数据的获取:立体视觉系统Stero,多个摄像头匹配;RGB-D摄像头输出四通道图像,像素点与摄像头的距离;激光雷达,360旋转,判断返回时间,描绘出周围信息,精度更高。

三维数据的表示:点云;体素网格;三角网格;多视角表示

多视图输入学习,还是2D的数据

通过体积式表示学习,体素网络,直接处理的是3D数据

通过点云学习 point net

基于RGB-D数据进行3D目标检测的Frustum PointNets  最新的工作

 

第三组 底层图像处理

14年:SRCNN;图像块提取,非线性映射,图像重建;损失函数:MSE均方误差

16年:残差学习,复现细节VDSR;亚像素层ESCPN,将最后一次卷积得到的r平方个特征图重新排列,得到rHxrW大小的高分辨率图像

17年:SRGAN;感知损失,损失函数的改进:中间的真图和假图的;

18年:

 

第四组:风格变换

做风格变化的技术的梳理

图片转化成绘画风格,没有成对的

生成对抗网络GAN:生成器:想要相似的,判别器:分辨真假

条件对抗生成网络:加入标签

cycleGAN:不需要配对,只需风格保持一致即可。循环一致性损失:原分布到目标,目标到原分布

生成器:G,F

G的输出是要配对,单独训练,怎么确保风格一致?损失函数如何计算?

判别器:Dx  Dy

数据集:apple

 

第五组:保留细节的池化方法

平均池化:丢失细节

最大池化:保留最明显的细节

保留细节对识别有重大意义

已有尝试:最大与平均硬切换;根据输入数据特性使用学习树形线性组合;随机的方式选择领域中的节点进行池化

强调小的细节,也有可能会放大噪声

与平均值相差过大就会被强调

 

第六组 图像融合

没保存好,丢失了。。。

 

第七组 风格转换

深度学习 style loss和content loss,让风格与style更接近,内容与content更接近

高斯白噪声

style loss:没有监督信息

content loss:自己的不同输出通道矩阵,最小,

改进:

迭代过程变为前向网络,训练前向网络中的参数

固定style,用一系列实际的图片来训练参数

再改进:

不固定style

在编码器与解码器之间加入卷积核,一个编码器是一种风格,不同的style是不同的卷积核

首先训练编码解码器,再训练style,训练参数

不同的卷积核可以同时训练

同时用多个卷积核,进行风格融合,不同的区域采用不同的style

 

第八组  快速风格迁移

针对一个style

 

第九组 车辆检测

车辆检测无人驾驶技术的前提

第一步:生成车辆的候选区域

车辆检测方法:背景差分法等

基于深度学习的车辆检测算法

输入一个视频流,通过检测系统返回标出车

算法:Faster R-CNN通过RPN来代替传统的标框的方法

VGG-16

 

第十组 多域图像转换

生成对抗网络

输入一张图片,经过一个训练器就输出转换成多种结果

starGAN

辅助判别器

两个生成器

判别器:将图片判别到相应的域中

优化:

对抗性损失:

域分类丢失

重建损失:循环一致性损失

目标函数

对一个图像的某个特点进行变换,其他不变

微笑,愤怒这些都是标签

 

第十一组 异常事件检测

视频中的异常检测

视频帧预测网络的实现路径

U-Net卷积神经网络:改进的全卷积

收缩路径和扩展路径,23层 

 

第十二组 FCN 全卷积神经网络

之前无法对图片中的多个物体进行分类

在CNN最后的一维基础上进行改进,取消全连接改为1*1的卷积核

反卷积,上采样将图像变大

跳跃结构,最后得到的是高维特征会丢失低维的特征,采用跳跃结构保留一些低维特征

 

第十三组 已经没兴趣了

 

最后我准备选择图像融合的论文来自己实现

你可能感兴趣的:(人工智能)