时间:2017-6-2 ~2017-6-4
地点:北京市海淀区中关东路95号中国科学院自动化所
主题:深度学习+视觉大数据
有幸在团队及团队老师的支持下与高老师一起赶赴北京,参加了这场由中国图像图形学会组织的以“视觉大数据+深度学习”为主题的学科前沿讲习班。讲者都是图像图形和机器学习领域的专家,挂的头衔也太多了这里就不多说了。
首先上午第一个讲解的是黄铁军老师针对大数据时代的视觉信息处理的报告,主要讲解了视频大数据面临的三大挑战、高效编码、特征编码、仿生视觉。自己的理解就是现在每天产生得视频图像数据非常大造成了在存储、传输、识别方面的问题。接下来就是讲解了一下黄老师制定的ISO/IEC视频特征编码国际标准和AVS2视频标准(这一块听得不是很感兴趣)
看一下视频吧。。。AVS2用到的技术方法如下:
展示了基于背景建模的视频编码方式。对视频图像的使用者进行了对比(是给机器看的),讲解了SIFT应用的问题:1特征数据大2兴趣点检测复杂度高3SIFT特征匹配和检索的复杂度高,介绍了改进SIFT中LoG算子的快速算法BFLoG。
黄老师从生物学的基础开始讲解生物是如何通过视觉系统分析事物特征的,并讲解了认知的过程:
讲解了生物处理视觉信息的过程,并模拟该过程对猴子的视网膜及信号转换识别进行了仿真。
第二场是陈宝权老师的城市场景三维感知与分析,目前还没有拿到PPt智能通过拍的图片讲解,讲解了城市大数据(数据时空精准耦合、虚拟-现实无缝融合、人脑智能高度融合),真对现有数据的多源异构、测量高维、动态模糊、传感数据、局部冗余、时空断裂等问题进行了分析。通过车载激光扫描获得城市的全貌从而引出了扫描时出现的问题:扫描数据稀疏缺失
特点: 挑战: 创新点:
几何丰富多样——》提取几何内在规划 1.场景层次化语义构建
物体类别繁杂——》按类构建共性特征 2.建筑植物之高效重建
场景日新月异——》主动式扫描与建模 3.自动扫描与智能建模
我感兴趣的对于重建时的遮蔽问题是通过改变扫描的角度或扫描距离并结合一定的先验知识进行的点云和图像融合建模。
展望了未来研究内容:
一、城市场景的全息表达与渐进式构建
二、城市多模态数据的语义计算与融合
三、复杂事件的临场分析与推理
建模的图片数据集的网址如下:
主要通过学习先验知识建立模型来解决遮蔽问题。
接下来是浙江大学的吴飞老师讲解的跨媒体计算:从浅层关联到深度建模,个人感觉有点听不太懂,基本上解决了跨媒体计算(通过学习和推理,来实现从一种媒体类型到另外一种媒体类型的跨越)时的即打破异构鸿沟又填补语义鸿沟
主要表现形式如下:
接下来就是介绍了几种创新的深度建模方法(听不懂啊!!!想要了解就看PPT吧)
最后就是总结了一下跨媒体计算的重要性及新一代人工智能中五大智能方向:大数据智能、群体智能、跨媒体智能、混合增强智能、自主无人系统。
接下来是上海交通大学的杨小康老师讲解的深度过程学习,个人感觉主要是专对事物发展的程序和阶段进行的学习,针对过程数据的随机、动态特点,发现其中的统计规律,并建立随机过程模型,这个过程的难点:(模型选择难、模型拟合难、模型应用难)“很难适应信息社会快速变化的开放环境和不断涌现的新现象”,这个“过程学习”主要是从(大规模、高维)数据中,学习过程动态规律。
挑战:
讲解了点过程的深度学习方法——事件序列(异步触发)时间序列(同步采样)的联合深度学习,并介绍了点过程模型的条件强度函数和常见的点过程,并对多维多任务Hawkes过程的群体模型(IPTV用户聚类和结构)的应用和模型进行了介绍。接下来介绍了卷积神经网络(CNN)和循环神经网络(RNN),并引出了双序列点过程学习的模型。下面是具体实验
接下来是说把点过程应用到视觉领域,主要是根据神经网络对视频图像中提取出来的对象动作放到点过程的模型中来,预测下一步视屏中对象发生的事件动作。主要用到空间点过程+对抗生(GAN对抗生成网络)成模型的方式生成一幅风景画。
下一场是西安交通大学的薛建儒场景视觉大数据的深度学习与认识计算,但主要讲解的不是这个题目而是具体应用无人车场景计算与自主运动,介绍了西交的无人车,其主要通过视觉伺服建立场景地图(交通地图+感知数据),其中主要应用激光+GPS+视觉的数据通过平移、旋转、尺度变化来对这个多源异构事件进行融合达到时间上的配准(转换到同一坐标系下)。主要的蔽障技术是通过感知(预测)与车道(行车线识别及规则划分)结合,这样意可建立现实交通世界的语义地图。展示了一下现在的研究成果。
无人车上放了4个工控机来提高计算速度
接下来是第6个,合肥工业大学的徐常胜老师讲解的连接社会多媒体大数据,基本上全是将的大数据的采集处理、普氏计算和推荐算法的讲解的,跟图像图形方面没有关系,所以基本上都听不太懂,这里就略过了。。。有兴趣的可以看一下作者ppt。
下一个是由清华大学季向阳老师讲的视觉大数据计算成像与智能处理,主要讲解了两个方面的知识,第一个是对于分割和目标检测基础研究的深度卷积神经网络技术,介绍了全卷积神经网络在在语义分割和实例淹模研究方向的发展,并介绍了视频三维全卷积动作的定位与识别技术。重点是应用全光函数的定义来探讨从单一维度成像拓展到多维耦合成像与解耦重构的计算成像。我的理解就是通过一张图片中的信息来提取出当前场景下全光函数的七个维度参数并建立各个维度之间的关联模型,接下来通过采集某一个维度的数据来计算重建其他维度的图像数据。
这个报告的PPT还没有拿到。。。
下边是中山大学郑伟诗老师讲解的多模态视觉信息处理与应用,感觉老师讲的东西有点多,大的方向就是通过把不同条件下同一物体的不同特征进行融合通过深度学习的方式建立多模态数据模型,从而预测物体的运动轨迹。在通过RGB特征时用到了预测学习方法(自己定义的)和软回归模型,公式中画圈的部分就是改进的部分,来控制模型的预测。
接下来讲解了在特定共享框架下的多模态融合,如下:包括颜色、骨架、深度、、、
其中结合RGB和depth通道的特点来影响HOG提取轮廓。下一步就是构建异质特征的关联模型Joint learning model。
下边讲解了非对称人体识别的算法公式:有点听不懂(因为只讲了关键平方部分)
模型建立过程:
下面讲解了人脸在可视光与红外光人脸匹配
下一场是南京大学吴建鑫老师讲解的基于深度学习的细粒度图像分析,个人理解是这项技术的主要工作就是通过深度学习的方式从一些很难分类的物体中把不同种类的物体分离出来“达到专家水平”,就像下边的这幅图一样袋鼠和狗这两个类很容易区分,但是针对狗狗中的类而且又长得很相似的狗狗分出来是很困难的。
这次报告主要讲解的就是从两方面“细粒度图像分类”和“细粒度图像检索”来讲解的,第一个的分类模型主要是从强监督和弱监督两个,其中强监督主要不仅有标签、Object Bounding Box还有部位标注点(Part Annotation)(有些标注的方法是通过网络游戏获取的)
下面就是介绍了几个基于强监督的细粒度图像分类的模型:
1.Part-based R-CNN (回归深度卷积神经网络在部位分类模型)
2.Pose Normalized CNN (姿态分类的深度卷积神经网络)
用DPM算法得到Part Annotation的预测点后获得物体级别和部位级别的检测框
3.Mask-CNN()
该模型亦分为两个模块,第一是Part Localization;第二是全局和局部图像块的特征学习,与其他模型不同的是
提出借助FCN学习一个部位分割模型(Part-Based Segmentation Model)。其真实标记是通过Part Annotation得到的头部和躯干部位的最小外接矩形
FCN后就是part定位。
就不多说了有兴趣的看看这个PPT
还有由于标注的代价昂贵就提出来弱监督信息分类(只使用图像的级别标注,而不用Part Annotation)
1、Two Level Attention Model
2、Constellations(星云——卷积图形可视化)
3、Bilinear CNN
其他的模型就不多说了
下边就是细粒度图像检索的模型:(无监督环境下图像检索)
还讲解了一下SCDA的算法流程:
没有精细的Part Annotation,就连图像级别标记都无从获取的情况下进行无监督图像检索,将卷积特征(HxWxD)在深度方向做加和,之后可以获得Aggregation Map(HxWx1)。在这张二维图中,可以计算出所有HxW个元素的均值,而此均值m便是该图物体定位的关键:Aggregation Map中大于m的元素位置的卷积特征需保留;小于的则丢弃。这一做法的一个直观解释是,细粒度物体出现的位置在卷积特征张量的多数通道都有响应,而将卷积特征在深度方向加和后,可以将这些物体位置的响应累积——有点“众人拾柴火焰高”的意味。而均值则作为一把“尺子”,将“不达标”的响应处标记为噪声,将“达标”的位置标为物体所在。而这些被保留下来的位置,也就对应了应保留卷积特征描述子的位置。后续做法类似Mask-CNN。
还讲解了一下基于PCA的物体协同定位,细粒度图像的部件定位等等,详见PPT。
下面是由复旦大学姜育刚老师讲解的面向视频内容识别的深度学习方法,主要是针对用户生成的视频图像进行内容的识别,介绍了现有的数据集及数据集中的分类情况:
介绍了他们用的数据集:
下面介绍了一下基于正则深度神经网络的视频分类方法
还讲解了一下Two-Stream CNN的(个体框架Individual frame和堆叠光流Stacked optical flow的部分)的识别模型,接下来就是介绍了一下Hybrid Deep Learning Framework(混合深度学习框架)模型的建造过程
下面讲解了基于VCDB视频的视频拷贝检测(版权问题,盗版视频需求),
主要流程如下,看的不是很懂
这里就是本次CSIG图像图形学科前言讲习班的学习心得,收获还是挺多,应用方面涵盖了像对于高清监控数据传输、自动驾驶、反恐舆情、图像检测分类、智能推荐、智能城市、等等不同领域。主要是基于深度学习模型+视觉大数据的处理方法,但这些方法中也有一些黑盒技术(很好用但不知其原理,直接是研究的过程),感觉这个领域还有很多有意思的东西等着我们去深入理解推导认知,本人对深度学习的了解还是比较浅显,以后还有多多学习深度学习方面相关的知识,本文就当是给大家做了一个文献综述了。。。