我是谁_谁是我

基于深度学习的视频预测研究综述

原址：http://html.rhhz.net/tis/html/201707032.htm

（收集材料ing，为论文做准备)[综述性文章，，，可以做背景资料]

莫凌飞, 蒋红亮, 李煊鹏

摘要：近年来，深度学习算法在众多有监督学习问题上取得了卓越的成果，其在精度、效率和智能化等方面的性能远超传统机器学习算法，部分甚至超越了人类水平。当前，深度学习研究者的研究兴趣逐渐从监督学习转移到强化学习、半监督学习以及无监督学习领域。视频预测算法，因其可以利用海量无标注自然数据去学习视频的内在表征，且在机器人决策、无人驾驶和视频理解等领域具有广泛的应用价值，近两年来得到快速发展。本文论述了视频预测算法的发展背景和深度学习的发展历史，简要介绍了人体动作、物体运动和移动轨迹的预测，重点介绍了基于深度学习的视频预测的主流方法和模型，最后总结了当前该领域存在的问题和发展前景。

关键词：视频预测深度学习无监督学习运动预测动作识别卷积神经网络递归神经网络自编码器

Review of deep learning-based video prediction

MO Lingfei, JIANG Hongliang, LI Xuanpeng

Abstract: In recent years, deep learning algorithms have made significant achievements on various supervised learning problems, with their accuracy, efficiency, and intelligence outperforming traditional machine learning algorithms, in some instances even beyond human capability. Currently, deep learning researchers are gradually turning their interests from supervised learning to the areas of reinforcement learning, weakly supervised learning, and unsupervised learning. Video prediction algorithms have developed rapidly in the last two years due to its capability of using a large amount of unlabeled and naturalistic data to construct the forthcoming video as well as its widespread application value in decision making, autonomous driving, video comprehension, and other fields. In this paper, we review the development background of the video prediction algorithms and the history of deep learning. Then, we briefly introduce the human activity, object movement, and trajectory prediction algorithms, with a focus on mainstream video prediction methods that are based on deep learning. We summarize current problems related to this research and consider the future prospects of this field.

Key words: video prediction deep learning unsupervised learning motion prediction action recognition convolution neural network recurrent neural network auto encoder

“我们缺乏的一个关键要素是预测(或无监督)学习：机器具有模拟环境，预测未来的可能性，以及通过观察和参与理解世界如何运作的能力。”[1]

近年来，深度学习在学术界和工业界得到了广泛的发展和应用，其在计算机视觉[2-6]、语音识别[7]、自然语言处理[8-9]以及游戏策略[10-11]等众多领域取得丰硕成果，在某些领域甚至取得了超越人类的表现。但当前的深度学习算法模型大部分都是以有监督的方式训练，模型严重依赖于大量的标注数据和长时间的训练。以知名的ImageNet数据集[12]为例，其包含1 500万张人工标注的图片，超过2.2万个类别，创建和标注一个如此大规模的数据集需要耗费许多人数月的时间才能完成。另外，依赖大量的标记数据来获取概念和知识与人类的学习机制不符，人类依赖很少的样本就可以获取一个新的概念。当儿童第一次观察到“猫”并被告知这种动物是“猫”以后，儿童并不需要长期被重复告知这是“猫”，但监督学习的方式需要大量的样本以及多次重复训练，才能掌握“猫”的概念。以类似人类的方式，通过有限样本或者无监督的方式获取知识和表征，成为当前人工智能领域的热点研究问题。

另外，人类与其他动物的一个重要区别是人类有很强的预测能力。尽管一些动物也有一些预测能力，例如在围捕猎物、躲避天敌和预测天气变化上等；但人类显然有更强的推理和预测能力，例如，人类驾驶汽车时可以推理其他汽车的运行轨迹，提前决策。当前计算机视觉领域的研究，也逐渐开始借鉴人类这种“预测编码”能力。

在这种背景下，视频预测因其可以用海量的无标注自然视频数据来训练，而且具有广泛的应用场景，成为了当前深度学习研究领域的一个热点研究方向，并且已经取得了一定的研究成果。

给出一个视频序列，预测未来视频，这需要构建一个可以精准建模视频内容和动态变化的内部表征模型，这也是视频预测被视为无监督表征学习的一个很有前景的研究方向的原因。视频预测模型学习到的表征可以迁移到监督学习任务中。例如，文献[13]通过实验证明，通过无监督视频预测模型学习到的表征可以在动作识别数据集上提升分类结果，因此建模视频动态是一种有效的无监督表征学习方法。另外，在视频中推断未来的场景可以使机器人、自动驾驶汽车和无人机提前决策，因此有广泛的应用价值。

1 深度学习概述

机器学习算法是一种可以自动从数据中发现规律，并利用此规律对未知数据进行预测的算法，机器学习在数据挖掘、计算机视觉、自然语言处理、搜索、推荐系统以及策略游戏等众多领域得到了广泛的应用，取得了突出的成果。然而，自然界的原始数据，例如图像、视频和传感器测量数据等一般具有高维度、高复杂性和高冗余性的特点，人工提取特征需要依赖专家知识，费时费力且提取到的特征通常不太好。而传统机器学习算法往往依赖人工提取特征，导致实际的机器学习问题退化为数据预处理和特征工程[2]，成为机器学习应用和发展的一大障碍。

深度学习是人工神经网络(artificial neural network, ANN)的一个分支。最早的人工神经网络研究可以追溯到Mcculloch和Pitts[14]在1943年提出的阈值逻辑单元，他们从原理上证明了人工神经网络可以计算任何算术和逻辑函数。随后Hebb学习规则[15]、感知机[16]、反向传播算法[17]等概念先后被提出，并得到了一定的应用，例如手写数字识别[18]和语音识别[7]。然而，由于当时人们对神经网络认识有限，计算机的计算能力也有限，神经网络并未得到过多关注。2006年，Hinton等提出以无监督限制玻尔兹曼机(restricted Boltzmann machine, RBM)进行逐层预训练的方法来高效地训练多层神经网络[19]，深度学习的概念开始进入公众视野。2012年Krizhevsky等使用深度卷积神经网络(convolutional neural network, CNN)[18]构建的AlexNet模型[3]以绝对优势赢得了ImageNet大规模图像识别竞赛(ILSVRC2012)的冠军，AlexNet的成功成为了计算机视觉发展史上的转折点，自此深度学习得到了飞速发展。卷积神经网络(convolutional neural network, CNN)、递归神经网络(recurrent neural network, RNN)[20]、自编码网络(auto encoder)[21]和生成对抗网络(generative adversarial networks, GANs)[22]及其各种变种得到了广泛的发展和应用。

表征学习(或特征学习, representation learning)[23]旨在利用机器自动从原始高维数据中获得可以被机器学习算法高效利用的特征[21]。深度学习可看作一种通过简单、非线性映射方式获取多层特征的表征学习方法，它把原始输入数据通过逐层映射，转变为高阶的、更为抽象的特征。以分类问题为例，高层的表征放大了那些更有区分度的特征，而抑制了那些无关变量。深度学习被证明非常擅长发现高维度数据中的复杂特征，因此在科学界和工业界得到广泛应用，并打破了图像识别、语音识别和机器翻译的记录。

2 深度学习主要模型

近些年来，有越来越多的深度学习模型被提出，其中最基础、最重要的模型主要有卷积神经网络、递归神经网络、自编码器以及生成对抗网络，这几种模型构成了视频预测模型的基础，下面我们简要介绍这4种主流模型。

2.1 卷积神经网络

卷积神经网络是前馈神经网络的一种，这种神经元连接模式受动物视觉皮层检测光学信号原理的启发[24]。1980年Fukushima等[25]提出了CNN的前身——NeoCognitron，20世纪90年代，Lecun等[18]发表论文，确立了CNN的现代结构，这是一种多层的人工神经网络，取名为LeNet-5。自2012年起，研究人员又不断提出更深、性能更强的卷积神经网络模型：AlexNet[3]、VGGNet[5]和ResNet[6]等。卷积神经网络一般是由多个卷积层和全连接层组成，卷积操作、局部连接性和权值共享是卷积神经网络最显著的特点。卷积神经网络通常用来处理2-D结构的数据，其在图像领域和语音识别上都得到了广泛的应用。

2010年，Zeiler等[26]首次提出了反卷积(卷积转置或小数步进卷积，Deconvolution)的概念，用于卷积神经网络的特征可视化以及图像无监督特征学习。反卷积网络被越来越多的模型所采用，例如图像语义分割[27]、生成模型[28]等。另外，为处理序列图像，Ji等[29]使用3-D卷积去提取数据的空间和时间特征，从而可以使卷积神经网络能很好地处理序列信息，3-D卷积在人体动作识别等领域取得了显著的结果。

2.2 递归神经网络

递归神经网络[20]是一种处理序列数据的神经网络，它把状态在自身网络中循环传递，能够处理任意长度的序列，递归神经网络比前馈神经网络更加符合生物神经网络的结构。

因为RNN容易受到梯度消失或者梯度爆炸的影响，Schmidhuber等[30]在1997年提出了长短期记忆(long short term memory, LSTM)神经网络，该模型增加了“遗忘门”和“更新门”。实验表明，LSTM模型能有效避免梯度消失或者梯度爆炸的问题，很好地解决了长期依赖问题。随后学者提出了很多LSTM模型的变体。Gers等[31]于2001年提出了窥视孔LSTM(peephole LSTM)，该模型增加了一个窥视孔连接，意味着可以让门限层监视神经元状态。Cho等[32]于2014年提出了门递归单元(gated recurrent unit, GRU)，它组合遗忘门和输入门为一个“更新门”，合并了神经元状态和隐层状态，这个模型比标准的LSTM模型更简单。Shi等[33]在2015年提出了卷积LSTM(convolutional LSTM)，把卷积层和递归层做了很好的结合，卷积LSTM与常规LSTM的区别是把部分矩阵乘积操作换成了卷积操作。因为卷积LSTM可以很好地处理图像的空间信息和时间动态信息，它在图像生成模型和视频处理等领域得到了广泛应用。

2.3 自编码器

自编码器是一种以无监督的方式来学习数据表征的神经网络，通常用来做数据降维[21]。自编码器通常分为编码器和解码器两部分，编码器将数据编码为潜在变量，解码器将潜在变量重建为原数据。

自编码器有很多变体，例如降噪自编码器[34]、稀疏自编码器[35]、变分自编码器(VAE)[36-37]。因为自编码器可以高效地进行数据降维，相当一部分视频预测模型采用了自编码器架构。

2.4 生成对抗网络

Goodfellow等[22]在2014年提出了生成对抗网络的概念，其为生成模型提供了一种全新的高效训练模式，近两年来生成对抗网络成为了机器学习领域最热门的研究方向之一。LeCun认为“生成对抗网络是过去十年来机器学习领域最有趣的想法”，很多GAN的衍生模型，如条件GAN(condition GAN)[38]、InfoGAN[39]、DCGAN[28]相继被提出。

生成对抗网络由一个生成器(generator, G)和一个判别器(discriminator，D)组成。生成器输入一个潜在编码，其输出需无限逼近真实样本；判别器的输入为真实样本和生成器的输出，并识别出真实样本和生成样本。两个网络以零和博弈的方式交替训练，训练鉴别器时最小化鉴别误差，训练生成器时最大化鉴别误差，最终目的是使鉴别器无法鉴别出生成样本和真实样本，生成器的输出与真实样本分布一致。生成对抗网络的架构如图1所示。

生成对抗网络的目标函数可以用式(1)描述：

minGmaxDV(D,G)=Ex∼pdata(x)[logD(x)]+Ez∼pz(z)[log(1−D(G(z)))]minG⁡maxD⁡V(D,G)=Ex∼pdata(x)[log⁡D(x)]+Ez∼pz(z)[log⁡(1−D(G(z)))]

(1)

生成对抗网络在生成逼真的自然样本[28]、图像超分辨率[40]、三维建模[41]、图像风格迁移[42]和视频预测领域[43]得到了广泛应用。

3 运动预测研究

给出一张静态图片或者一段场景视频，人类不仅可以迅速地获取图像中的即时内容，还可以推断出图像中的场景动态。然而，对于计算机来说，推演出图像中的场景动态是一个比较困难的任务，因为它依赖计算机利用自然界大量难以参数化的知识来建模[44]。

Download:

JPG larger image

图 1 生成对抗网络架构Fig. 1 Architecture of generative adversarial nets

在视频预测研究兴起之前，学术界比较关注的是运动预测。运动预测一般是指从静态图像或视频前几帧中推断出人体动作、物体移动轨迹等动态信息；而视频预测是从静态图片或视频前几帧中直接预测未来图像。本节我们对动作、运动和物体移动轨迹预测算法进行简要回顾。

3.1 动作和运动预测

从静态图像或有限帧视频中预测人类动作和行为是一个比较基础也比较重要的任务。在动作预测方面，研究人员主要使用统计学习方法和传统的机器学习方法来建模。Lan等[45]和Hoai等[46]使用最大化边界框架来推测动作场景；Ryoo[47]把动作预测问题概率化，使用时空特征积分直方图来建模特征分布如何随时间变化；Vu等[48]提出了一种使用动作和场景之间的关联信息，从静态场景中预测人类动作的方法；Pei等[49]提出了一种基于随机场景感知语法的事件解析、推断事件目标和预测可信动作的算法，与Vu的方法类似，该方法使用事件的层次组成和子事件间的时态关系来鉴别不同事件以及预测动作；Fouhey等[50]和Koppula等[51]通过使用条件随机场来建模人的可能动作从而来做未来场景的预测。

Huang等[52]提出了一种基于双实体交互的方式来理解一个实体的动作如何影响另外一个实体的动作。本文把双实体交互模型看作一种最优控制问题，该模型使用一种基于核以及增强学习的近似软最大值函数去处理高维度的自然人体运动，另外还使用了连续代价函数的均值转移方法来平滑动作序列。

Pickup等[53]、Lampert等[54]和Pintea等[55]分别用统计流方法、向量值回归和随机森林回归算法回归物体移动方向；Pintea等还论证了运动预测在动作识别、运动显著性检测等方面有很大的应用价值。也有学者使用深度学习进行动作预测。Vondrick等[44]提出一种用深度回归网络的方法来学习视频表征，结合动作识别模型，能够很好地根据静态图像来推测未来动作。

3.2 物体移动轨迹预测

除人体动作和运动预测外，物体轨迹预测也具有广泛的应用价值。Kitani等[56]提出了一种基于马尔可夫决策过程和反转最优控制的动作理解和轨迹预测方法，并在运动分析(包括运动平滑、路径和目的地预测)以及场景迁移学习上做了定量和定性的评估。Kitani等[56]和Gong等[57]都提出用行人轨迹预测来辅助多目标追踪，并取得了高效的结果。

Kooij等[58]提出了一种动态贝叶斯网络来做行人路径预测；Walker等[59]使用条件变分自编码器来预测静态图像中每个像素的运动轨迹；Walker等[60]使用光流算法来标记视频，进而训练一个光流预测模型，该模型可以预测每个像素的运动；Walker等[61]还尝试了通过奖赏函数选择最优目标的方式建模汽车运动的轨迹。

Yuen等[62]提出一种基于大数据的方法，通过检索大数据中与被检索图片或视频相似场景的方式来预测物体可能的位置，该方法类似于k近邻算法，不需要训练模型，在数据量足够大的情况下可以取得比较好的效果；Mottaghi等[63]使用两个CNN和一个RNN来建模物体移动动态，从而预测可能移动的物体。

运动预测模型一般从建模移动物体的运动轨迹出发，能较好地预测前景物体的瞬时运动轨迹，其处理的数据维度低于视频预测，但不能预测图像的结构信息，且其学习到的特征无法迁移到有监督学习领域，因而其应用范围和价值有限。

4 视频预测模型架构

“不是我创造的，我就不能理解。”著名物理学家Feynman这句话背后的内涵是：通过构建验证过的概念来理解事物。在人工智能领域，可以理解为：如果一个机器能够生成高度真实的数据，那么它就发展出了对自然数据的理解能力。

视频预测是指给出一段连续视频帧 X1,X2,⋯,X1,X2,⋯, Xn，构造一个模型可以精准地生成随后的帧 Xn+1,Xn+1,Xn+2,⋯,Xn+tXn+2,⋯,Xn+t (t是需要预测的帧的数量)。或者，给出一段序列 X1,X2,⋯,XNX1,X2,⋯,XN ，其中 Xn(1

一般常用于评估视频质量的指标有均方误差(mean square error, MSE)、峰值信噪比(peak signal to noise ratio，PSNR)和结构相似性(structural similarity index，SSIM)。用Y来表示真实帧， Y^Y^ 表示预测帧，MSE、PSNR和SSIM的定义如式(2)~(4)：

MSE(Y,Y^)=1N∑i=0N(Yi−Y^i)2MSE(Y,Y^)=1N∑i=0N(Yi−Y^i)2

(2)

PSNR(Y,Y^)=10lgmax2Y^1N∑i=0N(Yi−Y^i)2=10lgmax2Y^MSE(Y,Y^)PSNR(Y,Y^)=10lg⁡max2Y^1N∑i=0N(Yi−Y^i)2=10lgmax2Y^MSE(Y,Y^)

(3)

式中 max2Y^max2Y^ 是像素的最大值，例如8位的像素表示法，其像素最大值是255。PSNR的值越大，代表失真越小。

SSIM(Y,Y^)=(2μYμY^+c1)(2σYY^+c2)(μ2Y+μ2Y^+c1)(σ2Y+σ2Y^+c2)SSIM(Y,Y^)=(2μYμY^+c1)(2σYY^+c2)(μY2+μY^2+c1)(σY2+σY^2+c2)

(4)

式中： μYμY 是Y的均值； μY^μY^ 是 Y^Y^ 的均值； σ2YσY2 是 YY 的方差； σ2Y^σY^2 是 Y^Y^ 的方差； σYY^σYY^ 是 YY^YY^ 的协方差；c1=c1= (k1L)2(k1L)2 和 c2=(k2L)2c2=(k2L)2 是用于维持稳定的常数；L是像素值的动态范围，k1=0.01，k2=0.03；SSIM的范围是 –1~1，值越大表示相似度越大。

视频预测为一个较新的研究领域，目前尚未有专用于视频预测的数据集，学者一般使用视频动作数据集进行训练和测试。表1给出了部分常用数据集和使用该数据集的部分文献。

表 1 视频预测算法常用数据集Tab.1 Common datasets used by video prediction algorithms

视频预测模型一般基于自编码器架构、递归神经网络架构和生成对抗网络架构，表2为部分基于以上3类架构的视频预测文献概览。下面我们按照这3类进行介绍。

4.1 自编码器架构

自编码器因其可以进行高效的压缩编码，因而很多视频预测模型采用自编码器来进行视频的降维和生成。基于自编码器的视频预测常用架构如图2所示。

Yan等[81]提出了一种深度动态编码器模型(deep DynEncoder)，该模型输入原始像素图像，经编码器编码成隐状态变量，然后使用动态预测器(DynPredictor)将时序动态编码。使用合适的堆叠策略、逐层预训练和联合微调，可以构建多层深度动态编码器。实验表明，文献[81]提到的方法可以描绘复杂的视频动态，合成高质量的纹理序列视频。作者还构造了基于深度动态编码器模型的分类和聚类方法，在交通场景分类和运动分割上取得了接近甚至优于之前最好的模型的效果。

Vukoti等[65]提出基于时间差 ΔtΔt 的卷积自编码器模型。编码器有两个分支，一个接收输入图像，另外一个接收期望预测的时间差 ΔtΔt ，解码器根据编码器输出的潜在变量生成可信的图像。以没有时间差输入的常规卷积自编码器模型为基准，作者提出的方法在KTH数据集上生成的图像有更高的语义性，均方误差也更低。然而，该模型存在诸多不足，例如生成的人体动作具有歧义，不能很好地建模快速移动的物体，不能充分地处理前景和背景信息等。

Liu等[73]提出一种深度体元流模型，该模型是一种全卷积自编码器架构，由3个卷积层、3个反卷积层和一个瓶颈层组成。为更好地保留空间信息，在每个卷积层和反卷积层之间有跳跃连接。在UCF-101和THUMOS-15数据集上的内插和外推视频实验上的结果表明，该模型比文献[70]中提到的多尺度对抗训练架构和光流法的结果要更优。

Xue等[87]提出一种基于变分自编码器和交叉卷积网络的模型，该模型可以从一张图片生成可能的未来帧。该模型通过条件变分自编码器来建模未来帧的复杂条件分布。另外，该模型利用了图像差分(欧拉运动)原理，因为图像差分是稀疏的，并且比原始图像更容易建模。Xue等还在合成数据集与自然图像上验证了模型的有效性，另外，作者还通过实验证明了该模型在无监督、零样本类比学习上取得了很好的结果。

4.2 递归神经网络(RNN)架构

递归神经网络可以很好地进行序列数据建模，视频预测本身也是一种序列学习问题，很多研究人员采用递归神经网络来解决视频预测问题。基于编解码的递归神经网络架构如图3(a)所示。

Ranzato等[82]从自然语言处理领域借鉴了经典的n-grams算法，将之与CNN和RNN结合起来，给出了一个视频预测和视频插值的基准。Ranzato还在RNN架构基础上提出了递归卷积神经网络(recurrent convolution neural network, RCNN)架构，RCNN是在RNN输入和输出端连接卷积层，使其能够更好地处理图像结构信息。

Srivastava等[13]提出了一种使用LSTM架构的无监督视频表征学习模型。该模型将图像经过编码器编码后送入LSTM网络，解码器可以重建原视频，或者预测未来视频。然而，一个高容量的自编码器网络倾向于记忆输入数据，预测模型倾向于仅仅存储最近几帧，因此本文提出了一个复合模型，复合模型可以同时重构原图像、预测未来图像，强迫模型来更好地学习视频表征。Srivastava最后把无监督学习过程学习到的表征应用到有监督学习——动作分类中，实验结果表明，在训练样本很少的情况下，无监督视频预测学习到的特征显著提升了分类结果。

Lotter等[76]从神经科学的“预测编码”概念获得启发，提出了一种视频预测架构——PredNet，该架构的每一层只做局部预测，向后面的层传递残差。PredNet在KITTI数据集上的结果表明其可以统一建模背景和移动物体(车辆、行人)的运动。

Download:

JPG larger image

图 2 基于自编码器的视频预测模型架构Fig. 2 Architecture of video prediction based on auto encoder

Oh等[83]受DeepMind使用雅利达(Atari)游戏进行增强学习研究的启发，提出未来图像不仅与过去的图像有关，还与当前的操作行为有关。Oh因此提出一种由编码器、操作变换和基于CNN和RNN的解码器组成的模型。实验结果表明，基于操作信息的条件模型可以生成视觉上较真实的、可用于游戏控制的大约100帧预测视频。Finn等[84]随后也提出了基于动作的视频预测模型，该模型可以根据不同的动作预测不同的视频，该模型主要由卷积LSTM构成，通过跳跃连接(skip connection)保存图形背景信息，最后通过掩膜(mask)把背景和转变图像拼接起来。作者提出3个不同的架构：动态神经平流、卷积动态神经平流和空间变换预测器。这3个模型在视频预测上都取得了不错的结果。

以上提到的方法都是直接预测高阶的视频，由于误差累积和放大，预测多帧视频是一个非常困难的任务。Villegas等[68]用高阶结构信息辅助进行视频预测。他们提出的算法先从输入图像中提取人体骨架结构，然后预测骨架结构的变化，与参考图片联结在一起生成动作视频。实验表明，这种以高阶结构信息为条件的视频生成策略有效减小了误差传播和累积，在Human3.6M等数据集上取得了较好的效果，且可以预测多达128帧的视频。但是该方法仅能预测一种可能的运动，而且背景信息保持不变，不能建模背景的变化，因此有一定的局限性。

有些研究人员试图将背景和运动分开建模。Villegas等[72]提出一种基于自编码器、CNN和卷积LSTM架构的模型，该模型有两个编码器输入，其中一个编码器接收图像序列差分作为运动输入，使用LSTM建模运动动态，另一个编码器接收最后一帧静态图像，然后将LSTM的输出与静态图像的编码输出组合起来，经由解码器解码为预测图像。作者还提出多尺度残差版本，将编码器各个池化层的输出通过快捷连接接入到解码器，以更好地保存图像的结构信息。

4.3 生成对抗训练架构

生成对抗网络为机器学习领域引入了一种新的训练模式，其优越的性能引起了众多学者的关注，也有很多学者采用对抗训练的方式来进行视频预测。一种常用的基于编解码与生成对抗网络的视频预测架构如图3(b)所示。

Lotter等[80]提出了基于编码器、LSTM和解码器的预测生成模型，通过对抗训练的方式，在“弹球”数据集和计算机生成的旋转人脸数据集上取得了很好的结果，作者还论证了无监督预测学习是一种有力的表征学习方法。

在度量生成样本和真实样本的距离上，学者通常使用l1或者l2距离，然而，实验表明，仅使用l1或者l2距离作为损失函数会导致生成图像较为模糊，当向前预测更多帧的时候，该问题更为严重。Mathieu等[70]为解决预测图像模糊的问题，提出3个互补的解决策略：多尺度架构、对抗训练方法和图像梯度差分损失函数。

受限于卷积核的大小问题，卷积操作仅能处理短范围的依赖；另外，使用池化还会导致分辨率降低，文献[70]使用多尺度网络，通过在多个不同尺度的图像进行上采样和线性组合操作来更好的保持高分辨率。

Download:

JPG larger image

图 3 视频预测模型的抽象结构Fig. 3 Abstract architecture of video prediction model

为解决使用l1或者l2损失函数导致的图像模糊问题，文献[70]使用对抗训练方法。使用对抗训练方法，模型生成的图像更锐利。然而仅优化对抗损失函数会产生训练不稳定问题，生成器生成的图像通常可以生成“迷惑”鉴别器的样本，然而却与真实样本Y并不相似。为解决这个问题，作者使生成器采用对抗损失和lp组合损失函数。通过加入损失函数迫使预测图像的分布与真实图像的分布保持一致。

Mathieu等[70]还提出一种图像梯度差分损失，通过引入近邻图像强度差异来惩罚预测样本和真实样本之间的梯度不一致性。最终生成器损失函数为对抗损失、l2损失和图像梯度差分损失的加权和。Mathieu的实验结果表明，使用对抗损失函数和梯度差分损失函数，性能要超过仅使用l2损失函数，并且在图像锐利度上要远好于l2损失函数。Hintz[71]受文献[70]的启发，将生成器替换为储蓄池计算，鉴别器结构以及训练方法与文献[70]保持相同。作者在UCF-101数据集上的实验结果表明，虽然其在PSNR和SSIM评测上结果略低于文献[70]，但其收敛时间明显快于前者，也取得了相当好的结果。

图像语义分割具有广泛的应用价值。Luc等[85]在文献[70]的基础上，使用多尺度架构和对抗训练方法来预测语义分割图像。实验结果表明，预测语义分割图像的精度要好于直接预测RGB图像，且预测分割图像的平均IoU达到了真实图像分割结果的2/3。

表 2 视频预测算法概览Tab.2 Overview of video prediction algorithms

Vondrick等[43]提出使用时空卷积生成对抗网络的视频预测模型VGNN，该模型利用时空卷积网络将前景和背景解耦。本文使用生成对抗网络从潜在编码向量生成高维视频，分别提出了由时空卷积和反卷积组成的单流架构，以及可以建模静态的背景和动态的前景的双流架构。该模型在超过200万条视频上训练后可以自己“创作”视频内容。作者以自编码器架构作为基准，经“亚马逊土耳其机器人”测试。结果表明，双流对抗网络性能优于对应的单流对抗网络，远优于自编码器网络，甚至有20%的人认为模型生成的视频比自然视频更“真实”。在预测未来帧问题上，Vondrick等在生成器前加入一个编码器，将静态图片编码为潜在编码向量，作为双流生成对抗网络的输入，生成模型可以生成32帧的视频(一般视频是25帧/秒，因此模型可以生成约1.5 s的视频)。结果表明，生成器生成的视频虽然不是严格意义上的正确视频，但在语义上是可接受的。

Vondrick等最终把通过无监督方式学习到的鉴别模型参数用在监督学习任务上(例如动作分类)，将鉴别器最后一层替换为Softmax分类器。实验结果表明，使用无监督学习到的参数初始化分类器，在同样样本量大小情况下，其分类性能高于随机初始化的网络，对比效果图见图4。Jin等[79]使用基于生成对抗网络的时空特征学习方法，结合预测转向解析模型，可以增强现有的场景解析模型。其实验结果表明，其在Cityscapes视频分割数据集上取得了较好的结果。

Denton等[88]也提出将视频背景内容和运动前景分开编码的视频表征分解模型，与文献[80]不同的是，文献[88]是以生成对抗网络的方式训练背景内容编码器、运动姿势编码器以及解码器。在KTH数据集上的实验结果表明，文献[88]的视频预测在准确性和图像锐利性方面要好于文献[80]。作者还提出，背景内容编码器可以构建图像分类模型，运动前景编码器可以构建视频动作分类模型。

与文献[68]类似，Yan等[67]基于条件GAN架构，用人体骨骼作为辅助信息，可以生成多帧栩栩如生的运动视频。

Chen等[86]提出一种双向预测网络来进行视频插值，该模型采用编码器—解码器架构，通过两个编码器分别编码起始帧和结尾帧，从而产生一个潜在表征，解码器以潜在表征作为输入来生成多帧插值视频。该模型采用多尺度架构，其损失函数为l2重建损失、特征空间损失(以AlexNet最后一个卷积层提取到的特征作为基准)与对抗损失的加权和。该模型在合成2D数据集和UCF101数据集上的结果表明，其比基于光流场的模型的效果要更好。

5 结束语

当前深度有监督学习在计算机视觉、自然语言处理和机器翻译等领域取得了远超传统方法的性能，但这些成就多属于深度学习在感知层面的工作，这属于人工智能的第一步；下一步就是让机器能够理解自然界变化的规律，对自然界动态进行建模，使其能够对现实世界中将要发生的事情进行预测，要达到这一步，需要借助于无监督学习。无监督学习因其可以在自然界海量的无标注数据上进行训练，且应用范围广泛，因而被誉为“深度学习的圣杯”。

视频预测作为无监督学习的一个最新的也是最有前景的研究方向之一，其意义不仅在于能够很好地建模视频场景来推测未来视频，从而帮助机器能够更好地决策，还在于其以无监督方式学习到的内部视觉表征可以加速或提升弱监督学习和有监督学习的性能，因此得到了越来越多学者的关注，也取得了非常多的进展。但是，现有的方法仍旧存在许多不足：

1)当前提出的各种模型，结构比较单一，多数是基于自编码器、递归神经网络(包括LSTM)和生成对抗网络，虽然这些架构取得了不错的效果，但是仍无法高效建模自然界复杂的动态结构，导致当前的模型仅能预测有限的几帧或者几十帧图像，且在预测的后期画面会变模糊或者失去语义信息。

Download:

JPG larger image

图 4 在UCF101数据集上，VGAN鉴别器参数初始化分类器、随机值初始化分类器以及随机猜测类别的性能对比Fig. 4 Performance comparison of classifier initialized by VGAN discriminator’s parameters, classifier initialized by random value and random classification on UCF101

2)目前学术界使用的视频预测损失函数比较单一，常使用的损失函数是均方误差损失、对抗损失函数和图像梯度差分损失函数。因为图像具有高维复杂结构信息，当前常用损失函数没有充分考虑结构信息，导致模型预测的图像缺乏语义信息。另外，使用峰值信噪比、结构相似性作为图像评价标准，与人眼的视觉感知并不完全一致，人眼的视觉对于误差的敏感度并不是绝对的，其感知结果会受到许多因素的影响而产生变化，因此在图形评价指标上仍有待研究。

3)理论上，预测视频动态在机器人决策、无人驾驶和视频监控系统等领域具有广泛的应用价值，但当前视频预测的研究多数在学术界，且研究处于早期阶段，具体在工业界的应用还未起步。

视频预测学习是理解和建模自然界场景动态的有力手段，也是无监督学习的一个新的、重要的突破点，尽管该领域的研究面临着不少挑战和未解决的问题，但当前认知科学和深度学习领域发展非常迅速，尤其是在增强学习、半监督学习和无监督学习方向，且当前的计算机计算能力越来越强，这些有利因素定会加速视频预测研究的进展。

参考文献

[1]	LECUN Y. Predictive Learning[R]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016 (1)
[2]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539 (2)
[3]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. South Lake Tahoe, NV, USA, 2012: 1097–1105. (2)
[4]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1026–1034. (2)
[5]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[Z]. arXiv preprint arXiv: 1409.1556, 2014. (1)
[6]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778. (2)
[7]	HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82-97. DOI:10.1109/MSP.2012.2205597 (2)
[8]	SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 3104–3112. (1)
[9]	BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3: 1137-1155. (1)
[10]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[Z]. arXiv preprint arXiv: 1312.5602, 2013. (1)
[11]	SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489. DOI:10.1038/nature16961 (1)
[12]	DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255. (1)
[13]	SRIVASTAVA N, MANSIMOV E, SALAKHUDINOV R. Unsupervised learning of video representations using LSTMs[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 843–852. (8)
[14]	MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5(4): 115-133. DOI:10.1007/BF02478259 (1)
[15]	HEBB D O. The organization of behavior: A neuropsychological theory[M]. New York: Chapman & Hall, 1949.(1)
[16]	MINSKY M L, PAPERT S A. Perceptrons: an introduction to computational geometry[M]. 2nd ed. Cambridge, UK: MIT Press, 1988. (1)
[17]	RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536. DOI:10.1038/323533a0 (1)
[18]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791 (3)
[19]	HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554. DOI:10.1162/neco.2006.18.7.1527 (1)
[20]	JORDAN M I. Serial order: A parallel distributed processing approach[J]. Advances in psychology, 1997, 121: 471-495. DOI:10.1016/S0166-4115(97)80111-2 (2)
[21]	BENGIO Y. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2009, 2(1): 1-127. DOI:10.1561/2200000006 (3)
[22]	GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014: 2672–2680. (2)
[23]	BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798-1828. DOI:10.1109/TPAMI.2013.50 (1)
[24]	HUBEL D H, WIESEL T N. Receptive fields and functional architecture of monkey striate cortex[J]. The journal of physiology, 1968, 195(1): 215-243. DOI:10.1113/jphysiol.1968.sp008455 (1)
[25]	FUKUSHIMA K, MIYAKE S. Neocognitron: a self-organizing neural network model for a mechanism of visual pattern recognition[M]//AMARI S I, ARBIB M A. Competition and Cooperation in Neural Nets. Berlin Heidelberg: Springer, 1982: 267–285. (1)
[26]	ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA, 2010: 2528–2535. (1)
[27]	NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1520–1528. (1)
[28]	RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[Z]. arXiv preprint arXiv: 1511.06434, 2015. (3)
[29]	JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231. DOI:10.1109/TPAMI.2012.59 (1)
[30]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 (1)
[31]	GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como, Italy, 2000, 3: 189–194. (1)
[32]	CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[Z]. arXiv preprint arXiv: 1406.1078, 2014. (1)
[33]	SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2015: 802–810. (1)
[34]	VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11: 3371-3408. (1)
[35]	NG A. Sparse autoencoder[R]. CS294A Lecture Notes, 2011: 72. (1)
[36]	KINGMA D P, WELLING M. Auto-encoding variational bayes[Z]. arXiv preprint arXiv: 1312.6114, 2013. (1)
[37]	REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[Z]. arXiv preprint arXiv: 1401.4082, 2014. (1)
[38]	MIRZA M, OSINDERO S. Conditional generative adversarial nets[Z]. arXiv preprint arXiv: 1411.1784, 2014. (1)
[39]	CHEN Xi, DUAN Yan, HOUTHOOFT R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 2172–2180. (1)
[40]	LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[Z]. arXiv preprint arXiv: 1609.04802, 2016. (1)
[41]	WU Jiajun, ZHANG Chengkai, XUE Tianfan, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 82–90. (1)
[42]	ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-to-image translation with conditional adversarial networks[Z]. arXiv preprint arXiv: 1611.07004, 2016. (1)
[43]	VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 613–621. (6)
[44]	VONDRICK C, PIRSIAVASH H, TORRALBA A. Anticipating visual representations from unlabeled video[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA, 2016: 98–106. (2)
[45]	LAN Tian, CHEN T C, SAVARESE S. A hierarchical representation for future action prediction[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland, 2014: 689–704. (1)
[46]	HOAI M, DE LA TORRE F. Max-margin early event detectors[J]. International journal of computer vision, 2014, 107(2): 191-202. DOI:10.1007/s11263-013-0683-3 (1)
[47]	RYOO M S. Human activity prediction: Early recognition of ongoing activities from streaming videos[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 1036–1043. (1)
[48]	VU T H, OLSSON C, LAPTEV I, et al. Predicting actions from static scenes[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland, 2014: 421–436. (1)
[49]	PEI Mingtao, JIA Yunde, ZHU Songchun. Parsing video events with goal inference and intent prediction[C]//Proceedings of the 2011 IEEE International Conference on Computer vision. Barcelona, Spain, 2011: 487–494. (1)
[50]	FOUHEY D F, ZITNICK C L. Predicting object dynamics in scenes[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 2027–2034. (1)
[51]	KOPPULA H S, SAXENA A. Anticipating human activities using object affordances for reactive robotic response[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(1): 14-29. DOI:10.1109/TPAMI.2015.2430335 (1)
[52]	HUANG Dean, KITANI K M. Action-reaction: Forecasting the dynamics of human interaction[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland, 2014: 489–504. (1)
[53]	PICKUP L C, PAN Zheng, WEI Donglai, et al. Seeing the arrow of time[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 2043–2050. (1)
[54]	LAMPERT C H. Predicting the future behavior of a time-varying probability distribution[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 942–950. (1)
[55]	PINTEA S L, VAN GEMERT J C, SMEULDERS A W M. Déja vu: Motion prediction in static images[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland, 2014: 172–187. (1)
[56]	KITANI K M, ZIEBART B D, BAGNELL J A, et al. Activity forecasting[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012: 201–214. (2)
[57]	GONG Haifeng, SIM J, LIKHACHEV M, et al. Multi-hypothesis motion planning for visual object tracking[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 619–626. (1)
[58]	KOOIJ J F P, SCHNEIDER N, FLOHR F, et al. Context-based pedestrian path prediction[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland, 2014: 618–633. (1)
[59]	WALKER J, DOERSCH C, GUPTA A, et al. An uncertain future: Forecasting from static images using variational autoencoders[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 835–851. (1)
[60]	WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 2443–2451. (1)
[61]	WALKER J, GUPTA A, HEBERT M. Patch to the future: Unsupervised visual prediction[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 3302–3309.(1)
[62]	YUEN J, TORRALBA A. A data-driven approach for event prediction[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece, 2010: 707–720. (1)
[63]	MOTTAGHI R, RASTEGARI M, GUPTA A, et al. " What happens if...” learning to predict the effect of forces in images[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016: 269–285. (1)
[64]	SCHUKDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition. Cambridge, UK, 2004, 3: 32–36. (2)
[65]	VUKOTI V, PINTEA S L, RAYMOND C, et al. One-step time-dependent future video frame prediction with a convolutional encoder-decoder neural network[C]//Proceedings of the 19th International Conference on Image Analysis and Processing. Catania, Italy, 2017: 140–151. (5)
[66]	IONESCU C, PAPAVA D, OLARU V, et al. Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(7): 1325-1339. DOI:10.1109/TPAMI.2013.248 (2)
[67]	YAN Yichao, XU Jingwei, NI Bingbing, et al. Skeleton-aided articulated motion generation[Z]. arXiv preprint arXiv: 1707.01058, 2017. (5)
[68]	VILLEGAS R, YANG Jimei, ZOU Yuliang, et al. Learning to generate long-term future via hierarchical prediction[Z]. arXiv preprint arXiv: 1704.05831, 2017. (6)
[69]	SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[Z]. arXiv preprint axXiv:1202.0402, 2012 (2)
[70]	MATHIEU M, COUPRIE C, LECUN Y. Deep multi-scale video prediction beyond mean square error[Z]. arXiv preprint arXiv: 1511.05440, 2015. (13)
[71]	HINTZ J J. Generative adversarial reservoirs for natural video prediction[D]. Austin, USA: The University of Texas. (1)
[72]	VILLEGAS R, YANG Jimei, HONG S, et al. Decomposing motion and content for natural video sequence prediction[C]//Proceedings of the 2017 International Conference on Learning Representations. Toulon, France, 2017. (3)
[73]	LIU Ziwei, et al. Video frame synthesis using deep voxel flow[C]//Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA, 2017:4463–4471 (9)
[74]	GORBAN A, IDREES H, JIANG Yugang, et al. THUMOS challenge: Action recognition with a large number of classes[EB/OL]. (2015–05). http://www.thumos.info. (2)
[75]	GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The international journal of robotics research, 2013, 32(11): 1231-1237. DOI:10.1177/0278364913491297 (2)
[76]	LOTTER W, KREIMAN G, COX D. Deep predictive coding networks for video prediction and unsupervised learning[Z]. arXiv preprint arXiv: 1605.08104, 2016. (5)
[77]	Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//Proceeding of the 2011 IEEE International Conference on Computer Vision, ICCV. Barcelona, Spain, 2011:2556–2563. (2)
[78]	CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 3213–3223. (2)
[79]	JIN Xiaojie, LI Xin, XIAO Huaxin, et al. Video scene parsing with predictive feature learning[Z]. arXiv preprint arXiv: 1612.00119, 2016. (3)
[80]	LOTTER W, KREIMAN G, COX D. Unsupervised learning of visual structure using predictive generative networks[Z]. arXiv preprint arXiv: 1511.06380, 2015. (7)
[81]	YAN Xing, CHANG Hong, SHAN Shiguang, et al. Modeling video dynamics with deep dynencoder[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland, 2014: 215–230. (4)
[82]	RANZATO M, SZLAM A, BRUNA J, et al. Video (language) modeling: a baseline for generative models of natural videos[Z]. arXiv preprint arXiv: 1412.6604, 2014. (3)
[83]	OH J, GUO Xiaoxiao, LEE H, et al. Action-conditional video prediction using deep networks in atari games[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2015: 2863–2871. (3)
[84]	FINN C, GOODFELLOW I, LEVINE S. Unsupervised learning for physical interaction through video prediction[C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 64–72. (3)
[85]	LUC P, NEVEROVA N, COUPRIE C, et al. Predicting deeper into the future of semantic segmentation[Z]. arXiv preprint arXiv: 1703.07684, 2017. (3)
[86]	CHEN Xiongtao, WANG Wenmin, WANG Jinzhou, et al. Long-term video interpolation with bidirectional predictive network[Z]. arXiv preprint arXiv: 1706.03947, 2017. (3)
[87]	XUE Tianfan, WU Jiajun, BOUMAN K, et al. Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 91–99. (1)
[88]	DENTON E, BIRODKAR V. Unsupervised learning of disentangled representations from video[Z]. arXiv preprint arXiv: 1705.10915, 2017. (3)

你可能感兴趣的:(深度学习,论文)

python 科研作图_科研作图软件（11种） weixin_39875754 python 科研作图
科研作图软件（11种）科研绘图在国外已经非常流行，且被高度重视，国内科研人员也越来越重视科研方面的绘图。不少科研工作者，包括在读的博士生、研究生等可能都有这样的体会：千辛万苦得来的实验结果，不知道该如何展现给别人?曾经有位论文审稿人在自己的博文中就写道：“我审稿时看稿件的顺序是题目、摘要、图表、前言、参考文献和正文”。古语云“字如其人”，现在讲“第一印象”，说的都是形象、气质的重要作用，规范的、高
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
SIGMOD论文解读｜在自下而上优化中添加布隆过滤器 Gauss松鼠会技术交流数据库 gaussdb database
6月22日至27日，2025ACMSIGMOD/PODS国际学术会议在德国柏林举行。25日，华为多伦多分布式调度和数据引擎实验室主任工程师TimothyZeyl受邀出席，就入选的《IncludingBloomFiltersinBottom-upOptimization》论文进行了解读该论文创新性地首次提出了在自下而上的优化器的基于成本的优化过程中添加布隆过滤器（BloomFilter）的技术。该技
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
【AI论文】Skywork-Reward-V2：通过人机协同实现偏好数据整理的规模化扩展
摘要：尽管奖励模型（RewardModels，RMs）在基于人类反馈的强化学习（ReinforcementLearningfromHumanFeedback，RLHF）中发挥着关键作用，但当前最先进的开源奖励模型在大多数现有评估基准上表现欠佳，无法捕捉人类复杂且微妙的偏好谱系。即便采用先进训练技术的方法也未能显著提升性能。我们推测，这种脆弱性主要源于偏好数据集的局限性——这些数据集往往范围狭窄、标
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
LSTM 论文（Hochreiter & Schmidhuber, 1997）精读（三）
文章：SeppHochreiter,JürgenSchmidhuber;LongShort-TermMemory.NeuralComput1997;9(8):1735–1780.doi:https://doi.org/10.1162/neco.1997.9.8.1735第2节PreviousWork（已有研究），这是论文对以往方法的一个评述，总结了已有递归神经网络在面对时间序列学习、尤其是长时依赖
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
光子-eBPF协同架构设计与硅光哈希加速实现路径（2025技术全景）百态老人哈希算法算法
一、技术架构核心设计1.硅光-电子混合计算架构基于Nature2025年论文中"集成超16,000光子组件的大型加速器"设计理念，构建分层处理体系：元数据提取协议卸载
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
基于YOLOv8深度学习架构的智能农业巡检小车系统—面向农作物与杂草实时精准识别的创新实践
1.科技赋能智慧农业随着全球人口的持续增长和农业生产面临的挑战，精准农业已成为现代农业发展的必然趋势。其中，农作物与杂草的精准识别是实现自动化、智能化管理的关键一环。传统的人工除草效率低下，化学除草则可能带来环境问题。因此，开发高效、精准、环保的智能农业系统迫在眉睫。本文将深入探讨一款基于深度学习和智能硬件集成的农田作业智能小车系统。我们将重点聚焦于其硬件系统设计、软件系统架构、核心算法创新(特别
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
python+vue+springboot的東耳篮球馆会员信息管理系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
python的王者荣耀战队的数据分析系统 QQ1963288475 python 开发语言 django flask spring boot
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p