关注人工智能学术前沿 回复 :ts35
5秒免费获取论文pdf文档,及项目源码
直到最近,递归神经网络还是捕获时序相关性的最佳方法之一。然而,随着Transformer的引入,已经证明了只有注意机制而没有任何RNN的体系结构可以改进各种序列处理任务(例如NLP)的结果。此后的多项研究表明,类似的方法可以应用于图像、点云、视频、音频或时间序列预测。此外,诸如Perceiver或 Informer等解决方案已经被引入,以扩展Transformer的适用性。我们的主要目标是测试和评估在时间序列数据上应用类transformer模型的有效性,通过微调超参数、对数据进行预处理、应用降维或卷积编码等方法来处理异常敏感性、上下文感知和空间复杂性。我们也在研究下一帧预测的问题,并探索如何修改现有的解决方案,以实现更高的性能和学习泛化知识。
最近的研究表明,类似的方法可以在NLP以外的任务中显著提高表现。
与最先进的卷积网络相比,视觉变压器(ViT)[3]在计算机视觉方面取得了出色的结果,同时需要更少的计算资源来训练。诸如VideoGPT、[4]等解决方案展示了如何有效地将transformer应用于视频生成任务。
在时间序列预测领域,关于如何修改transformer以弥补其对异常的敏感性,同时利用性能优势,有多个建议[5]。
在所有这些背景下,我们将研究transformer是否能以及如何用于预测未来事件,从传统的时间序列数据(如天气或股票价格预测)的方法,到更抽象的任务,如视频中的下一帧预测,模型应该学习不同的移动模式和额外的依赖。
挑战与解决
如[10]所述,transformer由于其在预测任务中的性能优势而获得了令人印象深刻的结果。然而,它们的自注意匹配对本地上下文不敏感的键的查询,这可能使模型容易出现异常,并带来底层的优化问题。无论观察到的点是异常点、更改点还是模式的一部分,都取决于它周围的上下文。查询和键之间的相似性是根据它们的逐点值计算的,而没有完全考虑到本地上下文。在以前的研究中,有人提出卷积自我注意来缓解这个问题。
另一个可能出现的问题与经典Transformer的空间复杂性有关,它随输入长度L呈二次增长,导致内存瓶颈。
文献【11】介绍了稀疏Transformer,将模型的复杂度进行了降低。
GPT和Image-GPT,[13]——一类在离散数据建模方面取得了巨大成功的自回归变压器——的引入,激发了越来越多专门用于不同任务的类似变压器的解决方案的创建。作为研究的一部分,我们研究了VideoGPT,[4],这是一个概念上简单的架构,用于基于生成建模的视频缩放可能性。
VideoGPT使用矢量量化变分自动编码器(VQ-VAE)[14]来学习给定视频的下采样潜在表示。它使用了三维卷积和轴向自我注意[15]——自我注意的推广,在编码和解码设置中自然地与张量的多个维度对齐。它允许在解码期间并行计算绝大多数上下文(图2)。
然后使用一个简单的类似GPT的架构(图3)来使用位置编码自回归建模离散潜伏期。
图3:VideoGPT。训练流程分为两个连续的阶段。第一阶段(左)类似于原来的VQ-VAE培训程序。第二阶段(右),VQ-VAE将视频数据编码为潜序列,作为先验模型的训练数据。
关注人工智能学术前沿 回复 :ts35
5秒免费获取论文pdf文档,及项目源码
基线模型
在我们的研究中,我们比较了两种架构——使用LSTM单元的标准RNN和一个Transformer的简单实现(见图1),以预测标准普尔500指数的价格将如何变化。他们接受的是相同数量的数据:2000年1月3日至2018年8月31日该指数的日收盘价。
如图1所示,LSTM循环神经网络几乎无法学习跟随趋势,而Transformer架构能够捕捉更详细的依赖关系,并将其用于未来的预测。例如:在短期内,指数价格通常在大公司在好年份发布季度报告后上涨。
实验结果
在生成的移动MNIST数据库上,我们成功地训练了序列长度为4、8、16和32帧的VQ-VAE。最终的译码器重建比原始论文中提到的预训练模型更准确(图4)。
通过条件反射历史数据预测未来多帧的改进的VideoGPT实例已经成功地完成了移动MNIST视频的预测任务(图5)。已经对4帧序列(条件2帧预测下2帧),8帧序列(条件4预测4)和16帧序列(条件8预测8)进行了测试。
图5:移动MNIST视频中的下一帧预测调节前N帧,生成长度为N + M帧的视频,其中M帧是新生成的。
VideoGPT结果和时间序列实验证明某些修改Transfromer可以导致预测精度高,可以替代传统的方法如RNNs和cnn领域的未来的预测。
我们已经介绍了多种预测未来的方法,以及如何采用类似transformer的架构来实现这种用途。我们已经研究了将transformer应用于时间序列数据时出现的问题的可能解决方案,以及它们可以执行的不同抽象级别。
RNN和其他标准解与新引入的模型进行了比较。我们还对VideoGPT模型进行了修改,使其可以有条件地用于下一帧预测,并提出了在未来的分类任务和一般推理中升级它的方法。它甚至可以集成为强化学习环境的一部分,以增强RL代理的行为。我们希望我们在2021年4月保加利亚夏季研究学校期间所做的工作将有助于未来建筑的时间序列预测、视频生成、决策等方面的设计。