B站李沐讲论文笔记Transformer

研一学生笔记,若有看官,笔下留情

作者很多,且,均贡献,顺序随机,再次感叹,同行者的重要性,并且大家都很不计较的样子~nice!
Ashish Vaswani∗
Noam Shazeer∗
Niki Parmar∗
Jakob Uszkoreit∗
Llion Jones∗
Aidan N. Gomez∗ †
Łukasz Kaiser∗
Illia Polosukhin∗ ‡

理论部分:
逐段翻译+感想:

摘要

如今,主要的序列转录模型是基于复杂的循环或者卷积神经网络,包括一个编码器和一个解码器,表现性能最好的模型通过注意力机制连接编码器和解码器。(1.论文摘要体现对本领域的了解程度,第一句话介绍了本领域目前情况,不得不说,22年回头看,非常精准。2.序列转录其实就是seqtoseq啦)我们提出一个叫Transformer的简单架构,他完全基于注意力机制,完全省去了循环和卷积( simple is good)实验在两个机器翻译的任务上,结果表明,这些模型在质量,并行化方面更胜一筹,并且要求更少的训练时间。(摘要第二句,我们做的是什么,他的优点是什么)我们的模型取得了balabala的成绩,超过了现有最佳结果,包括集成学习,提高了 2个 BLEU(一骑绝尘的SOTA了666) 在2014年的英法翻译任务上,8块GPU训练3.5天,得到了最先进的评分41.8,(摘要第三部分,我们的瞩目成绩)这仅仅是文献中最好模型训练代价的一小部分(笑死,这种写作风格真的很搞笑哎,os:没有内涵的意思,只是在朴实无华的列举我的强处==!)通过在大量和有限的训练数据上训练,我们得到Transformer很容易应用到其他任务(当真是一字千金了,没有一个废话,确实,后面还应用到视觉,video等领域。)

引言

循环神经网络,长短期记忆,和带有控制门的循环神经网络,事实上已经在序列模型和转录问题上建立了最优方法,像语言模型和机器翻译,从这以后,许多努力继续推动着循环神经网络和编码解码架构的边界。
循环神经网络通常沿着输入输出序列的典型位置计算因子,在计算过程校准位置,他们生成一个隐藏状态的序列ht,上一个隐藏层ht-1,和输入位置t,这种固定的序列自然除去了训练数据内的并行化,在较长的序列中很重要,因为内存不够限制了样本之间的批处理。近期的工作通过分解的技巧和算力增强在计算效率上取得了至关重要的进步,同时,算力增强也提高了模型表现。然而,序列计算的基础限制仍然存在。
注意力机制已经成为各种任务中,序列模型和转录模型不可分割的一部分,他允许对依赖部分建模,而不用考虑他们输入输出的距离。处理少数情况意外,注意力机制和循环神经网络一起使用。
我们提出了Transformer,一种规避循环神经网络的模型架构,而是完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许明显更高的并行化,并且在8个P100 gpu上训练12小时后,在翻译质量方面可以最优水平。

背景

你可能感兴趣的:(人工智能,论文,论文阅读,transformer,深度学习)