推荐理由:本文突破了以往的固有想法——学习率要不断下降,从理论上验证了在Normalization下学习率指数上升的等价性,具有一定新颖性。
推荐指数:3.0
13
论文13
Improving the Gating Mechanism of Recurrent Neural Networks
https://openreview.net/pdf?id=r1lnigSFDr
推荐说明:各种模型内的门控机制期望可以动态地实现信息的更迭,保留重要的信息而丢弃不重要的信息。
从BP的角度看,保留信息实际上是梯度的保留,也就是接近函数的饱和区域(梯度约为1,也即函数值接近0或1)。但问题是,一旦接近饱和区域,模型实际上很难建模长距离信息。
本文使用两种方法缓解这些问题:(1)对遗忘门初始化为[0,1]上的均匀分布;(2)提出一个refine gate。在多个任务的实验验证了这种方法的有效性。
推荐理由:本文探究了一系列门控方法,并且提出了一种新的门控方法——UR-LSTM,可以更好地建模长距离依赖。另外,本文的实验图很好看。
推荐指数:3.0
14
论文14
Masked Translation Model
https://openreview.net/pdf?id=HygaSxHYvH
推荐说明:长期以来,机器翻译都是基于seq2seq架构和AR生成。
本文提出的Masked Translation Model把编码器和解码器融合在一起,基于Mask方法,既可以AR生成,也可以Non-AR生成,还提供多种解码策略,非常flexible,可以看作一种更通用的KERMIT模型。
推荐理由:这种翻译方法近来非常流行,本文继续提高了这种方法的翻译结果,不但可以做翻译,甚至可以做LM、Text Editing等,很方便。
推荐指数:3.0
15
论文15
Multichannel Generative Language Models
https://openreview.net/pdf?id=r1xQNlBYPS
推荐说明:本文提出了一个改进的KERMIT模型,用于建模多语言(这里称为多channel)的联合分布,如此既可以进行条件生成(如MT),也可以进行无条件生成(直接生成句子),不但可以AR生成,也可以Non-AR生成,功能丰富。
推荐理由:再次强调这种通用模型,是非常厉害的!
推荐指数:3.0
16
论文16
Semi-Supervised Named Entity Recognitionwith CRF-VAEs
https://openreview.net/pdf?id=BkxnKkrtvS
推荐说明:本文独具匠心地把CRF和VAE相融合去做半监督下的NER。
标准情况下的NER是编码器->CRF->输出标签,而本文还加入了未标注文本,把CRF当成一种近似后验加入优化ELBO,从而实现半监督下的模型学习。实验证明了这种方法具有一定有效性。
推荐理由:方法很有趣,但不太优雅。
推荐指数:3.0
17
论文17
A Probabilistic Formulation ofUnsupervised Text Style Transfer
https://openreview.net/pdf?id=HJlA0C4tPS
推荐说明:本文以一种概率生成模型的角度去分析无监督文本风格迁移,在没有平行语料的情况下,训练两个领域的隐平行句子。
然后使用两个LM先验模型+两个共享参数的领域转换模型直接去建模整体联合分布,然后使用ELBO优化模型。在多个数据集上的实验结果表明本文的方法可以提高Acc和BLEU值。
推荐理由:以一种概率分布的视角搭建起了无监督文本风格迁移各种方法的桥梁,可以读一下。
推荐指数:3.0
18
论文18
Word Embedding Re-Examined: Is theSymmetric Factorization Optimal?
https://openreview.net/pdf?id=HklCk1BtwS
推荐说明:本文从理论上分析了word embedding具有一些良好性质的原因,本质上是共现矩阵到嵌入空间的低秩变换,这使得词之间的相对距离得以保留,从而共现矩阵有的性质,word embedding也得以继承。
推荐理由:本文的证明过程具有一定的指导意义。
推荐指数:3.0
19
论文19
Learning to Contextually AggregateMulti-Source Supervision for Sequence Labeling
https://openreview.net/pdf?id=HJe9cR4KvB
推荐说明:本文学习了一个聚合同一任务不同数据源数据的序列标注模型,可以通过这种方法缓解数据内标注分布偏移和噪声的问题,也可以用于学习跨领域的数据。
推荐理由:方法简单,效果不错,跨领域学习也有吸引力。
推荐指数:3.0
20
论文20
BERTScore: Evaluating Text Generationwith BERT
https://openreview.net/pdf?id=SkeHuCVFDr
推荐说明:BERT既然这么牛逼,为什么不能用它作为一种度量标准呢?直接把生成句子和参考句子怼进BERT,然后计算token之间的cos相似度,然后用一个max-pool,再玄学算一下,暴力有效,因吹斯听!
推荐理由:据说和人类评估更接近,而且也比较鲁棒(这篇文章好像是某会被拒了,重投ICLR)。
推荐指数:3.0
21
论文21
Parallel Neural Text-to-Speech
https://openreview.net/pdf?id=BJeFQ0NtPS
推荐说明:传统的TTS一般是follow了一个多流程的pipeline,近年来基于深度学习的方法使用的是seq2seq,比如WaveNet、ClariNet等。
本文提出ParaNet,一种Non-AR的TTS方法,直接提取Mel频谱,再使用Attention蒸馏,速度很快,效果不错。
推荐理由:文本转语音的研究比较少,可以拿出来给大家复(预)习下。
推荐指数:3.0
22
论文22
Contextual Text Style Transfer
https://openreview.net/pdf?id=HkeJzANFwS
推荐说明:本文介绍了一种新的任务:上下文相关文本风格迁移。所谓上下文相关,就是在迁移的时候要保持上下文语义的一致性,这就在单纯的文本风格迁移上多了一层要求。
本文提出的方法基于半监督,使用了多个损失,比较复杂,但是不难理解,效果却也不错。
推荐理由:挖了个新坑,妙啊。
推荐指数:3.0
23
论文23
Are Transformers Universal Approximationsof Sequence-to-Sequence Functions?
https://openreview.net/pdf?id=ByxRM0Ntvr
推荐说明:本文从理论上证明了:Transformer是一个支持连续和置换不变性序列到序列函数的通用近似器,只要有足够好的positional embedding。
此外,本文还发现把self-attention替换成其他的一些上下文映射函数可以取得更好的效果。
推荐理由:满页的公式,还是你们来。
推荐指数:3.0
24
论文24
TABNET: Attentive Interpretable TabularLearning
https://openreview.net/pdf?id=BylRkAEKDH
推荐说明:本文提出使用sequential attention去建模表格型数据,适用于各种分类和回归任务。
推荐理由:Kaggle福利,现成模板,童叟无欺。
推荐指数:3.0
25
论文25
Mixout: Effective Regularization toFinetune Large-Scale Pretrained Language Models
https://openreview.net/pdf?id=HkgaETNtDB
推荐说明:本文提出一种新的用于微调预训练模型的L2正则化方法:mixout。
所谓mixout,就是在微调的整个过程中,动态地融合两个阶段模型的参数的方法,这样可以使得微调渐次进行,不至于导致效果的崩塌。在GLUE几个任务上的实验验证了该方法的有效性。
推荐理由:方法挺有趣,可以进一步推广到其他任务看看效果。
推荐指数:3.0
26
论文26
Language GANs Falling Short
https://openreview.net/pdf?id=BJgza6VtPB
推荐说明:评价一个模型生成句子的效果有两方面的指标:质量和多样性。只重视前者而忽略后者会导致exposure bias,尤其对于像GAN这种生成模型。
本文创造性地使用temperature作为一种评估模型quality-diversitytrade-off的指标。通过这种方法,作者发现基于MLE的生成模型在quality/diversity上都超过了基于GAN的方法。
推荐理由:很有意思的文章,不过GAN真的是弟弟?
推荐指数:3.0
27
论文27
Unifying Question Answering, TextClassification, and Regression via Span Extraction
https://openreview.net/pdf?id=HketzTNYwS
推荐说明:用BERT去做QA、文本分类和回归任务时,都是使用的最后一层单元的Span(或长或短),本文认为可以把这些任务综合起来进行。
对QA,按照原BERT处理,直接抽取即可;对文本分类,在文本前加上“positive ornegative”,然后让模型去判别“positive/negative”对应位置的span即可。
对句对分类,在文本前加上“entailment, contradictionor neutral”;对回归问题,直接对可能的值均匀分割成一些离散的值。
使用这种方法,我们有望把这些任务合在一种模型里,减少了模型的设计量,并且如果做成多任务,还可以提高有限数据量下的效果。
推荐理由:本文来自Salesforce论文小分队,不用我多说了嗷。
推荐指数:3.0
28
论文28
Are Pre-trained Language Models Aware ofPhrases? Simple but Strong Baselines for Grammar Induction
https://openreview.net/pdf?id=H1xPR3NtPB
推荐说明:本文提出直接从预训练的语言模型中提取语法结构成分,形成语法树。
本文提出直接从Transformer-like的预训练语言模型中,利用其多头机制,直接提取各种短语结构,包括动词短语、名词短语、副词短语等。
本文在英语语法推导任务上验证了该方法的有效性,可以作为一个很强的baseline。
推荐理由:不再训练,不用规则!语法推导,点击就送!
推荐指数:3.0
29
论文29
Dynamically Pruned Message PassingNetworks for Large-scale Knowledge Graph Reasoning
https://openreview.net/pdf?id=rkeuAhVKvB
推荐说明:知识图谱推理最近变得很火,这其实也是一个有巨大潜力的方向。以往的研究大多是给出一个推理路径(path-based)。
本文提出一种更灵活、更具解释力的方法,能够在推理的同时进行网络图剪枝得到子图(sub-graph),提高大规模知识图谱下的推理效率。
本文采用了attention、consciousness prior等多种方法,十分novel。
推荐理由:新的推理方法,有探索价值。
推荐指数:3.0
30
论文30
An Empirical Study on Post-ProcessingMethods for Word Embeddings
https://openreview.net/pdf?id=Byla224KPr
推荐说明:本文又是一篇偏理论的文章,研究了词向量的后处理方法,把这种方法视为对Gram矩阵的缩放。
两个词向量集应该满足各向同性缩放,从而中心核对齐(CKA)可以作为一种度量,因此我们目标就是去最大化这个相似性度量。
为此,本文提出在半黎曼流形(semi-Riemannian manifold)上优化,并且scale了其中的单位矩阵。实验表明本文的方法具有一定效果。
推荐理由:本文的词向量后处理方法看似很复杂,但实际上作者给出了步骤,还是非常直观的。
推荐指数:3.0
31
论文31
Reinforcement Learning BasedGraph-to-Sequence Model for Natural Question Generation
https://openreview.net/pdf?id=HygnDhEtvr
推荐说明:作为一个NLP中比较小众的领域,问题生成(QG)可以说是小众中偏困难的了。它比QA难在,它是一个纯粹的文本生成任务,而QA一般是作为分类任务。
本文首先提出一个对齐网络进行词层面和隐层层面的对齐;然后使用一个双向的图到序列生成器获得进一步的特征表示;最后使用一个RNN解码器生成句子。
而且,本文还使用了CE损失和RL损失相结合的方法保证语法和语义的兼顾。
推荐理由:本文提出了一个基于RL损失的Graph2Seq模型用于QG,实验效果也是杠杠的。
推荐指数:3.0
32
论文32
Topology of Deep Neural Networks
https://openreview.net/pdf?id=SkgBfaNKPr
推荐说明:本文认为,从拓扑学的角度看,深度模型实际上是把拓扑上非常复杂的数据转化为简单的拓扑结构,使得在输出的时候线性可分,并且ReLU会使得这种简化过程更快。
推荐理由:把深度学习模型置于拓扑学的观点下,给出了解释深度学习模型的一个非常直观的途径。
推荐指数:3.0
04
推荐指数2.5论文
33
论文33
Toward Controllable Text ContentManipulation
https://openreview.net/pdf?id=Skg7TerKPH
推荐说明:表格转文本和受限文本生成是近期比较火热的议题,把二者结合起来又如何呢。
本文提出受限表格转文本生成方法,对给定表格和一个参考句,模型需要生成一段文本,文本的内容是描述表格,但风格却是参考句。
在这种设置下,本文首先构建了两个专门的数据集,然后使用seq2seq+attention+copy+reconstruction的方法训练模型。
推荐理由:本文的出发点比较有趣,提出了一个简单实用的模型结构,并且结合了表格转文本和文本风格迁移两大主题,可以阅读。
推荐指数:2.5
34
论文34
A Syntax-Aware Approach for UnsupervisedText Style Transfer
https://openreview.net/pdf?id=Bkll_kHFPB
推荐说明:本文提出把预测语法标签作为附加任务去做无监督的文本风格转换;
损失还有三个:reconstruction, back-translation和discrimination。在几个常用数据集的实验上取得了一致的提高。
推荐理由:这种语法多任务可以看作一种防止过拟合的手段,出乎我意料的是,效果竟然还不错。
推荐指数:2.5
35
论文35
Compressive Transformers for Long-RangeSequence Modeling
https://openreview.net/pdf?id=SylKikSYDH
推荐说明:LSTM不能建模长距离序列,Transformer存储代价又太大,Transformer-XL会把很旧的单元丢掉,基于此,本文提出把Transformer-XL中要丢弃的部分压缩,当作一种“压缩记忆”。
怎么压缩呢?用花式CNN和Pooling……当然了,本文还提出一个新的数据集——PG-19,在这个数据集、WikiText-103和Enwiki8上达到SOTA。
通过各种实验,本文证明了对超长文本建模,CompressedTransformer的确表现最好。
推荐理由:方法简单,但是有效呀!
推荐指数:2.5
36
论文36
Contextual Temperature for LanguageModeling
https://openreview.net/pdf?id=H1x9004YPr
推荐说明:在softmax中使用temperature已经是一个基本操作了,但是之前的温度设置要么全程固定,要么随训练保持规律地变化。
本文认为,温度大小应该和上下文有关,从而使用当前步的上文学习一个对当前步的温度,在MoS上进行LM实验,并且采用了多个正则项。大概有2个点的PPL提升。
推荐理由:其实温度和上下文相关还是很有道理的,但是本文的方法比较简单,好在实验还做得不错。
推荐指数:2.5
37
论文37
On Variational Learning of ControllableRepresentations for Text without Supervision
https://openreview.net/pdf?id=Hkex2a4FPr
推荐说明:本文分析了使用VAE控制无监督文本生成的困难所在——后验空间的潜在空缺(latent vacancy)问题。
由此,本文提出使用两个损失项将后验高斯均值映射到一个受限空间中,从而鼓励该空间能够被“填满”,进行更好的优化。
这两个损失,一是结构化重构损失——一种max margin方法把目标往两个方向推,二是正则项——约束embeddingmatrix为正交。
推荐理由:方法简单,效果尚可。
推荐指数:2.5
38
论文38
Neural Markov Logic Networks
https://openreview.net/pdf?id=SkeGvaEtPr
推荐说明:马尔科夫逻辑网络(MLN)是一种将一阶逻辑和概率图模型相结合的统计学习方法。
本文提出的神经马尔科夫逻辑网络(NMLN)不需要显式地指定一阶逻辑规则,而通过神经网络隐式地学习。在知识库填充和分子数据生成的实验上取得显著效果。
推荐理由:看起来很厉害,有空学习下。
推荐指数:2.5
39
论文39
EINs:LongShort-Term Memory with Extrapolated Input Network Simplification
https://openreview.net/pdf?id=B1l5m6VFwr
推荐说明:本文通过改写LSTM和GRU的方程,将它们作为一种动态Hopfield网络,推出一种参数更少的RNN结构——EINS。
推荐理由:虽然参数少了,但是更复杂了呢。
推荐指数:2.5
05
推荐指数2.0论文
40
论文40
Faster and Just as Accurate: A SimpleDecomposition for Transformer Models
https://openreview.net/pdf?id=B1gKVeBtDH
推荐说明:尽管Transformer和BERT如此成功,但是训练它们需要耗费巨量的时间。
本文认为,我们不需要在self-attention的时候使得每个token去关注所有的token,一部分就够了。
由此,本文提出前k层分成两部分,各自self-attention,剩下的层再合起来self-attention,并且使用了知识蒸馏和层级相似度减少信息损失。在QA和句子相似度分类任务上的实验验证了这种方法的高效率和低损耗。
推荐理由:显卡燃烧的味道不香吗?
推荐指数:2.0
41
论文41
Incorporating BERT into Neural MachineTranslation
https://openreview.net/pdf?id=Hyl7ygStwB
推荐说明:如何把预训练模型,如BERT融入到MT中是自BERT诞生以来的问题。
不直接使用BERT初始化模型,本文是把BERT的输出融入到SEQ2SEQ模型的每一层,用在每个self-attention之中。
此外,本文还提出drop-net——随机丢弃BERT表示或模型本身的表示,充分利用两个方面的信息。实验结果还不错。
推荐理由:本文可以算是成功地把BERT加入到了MT中,方法比较奇特,但是还不够优雅。
推荐指数:2.0
42
论文42
Robustness Verification for Transformers
https://openreview.net/pdf?id=BJxwPJHFwS
推荐说明:本文给Transformer提出了首个鲁棒性验证方法,从理论和实验两个方面给出了界,并通过这种方法分析了情感分析中不同词的重要性。
推荐理由:来点偏理论的研究增增味。
推荐指数:2.0
43
论文43
On Predictive Information Sub-Optimalityof RNNs
https://openreview.net/pdf?id=HklsHyBKDr
推荐说明:现实世界中,人之所以如此智能,就是因为人能够记住很久之前的信息,从而能够帮助预测未来,而各种RNN从形式上好像也是记住过去,预测未来。
然而本文通过两个数据集上的实验表明,RNN简直弱爆了。
推荐理由:本文其实不太偏CS,算是给RNN的缺点提供了另外一种视角。
推荐指数:2.0
44
论文44
MUSE: Multi-Scale Attention Model forSequence to Sequence Learning
https://openreview.net/pdf?id=SJe-3REFwr
推荐说明:本文认为,像Transformer这样的模型对于建模长距离语义依然存在困难,从而提出多种建模方式(Attention、Dynamic Conv、FFN)平行计算,然后再聚合起来的方法。实验结果出乎意料地不错。
推荐理由:为什么不在WMT14 En-De上做呢?
推荐指数:3.0
45
论文45
Dropout: Explicit Forms and Capacity Control
https://openreview.net/pdf?id=Bylthp4Yvr
推荐说明:本文回答了一个问题:dropout是如何控制模型的容量的。本文通过一些数学推导给出了dropout下深度模型的泛化界,并在多种任务上进行了实验。
推荐理由:又是一篇数学学渣杀手,不过已经相对容易了。
推荐指数:2.0
46
论文46
Mitigating Posterior Collapse in StronglyConditioned VAE
https://openreview.net/pdf?id=rJlHea4Kvr
推荐说明:对于有很强条件的CVAE,decoder往往会忽略隐变量,使得模型退化为一个AE模型。
本文发现,这种情况发现的原因之一是条件变量的融入方式:直接concat。本文提出一种新的重参数方法使得条件变量和隐变量能够更好地融合,缓解后验坍塌问题。
推荐理由:本文融合两个变量的方法比较巧妙,值得学习。
推荐指数:2.0
47
论文47
SSE-PT: Sequential Recommendation viaPersonalized Transformer
https://openreview.net/pdf?id=HkeuD34KPH
推荐说明:使用深度学习的方法构建推荐系统是一个正在探索的领域,现在流行的方法是用RNN、CNN加Attention或Transformer模型,比如SASRec模型。
但是这些模型大都不能有个性化的推荐,要么就是效果不太好。本文把item embedding和user embedding结合起来,并使用SSE正则化方法减缓embedding的过拟合现象。
推荐理由:推荐系统还是要介绍一下的。
推荐指数:2.0
06
推荐指数1.0论文
48
论文48
Neural Phrase-to-Phrase MachineTranslation
https://openreview.net/pdf?id=S1gtclSFvr
推荐说明:本文提出一种新的短语到短语的机器翻译方法,使用短语层级的attention,然后用greedy或beam 的方法decode,再结合一个记忆力模块,实现了与Transformer相较的结果。
推荐理由:看个新鲜也是看。
推荐指数:1.0
49
论文49
Lossless Single Image Super Resolutionfrom Low-Quality JPG Images
https://openreview.net/pdf?id=r1l0VCNKwB
推荐说明:各种不可描述的图片往往会被各种压缩,给广大宅男同志带来很多困扰,要是能得到(无码[划掉])高清图该多好啊!本文对JPG图像进行分辨率修复,算法简单,有没有效不知道。
推荐理由:我选择无损图像。
推荐指数:1.0
07
推荐指数0.5论文
50
论文50
Emergence of Functional and StructuralProperties of the Head Direction System by Optimization of RNN
https://openreview.net/pdf?id=HklSeREtPB
推荐说明:这篇什么意思,求懂的同学讲解一下……
推荐理由:?
推荐指数:0.5
星标我,每天多一点智慧