每天一篇自然语言处理论文:202003

1 说明

这些日子,开始养成看论文的习惯,也参加了AI研习社推荐论文的活动,其中一些推荐了但是未被采纳的论文,担心自己忘了,有点可惜,便想记录在博客上

2 文章列表

202003

Beat the AI: Investigating Adversarial Human Annotations for Reading Comprehension
https://arxiv.org/pdf/2002.00293.pdf

1
本文是对于最近兴起的一种数据标注方法的研究,这种方法的本质是人为的创造或筛选出一些高难度样本,塞给一些模型来进行判断,能够打败所有的模型的样本,将被保存下来。这种方法跟机器学习中的集成学习方法很像,跟普通的集成方法又不太一样,这里关注的是样本的产生,而且是高质量样本的产生,有点返璞归真的意思,又把语言学家的专业知识给利用上了。

2
本文一个有趣的地方在于,一方面用一些弱学习器来标注样本,去提高学习能力顶尖的RoBERT模型的表现。另一方面,采用了学习能力依次递增的强学习器来标注样本,并且观察其中打败AI的那些问题的特性。

3
正如作者所说,本文的研究更多的是对这种标注方法的抛砖引玉,引起自然语言领域的研究人员的注意,本人也很期待有大牛能建立一个中文版本的高难度样本集,研究一下高难度样本能否减少训练所需的数据量,是否能让现有的诸如ERNIE2.0的阅读理解模型能力更强

Training distributed deep recurrent neural networks with mixed precision on GPU clusters
https://arxiv.org/abs/1912.00286

核心问题:本文从硬件选取、模型搭建、分布式计算策略、学习率、损失函数等方面,非常详细的讲解了如何高效使用多达100个GPU进行深度循环神经网络
创新点:本文没有相关工作的部分,贵在务实,从实际的研究工作中部署一个高效的GPU集群的角度,讨论了如何将分布式计算策略、基于混合精度的训练模型结合起来,使得模型的训练速度加快、内存消耗降低,并且模型的表现分数并不会下降。同时,作者还研究了使用参数来对损失函数进行缩放,以此提高模型在集群环境下的收敛速度

研究意义:无论是循环神经网络,还是卷积神经网络,模型的规模越来越大,本文作者所提出的各种技巧,能解决训练过程实际的问题,一方面,能在保证了模型的准确率的情况下减少训练的成本,另一方面,也有助于在当前的资源下,训练更大的模型。

这些技巧主要针对GPU集群环境,但也能给单GPU环境的同学提供参考。

GRADIENT-ADJUSTED NEURON ACTIVATION PROFILES FOR COMPREHENSIVE
INTROSPECTION OF CONVOLUTIONAL SPEECH RECOGNITION MODELS
https://arxiv.org/abs/2002.08125

1
本文的主要工作是参考了人脑进行认知的event-related potential模型来设计一种可视化的工具,用来解释attention-based encoder-decoder结构的语音识别模型的工作机制
2
作者设计了一种基于梯度的可视化工具,即GradNAPs,计算的核心思想是计算神经网络中每一层的梯度变化最大的神经元的信息,并且使用mask过滤掉与预测值关联性不大的梯度信息。其后训练模型,使得同一类别的梯度信息差别最小化,不同类别的梯度信息差别最大化。得到的GradNAPs被展示于line plots中,并且使用基于欧氏距离的层次聚类算法对其进行分析
3
由上述可知, 这种深度神经网络的可视化分析方法,不仅适用于对基于注意力的ASR模型进行解释,对于基于其他类型网络结构的模型的解释工作,也有很大的参考意义

0315
A multi-layer approach to disinformation detection on Twitter
https://arxiv.org/pdf/2002.12612.pdf

1
本文提出了一种多层的图结构来对推特上的新闻信息进行特征提取,将提取到的不同方面的信息按照定义的规则转换为一个统一格式的向量,并且使用logistics回归的方法,来判断新闻是假新闻还是真新闻
2
相对于其他的基于机器学习和深度学习的文本分类算法,本文的两点在于模型简单,采用的分类算法更是简单,但是能得到接近复杂模型的效果
3
本文提供了一个比较可靠的用于真假新闻分类的大型数据集,并且提出了一种反深度的思想,将多个特征纬度的相对图结构的模型级联起来,使用简单机器学习分类算法,给文本谣言检测的算法研究和实际应用提供了一种很好的思路

0316
BERT is Not a Knowledge Base (Yet): Factual Knowledge vs. Name-Based Reasoning in Unsupervised QA
BERT还不足以称之为知识库:无监督问答任务中BERT对事实性的知识和基于名称的推理学习能力对比
https://arxiv.org/pdf/1911.03681.pdf

1
作者发现一些特殊问题:很难从句子中的实体名称推理而出但是实际上并不困难,对于BERT而言很难处理,从而质疑BERT能从名称推理出答案,但是并不足以称之为一个知识库。同时提出了一种将由维基百科预料中学到的词向量嵌入到BERT模型中的扩展模型,得到了比BERT和ERNIE更好的结果
2
作者提出的扩展模型,引入了词向量嵌入,在特定的任务上提升了BERT的效果,相对于需要在额外知识库中进行预训练得到的嵌入信息,更加简便,可解释性也更强

0317
Time Series Forecasting Using LSTM Networks: A Symbolic Approach
使用一种基于符号化方法的LSTM网络进行时间序列预测
https://arxiv.org/pdf/2003.05672.pdf

1
本文使用LSTM对时间序列数据进行预测,为了提高训练的速度,使用了基于聚类的ABBA表征方法,对数据集进行预处理转换为符号的形式,并最终将符号进行数字化,以供LSTM网络使用
2
本文对数据符号化的方法进行了优化,采用了插值的方法,让转化出来的时间序列数据更加紧密和平滑,此外,作者从对超参数的敏感度等方面研究了使用预处理过的数据进行训练能比直接使用原始数据进行训练的速度更快的原因
3
我以前做车流量预测的时候,突发奇想尝试过将车流量值转化为符号表示,再使用LSTM+attention的网络结构进行训练,效果十分好,这篇文章解答了我当时很多的疑惑。很多数值化的序列数据,经过预处理,能使用自然语言处理的方法来预测,从而能得到更加丰富的上下文信息,不知这样理解是否是对的?

0318
Text classification with word embedding regularization and soft similarity measure
使用词向量空间正则化和软相似度度量的方法对文本分类问题进行处理
https://arxiv.org/abs/2003.05019
推荐指数:五颗星

1
作者从词嵌入的生成、机器学习正则化方法、深度学习正则化方法、针对词嵌入的正则化方法等角度详细地介绍了对词向量进行正则化的方法和现状,同时提出了对现有的正则化方法的优化,并且使用多种文本相似度度量方法在多个文本分类数据集上进行验证

2
作者提出了一种基于正交化方法的词嵌入正则化方法,并且证明了这种方法对于多个文本分类任务均能有效减少训练时间和内存消耗,并且分类能力还可得到一定的提升。同时,作者验证了使用正交化的词嵌入时,使用SCM作为文本相似度度量比当前最优的WMD要快的多

3
个人看法,这篇文章对于基于预训练的模型进行调优或是迁移学习,有参考意义

0319
GNTeam at 2018 n2c2: Feature-augmented BiLSTM-CRF for drug-related entity recognition in hospital discharge summaries
使用基于特征增强的 BiLSTM-CRF神经网络对出院总结中的药品相关的实体信息进行抽取

1
本文的主要内容作者参加2018年的一个信息抽取比赛时所用的思路、方法和总结,主要的方法是使用预训练的语言模型以及额外的语义特征

2
作者使用了CLAMP, cTAKES两种语义特征来对文本的词嵌入进行增强,并且得到了第四名的成绩

3
本文对于数据集的分析、模型的选取、优化、以及结果的分析等方面写的比较细致,对于参加NLP相关的比赛的同学有一些参考价值,尽管只是实体信息的抽取,但是作者也提到了诸如CLAMP,part of speech tags这样的语言学特征增强对于关系抽取和事件抽取也是有效的

0320-0321 写代码花了很多时间,没空读论文

0322 写了事件抽取相关的论文笔记

0323
Scale Up Event Extraction Learning via Automatic Training Data Generation
基于自动生成的训练数据进行大规模事件抽取学习

1
作者针对当时事件抽取任务中专业性强、需要人工定义trigger word、标注数据不足等问题,提出了一种基于Distant supervise的一般性事件抽取数据集,并且设计了一种基于关键论元的事件抽取模型,利用样本中的关键论元来推断出事件类型,进一步补充其他论元生成完成的事件表信息

2
本文提出的基于关键论元的模型,不需要人工定义trigger
word,同时结合以维基百科为基础生成的数据集,对人工标注的样本进行训练,得到了更好的效果
3
尽管现在有一些新的端到端的神经网络模型的出现,并且也有了较之本文sentence-level更进一步的document-level,corpus-level的事件抽取,但是本文依然很值得一读。本文详细的讲述了基于Distant supervise数据集以及关键论元的设计思路和生成方法,有助于理解一个好的事件抽取模型应该抽取什么样的信息

0324 写了一篇语音识别相关的论文笔记

0325
Mining News Events from Comparable News Corpora: A Multi-Attribute Proximity Network Modeling Approach
利用一种基于多属性邻近度的方法从可比较的新闻语料库中挖掘事件

1
本文由韩家炜团队所发表,针对现有的新闻文本资料繁多,并且存在大量噪音、大量重叠内容的现状,提出了一种邻近度网络,利用其中大量重叠的内容,从时间、地点、相关人物、组织、以及事件之间的关联等属性的角度,定义了一种邻近度(Proximity)的方法,并以此为基础从中提取相关关键信息,并且得到新闻预料的事件,并以直观的图像的形式表达出来

2
使用多属性的邻近度来替代文本的语义信息,比其他基于数据挖掘的事件提取方法更有效。同时,抽取事件信息的同时,对特定新闻事件,生成了信息丰富的事件图,事件的关键信息、事件之间的联系、联系的强弱,都被清楚的展示了出来

0326
LEARNING THE DIFFERENCE THAT MAKES A DIFFERENCE WITH COUNTERFACTUALLY-AUGMENTED DATA
基于人工反向修正数据的差异学习

1
当前很多优秀的NLP模型,对数据中的虚假模式十分敏感,比如将文本分类模型中的关键词用同义词替代会使得模型效果大幅度降低,仅使用对话系统的问题或内容,在一些模型下,得到的结果与使用全部信息差别不大,等等

2
针对以上问题,作者以一个情感分析和句子推理的数据集为基础,在众包平台上招募作者对数据集进行反向修正,在尽量不修改样本结构的情况下,让样本转变相反的标签,并以此为基础在一系列机器学习和深度学习的模型上进行训练,并且验证了作者认为反向修正的数据集能提高模型对于虚假模式的表现的想法

3
使用高质量的人工标注样来让人类看起来傻乎乎的机器学习模型更加聪明,应该有不少人在做了,我没有做过相应的实验,但是觉得这样的做法很务实,其中用众包的形式来采集修正数据的想法也很有意思。值得一提的是,尽管使用了修正数据让模型能力提高了,但是对于基于bert预训练的模型提升效果有限,可能一方面由于bert模型从大量预料中学到了一些对抗虚假模式的知识,另一方面作者采取的实验是相对简单的句子级别的分类,期待作者关于对话系统的下一步工作

0327
TRANSFORMER-BASED ONLINE CTC/ATTENTION END-TO-END SPEECH RECOGNITION ARCHITECTURE
将混合CTC/Attention方法嵌入到Transformer结构中实现在线端到端的流式语音识别架构
https://github.com/HaoranMiao/streaming-attention

1
为了有效地解决在线流式语音识别问题,作者先前提出了一种以BILSTM为基础结构的流式语音识别模型,本文是对上述的模型进行改进,一方面,采用transformer结构,并对其decoder的注意力模块进行改造,以提高识别CER分数。另一方面,对先前提出的将语音输入分割为chunks的方法进行改进,重用了部分重合的chunks的的hidden state,以减少识别耗时
2
本文最终达到了23.66%的CER分数,并且仅有320ms的延时,同时,相对于离线的基线模型,CER分数仅损失了0.19%,大大提升了识别效果
3
注:代码不是本文的实现代码,仅仅包含了本文改进的注意力机制部分

0328
Learning How to Listen: A Temporal-Frequential Attention Model for Sound Event Detection
倾听“声音”的声音:一种用于声音事件检测的“时间-频率”注意力模型

1
这篇文章被 ICASSP 2019收录,核心内容是作者作为一个参赛者对DCASE2017中的一个特殊语音事件检测任务的分析,作者的思路是利用attention机制,提取出声音信号中最为重要的特征,并且从单个frame的频谱特性(spectralcharacteristic)以及样本中多个frames的时间特性的角度设计注意力模型,使用maxpooling将一段声音中的关键特征抽取出来
2
从比赛结果来看,作为没有使用集成学习的单个模型,作者提出的这种模型结构所得到的分数是比赛中最优的
3
本文不仅模型设计的很出色,对于数据不均衡、音频噪声等问题的处理也值得一读

0329 一个用于事件抽取的joint model,论文比较老了,其中关于关系抽取的部分也不是很明白,所以没有写推荐,后续再补

0330
LAYOUTLM: PRE-TRAINING OF TEXT AND LAYOUT FOR DOCUMENT IMAGE UNDERSTANDING
LAYOUTLM: 面向图片文档的文本和布局信息的预训练语言模型
https://github.com/microsoft/unilm/tree/master/layoutlm.

1
尽管基于BERT结构的预训练模型,在诸多NLP领域的任务上取得了非常好的效果,但是这些模型仅利用了文本形式的数据源。然而现实世界中,存在着大量的图片形式的文本,这些文本数量大且包含非常丰富的信息。因此,微软研究院提出了LayoutLM,首次将文本的图片信息、文本在图片中的布局信息(即二维的位置信息),以及相应的文本信息结合起来,依然以Transformer为基础结构,使用一个完整的联合模型(jointly model)进行训练
2
作者使用经过预训练的LayoutLM模型,在表单理解(form understanding),菜单推荐(receipt understanding), 文本图片分类( document image classification)三个领域均取得了state-of-the-art的结果
3
我经常在想,将基于文本信息的NLP称之为人工智能,是不准确的,因为人脑理解一篇文本的过程不是那样的,比如说,文字顺序打乱了,我还是能读,我的英文语法知识几乎为零,完全不影响我阅读英文文献,我们眼睛接受的是文字的图片信息,我们熟知的文字,换成另一种字体,便会影响阅读理解的效率。所以我一看到这篇文章就非常喜欢,强烈推荐

你可能感兴趣的:(自然语言处理)