0401
Unidirectional Neural Network Architectures for End-to-End Automatic Speech Recognition
用于端到端流式语音识别的单向LSTM模型结构分析
1
端到端ASR模型中,以往的语音识别模块结构变成了单一的神经网络,这要求模型能处理更长的上下文信息,目前,双向LSTM(BiLSTM)已经在这方面取得了相当好的效果,但是并不适合流式语音识别。作者以此为出发点,讨论了现在流行的几种单向LSTM网络模型以及基于延时控制(latency-controlled)的BiLSTM,并且以此为基础提出了两种更好的TDLSTM(time-delayed LSTM),并且在中英文语音数据集上进行了验证2
本文专门讨论网络模型设计,一方面,为了保证公平,对作为baseline的模型均做了一些优化,同时简化了输入输出模块,除了“Kaldi”-TDNN-LSTM模型在大型训练集上出现了内存溢出,其他模型均在包括延时控制、模型参数数量等方面均很接近的条件下进行训练,另一方面,作者对于如何设计一个满足需求的神经网络模型讲解的很细致,有一种读教材的感觉。因此,我还特意去搜到这个作者的个人网站,的确是个牛人http://www.jonathanleroux.org/
0402
CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Multi-Task Learning
CopyMTL: 命名实体识别和关系抽取多任务学习联合模型中的复制机制
1
CopyRE是一种基于seq2seq结构的非常优秀的关系抽取模型,作者针对CopyRE存在的首尾实体(head and tail entities)无法区分、无法匹配多字符实体(multi-tokens entity)的问题进行了分析,并且提出了自己的改进模型CopyMTL2
作者详细的讲解了CopyRE的原理,并从理论的角度分析了CopyRE存在如上问题的原因,进而使用以selu为激活函数的全连接层解决了首尾实体无法区分的问题,使用结合了NER的多任务学习来解决无法匹配多字符实体的问题,同时在多个数据集上达到了SOTA3
这里使用多任务学习来优化CopyRE,并且给出了代码,从文章上来看,应该是根据CopyRE作者的代码进行改进的,对于想利用多任务学习来优化自己模型的同学有很大的参考意义4
此外,提个疑问,如果反过来,是不是也可以使用copy mechanism来优化基于序列标注的关系抽取模型呢?
0403
Entity-Relation Extraction as Multi-turn Question Answering
利用多轮问答模型处理实体-关系抽取任务
1
如今NLP领域很多研究人员将非QA(question answer)的任务转换成QA问题,取得了不错的效果,受此启发,作者提出了使用设计了一种问答模型的新模式来处理事件抽取任务,其核心部分是:针对首实体(head entity)和关系(relation)分别设计了一种将实体转换为问题(question)的模板,并通过生成答案(answer)来依次抽取head entity和整个三元组。同时,本文参考了对话系统中利用强化学习来进行多轮任务的思想,设计了多轮问答模型2
本文涉及到事件抽取、问答系统、阅读理解、强化学习等多个NLP方面的知识,并提出了一个有利于事件抽取的中文数据集,在多个数据集上均达到了新的SOTA3
从作者的数量能看出,他们做了大量的工作,对于个人来说可能很难复现他们的实验,但是其融合NLP多个领域来进行模型的优化的思想,很值得学习
0404
Knowing What, How and Why: A Near Complete Solution for Aspect-based Sentiment Analysis
学习(what,how,why)三元组: 一种几乎完美的基于方面的情感分析模型
1
本文的核心内容是由阿里巴巴达摩研究院提出的一个三元组抽取模型,并以此将方面信息抽取(aspect extraction)、方面所属情感种类(aspect term sentiment classification)、态度词(opinion term extraction)等子任务合并在一个模型中解决。其主要的思路是定义一个包含了方面、情感、态度词信息的三元组,以此为基础设计了两阶段的模型,第一步主要是三个序列标注任务,第二步两个序列组合生成三元组
2
本文在模型设计方面有很多值得深思的亮点,简单说几个让我印象最深的,其一,第一个序列标注任务仅标注边界信息(boundary information),同时利用边界信息,在方面序列标注任务使用了softmax作为输出,而不是CRF。其二,针对态度词的的特点,在其序列标注任务中,先使用了一个GCN(Graph Convolutional Network)来学习其语义信息。其三,利用方面序列标注任务的信息来指导态度词序列标注任务。此外还有精心设计的BLSTM模型结构、多义词处理、预训练词向量等
3
这个模型在各个子任务中都达到了SOTA,作者开源了一些三元组数据,但是没有提供完整的代码
0405
Joint extraction of entities and overlapping relations using position-attentive sequence labeling
在序列标注模型中使用位置注意力进行抽取实体与重叠关系的联合抽取
1
本文设计了一种基于位置信息和上下文信息的注意力机制,同时将一个关系抽取任务拆成了n(n为句子的长度)个序列标注子任务,一个阶段即可将实体、关系等信息抽取出来
2
本文发表时在两个数据集上达到了SOTA,并且对于跨度长的关系、重叠关系表现尤其好
3
作者创造性的设计了一种标注方案(tag scheme),拆分关系抽取任务,更巧妙的是,设计了位置注意力机制,将多个序列标注任务放在同一个BLSTM模型中同时训练,让我对注意力机制的理解更深了一层
0406
记录了一篇LSTM论文的笔记
0407
Mining News Events from Comparable News Corpora: A Multi-Attribute Proximity Network Modeling Approach
利用一种基于多属性邻近度的方法从可比较的新闻语料库中挖掘事件
1
本文由韩家炜团队所发表,针对现有的新闻文本资料繁多,并且存在大量噪音、大量重叠内容的现状,提出了一种邻近度网络,利用其中大量重叠的内容,从时间、地点、相关人物、组织、以及事件之间的关联等属性的角度,定义了一种邻近度(Proximity )的方法,并以此为基础从中提取相关关键信息,并且得到新闻预料的事件,并以直观的图像的形式表达出来
2
使用多属性的邻近度来替代文本的语义信息,比其他基于数据挖掘的事件提取方法更有效。同时,抽取事件信息的同时,对特定新闻事件,生成了信息丰富的事件图,事件的关键信息、事件之间的联系、联系的强弱,都被清楚的展示了出来
0408
Joint Event Extraction via Recurrent Neural Networks
使用RNN联合模型进行事件抽取
1
本文被NAACL2016收录,首次提出了一个以RNN为网络结构进行事件抽取的联合模型,具体的模型是一个BLSTM,输入由句子的embedding,语义特征(dependency tree)、常识知识特征(pretrained word embeding)组成,训练时使用softmax同时计算trigger和argument抽取任务的损失,解码时利用一种记忆模块(Memory Vector/Matrices )来保存触发词(trigger)之间、论元(argument)之间、以及触发词与论元之间的依存关系
2
作者提出了一个信息非常丰富的句子级别的输入结构,其中常识知识特征更是由作者改进了CBOW算法训练而来,并且也有效地提高了模型表现,并且在当时达到了ACE2005的SOTA 解码部分,作者也是很用心的考虑到了多种上下文信息,其中 对于trigger-argument依存关系的利用值得深思
0409
Why We Need New Evaluation Metrics for NLG
为什么我们需要为NLG设计新的自动化评估指标
1
核心内容: 作者针对NLG(nature language generation)自动化评估问题,对于WBMs(Word-based Metrics), GBMs(Grammar-based metrics)两大类总计21个当时常用的评估指标进行了分析,具体是用了3个SOTA模型以及三个属于不同领域的数据集上进行测试,并且将测试结果进一步交由众包平台进行人工打分,进而对自动评估和人工评估进行有效性对比以及关联性分析。同时,对于测试结果进行了模型、数据集、以及具体样本级别的详细错误分析,得出了包括BLEU在内的大部分指标并不能令人满意的结论
2
文章亮点:系统地分析了自动评估与人工评估关联性及其在不同数据集上的表现;作者公开了全部的代码、数据以及分析结果
3
推荐理由:设计一个模型的时候,对数据集进行分析是理所当然的,对于当前的自动化评估指标是否适用于数据集就没那么直观了,本文对于如何设计出一个令人满意的NLP模型给人以启发
0410
self-attention aligner: a latency-control end-to-end model for ASR using self-attention network and chunk-hopping
自注意力对齐:使用自注意力网络和跳块的一种延时控制的端到端语音识别模型
1
为了解决RNN结构的语音识别模型存在的训练时间长、对一些噪音很敏感等问题,作者参考了transformer结构设计了一个语音识别模型,其中编码部分使用了时间维度的池化操作进行下采样来进行时间维度的信息交互并提高模型速度,解码的部分设计了一种模拟CTC的对齐结构。此外,作者将语音识别模型与语言模型进行端到端的联合训练,使得CER得到进一步提升
2
将transformer结构应用语音识别,今天已经不新鲜了。但是就去年本文发表的时期而言,将另一个领域的优秀模型应用到本领域来,会遇到什么问题,要怎么解决这些问题,如何进行优化?本文的这些思路都是很值得参考的。比如,transformer模型能很好的解决文本类的NLP任务,那么将其与语音识别联合训练,也更有可能收敛,以达到提高表现的目的
0411
A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks
一种面向语义表征的层次型多任务学习方法
1
本文研究如何利用多任务学习方法(multi-task learning)来获取更为丰富的语义表征信息,具体的方法是设计一种层次结构的网络模型,用于抽取句子的上下文特征,并依据此特征,依次设计了NER(Named
Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任务。其中每一个任务都有自己的BiLSTM结构进行训练,并且上层任务同时接收上下文特征、下层语义特征作为输入。训练过程中,一轮更新结束后,会随机选择一个任务以及相应的数据集进行下一轮训练。此外,作者尝试了采用不同的子任务与层次结构进行训练来观察任务组合之间的信息交互
2
从效果上来看,无论是速度还是F1分数上,此多任务模型比单个任务模型(包括引入了额外语法信息的模型)均要出色。同时,作者提取各层的信息,在多个探测任务(probing
tasks)上详细地分析了多任务学习方法所学到的语义表征信息
3
很多研究成果都证明了,一个设计良好的多任务学习模型是很有效的,同时也是难以设计的。本文从多任务学习所学到的语义表征出发,研究如何消除灾难性遗忘(catastropic
forgetting),有效从其他任务中学习语义知识等问题,效果很好
0412
写了一夜代码,原本计划要读的综述性论文忘记读了
0413
一篇关于多任务学习综述的笔记
0414
MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers
MT-BioNER: 使用BERT结构的多任务学习模型进行医药领域的命名实体识别
1
为了辅助训练聊天小助手,微软提出了一种基于BERT预训练模型的多任务模型在多个不同医学领域数据集上进行命名实体识别(NER),具体做法是以BERT预训练模型为共享层(share layer),为每个领域的数据集设置一个子任务(task specific layer),计算损失时各个子任务的权重均为1。同时,为了在不损失精度的前提下,有效地提高模型的时间和空间方面的效率,作者实验了多种训练技巧,最终选择了一起训练BERT层和共享层,并且一次随机选取一个领域数据集的mini-batch进行训练
2
公平起见,作者选择了公开数据集进行实验,模型的时空效率、分数表现均达到SOTA
3
这是一个很经典的多任务学习方法,用作者自己的话来说,这个模型的特点是简单高效,用softmax取代CRF,随机选取mini-batch,以及作者讨论了但是并没有加入实验的对预训练的BERT进行再次预训练的方法,都解开了不少我的疑问。同时,因为思路简单明了,作者对于实验的讲解十分详细,可学习性很强
4
本文没有公开代码,但是提供了所用到的数据集
0415
Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
利用不确定性设计损失权重进行场景几何和语义多任务学习
1
多任务学习对越来越多的任务起到了训练速度和表现分数等方面的促进作用,但是计算损失时,如何确定各个子任务的损失权重是一大难点,因为最佳的损失权重附近往往伴随着比单个模型表现更差的损失权重值。作者从任务同质不确定性(homoscedastic uncertainty)的角度,利用简化的回归、分类模型,分析了多回归任务、回归+分类任务等多任务模型的目标函数,提出了利用数据集的分布信息来设计并训练权重的方法
2
按照上述方法设计的多任务模型打败了所有单任务模型并达到了SOTA,同时,作者证明了此种损失设计对于参数的初始化信息有较强的鲁棒性
3
作者从贝叶斯理论的角度,提出了一种替代人工调参来确定多任务损失函数权重的方法,不仅有效,且可解释性强。这种方法未必是万能的,但是无疑是提出了一个可行的搜索子空间,为多任务学习设计损失函数提出了一种新的思路
0416
Multi-task Learning with Multi-head Attention for Multi-choice Reading Comprehension
基于多头注意力机制的多任务学习方法挑战多选阅读理解
1
BERT家族目前在多选阅读理解(multi-choice reading
comprehension)取得了最优的成绩,作者详细讲解了阅读理解任务DREAM的SOTA模型的多头注意力机制,并且尝试复现其模型,以此为基础,利用另一个阅读理解任务RACE进行多任务学习
2
作者复现的模型比原作分数稍低,但是多任务学习优化过的模型表现提升很大。尽管其中注意力机制非作者原创,但是作者给出了详细讲解、复现的思路以及复现模型的参数
3
一方面,结合两个赛道进行多任务学习的思路很好。另一方面,作者对于模型设计和训练方法讲的很清晰
0417-0418
修改deep speech 2的paddle代码,用的api太老且文档不可查,决定放弃
0419
Exploring Architectures, Data and Units For Streaming End-to-End Speech Recognition with RNN-Transducer
探索模型、数据、词元对基于RNN-T结构的流式语音识别模型的影响
1
本文研究如何优化RNN结构的流式语音识别模型,具体从三个方面出发:其一,作者设计了一个基本形式为encoder-decoder的模型,其中encoder由12层LSTM组成,并且期间应用时间维度的卷积(Time Convolution)来减少模型尺寸,decoder由2层LSTM组成。其二,作者从encoder,decoder的各个组件,研究了额外的语音、文本数据集对于模型的提升效果,以此为基础,分别为模型的一些层设计了多任务预训练模型来初始化参数。此外,作者还研究了用词元替代单词作为输入对模型的提升效果
2
作者从模型结构、额外数据集、以及模型初始化等角度,全面地对RNN结构的ASR模型进行了优化,这些思路应该是对于RNN结构的模型通用的。其中采用多任务预训练的方法来初始化模型中大部分的组件的方法,让我眼前一亮
0420
Information Bottleneck and its Applications in Deep Learning
信息瓶颈理论及其在深度学习中的应用
1
作者从信息论出发,以时间先后顺序,分别介绍了信息论、信息瓶颈技术的起源和发展、以及信息瓶颈技术对深度学习过程进行可解释性分析和泛化能力提升等方面的应用。此外,作者也讨论了如何对训练集与学到的模型之间的交互信息进行研究
2
信息瓶颈有着非常严谨的理论基础,并被其提出者Tishby教授应用在对深度学习过程进行可解释性分析上,一度引起了很大的反响。尽管其结论已经被一些使用更真实和复杂数据集的实验所推翻,但是使用信息论的思想来剖解深度学习,依然是一种有趣且富有挑战力的思路,有兴趣的同学可以读一下
0421
Neural Relation Extraction via Inner-Sentence Noise Reduction and Transfer Learning
基于句子降噪和迁移学习的关系抽取模型
1
无论是关系抽取还是命名实体识别,长句子中无关词过多会影响到模型性能的表现。为了解决这个问题,一方面,本文提出了一种利用句法依存关系来缩短句子长度的方法,具体选取了Sub-Tree Parse作为无关词筛选工具。另一方面,本文对词、实体以及句子设计了多层注意力机制,进一步强化了关系实体对于句子的影响
2
此外,作者首次提出了使用关系实体类型分类任务作为关系抽取模型的预训练步骤,使得模型分数进一步提高,最终达到了SOTA
3
从文章的描述来看,应该只是针对句子只存在单一关系的情况,但是作者用来给句子去噪的几个技巧都很有参考意义
0422
Event Detection with Trigger-Aware Lattice Neural Network
基于触发词感知的事件抽取网格模型
1
核心问题:本文主要针对中文事件抽取任务中的存在的多义触发词判断不准确的问题提出改进,具体做法如下:其一,利用hownet为汉字、词语引入了更丰富的语义信息。其二,设计了一种网格结构的BiLSTM(Trigger-Aware Lattice LSTM),以一种层次型的方法生成结合了多义性的汉字、词语信息(ambiguous characters and words)的表达向量。此外,事件抽取的实现方式是基于CRF的序列标注
2
创新点:利用hownet词典引入额外语义信息;模型在ACE2005中文数据集上达到了SOTA
3
推荐理由:设计了一种利用已有的语料库为中文句子引入比“字”更深层次的语义信息;代码逻辑很清晰
0423 炼丹备受打击
0424 写代码
0425
Dice Loss for Data-imbalanced NLP Tasks
利用Dice Loss处理NLP任务中的数据类别不平衡问题
1
数据不平衡问题,广泛存在于NLP任务中,不仅包括命名实体识别、阅读理解等单任务学习,也包括一些多任务联合学习。本文旨在为一些以F1分数为评价指标的NLP任务设计了对数据不平衡问题鲁棒性更强的损失函数,其思路有两个:一是受Dice coefficient、Tversky index等传统机器学习方法中的度量方法所启发,设计相应的dice loss损失函数替代了传统的交叉熵(cross entropy)。二是受计算机视觉领域中focal loss启发,进一步为dice loss赋予训练过程中动态调整样本权重的策略
2
作者分别在多个公开的数据集上执行不同的NLP任务,并且对数据集进行类别均衡改造衡量模型的效果,均达到了SOTA。其中的baseline包括作者不久前的发布的模型,此次分数提升了将近0.97左右,效果应该是比较靠谱的
3
本文对于解决类别不平衡问题在NLP领域、CV领域的相关研究进展、以及以F1分数为评价指标的NLP任务损失函数设计思路讲的很详细
0426
More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction
更多数据,更多关系,更多内容以及更多领域:关系抽取技术综述与展望
1
本文是一篇关于关系抽取技术的综述,一共引用了138篇论文,其中大部分论文都是近几年发表的。文章主要从三个方面论述关系抽取:
其一为实现方法论述,具体包括基于模式识别的方法、基于统计的方法、以及基于神经网络的方法
其二为关系抽取的难点和热点论述,主要包括如何进行数据增强、如何进行小样本学习、以及如何进行文档级别的关系抽取
其三为作者提出的展望与挑战,包含了利用关系实体名称(Entity names)进行特征增强、为特殊领域贡献数据集等方面
2
引用文献中相当一部分来源于作者所发表的论文,按照时间顺序整理下来阅读,对于理清事件抽取的研究思路也很有帮助的
0427 关系抽取技术综述笔记
0428
A Unified MRC Framework for Named Entity Recognition
一种用于命名实体识别的机器阅读理解框架
1
核心问题:本文分析了近年来针对命名实体识别(Named Entity
Recognition)领域中重叠实体抽取的一些工作,探索了用机器阅读理解任务的思路来解决命名实体识别任务的方法。首先,利用标注指导手册(Annotation
guideline notes)来生成query,将实体的起止位置及其内容分别作为answer和context,组成了三元组。其次,对句子生成两个起止位置标注的队列,并依次抽取起止位置信息判别是否实体。此外,作者还讨论如何使用其他的方式来定义query
2
创新点:1 提供了一种新的NER任务模式;2 在很多数据集上较明显地优于其他baseline,这一点摘要里也可以看出
3
推荐理由:本文提供了一种基于BERT跨领域研究NLP任务的思路,其中关于query的定义部分很值得思考一番
0429 月工作与心态总结
0430 月继续总结