【AI视野·今日NLP 自然语言处理论文速览 第七期】Tue, 15 Jun 2021

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 15 Jun 2021
Totally 79 papers
上期速览✈更多精彩请移步主页

【AI视野·今日NLP 自然语言处理论文速览 第七期】Tue, 15 Jun 2021_第1张图片

Daily Computation and Language Papers

Biomedical Entity Linking via Contrastive Context Matching
Authors Shogo Ujiie, Hayate Iso, Eiji Aramaki
我们介绍了生物医学实体链接的对比学习框架,它仅使用两个资源小型字典和大量原始生物医学物品。具体而言,我们通过字典匹配从生包文章中构建培训实例,并使用它们培训具有对比学习的上下文意识的实体链接模型。我们通过最近的邻近搜索预测推理时间的归一化生物医学实体。结果发现,通过使用实体的上下文,生物机基本上优于现有技术的状态,尤其是在低资源设置中。

Evaluating Various Tokenizers for Arabic Text Classification
Authors Zaid Alyafeai, Maged S. Al shaibani, Mustafa Ghaleb, Irfan Ahmad
任何NLP管道的第一步是学习Word矢量表示。但是,给定大型语料库,代表所有单词都不有效。在文献中,许多令牌化算法已经出现通过创建子字来解决这个问题,这反过来限制了任何文本语料库中的词汇量。然而,这种算法大多是语言不可知的,缺乏捕获有意义的令牌的适当方式。更不用说在实践中评估这种技术的难度。在本文中,我们向阿拉伯语推出了三种新的令牌化算法,并使用无监督评估将它们与其他三个基线进行比较。除此之外,我们还通过在三个任务中进行比较,这些算法在三个任务中评估,这些任务是情感分析,新闻分类和诗歌分类。我们的实验表明,这种令牌化算法的性能取决于数据集的大小,任务类型,以及数据集中存在的形态量。

Modeling Profanity and Hate Speech in Social Media with Semantic Subspaces
Authors Vanessa Hahn, Dana Ruiter, Thomas Kleinbauer, Dietrich Klakow
由于任务的主观性质以及现有基层的产生的引导不相容,仇恨言语和亵渎检测患有数据稀疏性,特别是英语以外的语言。在这项研究中,我们在单词和句子表示中识别亵渎子空间,并在零拍摄设置中探讨了各种类似和遥远目标任务的泛化功能。这是单一的德国和交叉的方式,以密切相关的英语,远远相关的法国和非相关阿拉伯任务。我们观察到,在类似和遥远的目标任务和所有语言中,基于子空间的表示比零拍摄设置中的标准BERT表示更有效地传输,F1 10.9和F1 42.9之间的改进在所有测试的单格式和交叉的基线上语言情景。

An Empirical Survey of Data Augmentation for Limited Data Learning in NLP
Authors Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal, Diyi Yang
NLP通过使用神经模型和大型标记数据集在过去十年中取得了巨大进展。对丰富数据的依赖可防止NLP模型应用于低资源设置或新的任务,其中需要重大数量的文本数据,需要大量的时间,金钱或专业知识。最近,已经探索了数据增强方法作为提高NLP中数据效率的手段。迄今为止,在有限标记的数据设置中,没有系统的数据增强数据增强概述,使得难以理解哪种方法在哪些设置中工作。在本文中,我们在有限标记的数据设置中提供了对NLP数据增强的近期进展的实证调查,总结了包括令牌级别增强,句子级增强,对冲增强以及隐藏的空间增强以及进行实验的方法的景观11数据集涵盖主题新闻分类,推理任务,释义任务和单句任务。根据结果​​,我们得出几个结论来帮助从业者在不同的环境中选择适当的增强,并讨论NLP中有限数据学习的当前挑战和未来方向。

Grammar Equations
Authors Bob Coecke, Vincent Wang
示意性地讲,语法计算等预群组织在单词之间提供导线,以便阐明它们的交互,这使得可以验证短语和句子的语法正确性。在本文中,我们还提供了单词中的布线。这将使我们能够识别我们期望等于或密切相关的语法结构。因此,我们的工作为新的语法理论铺平了道路,提供了新的语法真理。我们为Nogo定理提供了一个Nogo定理,因为我们的布线对于预购的长单套管没有意义,语法结石通常采取的形式。相反,它们需要图表或等效,免费的蒙诺式类别。

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
Authors Wei Ning Hsu, Benjamin Bolte, Yao Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
语音表示学习的自我监督方法受到三个独特问题的挑战1在每个输入话语中有多种声音单元,2在预训练阶段期间没有输入声音单元的词典,3个声音单元具有可变长度,没有明确分割。为了处理这三个问题,我们提出了隐藏的单位BERT HUBERT方法,用于自我监督的语音表示学习,它利用离线聚类步骤来为伯特预测损失提供对齐的目标标签。我们的方法的关键成分仅在遮蔽区域上应用预测损失,这迫使模型在连续输入上学习组合的声学和语言模型。 Hubert主要依赖于无监督聚类步骤的一致性,而不是指定的集群标签的内在质量。从一个简单的K表示100个集群的老师,并使用两种迭代的聚类,休伯特模型匹配或改善艺术品Wav2Vec 2.0在Librispeech 960h和Libli光线60,000h的最终性能,10min,1h,10h ,100h和960h微调子集。使用1B参数型号,HUBERT最多可显示为更具挑战性的DEV其他和测试其他评估子集。

Determinantal Beam Search
Authors Clara Meister, Martina Forster, Ryan Cotterell
光束搜索是一种用于解码神经序列模型的策略。该算法可以自然地被视为子集优化问题,尽管相应的集合功能不反映候选之间的相互作用的算法。经验上,这导致通常表现出高重叠,例如,串可能仅不同单个单词。然而,在使用案例中,呼叫多种解决方案,通常需要多样化或代表集。为了解决这个问题,我们提出了梁搜索的重新调整,我们呼叫决定梁搜索。决定性光束搜索具有与决定性点处理DPP的自然关系,在固有地编码集合交互的集合上的模型。通过将光束搜索的迭代作为一系列次定颗粒的最大化问题,我们可以将算法转换为不同的子集选择过程。在一个案例研究中,我们使用String子序列内核明确鼓励从序列模型生成的文本中的n克覆盖范围。我们观察到,我们的算法在语言生成背景下对其他不同的集合生成策略提供竞争性能,同时提供更普遍的方法来优化多样性。

SemEval-2021 Task 11: NLPContributionGraph -- Structuring Scholarly NLP Contributions for a Research Knowledge Graph
Authors Jennifer D Souza, S ren Auer, Ted Pedersen
目前学术出版物的自然语言表达与其结构化语义内容建模之间存在差距,以实现智能内容搜索。随着每年呈指数增长的研究,通过语义结构内容运行的搜索功能是引人注目的。 Semeval 2021共享任务NLPContributiveGraph A.k.a.NK.A.NCG任务任务参与者开发自动化系统,这些系统开发从英语语言中的NLP学术文章结构的自动化系统。作为Semeval系列中的第一个,该任务在NLP学术文章中释放了三级信息粒度,即在句子级别,短语级别和短语中按照知识图形kg建设组织的短语。句子级别注释包括一些关于文章贡献的句子。短语级别注释是贡献句子的科学术语和谓词短语。最后,三元组构成了研究概述kg。对于共享任务,预计参与系统将自动分类贡献句,从句子中提取科学术语和关系,并将其作为KG三元组织。

Meaning Representation of Numeric Fused-Heads in UCCA
Authors Ruixiang Cui, Daniel Hershcovich
我们展示了隐式UCCA解析器不会始终如一地地址数值融合头NFHS,这可能导致不一致的注释,培训数据不足或建模限制。并显示涉及哪些因素。我们认为这一现象很重要,因为它在文本中普遍存在,并且对于正确的推断至关重要。仔细的设计和细粒度的NFHS意义代表框架的注释将有利于机器翻译,自然语言推理和问题的下游任务,特别是当他们需要数字推理时,作为恢复和分类它们。我们正在通过其他意义陈述来调查这种现象,例如AMR。我们鼓励研究人员在意义演示和计算语言学中,以解决未来的研究中这种现象。

Cognitive-aware Short-text Understanding for Inferring Professions
Authors Sayna Esmailzadeh, Saeid Hosseini, Mohammad Reza Kangavari, Wen Hua
利用短文本内容来估计微博作者的占用在许多应用中具有显着的收益。然而挑战比比皆是。首先短暂的文本内容具有过多的词汇噪声,使推理问题具有挑战性。其次,认知语义不明显,重要的语言功能在短文本内容中是潜伏的。第三,很难测量认知短文本语义与各种职业的特征之间的相关性。我们认为,需要多方面认知功能来正确将短文本内容与特定工作联系起来,并发现适合职业的人。为此,我们设计了一方面的小说框架,可以一方面可以推断短文本内容和利用认知功能,另一方面,融合各种采用的新型算法,如曲线拟合,支持向量和升压模块更好预测作者的职业。最终估计模块通过相干重量制造R W树,以调谐推断过程中的最佳结果。我们在现实生活中进行全面的实验。实验结果表明,与其他竞争对手相比,我们的认知多方面模型可以在职业估算程序中实现更高的性能,在那里忽略用户的上下文语义是不可避免的。

Posthoc Verification and the Fallibility of the Ground Truth
Authors Yifan Ding, Nicholas Botzer, Tim Weninger
分类器通常利用预注释数据集,其中通过通常由人类注释标签制成的所持式测试集上的预定定义度量来评估模型。这些评估中使用的指标与明确的地面真理标签的可用性相关联,这些度量通常不允许不精确的匹配。这些嘈杂的地面真理标签和严格的评估指标可能会损害评估结果的有效性和现实。在目前的工作中,我们讨论了这些问题,并对EL任务的实体进行了系统的Posthoc验证实验。与传统方法不同,询问注释者提供免费表格注释,我们要求注释者在事实之后验证注释的正确性,Posthoc。与预注释评估相比,根据POSTHOC评估方法,艺术EL模型的状态非常好。 POSTHOC验证还允许验证地面真理数据集。令人惊讶的是,我们发现来自EL模型的预测具有比地面真理相似或更高的验证率。我们讨论了这些调查结果和未来评估的建议。

THG: Transformer with Hyperbolic Geometry
Authors Zhe Liu, Yibin Xu
变压器模型架构最近在深度学习中成为一个不可或缺的主食,以跨一系列任务的效力。最近,已经提出了X前模型的激增,其改进了原始变压器架构。然而,大多数这些变体只会在自我注意的二次时间和内存复杂度周围进行更改,即查询与键之间的点产品。更重要的是,它们仅在欧几里德空间中计算。在这项工作中,我们提出了一种具有双曲性几何THG模型的新型变压器,这取得了欧几里德空间和双曲线空间的优势。 THG在输入序列上应用于输入序列的线性变换,以获取查询和密钥,具有所提出的双曲线线性。序列标签任务的广泛实验,机器阅读理解任务和分类任务展示了我们模型的有效性和概括性。它还证明了THG可以减轻过度装备。

Using Integrated Gradients to explain Linguistic Acceptability learnt by BERT
Authors Anmol Nayak, Hari Prasad Timmapathini
通过利用其建筑中的多头自我关注机制,伯特一直是语言理解的突破。据我们所知,这项工作是第一个利用层集成梯度归因归因的归因,以解释伯特语言可接受性可接受性Cola基准数据集的语料库学习的语言可接受性标准。我们对5种不同类别的句子的实验导致以下有趣的发现1个用于语言上可接受的LA句的1个LIGAS与语言上不可接受的Lua句子相比,有一个特定的面包细则解析为La和Lua句子的组分解析树CPT较大的LIGAS,3横跨我们观察到的不同类别的句子大约88到100个正确的分类句子有积极的利纳,表明与模型的预测置信度强烈的积极关系,4左右的被错误分类的句子有阳性利加斯,如果LIGAS在模型的丢失函数中参数化,那么我们认为可以成为正确的句子。

Is it a click bait? Let's predict using Machine Learning
Authors Sohom Ghosh
在这个数字化时代,新闻读者倾向于在线阅读新闻。这是因为,在线媒体立即提供对各种内容的访问。因此,人们不必等待明天的报纸知道今天发生的事情。随着这些美德,在线新闻也有一些恶习。一个这样的副主象是社交媒体的存在,与新闻文章有关的推文,其唯一目的是引起用户的注意,而不是指导他们阅读实际内容。此类帖子称为ClickBait。该项目的目的是制定一个能够预测社交媒体发布与新文章相关的可能性的系统,往往是点击。

Self-Guided Contrastive Learning for BERT Sentence Representations
Authors Taeuk Kim, Kang Min Yoo, Sang goo Lee
虽然BERT及其变种已经重塑了NLP景观,但仍然尚不清楚如何最好地从这种预训练的变压器中获得陈腐嵌入。在这项工作中,我们提出了一种对比的学习方法,利用自我指导来提高BERT句子表示的质量。我们的方法精细曲调在自我监督的时尚中倾斜,不依赖于数据增强,并使通常的CLS令牌嵌入为句子向量。此外,我们重新设计了对比学习目标NT Xent并将其应用于句子代表学习。我们展示了广泛的实验,即我们的方法比不同句子相关任务的竞争基础更有效。我们还显示它在推理和强大的域移位时是有效的。

Learning to Bridge Metric Spaces: Few-shot Joint Learning of Intent Detection and Slot Filling
Authors Yutai Hou, Yongkui Lai, Cheng Chen, Wanxiang Che, Ting Liu
在本文中,我们调查了对话语言理解的几个射击联合学习。大多数现有的几次拍摄模型每次都会学习单个任务,只有几个例子。但是,对话语言理解包含两个密切相关的任务,即意图检测和插槽填充,并且通常会受益于共同学习两个任务。这次要求新的几次射门学习技术能够从几个例子中捕获任务关系并共同学习多个任务。为此,我们提出了一种基于相似性的少量射击学习方案,命名为对比的原型合并网络conprom,它学会在丰富的域上桥接Intent和插槽的公制空间,然后将桥接度量空间调整为特定的少量拍摄域。两个公共数据集的实验,剪辑和少带,表明我们的模型显着优于一个和五次拍摄设置中的强基线。

MathBERT: A Pre-trained Language Model for General NLP Tasks in Mathematics Education
Authors Jia Tracy Shen, Michiharu Yamashita, Ethan Prihar, Neil Heffernan, Xintao Wu, Dongwon Lee
由于BERT模型的转移学习性质,研究人员通过进一步预先训练了巨大的域特定语料库上的原始伯特来实现比碱基硼的性能更好。由于经常包含数学方程和符号的数学文本的特殊性,原始BERT模型在一般英语上下文上进行了培训,不会符合数学教育中的NLP任务。因此,我们提出Mathbert,这是一个预先培训的大型数学语料库,包括预先追逐毕业的数学内容来解决数学特定的任务。此外,我们还生成了定制的数学词汇,以预先使用Mathbert进行培训,并将性能与原始BERT词汇训练的Mathbert进行比较。我们在数学教育中选择了三项重要任务,如知识组件,自动分级和知识跟踪预测,以评估Mathbert的性能。我们的实验表明,Mathbert优于2 9余量的基础硼。在某些情况下,Mathbert预先培训数学词汇比Mathbert由原始培训更好

Neighborhood Rough Set based Multi-document Summarization
Authors Nidhika Yadav
本研究论文提出了一种基于新的邻域粗糙集的监督多文件文本摘要MDT方法,分析和影响MDTS摘要结果。这里,基于粗糙的基于LER算法使用邻域粗糙集改进,该粗糙集本身是一种名为邻域内流的新型组合,以进行功效和效率的评估。在本文中,我们将申请和评估拟议的多文件摘要征区,在这里证明在实验上优于基于MDTS的基础流动技术。

Probing Pre-Trained Language Models for Disease Knowledge
Authors Israa Alghanmi, Luis Espinosa Anke, Steven Schockaert
Proginbert的预培训语言模型在医学自然语言推理等任务中取得了令人印象深刻的结果。乍一看,这可能表明这些模型能够进行医学推理任务,例如将症状映射到疾病。但是,我们发现Mednli等标准基准含有相对较少的例子,需要这种形式的推理。为了更好地了解现有语言模型的医疗推理能力,本文介绍了疾病知识评估的新基准。为了构建该基准,我们向每个正相关的Mednli举例说明所需的医学推理类型。然后,我们通过以普遍的方式损坏这些积极的例子来创造消极的例子。此外,我们确定每种疾病的训练测试分裂,确保无法从培训数据中吸取有关测试疾病的知识,并且我们可以通过培养假设的制定来避免人工制品的配方。这导致了许多二进制分类问题,一种用于每种类型的推理和每种疾病。在拟议的基准上分析临床生物医学领域的预训练模型,我们发现其性能大大降低。

Cascaded Span Extraction and Response Generation for Document-Grounded Dialog
Authors Nico Daheim, David Thulke, Christian Dugast, Hermann Ney
本文总结了我们对第一个DiveDoc共享任务的两个子任务的条目,该任务集中在目标导向文档接地对话框中的代理响应预测任务。任务被分成预测地处理代理转向并基于对话框和接地文档生成代理响应的文档中的跨度的两个子任务。在第一个SubTask中,我们将一组有效的跨度集合到DataSet中定义的那些,使用Biaffine分类器来模型跨度,最后使用不同模型的集合。对于第二个子任务,我们使用级联模型,该模型将预测跨度而不是完整文档的响应预测。通过这些方法,与基线相比,我们对两个子特设有重大改进。

Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged Amharic Corpus
Authors Andargachew Mekonnen Gezmu, Binyam Ephrem Seyoum, Michael Gasser, Andreas N rnberger
我们介绍了当代Amharic语料库,它被自动标记为Morpho句法信息。从不同领域的25,199个文件中收集文本,牌匾约2400万个拼音。由于它部分是Web语料库,因此我们进行了一些自动拼写错误校正。我们还修改了现有的形态分析仪,Hornmorpho,将其用于自动标记。

Mitigating Biases in Toxic Language Detection through Invariant Rationalization
Authors Yung Sung Chuang, Mingye Gao, Hongyin Luo, James Glass, Hung yi Lee, Yun Nung Chen, Shang Wen Li
自动检测有毒语言在保护社交媒体用户,尤其是少数群体,从口头滥用中起着重要作用。然而,在大多数毒性检测的训练数据集中存在对某些属性(包括性别,种族和方言)的偏见。偏见使学习模型不公平,甚至可以加剧人民的边缘化。考虑到,用于一般自然语言理解任务的当前脱叠方法无法有效地减轻毒性探测器中的偏差,我们建议使用不变的合理化INVRAT,这是一个由理由发生器和预测因子组成的游戏理论框架,从而排除某些杂散的相关性句法模式例如,身份提及,方言到毒性标签。我们经验证明,我们的方法在词汇和方言属性中产生的误差率低于之前的脱叠方法。

Is Einstein more agreeable and less neurotic than Hitler? A computational exploration of the emotional and personality profiles of historical persons
Authors Arthur M. Jacobs, Annette Kinder
分布式语义模型的最新进展DSM提供了估算虚构和真实人的人格特质的新方法。在这个探索性研究中,我们应用了Jacobs 2019中开发的算法的扩展版本,以计算了来自艺术,政治或科学域名的100名历史人员的吸引力分数,情绪人物和Big5个性特征,其名称相当独特,例如爱因斯坦, Kahlo,毕加索。我们比较了四项研究中的静态Word2VEC和动态BERT语言模型表示产生的结果。结果表明,基于DSM的个性概况和点方法的潜在和局限性,以进一步发展这种方法,成为数据科学,心理学或计算和神经认知诗歌Jacobs的有用工具,2015年。

English to Bangla Machine Translation Using Recurrent Neural Network
Authors Shaykh Siddique, Tahmid Ahmed, Md. Rifayet Azam Talukder, Md. Mohsin Uddin
经常性神经网络在机器翻译中的应用在自然语言处理中增加。除其他语言之外,Bangla语言还包含大量的词汇。将英语改进到Bangla Machine翻译将是对Bangla语言处理的重要贡献。本文介绍了孟加拉机器翻译系统的英语建筑。该系统已经用编码器解码器经常性神经网络实现。该模型使用基于知识的上下文向量来为英语和孟加拉语言映射。这里测量基于激活功能的模型的性能。编码器层中的线性激活函数和解码器层中的Tanh激活函数实现了最佳性能。从GRU和LSTM层的执行,GRU比LSTM更好。注意层和Softmax和Sigmoid激活功能颁布。模型的方法在交叉熵损耗度量方面优于前一个艺术系统状态。读者可以轻松找出英语的机器的结构,以及本文的有效激活功能。

Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation
Authors Xiang Lin, Simeng Han, Shafiq Joty
高级大规模神经语言模型导致了许多语言生成任务的成功。然而,最常用的训练目标,最大似然估计MLE已经出现问题,其中训练有素的模型喜欢使用暗沉和重复的短语。在这项工作中,我们介绍了Scalegrad,直接修改了损失功能的梯度,以弥补标准MLE目标的退化问题。通过直接操纵梯度信息,ScaleGrad使模型学会使用新颖的令牌。经验结果表明,我们的方法不仅在开放的发电中的有效性,而且在导向的生成任务中。凭借架构的简单性,我们的方法可以作为一般培训目标,适用于大多数神经文本生成任务。

Automatic Document Sketching: Generating Drafts from Analogous Texts
Authors Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Bill Dolan
大型预培训的语言模型的出现使得能够对如何在文档中添加或更改句子进行高质量的预测。然而,文本生成所固有的高分支因子阻碍了即使是最强语言模型的能力,以便在更全局或文档级别提供有用的编辑建议。我们介绍了一项新任务,文件素描,涉及为作家发行整个文件,以审查和修改。这些草稿由一组文件构建,这些文件构建,在形式中与潜在可重复使用的潜在可重复使用的文本的大块分开,同时在内容发散。为了支持这项任务,我们介绍了基于Wikipedia的类似文件数据集,并调查了弱监督方法的应用,包括使用基于变压器的专家混合物,以及加强学习。我们通过自动化和人类评估方法报告实验,并讨论这些模型的相对优点。

SAS: Self-Augmented Strategy for Language Model Pre-training
Authors Yifei Xu, Jingqiao Zhang, Ru He, Liangzhu Ge, Chao Yang, Cheng Yang, Ying Nian Wu
用于预培训语言模型的自我监督学习方法的核心包括适当的数据增强和相应的预训练任务S的设计。语言模型中的大多数数据增强都是独立的上下文。 Electra最近提出的最近的大型上下文化增强需要一个单独的发电机,这导致额外的计算成本以及在相对于其他模型组件S的发电机的能力调整其发电机的能力时的挑战。我们提出了一种自增强的策略SAS,它使用单一前进通过模型来增加下一个时代的模型训练的输入数据。基本上我们的策略消除了一个单独的发电机网络,只使用一个网络来生成数据增强,并承担两个预训练,并共同承担RTD任务,这自然避免了调整发电机的能力以及减少了计算的挑战成本。此外,我们的SAS是一项普遍的策略,使得它可以无缝地纳入最近或将来的许多新技术,例如韦伯特模型最近提出的解开注意机制。我们的实验表明,我们的SAS能够以相同或更少的计算成本在胶水任务中优于胶水任务中的电力和其他状态。

A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering
Authors Zhihong Shao, Lifeng Shang, Qun Liu, Minlie Huang
弱监督的问题应答通常只有最终答案作为监督信号,而无法提供答案的正确解决方案。这种设置产生了虚假的解决方案问题可能存在许多巧妙的解决方案,可巧合得出正确的答案,但是对这种解决方案的培训可以伤害模型性能,例如,产生错误的解决方案或答案。例如,对于作为下降的离散推理任务,可能存在许多方程来导出数字答案,并且通常只有其中一个是正确的。以前的学习方法大多过滤出用启发式或使用模型信心的虚假解决方案,但没有明确利用问题与其解决方案之间的语义相关性。在本文中,为了缓解虚假的解决方案问题,我们建议通过最大化问题答案对和预测解决方案之间的相互信息来明确利用此类语义相关性。关于四个问题的广泛实验,回答数据集表明,我们的方法在任务性能方面显着优于先前的学习方法,并且在培训模型方面更有效地产生正确的解决方案。

End-to-end Neural Diarization: From Transformer to Conformer
Authors Yi Chieh Liu, Eunjung Han, Chul Lee, Andreas Stolcke
我们提出了一个新的端部到底神经深度延迟系统,该系统是基于Conformer的,是最近提出的神经结构,这些神经结构结合了卷积映射和变压器来模拟了语音中的本地和全球依赖性。首先表明数据增强和卷积子采样层增强了基于变压器的原始自定义延伸,然后符合者在基于变压器的eend上提供了额外的增益。但是,我们注意到基于符合管理器的eend不会概括为基于变压器的模型模拟到真实对话数据。这导致我们在反映扬声器之间的时间统计数据的情况下量化模拟数据和真实扬声器行为之间的不匹配,并调查其与日记误差的相关性。通过在eend培训中混合模拟和实际数据,我们进一步减轻了不匹配,基于适得的eend在基线SA eend系统上实现了24个错误,以及在两个扬声器Callhome数据上获得最佳增强变压器的系统的10个改进。

Why Can You Lay Off Heads? Investigating How BERT Heads Transfer
Authors Ting Rui Chiang, Yun Nung Chen
广泛使用的伯特家族模型的巨大尺寸导致了近期模型蒸馏的努力。蒸馏的主要目标是创建任务不可知的预训练模型,可以在下游任务上进行微调,而无需正常调整其全尺寸版本。尽管蒸馏进展,但在蒸馏中可以创建任务无关症模型的程度并没有得到很好的研究。此外,转移学习的机制也不适合调查。因此,这项工作侧重于分析蒸馏时可接受的扣除,以引导未来的蒸馏程序。具体而言,我们首先使用Michel等人提出的主要重要性估计来检查变压器头的贪污头。 2019年,然后检查预训练的任务和下游任务之间重要头的一致性。因此,在蒸馏模型时,可以从结果中推导出预训练的任务上的性能的可接受推导,我们进一步比较了在微调之前和之后修剪模型的行为。我们的研究为未来关于BERT Family Model蒸馏的未来方向提供了指导。

GPT3-to-plan: Extracting plans from text using GPT-3
Authors Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati
包括金融和银行在内的许多基本行业的业务通常是需要执行重复的连续任务的特点。尽管对业务有关心,但工作流程很少完全自动化甚至正式指定,尽管可能存在许多用于公司员工的本程序的自然语言文档。计划提取方法为我们提供从计划工作流程的自然语言描述中提取结构计划的可能性,然后可以通过自动化系统利用。在本文中,我们调查了广义语言模型直接从这些文本执行此类提取的效用。此类模型已被证明在多种转换任务中非常有效,我们的初始结果似乎也指向其在计划提取的背景下的效力。特别地,我们表明GPT 3能够产生与本领域技术提取方法的许多当前状态相当的计划提取结果。

Toward Diverse Precondition Generation
Authors Heeyoung Kwon, Nathanael Chambers, Niranjan Balasubramanian
语言理解必须识别话语中事件之间的逻辑连接,但由于其致辞性质,核心事件通常是未持久的。本文通过生成先决条件事件填写这些缺失的事件。先决一代可以作为序列问题的序列给出给定目标事件,生成可能的前提。然而,在大多数真实的世界场景中,一个事件可以有几个先决条件,需要各种各样的代表标准SEQ2SEQ方法。我们提出DIP,一个不同的先决条件系统,可以产生独特和多样化的前提。 DIP使用生成过程,其中三个组件是事件采样器,候选生成器和后处理器。事件采样器提供候选生成器用于集中生成的控制代码触发器。与其他有条件生成系统不同,DIP会自动生成控制代码,而无需对不同示例的培训。对基线的分析表明,DIP显着提高了前提条件的多样性,同时也产生了更多的先决条件。

Schema-Guided Paradigm for Zero-Shot Dialog
Authors Shikib Mehri, Maxine Eskenazi
开发灵活地调整对话系统以解释任务和域名的机制是对话研究中的主要挑战。神经模型从培训数据隐式记住任务特定的对话策略。我们认为这种隐含的记忆排除了零射击传输学习。为此,我们利用模式引导范例,其中明确向模型明确提供任务特定的对话策略。我们介绍了Schema Peponent Model Sam和STAR语料库的改进的架构表示。 SAM在零拍摄设置中获得显着改进,在现有工作中,22 F1分数改进。这些结果验证了对话框中零拍摄概括性的可行性。还提出了消融实验以证明SAM的功效。

GenSF: Simultaneous Adaptation of Generative Pre-trained Models and Slot Filling
Authors Shikib Mehri, Maxine Eskenazi
在转移学习中,必须在预训练模型和下游任务之间实现强烈的对齐。通过提出任务特定的预培训目标来完成此目的,这使得牺牲了转移学习范例的固有可扩展性。我们通过同时修改预训练的模型和下游任务的配方来实现强烈的对准,这更有效并保留转移学习的可扩展性。我们展示了Gensf生成的插槽填充,它利用了用于插槽填充的生成预培训的开放域对话框模型。 Gensf 1通过将电感偏差结合到任务的电感偏差,并通过重新填充槽填充以更好地利用预先培训的模型S功能来适应下游任务。 Gensf实现了最先进的第两个插槽填充数据集,其中有很大的射击和零拍摄设置。我们在零射槽填充中达到了9 F1分数改进。这突出了预训练模型与下游任务之间的强对准的值。

Shape of Elephant: Study of Macro Properties of Word Embeddings Spaces
Authors Alexey Tikhonov
预训练的单词表示成为许多NLP任务中的关键组成部分。但是,嵌入词的全球几何形状仍然明白。在本文中,我们证明典型的单词嵌入云作为具有可解释顶点的高维简单云,并提出了一种简单但有效的方法,用于枚举这些顶点。我们表明该方法可以检测和描述手套和FastText空间的单纯x的顶点。

SASICM A Multi-Task Benchmark For Subtext Recognition
Authors Hua Yan, Weikang Xiao, Feng Han, Jian Zhao, Furao Shen
子文本是一种深度语义,可以在一个或多个回合的表达式转换之后获得。作为表达一个意图的流行方式,值得研究。在本文中,我们试图使计算机通过机器学习来理解是否存在子文本。我们构建一个中国数据集,其源数据来自流行的社交媒体。微博,网易音乐,志愿和毕尔比利。此外,我们还构建一个名为SASICM的基线模型,以处理子文本识别。 SASICMG的F1得分,其预热模型是手套,高达64.37,比比基于BERT的模型高3.97,平均传统方法高于3.97,包括支持向量机,Logistic回归分类器,最大熵分类器,天真贝叶斯分类器和决策树和2.39高于现有技术的,包括Marin和BTM。 Sasicmbert的F1得分为伯爵是伯特的,是65.12,比Sasicmg高0.75。 SASICMG和SASICMBERT的精度率分别为71.16和70.76,可与此前提到的其他方法的竞争者竞争。

Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning
Authors Bill Yuchen Lin, Seyeon Lee, Xiaoyang Qiao, Xiang Ren
迄今为止,致辞推理研究已经限于英语。我们的目标是评估和改进流行的多语言语言模型ML LMS,以帮助推进英语超越CSR的致辞。我们收集米奇语料库,由11种不同语言组成的561K句,可用于分析和改善ML LMS。我们提出米奇探测器,一种语言不可知的探测任务,用于公平地评估不同语言的流行毫升LMS的常见意义。此外,我们还通过将英文版本转换为15种语言来创建两个新的数据集,X CSQA和X Codah,以便我们可以评估流行的ML LMS,用于交叉舌致致辞推理。为了提高英语的表现,我们提出了一种简单但有效的方法多语言对比预训练MCP。它显着增强了句子表示,在两种基准上产生了大的性能增益。

Cross-sentence Neural Language Models for Conversational Speech Recognition
Authors Shih Hsuan Chiu, Tien Hong Lo, Berlin Chen
自动语音识别ASR中的一个重要研究方向围绕开发有效方法,以重新绘制ASR系统的输出假设,更复杂的语言模型LMS进一步提升。目前的主流思路ASR N最佳假设Reranking是基于经常性的神经网络RNN或其变体,具有在一系列ASR任务中的传统N GRAM LMS上的性能优势。在诸如长的对话之类的真实场景中,连续句子的序列可以共同包含诸如局部相干性,词汇夹带和邻接对的充分的对话级别信息,然而仍有缺乏缺陷。鉴于此,我们首先将ASR N最佳重新划分为预测问题,提出了一种有效的跨句神经LM方法,通过考虑其先例句子中的使用来重新划分即将到来的句子的ASR N最佳假设。此外,我们还以无监视的方式探索以更好的ASR性能提取跨句子历史的特定全局主题信息。在AMI对话基准语料库上进行的广泛实验表明了我们的方法的有效性和可行性与若干艺术Reranking方法的若干状态相比。

Sentiment Analysis of Covid-19 Tweets using Evolutionary Classification-Based LSTM Model
Authors Arunava Kumar Chakraborty, Sourav Das, Anup Kumar Kolya
随着Covid的19日迅速爆发,日复一日地迅速爆发,也影响了百万的生命,许多国家宣布完全锁定以检查其强度。在这个锁定期间,社交媒体平台表格在世界各地传播有关这个大流行的信息的重要作用,因为人们常常通过社交网络表达自己的感受。考虑到这种灾难性的情况,我们开发了一种实验方法来分析Twitter上人们的反应,即直接或间接地基于这种大流行。本文代表了对Coronavirus或Covid上的大量推文的情绪分析19.起初,我们通过进化分类分析了与Covid 19流行相关的主题的公众情绪的趋势。然后我们根据他们的班级计算了收集的推文的情感评级。最后,我们使用两种类型的额定推文培训了长期短期网络,以预测Covid 19数据的情绪,并获得84.46的总体精度。

InfoBehavior: Self-supervised Representation Learning for Ultra-long Behavior Sequence via Hierarchical Grouping
Authors Runshi Liu, Pengda Qin, Yuhong Li, Weigao Wen, Dong Li, Kefeng Deng, Qiang Wu
电子商务公司必须面对出售潜在危险产品的异常卖方。通常,可以通过共同考虑产品内容例如,标题和图像和卖方行为来识别风险。这项工作侧重于行为特征提取,因为行为序列可以通过反映卖方的运营习惯来为风险发现提供有价值的线索。传统的特色提取技术严重依赖于领域专家,并适应新任务。在本文中,我们提出了一个自我监督的方法信息vior,以自动从超长原始行为序列中提取有意义的表示,而不是昂贵的特征选择过程。 InfoBehavior利用双向变压器作为特征编码器,因为它的模拟长期依赖性的优异功能很高。然而,商品GPU是棘手的,因为变压器所需的时间和记忆在序列长度的增加随着序列的增加而产生二次。因此,我们提出了一种分层分组策略,以聚合超长原始行为序列到长度加工的高水平嵌入序列。此外,我们介绍了两种类型的借口任务。序列相关借口任务定义了基于对比的培训目的,以正确选择掩蔽粗粒细粒细纹行为序列,反对其他令人置信的行为序列域相关借口任务设计了分类培训目的,以正确预测域特定的异常行为统计结果。我们表明,来自预训练的信息性的行为表示可以直接使用或集成来自其他侧面信息的功能,以支持各种下游任务。实验结果表明,信息性能显着提高了产品风险管理和知识产权保护的性能。

Memory-efficient Transformers via Top-$k$ Attention
Authors Ankit Gupta, Guy Dar, Shaya Goodman, David Ciprut, Jonathan Berant
在变压器中的点产品注意力的成功之后,最近已经提出了许多近似来解决其与输入长度的二次复杂性。虽然这些变体是内存和计算效率,但是不可能直接使用使用vanilla注意训练的流行的预培训语言模型,而无需昂贵的纠正阶段。在这项工作中,我们提出了一种简单但高度准确的Vanilla注意近似。我们处理块中的查询,以及每个查询,将顶部K分数与键进行计算。我们的方法提供了几个优点,其内存使用情况是线性的输入大小,类似于线性注意变体,如执行者和RFA B,这是一个替代品的替代品,不需要任何纠正的预训练,而且它可以在将它们铸造到熟悉的查询键值框架之后,还会导致馈线前向层中的显着内存节省。我们评估在长距离竞技场基准上的多头注意层的顶部K近似值的质量,以及在多个QA数据集上的T5和UnifiedQA的馈送前向层。我们展示了我们的方法导致准确性与多种设置中的Vanilla注意几乎相同,包括从划伤,微调和零射击推断的培训。

Don't Rule Out Monolingual Speakers: A Method For Crowdsourcing Machine Translation Data
Authors Rajat Bhatnagar, Ananya Ganesh, Katharina Kann
高性能机翻译MT系统可以帮助克服语言障碍,同时使每个人都可以通过他们选择的语言进行通信和使用语言技术。然而,这种系统需要大量的训练句,并且翻译者可能很难找到和昂贵。在这里,我们为MT提供了一个数据收集策略,相比之下,它便宜且简单,因为它不需要双语扬声器。基于人类对动作的特殊关注的洞察力,我们使用图形交换格式GIF作为枢轴来收集单声道注释器的平行句子。我们使用我们的策略来收集印地文,泰米尔和英语的数据。作为基线,我们还使用图像作为枢轴收集数据。我们通过手动评估句子对的子集和通过在收集的数据上的FINETUNING MBART来评估句子对的子集进行内在评估。我们发现通过GIF收集的句子确实具有更高的质量。

Can Transformer Language Models Predict Psychometric Properties?
Authors Antonio Laverghetta Jr., Animesh Nighojkar, Jamshidbek Mirzakhalov, John Licato
基于变压器的语言模型LMS继续推进NLP基准任务的最新状态,包括旨在模仿人类灵感的致辞能力的任务。为了更好地了解LMS的程度来说,可以说是有一定的语言推理技能,研究人员开始调整精神仪器领域的工具和概念。但是,在多大程度上可以在多大程度上流入另一个方向,即可以使用LMS用于预测测试项目的心理学特性,当那些物品给予人类参与者时,我们收集来自众多人体参与者和LMS变压器的反应和非基于语言能力的广泛诊断测试的变压器。然后,我们使用响应来计算诊断测试中项目的标准心理学属性,分别使用人为响应和LM响应。然后,我们确定这两套预测匹配的程度。我们发现基于变压器的LMS在某些类别中预测了变压器的LMS,但在其他类别中始终不良,因此在人类和LM推理之间的基本相似性和差异中提供了新的洞察力。

Evaluating Entity Disambiguation and the Role of Popularity in Retrieval-Based NLP
Authors Anthony Chen, Pallavi Gudipati, Shayne Longpre, Xiao Ling, Sameer Singh
检索是开放域NLP任务的核心组件。在开放域任务中,多个实体可以共享一个名称,使歧义为尚未探讨的问题。我们提出了一种评估基准,用于评估这些检索者的实体歧义能力,我们称之为模棱两可检索琥珀集。我们将琥珀色设置为作为与这些实体查询共享名称的实体集合。通过为多园名称覆盖一组实体,Amber套件作为实体歧义的具有挑战性的测试。我们为三个流行的开放域任务创建琥珀色集检查,插槽填充和问题应答,并评估多种检索器。我们发现,检索者展示了流行度偏见,显着在对共享名称的RARER实体上表现出色,例如,它们是在同名下检索错误的疑问文件的可能性的两倍。这些关于琥珀色集的实验显示了他们作为评估工具的实用性,并突出了流行检索系统的弱点。

Prompting Contrastive Explanations for Commonsense Reasoning Tasks
Authors Bhargavi Paranjape, Julian Michael, Marjan Ghazvininejad, Luke Zettlemoyer, Hannaneh Hajishirzi
许多型号推理NLP任务涉及根据经常隐含的知识选择一个或多个可能的一个或多个可能的答案或提示。大型预用语言模型PLM可以在这些任务中实现近人类性能,同时提供他们使用的潜在推理的少数人可解释证据。在这项工作中,我们展示了如何使用这些相同的型号来生成受人类解释的对比性质的提升的这些证据,我们使用PLMS完成解释,提示根据所需的关键属性S对比替代方案,以证明正确的答案,花生通常咸,而葡萄干是甜蜜的。与以前的非对比替代品相比,调节模型决策提高了两个致辞推理基准的性能。这些解释也被人类判断,更为重要的是解决任务,并促进一种评估解释忠诚的新方法。

A Pseudo Label-wise Attention Network for Automatic ICD Coding
Authors Yifan Wu, Min Zeng, Ying Yu, Min Li
自动国际疾病分类ICD编码被定义为一种文本多标签分类问题,这很难,因为标签数量非常大,标签的分布不平衡。标签明智的注意机制广泛用于自动ICD编码,因为它可以为不同ICD代码为全电子医疗记录EMR中的每个单词分配权重。然而,标签明智的注意机制是计算冗余和昂贵的。在本文中,我们提出了一个伪标签明智的注意机制来解决这个问题。代替计算不同ICD代码的不同关注模式,伪标签明智的注意机制自动合并类似的ICD代码并仅计算类似ICD代码的一个注意模式,这大大压缩了注意力模式并提高了预测的准确性。此外,我们应用更方便和有效的方法来获得ICD矢量,因此我们的模型可以通过计算EMR矢量和ICD矢量之间的相似性来预测新的ICD代码。广泛的实验表明了我们模型的卓越性能。在Public Mimic III数据集和私人Xiangya数据集上,我们的型号分别实现了0.575和0.796的微型F1,这优于其他竞争模型。此外,我们验证了我们模型预测新的ICD代码的能力。案例研究表明,伪标签如何明智的关注工作,并展示了伪标签明智的关注机制的有效性。

Machine Translation into Low-resource Language Varieties
Authors Sachin Kumar, Antonios Anastasopoulos, Shuly Wintner, Yulia Tsvetkov
最先进的机器翻译MT系统通常接受过培训以产生标准目标语言,然而,许多语言都有多种各种区域品种,方言,社会,非本土品种,不同于标准语言。这些品种通常是低资源,因此不包括当代NLP解决方案,包括在内的NLP解决方案。我们提出了一般的框架来快速调整MT系统,以产生靠近但与标准目标语言不同的语言品种,不使用并行源品种数据。这还包括将MT系统的适配到低资源类型相关的目标语言。我们尝试适应英语俄罗斯MT系统,以生成乌克兰和白俄罗斯人,英语挪威Bokm L系统生成Nynorsk,以及一个英语阿拉伯语系统,以产生四种阿拉伯语方言,获得对竞争基础的显着改进。

Predicting the Ordering of Characters in Japanese Historical Documents
Authors Alex Lamb, Tarin Clanuwat, Siyu Han, Mikel Bober Irizar, Asanobu Kitamoto
日本是一个独特的国家,具有独特的文化遗产,这反映在数十亿历史文件中被保存。然而,1900年日本书写系统的变化使这些文件无法访问公众。一项重大的研究项目一直是使这些历史文件可访问和可理解。越来越多的研究专注于角色识别任务和图像上的角色的位置,但研究较少的研究专注于如何预测字符的顺序排序。这是因为古典日语中的序列与现代日语非常不同。将字符排入序列对于使文档文本轻松读取和可搜索是很重要的。另外,它是数据上任何类型的自然语言处理的必要步骤。机器翻译,语言建模和Word Embeddings。我们探讨了使用简单的手工制作规则预测字符的顺序排序的任务的一些方法,使用具有自适应阈值的手工制作规则,另一个使用与教师强制培训的深频序列模型。我们提供了对这些技术的定量和定性比较以及它们独特的贸易问题。我们最好的执行系统的准确性为98.65,在我们的数据集中的49本书中具有完美的准确性,这表明该技术能够预测许多任务足够好的人物的顺序。

Exploiting Parallel Corpora to Improve Multilingual Embedding based Document and Sentence Alignment
Authors Dilan Sachintha, Lakmali Piyarathna, Charith Rajitha, Surangika Ranathunga
多语言句子表示对低资源语言构成了很大的优势,这些语言没有足够的数据来构建自己的单晶模型。这些多语言句子表示通过少数关于文档和句子对齐的研究被分开利用。但是,大多数低资源语言都在这些预训练模型中表示。因此,在低资源语言的背景下,使用其他数据源,这些模型必须为手头的任务进行微调。本文介绍了一种加权机制,它利用可用的小规模并行语料库来提高文档和句子对齐的多语言句子表示的性能。实验是关于两种低资源语言,僧伽罗大序和泰米尔的实验。结果新创建的僧伽拉英语,泰米尔英语和Sinhala Tamil表明,这种新的加权机制显着提高了文档和句子对齐。该数据集以及源代码公开发布。

Every Bite Is an Experience: Key Point Analysis of Business Reviews
Authors Roy Bar Haim, Lilach Eden, Yoav Kantor, Roni Friedman, Noam Slonim
以前的审查摘要摘要侧重于测量审查产品或业务的主要方面的情绪,或创建文本摘要。这些方法仅提供基于数据方面的情绪摘要的局部视图缺乏足够的解释或对方面评级的理由,而文本摘要不量化每个元素的重要性,并且不太适合表示冲突视图。最近,已提出关键点分析KPA作为概括框架,提供数据中主要点的文本和定量摘要。我们通过引入集体关键点挖掘来调整KPA来审查数据,以便更好的关键点提取将情感分析集成到KPA,识别良好的关键点候选,以便审查摘要,并利用大量可用性审核及其元数据。我们凭经验展示了这些KPA的这些新颖的延伸显着提高了其性能。我们证明可以在没有任何域特定注释的情况下实现有希望的结果,而人类监督会导致进一步改善。

Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation
Authors Yang Feng, Shuhao Gu, Dengji Guo, Zhengxin Yang, Chenze Shao
虽然教师强迫已成为神经机翻译的主要培训范式,但它通常只能在过去的信息上进行预测,因此缺乏未来的全球规划。为了解决这个问题,我们在训练期间将另一个被称为Seer解码器的解码器介绍到编码器解码器框架中,这涉及目标预测中的未来信息。同时,我们强制传统的解码器通过知识蒸馏模拟Seer解码器的行为。以这种方式,在测试时,传统的解码器可以在没有参加的情况下像Seer解码器一样执行。实验结果对中文英文,英语德语和英语罗马尼亚语翻译任务显示我们的方法可以显着优于竞争力的基线,并在更大的数据集中实现更大的改进。此外,实验还证明了知识蒸馏,与对手学习和L2正规化相比,从Seer解码器转移到传统解码器的最佳方式。

A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data
Authors Jinghui Lu, Maeve Henchion, Ivan Bacher, Brian Mac Namee
具有有限标记数据的深度学习模型是许多NLP任务的有吸引​​力的情况,包括文档分类。虽然最近的伯特出现了,但深入学习语言模型可以在文档分类中实现合理的良好性能,少数标签实例,缺乏证据效用,在长文件分类上应用伯特模型。这项工作引入了一个长文本特定模型的分层BERT模型HBM,它学习文本的句子级别功能,并在具有有限标记数据的场景中运行良好。各种评估实验已经证明,HBM可以在文档分类中实现更高的性能,而不是仅具有50到200个标记的实例,特别是当文件长时间。此外,作为HBM的额外福利,通过学习的HBM识别的突出句子是基于用户学习的标记文档的解释。

Incorporating External POS Tagger for Punctuation Restoration
Authors Ning Shi, Wei Wang, Boxin Wang, Jinfeng Li, Xiangyu Liu, Zhouhan Lin
标点符号恢复是自动语音识别中的一个重要的后处理步骤。在其他类型的外部信息中,部分语音POS标记器提供信息标签,建议每个输入令牌的句法角色,这些角色已被证明对标点符号恢复任务有益。在这项工作中,我们将外部POS标记器融入了外部POS标记器并将其预测的标签融入现有语言模型以提供句法信息。此外,我们提出序列边界采样SBS以更有效地学习标点符号作为序列标记任务。实验结果表明,我们的方法可以始终如一地获得性能收益并在公共IWSLT基准上实现新的技术状态。进一步的消融研究说明了大型预训练的语言模型和外部POS标签都采取基本部分来提高模型的性能。

Improving Unsupervised Dialogue Topic Segmentation with Utterance-Pair Coherence Scoring
Authors Linzi Xing, Giuseppe Carenini
对话主题分段在几个对话建模问题中至关重要。然而,流行无监督的方法仅利用表面特征来评估话语之间的局部连贯性。在这项工作中,我们通过利用来自话语对一致性评分任务的监管信号来解决这些限制。首先,我们展示了一个简单而有效的策略,为发话机对一致性评分产生培训语料库。然后,我们用所获得的训练组件训练基于伯伯的神经话语对一致性模型。最后,这种模型用于测量话语之间的局部相关性,作为分割推断的基础。英汉三个公共数据集的实验证明我们的提案优于最先进的基线。

Explaining the Deep Natural Language Processing by Mining Textual Interpretable Features
Authors Francesco Ventura, Salvatore Greco, Daniele Apiletti, Tania Cerquitelli
尽管最先进的深层自然语言模型提供了高精度。 LSTM,BERT,它们在现实生活中的应用程序仍然受到广泛限制,因为它们表现得像一个黑匣子到最终用户。因此,可解释性迅速成为基于深度学习方法的未来一代数据驱动系统的基本要求。已经完成了几次努力实现准确性和可解释性之间存在的差距。然而,对深度自然语言模型量身定制的稳健和专业的XAI可解释的人工智能解决方案仍然缺失。我们提出了一个名为EBANO的新框架,它提供了创新的预测本地和基于级的模型全球解释策略,用于黑色盒子深度自然语言模型。鉴于深度NLP模型和文本输入数据,T EBANO提供了一种目标,人类可读,域名对自动决策过程背后的原因的具体评估。具体地,框架提取了一种可解释的特征,挖掘模型的内部知识。然后,它通过利用在局部水平的新规范化扰动影响和全球绝对影响和全球相对影响指标在局部层面的新规范化扰动期间来定量预测过程中的每个特征的影响。通过微调BERT模型执行的情绪分析任务和II通过LSTM模型执行的毒性评估任务,证明了使用T EBANO获得的局部和全球解释的有效性和质量。

Neural Combinatory Constituency Parsing
Authors Zhousi Chen, Longtu Zhang, Aizhan Imankulova, Mamoru Komachi
我们提出了两种快速的神经组合模型,用于组件解析二进制和多分支。我们的模型将自下而上的解析过程分解为1个标签,标签和二进制方向或块的分类,以及基于计算的方向或块的2个矢量组成。这些模型具有理论亚二次复杂性和经验线性复杂性。二元型号在Penn TreeBank上实现了92.54的F1得分,在1327.2星座SEC时加速。具有XLNET的模型都提供了近的英语艺术精度的近的状态。在Penn TreeBank,Chinesbank和Keyaki TreeBank日语的培训和推理过程中观察到语言的句法分支趋势和对语言的头脑。

Assessing Multilingual Fairness in Pre-trained Multimodal Representations
Authors Jialu Wang, Yang Liu, Xin Eric Wang
最近预先培训的多模式模型,例如剪辑,对其朝着图像和自然语言的特殊能力引起了注意力。英语中的文本表示可以理想地转移到多种语言,并支持对不同语言的有前下游多模态任务。然而,前面的视觉和语言学习的先前公平话语主要侧重于单机的代表性偏见,并且很少审查这种多模式设置中的多语种公平性的原理,其中一种语言等同于一组个人和图像,为桥接不同语言提供通用接地。

Study of sampling methods in sentiment analysis of imbalanced data
Authors Zeeshan Ali Sayyed
这项工作调查了采样方法对两种不同高度不平衡数据集的情感分析。一个数据集包含来自烹饪平台的在线用户评论杰密,另一个数据集包含给计划的父母身份组织的评论。在这两个数据集中,感兴趣的课程很少见。单词n克作为来自这些数据集的特征。首先应用基于信息增益的特征选择技术,以将特征的数量减少到可管理空间。然后应用许多不同的采样方法来减轻分析的类别不平衡问题。

Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized Streaming ASR
Authors Junkun Chen, Mingbo Ma, Renjie Zheng, Liang Huang
与文本翻译的同时语音在许多情况下广泛有用。传统的级联方法使用流媒体ASR的流水线,然后同时发布,但遭受误差传播和额外延迟。为了缓解这些问题,最近的努力试图将源语音直接转换为目标文本,但由于两个单独任务的组合,这是更加困难的。我们提出了一种新的范例,具有级联和结束到最终方法的优点。关键的想法是使用两个单独的,但同步的解码器,并分别直接发表语音来文本转换ST,以及ASR指导的中介结果,但未将其作为输入作为输入。在培训时间期间,我们使用多任务学习与共享编码器共同了解这两个任务。在Mustc DataSet上的ES实验证明我们的提出技术在类似水平的延迟达到了更好的翻译质量。

Modeling Language Usage and Listener Engagement in Podcasts
Authors Sravana Reddy, Marina Lazarova, Yongze Yu, Rosie Jones
虽然有丰富的播客创造者对如何用听众讨论的方式进行播客创造者,但对播客进行了很少的数据驱动分析,这些播客与听众参与有关语言风格的播客。在本文中,我们调查各种因素词汇量多样性,独特性,情感和语法,以及其他与参与相关的相关性,根据创作者书面描述和音频的成绩单。我们构建具有不同文本表示的模型,并显示所识别的功能是高度预测的参与。我们的分析测试了关于高参与播客中的风格元素的流行智慧,证实了一些方面,并在其他方面添加了新的视角。

Leveraging Pre-trained Language Model for Speech Sentiment Analysis
Authors Suwon Shon, Pablo Brusco, Jing Pan, Kyu J. Han, Shinji Watanabe
在本文中,我们探讨了预先培训的语言模型的使用,以学习语音情绪分析的书面文本的情绪信息。首先,我们调查了预先训练的语言模型如何在采用自动语音识别ASR和基于转录人的情绪分别的2步管道方法中有用。其次,我们提出了一种基于伪标签的半监督培训策略,使用语言模型结束结束语音情绪方法,利用大型但未标记的语音数据集进行培训。虽然口语和书面文本具有不同的语言特征,但它们可以在了解情绪中相互补充。因此,所提出的系统不仅可以在语音信号中模拟声学特性来承受语音信号的特定信息,而是学习潜在信息以在文本表示中携带情绪。在这些实验中,我们展示了所提出的方法与没有语言模型的系统相比,提高F1分数一致。此外,我们还表明,建议的框架可以通过利用大量数据而没有人为情感注释的大量数据来减少65人,并在人类情绪注释的低资源条件下提升性能。

Visualization Techniques to Enhance Automated Event Extraction
Authors Sophia Henn, Abigail Sticha, Timothy Burley, Ernesto Verdeja, Paul Brenner
复杂数据的鲁棒可视化对于有效使用NLP进行事件分类至关重要,因为数据量大,文本的高维结构使得数据挑战简洁地总结。特别是在事件提取任务中,可视化可以帮助理解和说明机器学习工具产生洞察力的文本关系。通过我们的案例研究,旨在使用NLP识别来自新闻文章的国家LED大规模杀戮的潜在触发,我们展示了可视化如何在对原始数据的探索性分析到机器学习培训分析以及最终推理验证的探索性分析。

Sample-efficient Linguistic Generalizations through Program Synthesis: Experiments with Phonology Problems
Authors Saujas Vaduguru, Aalok Sathe, Monojit Choudhury, Dipti Misra Sharma
神经模型Excel从大量数据中提取统计模式,但努力从几个例子中学习语言的模式或理由。在本文中,我们可以询问我们是否可以从使用程序合成中浏览这个问题的几个例子,学习明确的规则。我们开发一个合成模型,以在域特定语言中将音韵规则学习。我们测试模型通过来自语言学奥林匹克语言的新数据集,这是一种需要强大的语言推理能力的具有挑战性的任务的挑战性的训练示例的能力。除了高度样本的高效之外,我们的方法还生成人类可读程序,并允许控制读取计划的概括性。

Model Explainability in Deep Learning Based Natural Language Processing
Authors Shafie Gholizadeh, Nengfeng Zhou
机器学习ML模型解释性得到了不断的关注,特别是在与模型风险和法规有关的地区。在本文中,我们审查和比较了一些流行的ML模型解释性方法,尤其是与自然语言处理NLP模型相关的模式。然后,我们将其中一个NLP可解释性方法层应用于NLP分类模型中的一个NLP可解释性方法。我们使用LRP方法在实例中导出每个单词的相关性得分,这是一个本地解释性。然后将相关性分数聚合在一起以实现模型的全局变量重要性。通过案例研究,我们还展示了如何将本地解释方法应用于假正和假阴性实例以发现NLP模型的弱点。这些分析可以帮助我们更好地了解NLP模型,并降低了由于NLP模型的黑匣子性质而降低风险。由于NLP模型的特殊自然,我们还确定了一些常见问题,并讨论了如何解释性分析可以作为控制在培训模式后检测这些问题的控制。

A Semi-supervised Multi-task Learning Approach to Classify Customer Contact Intents
Authors Li Dong, Matthew C. Spencer, Amir Biagi
在客户支持领域,了解客户意图是一个重要的步骤。机器学习在这种类型的意图分类中起着至关重要的作用。实际上,典型的是从客户支持代表CSR上收集关于意图预测的CSRS的确认,尽管它可能不必要地促使CSR为MIS分类案件分配现有或新意图。除了没有意图标签的确认案例外,还有一些没有人为策策的病例。该数据构成对未标记的多牌底片的阳性为模型开发创造了独特的挑战。为此,我们提出了一个半监督的多任务学习范式。在本手稿中,我们在E Commerce网站上分享我们在构建基于文本的意图分类模型方面的经验。通过利用负面情况,域和任务在客户联系文本上的亚伯特自适应掠夺亚伯特,通过利用负片情况,通过在客户联系文本上自适应掠夺亚伯特,提高了模型来提高性能。在评估中,与基线Fineetuned MultiClass分类Albert模型相比,最终模型将平均AUC ROC提升了近20分。

MexPub: Deep Transfer Learning for Metadata Extraction from German Publications
Authors Zeyd Boukhers, Nada Beili, Timo Hartmann, Prantik Goswami, Muhammad Arslan Zafar
从科学论文中提取元数据可以在NLP中被认为是由于现有技术的高精度。但是,这不适用于德国科学出版物,具有各种风格和布局。与遵循标准和简单布局的大多数英语科学出版物,德国出版物中元数据的订单,内容,位置和大小在出版物之间大大变化。这种品种使传统的NLP方法无法准确地从这些出版物中提取元数据。在本文中,我们通过将文档视为图像,提出了一种用不同布局和样式从PDF文档中提取元数据的方法。我们使用了在Coco DataSet上培训的Mask R CNN,并使用PublayNet数据集进行了FineTuned,该数据集由具有五个基本类的200k PDF快照组成。文字,图等。我们在我们提出的合成数据集中优化了模型,该模型由30K文章快照组成,以提取九个模式i.作者,标题等。我们的合成数据集是在德语和英语中的语言中的内容生成的,并从德国出版物获得的有限挑战模板。我们的方法实现了大约90的平均精度,其验证了其能力从各种PDF文档中精确提取元数据,具有具有挑战性的模板。

MOLEMAN: Mention-Only Linking of Entities with a Mention Annotation Network
Authors Nicholas FitzGerald, Jan A. Botha, Daniel Gillick, Daniel M. Bikel, Tom Kwiatkowski, Andrew McCallum
我们呈现了一个基于实例的实例到实体链接方法。与代表每个实体的最先前的实体检索系统相比,我们构建了一个上下文化提到的编码器,该编码器学习,该编码器比不同实体的提及放置在向量空间中相同的同一实体的相似提及。这种方法允许所有实体提及作为推断作为类原型涉及从训练集中的全套标记实体提到检索并应用最近的提及邻居的实体标签。我们的模型培训了大型多语种语料库,提到了来自维基百科超链接的对成对的,并执行最近的邻居推断,以7亿提到的索引。它更简单地训练,提供更多可解释的预测,并且优于两个多语言实体链接基准的所有其他系统。

Understanding Information Spreading Mechanisms During COVID-19 Pandemic by Analyzing the Impact of Tweet Text and User Features for Retweet Prediction
Authors Pervaiz Iqbal Khan, Imran Razzak, Andreas Dengel, Sheraz Ahmed
Covid 19影响了世界经济和几乎所有人的日常生活例程。它是社交媒体平台上的热门话题,如Twitter,Facebook等。这些社交媒体平台使用户能够与其他能够重新查找此信息的其他用户共享信息,从而导致这些信息传播。 Twitter S Retweet功能允许用户使用其他用户共享现有内容而不更改原始内容。社交媒体平台的分析有助于检测流体中的紧急情况,导致采取预防措施。一种这样的分析是预测给定Covid 19相关推文的转发的数量。最近,CIKM为Covid 19的转发预测挑战组织了专注于使用数字功能的Covid 19推文。然而,我们的假设是,推文文本可能在准确的转发预测中发挥重要作用。在本文中,我们将Covid 19相关转发预测的数字和文本特征组合。为此目的,我们提出了两个基于CNN和RNN的模型,并在公开可用的TweetScov19数据集中评估这些模型的性能,使用七个不同的评估指标。我们的评估结果表明,将Tweet文本与数字功能相结合,显着提高了转发预测的性能。

i-Pulse: A NLP based novel approach for employee engagement in logistics organization
Authors Rachit Garg, Arvind W Kiwelekar, Laxman D Netak, Akshay Ghodake
虽然大多数物流和货运代理组织,以某种方式声称有核心价值。员工的参与是一种巨大的结构,影响公司核心环境价值的几乎所有部分。关于公司与员工参与的关系很少的理论知识。基于研究文献,本文旨在通过实施深入自然语言处理概念,为物流组织的员工参与界面提供一种新的洞察方法。启用了人工智能的解决方案名为智能脉冲I脉冲可以评估数百和数千个脉冲调查评论,并提供可操作的洞察力和员工反馈的主持人。我的脉搏允许利益相关者在他们组织中以新的方式思考,帮助他们对员工参与,保留和效率产生强大的影响。这项研究对研究人员和从业者来说是相应的兴趣。

Constraining Linear-chain CRFs to Regular Languages
Authors Sean Papay, Roman Klinger, Sebastian Pad
在结构化预测中,模型的主要挑战是代表其输出结构内的相互依赖性。对于输出被构造为序列的常见情况,线性链条条件随机字段CRF是广泛使用的模型类,可以在输出序列中学习本地依赖性。但是,CRF S Markov假设使得这些模型无法捕获非函数依赖关系,标准CRF无法尊重输出标签上的全局ARITE约束等数据的非识别限制。我们通过将可能的输出结构的空间指定为常规语言MATHCAL L来展示CRF的概率,该CRFS可以强制执行广泛的约束,包括非参录数据。由此产生的常规约束CRF Regcrf具有与标准CRF相同的正式属性,但为所有标签序列分配零概率,而不是Mathcal L.值得注意的是,Regccrfs可以在训练期间纳入其约束,而相关模型在解码期间只强制实施约束。我们证明,受限制的培训永远不会比约束解码更差,并且使用合成数据显示它在实践中可以基本上更好。此外,我们通过将Regccrf掺入了用于语义角色标记的深度神经模型来证明对下游任务的实际效益,超过最新的原始数据标准数据集。

Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
Authors Hidetaka Kamigaito, Katsuhiko Hayashi
在知识图形嵌入中,软MAX交叉熵与负采样损耗功能之间的理论关系尚未研究。这使得难以将两种不同损失功能的结果进行公平比较。我们试图通过使用BREGMAN发散来解决这个问题来提供对Softmax交叉熵和负采样损耗功能的统一解释。在这种解释下,我们可以导出公平比较的理论调查结果。 FB15K 237和WN18RR数据集上的实验结果表明,理论发现在实际设置中是有效的。

Pre-Trained Models: Past, Present and Future
Authors Han Xu, Zhang Zhengyan, Ding Ning, Gu Yuxian, Liu Xiao, Huo Yuqi, Qiu Jiezhong, Zhang Liang, Han Wentao, Huang Minlie, Jin Qin, Lan Yanyan, Liu Yang, Liu Zhiyuan, Lu Zhiwu, Qiu Xipeng, Song Ruihua, Tang Jie, Wen Ji Rong, Yuan Jinhui, Zhao Wayne Xin, Zhu Jun
大规模预训练的型号PTM,如BERT和GPT,最近取得了巨大的成功,成为人工智能AI领域的里程碑。由于先进的预培训目标和巨大的模型参数,大规模的PTM可以有效地捕获来自大规模标记和未标记的数据的知识。通过将知识存储成巨大参数和对特定任务的微调,在巨大参数中隐含地编码的丰富知识可以使各种下游任务受益,这已经通过实验验证和实证分析广泛地证明。现在是AI社区的共识,采用PTMS作为下游任务的骨干,而不是从头开始学习模型。在本文中,我们深入了解前培训的历史,特别是与转移学习和自我监督学习的特殊关系,揭示了PTMS在AI开发谱中的关键地位。此外,我们全面审查了PTM的最新突破。这些突破是通过计算能力的激增和数据的增加,朝着设计有效架构的四个重要方向,利用丰富的背景,提高计算效率和进行解释和理论分析。最后,我们讨论了一系列公开问题和研究方向的PTM,希望我们的观点可以激发和推进PTM的未来研究。

Thinking Like Transformers
Authors Gail Weiss, Yoav Goldberg, Eran Yahav
什么是变压器后面的计算模型,其中经常性神经网络在有限状态机中具有直接平行线,允许在架构变体或训练模型周围进行清晰的讨论和思考,变压器没有如此熟悉的平行。在本文中,我们旨在改变该模型,提出以编程语言的形式提出变压器编码器的计算模型。我们将变压器编码器注意的基本组件映射到简单的基元,向前馈送到简单的基元,我们形成了一个编程语言的受限访问序列处理语言锉刀。我们展示RASP如何用于编程解决方案,可以通过变压器可以想到的任务,以及如何培训变压器以模仿RASP解决方案。特别是,我们提供针对直方图,排序和Dyck语言的RASP程序。我们进一步使用我们的模型在所需的层数和注意力头的数量方面,分析RASP程序意味着在变压器中编码任务所需的最大头部和层数,所以关注头部的难度涉及所需的最大数量。最后,我们了解我们的抽象中获得的洞察力如何用于解释最近有效的现象。

Contrastive Attention for Automatic Chest X-ray Report Generation
Authors Fenglin Liu, Changchang Yin, Xian Wu, Shen Ge, Ping Zhang, Xu Sun
最近,胸部X射线报告生成,旨在自动生成给定的胸部X射线图像的描述,已获得越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下,普通区域主导整个胸部X射线图像,并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差,基于学习的模型可能无法参加异常区域。在这项工作中,有效地捕获和描述异常区域,我们提出了对比的关注CA模型。 CA模型而不是仅专注于电流输入图像,而是将电流输入图像与正常图像进行比较以蒸馏到对比信息。所获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU X射线和模拟CXR数据集的实验,将我们的CA融入了几种现有型号可以在大多数指标上提升他们的性能。此外,根据分析,CA型号可以帮助现有的模型更好地参加异常区域,并提供对可解释诊断至关重要的更准确的描述。具体而言,我们在两个公共数据集上实现了最先进的结果。

Exploring and Distilling Posterior and Prior Knowledge for Radiology Report Generation
Authors Fenglin Liu, Xian Wu, Shen Ge, Wei Fan, Yuexian Zou
自动生成放射学报告可以改善诊断放射学的当前临床实践。一方面,它可以缓解放射科学家,另一方面,它可以提醒异常的放射科医师,避免误诊和错过诊断。然而,由于严重的视觉和文本数据偏差,该任务仍然是数据驱动神经网络的具有挑战性的作业。为此,我们提出了一个后脑和先验的知识探索和蒸馏方法,以模仿放射科学家的工作模式,谁将首先检查异常区域并将疾病主题标签分配给异常区域,然后依赖于之前的年份医学知识和先前的工作经验积累编写报告。因此,PPKED包括三个模块后续知识探索器戳,现有知识探险者PRKE和多领域知识蒸馏器MKD。详细说明,Poke探讨了后视知识,它为缓解视觉数据偏见探讨了明确的异常视觉区域探讨了从先前医学知识图中探讨了先前医学知识图的先验知识,并提前放射学报告了减轻文本数据偏差的工作经验。 MKD蒸馏出探索知识以产生最终报告。在模拟CXR和IU XRAY数据集上进行评估,我们的方法能够在这两个数据集上倾销前一个最先进的最新状态。

GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio
Authors Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan
本文介绍了Gigashech,一种不断发展的多域英语语音识别语料库,适用于监督培训的10,000小时的高质量标记音频,以及适用于SEMI监督和无监督培训的40,000小时的总音频。首先从AudioBooks,Podcasts和YouTube收集约40,000小时的转录音频,涵盖读取和自发的讲话方式,以及艺术,科学,体育等的各种主题,提出了新的强制对准和分割管道。创建适用于语音识别培训的句子段,并过滤出低质量转录的段。对于系统培训,Gigasheapeech提供了五个不同尺寸的四子集,10h,250h,1000h,2500h和10000h。对于我们10,000小时的XL训练子集,我们在过滤验证阶段,以及所有其他较小的训练子集,我们将其盖住4个错误率。另一方面,DEV和测试评估集通过专业人体转录进行了重新加工,以确保高转录质量。为流行的语音识别工具包提供基线系统,即雅典娜,Espnet,Kaldi和Pika。

Case Study on Detecting COVID-19 Health-Related Misinformation in Social Media
Authors Mir Mehedi A. Pritom, Rosana Montanez Rodriguez, Asad Ali Khan, Sebastian A. Nugroho, Esra a Alrashydah, Beatrice N. Ruiz, Anthony Rios
Covid 19 Pandemic已经产生了公共卫生官员,称为infodemation的误读。随着社会疏散和家庭命令生效,许多人转向社交媒体进行社交。这种社交媒体使用的增加使其成为扩散错误信息的主要车辆。本文提出了一种在跨学科方法后检测社交媒体中的Covid 19健康相关错误信息的机制。利用社会心理学作为基础和现有的错误信息框架,我们使用应用的机器学习技术定义了包含在Misinformation检测机构中的错误信息主题和相关关键字。接下来,使用Twitter DataSet,我们使用艺术机器学习分类器的多个状态探讨了所提出的方法的性能。我们的方法显示有前途的结果在分类健康相关误报与真正信息中,最多可以使用Uni Gram基于Tweets和决策树分类器的特征来实现最多78个准确性。我们还提供关于替代衡量事件和伦理考虑的替代方案的建议。

Engineering Knowledge Graph from Patent Database
Authors L Siddharth, Lucienne T.M. Blessing, Kristin L. Wood, Jianxi Luo
我们提出了一个大型,可扩展的工程知识图表,包括在专利数据库中发现的现实世界工程事实的实体,关系,实体三元组。我们根据专利文献中的索赔的句法和词汇属性来应用一组规则,以提取事实。我们在每个专利文献中聚合这些事实,并在专利数据库中集成聚合的事实集,以获得工程知识图。这些知识图表预计支持各种工程任务中的推理,推理和回忆。与工程文献中的先前使用的知识图和语义网络相比,知识图具有更大的尺寸和覆盖范围。

Break-It-Fix-It: Unsupervised Learning for Program Repair
Authors Michihiro Yasunaga, Percy Liang
我们考虑给予评论家的修复任务,例如,评估输入的质量的编译器,目标是培训一个转换错误示例的修复器,例如,具有语法错误的代码为一个良好的代码。,没有错误的代码。现有作品通过损坏使用启发式的良好的例子,创建由糟糕的对成对组成的培训数据,例如,丢弃令牌。然而,在这种合成生成的数据上培训的固定器不易于易于易于对错误输入的实际分布。要弥补这一差距,我们提出了一种新的培训方法,突破它,它有两个关键的想法,我使用批评者检查真正的错误输入上的固定器S输出,并为培训数据添加良好的固定输出,以及II我们训练一个断路器,从好的代码产生现实的坏代码。基于这些想法,我们在使用它们时迭代地更新断路器和修复器,以便生成更多配对数据。我们评估两种代码修复数据集Github Python,我们介绍了使用AST解析错误和Deepfix的目标是修复Python代码的新数据集,其中目标是使用编译器错误修复C代码。 BIFI优于现有的方法,在Deepfix 5.6上获得GitHub Python 28.5和71.7的90.5修复精度。值得注意的是,BIFI不需要任何标记的数据,我们希望它将是无监督学习各种维修任务的强大起点。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(NLP,Transformer,Papers,自然语言处理,词向量,聊天机器人,NLP,NLPer)