AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 11 Jun 2021
Totally 37 papers
上期速览✈更多精彩请移步主页
ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language Generation Authors Wanrong Zhu, Xin Eric Wang, An Yan, Miguel Eckstein, William Yang Wang 自然语言生成NLG的自动评估通常依赖于令牌级别或与文本引用的嵌入水平比较。这与人类语言处理不同,视觉想象通常会改善理解。在这项工作中,我们提出了想象的自然语言生成的一种基于想象的自动评估度量。在剪辑和Dall E的帮助下,在大规模图像文本对上预先培训的两个跨模型模型,我们会自动生成图像作为文本片段的体现和模拟的体现,并使用上下文嵌入来计算图像相似度。跨越多个文本生成任务的实验表明,与我们的想象力添加了想象力,在将多模态信息引入NLG评估时显示出极大的潜力,并且在许多情况下提高了与人类相似性判断的现有自动度量相关性。 |
PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition Authors Cheng I Jeff Lai, Yang Zhang, Alexander H. Liu, Shiyu Chang, Yi Lun Liao, Yung Sung Chuang, Kaizhi Qian, Sameer Khurana, David Cox, James Glass 最近关于言语自我监督的学习语音SSL的工作证明了比例在学习具有有限并行数据的自动语音识别ASR的丰富和可转移表示的效益。然后,自然地研究预训练的语音SSL模型中的稀疏和可转换子网的存在,可以实现更好的低资源ASR性能。但是,直接申请广泛采用的修剪方法,例如彩票假设Lth以所需的计算成本次优。此外,与Lth预测相反,发现的子网是与原始密集网络相比的最小性能增益。在这项工作中,我们建议修剪调整RE PRUNE PARP,该PARP解析和FineTunes子网,以获得更好的ASR性能,同时只需要单个下游FINETUNING运行。 PARP受到我们令人惊讶的观察的启发,即仅需要稍微调整训练任务的子网,以略微调整,以在下游ASR任务中实现相当大的性能提升。对低资源英语和多语言ASR的广泛实验显示了预训练的语音SSL中存在的1个稀疏的子网,以及2通过基线修剪方法的PARP的计算优势和性能增益。在没有LM解码的10min LibrisPeech Split中,PARP从Wav2VEC 2.0发现子网,与完整模型相比,Absolute 10.9 12.6 WER减少。我们展示了PARP减轻了交叉语言掩模转移的性能下降,并调查一个在一次运行中发现10个口语语言的单个子网的可能性。 |
Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for Multimodal Hate Authors Austin Botelho, Bertie Vidgen, Scott A. Hale 在线仇恨的准确检测和分类是一项艰巨的任务。隐含仇恨特别具有挑战性,因为这种内容倾向于具有异常的语法,多血糖词,偏见的偏见标记。多模式内容提高了该问题,例如文本和图像的MEMES组合,因为它们通常比单峰内容更难地解回,例如,单独的文本。本文评估了语义和多模式语境的作用,以检测隐式和明确的仇恨。我们表明,两种文本和视觉富集都会提高模型性能,多式联运型号0.771优于其他型号F1分数0.544,0.737和0.754。虽然单向文本了解变压器模型是隐式仇恨检测的子批次最准确的,但多峰模型由于对误报的倾向较低,而且整体上总体地表现出来。我们发现所有型号的内容都更好地对具有完整注释协议的内容更好,并且多模式模型最适合对注入者不同意的内容进行分类。要进行这些调查,我们对5,000个多式联运项目的样本进行了高质量的注释。推文是针对小型类别,模当的策略注释的。我们制作此语料库,以及码本,代码和最终模型,可自由使用。 |
Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation Authors Prakhar Gupta, Yulia Tsvetkov, Jeffrey P. Bigham 开放式域名神经对话模型在响应排名和评估任务中取得了高性能。这些任务被制定为对话背景中给出的响应的二进制分类,模型通常学会基于上下文响应内容相似性进行预测。然而,过度依赖内容相似性使得模型对不一致性的存在敏感,不正确的时间表达和对响应适当性和连贯性重要的其他因素。我们提出了自动创建对抗性负培训数据的方法,以帮助排名和评估模型学习超出内容相似性的特征。我们提出掩码和填充和关键字引导方法,为培训更强大的对话系统产生负面示例。这些产生的对抗性反应与语境具有高含量相似性,但要么不连贯,不当,不恰当或不流利。我们的方法是完全数据驱动,可以在现有模型和数据集中轻松结合。多个数据集的分类,排名和评估任务的实验表明,我们的方法优于为提供培训对话系统提供信息的强有力的基础。 |
KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian Languages Code-Switching Challenge Authors Amir Hussein, Shammur Chowdhury, Ahmed Ali 在本文中,我们介绍了Kanari QCRI Kari系统和用于参与Interspeech 2021代码切换CS挑战的模型策略,用于低资源印度语言。子任务涉及为两个CS数据集印度英语和孟加拉语开发语音识别系统,在现实生活中收集。为了解决CS挑战,我们使用转移学习来纳入公开的单梅林印度,孟加拉语和英语语音数据。在这项工作中,我们研究了两个步骤转移学习协议的有效性,用于低资源的CS数据单声道预介质,然后进行微调。对于声学建模,我们开发结束到终端卷积增强变压器符合子。我们表明,选择每个单声道数据的百分比会影响模型偏差,朝向CS方案中使用另一个语言字符集。在良好对齐和精确的单晶体数据上预先磨料的模型显示出对细分和转录之间的错位的鲁棒性。最后,我们开发Word Level N Gram语言模型LM以重新核心ASR识别。 |
A Template-guided Hybrid Pointer Network for Knowledge-basedTask-oriented Dialogue Systems Authors Dingmin Wang, Ziyao Chen, Wanwei He, Li Zhong, Yunzhe Tao, Min Yang 最现有的基于神经网络的任务面向对话系统遵循编码器解码器范例,其中解码器纯粹取决于源文本以生成一系列单词,通常患有不稳定性和可读性差。受到传统的基于模板的生成方法的启发,我们提出了一个用于知识的任务面向对话系统的模板引导混合指针网络,它从预构建的域特定的会话存储库中检索几个可能相关的答案作为指导答案,并将指导答案结合到编码和解码过程都。具体而言,我们设计具有门控机制的存储器指针网络模型,以充分利用检索答案与地面真相响应之间的语义相关性。我们在四个广泛使用的任务面向数据集中评估我们的模型,包括一个模拟和三个手动创建的数据集。实验结果表明,所提出的模型比在不同自动评估度量上的现有技术的状态方面的性能明显更好。 |
Neural Text Classification and StackedHeterogeneous Embeddings for Named Entity Recognition in SMM4H 2021 Authors Usama Yaseen, Stefan Langer 本文介绍了我们参加SMM4H共享任务2021的调查结果。我们解决了命名的实体识别网和文本分类。要处理NER,我们探讨了Bilstm CRF与堆叠的异构嵌入和语言特征。我们调查了各种机器学习算法Logistic回归,支持向量机SVM和神经网络来解决文本分类。我们的拟议方法可以推广到不同的语言,我们已经向英语和西班牙语展示了它的有效性。我们的文本分类提交Team MIC NLP分别在ADE分类任务1A和专业分类任务7A上实现了F1分数为0.46和0.90的竞争性能。在NER的情况下,我们的提交分别在ADE SPAN检测任务1B和专业跨度检测任务7B上得分为0.50和0.82的F1分数。 |
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures Authors Ivan Chelombiev, Daniel Justus, Douglas Orr, Anastasia Dietrich, Frithjof Gressmann, Alexandros Koliousis, Carlo Luschi 基于注意力的语言模型已成为最先进的自然语言处理系统的关键组成部分。然而,由于长期训练时间,密集操作和大参数计数,这些模型具有显着的计算要求。在这项工作中,我们向变压器层的结构展示了一组修改,产生更有效的架构。首先,我们添加卷积模块来补充自我注意模块,解耦了本地和全局互动的学习。其次,我们依靠分组转换来降低密集馈线的计算成本和卷曲,同时保留模型的表现。我们将由此产生的架构应用于语言表示学习,并与不同尺度的BERT模型相比展示其优越的性能。我们进一步突出了其提高效率,无论是浮点操作拖鞋和培训时间。 |
Linguistically Informed Masking for Representation Learning in the Patent Domain Authors Sophia Althammer, Mark Buckley, Sebastian Hofst tter, Allan Hanbury 域特定的上下文化语言模型已经表现出域特定下游任务的大量有效性,如相似性匹配,实体识别或信息检索。然而,在高度特定的语言域中成功地应用了这些模型需要域制适应预训练的模型。在本文中,我们提出了经验激励的语言上通知的掩蔽液法,以对专利语言图案的域适应性预培训焦点,它使用了高技术子语言。我们量化专利,科学和通用语言之间的相关差异,并向两种不同的语言模型展示BERT和SCIBERT,通过评估在两个独立的下游任务中评估专利语言的域改良表示的性能来系统地改进了表示的域。 ,IPC分类和相似性匹配。我们展示了在专利域的域改性期间平衡了从不同信息源的学习的影响。我们制作源代码以及域自适应预培训的专利语言模型可公开可用 |
Parallel Deep Learning-Driven Sarcasm Detection from Pop Culture Text and English Humor Literature Authors Sourav Das, Anup Kumar Kolya 讽刺是一种复杂的方式,可以在一个搞笑的方式内包装任何内在的真相,甚至嘲弄。使用社交网络的通信的出现具有批量生产的社会化途径。可以进一步说,幽默,讽刺,讽刺和机智是在现代时期有趣的四个机器人。在本文中,我们手动提取基准流行文化讽刺讽刺语料库的讽刺词分布特征,包含讽刺的对话和独白。我们从这些单词生成由加权矢量形成的输入序列。我们进一步提出了四个平行深短的短期网络PLSTM的融合,每个都具有独特的激活分类器。这些模块主要旨在成功地从文本语料库中检测讽刺。我们提出的用于检测讽刺的模型在讨论的数据集接受培训时达到98.95的训练精度。连续,它在所有测试用例中获得了两种手中项目Gutenberg英语幽默文学的最高98.31的整体验证准确性。我们的方法将以前的艺术状态转移到几个讽刺Corpora上的工作,并导致新的金标准性能进行讽刺检测。 |
Automatic Construction of Context-Aware Sentiment Lexicon in the Financial Domain Using Direction-Dependent Words Authors Jihye Park, Hye Jin Lee, Sungzoon Cho 对金融文件的情感分析提高了越来越关注。这些文件的最受欢迎的例子包括分析师报告和经济新闻,分析其经常用于捕捉市场情绪的趋势。另一方面,在金融领域的角色情绪分析扮演的重要性引起了构建金融领域特定情绪词典的努力。情绪词典借给解决各种文本挖掘任务的手,例如无监督的文本数据分类,同时减轻了手动标签所需的艰苦人力劳动力。建造有效情绪词典的挑战之一是,单词的语义取向可能根据出现的上下文而变化。例如,利润这个词通常传达了积极的情绪,然而,当这个词与另一个词的并置时,与短语利润相关的情绪现在变为负。因此,给定词的情绪可以随着一个开始考虑围绕这个词的上下文而转变。在本文中,我们通过在从给定语料库构建情绪词典时结合上下文来解决这个问题。具体地,我们构造一个名为Senti DD的词典,用于由方向相关单词组成的情绪词典,其表示每个术语一对定向词和方向依赖词。实验结果表明,通过Senti DD实现了较高的分类性能,证明了我们在金融领域自动构建背景感知情绪词典的方法的有效性。 |
FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information Authors Rami Aly, Zhijiang Guo, Michael Schlichtkrull, James Thorne, Andreas Vlachos, Christos Christodoulopoulos, Oana Cocarascu, Arpit Mittal 事实验证在机器学习和自然语言处理社区中引起了很多关注,因为它是检测错误信息的关键方法之一。此任务的现有大规模基准主要集中在文本源上,即非结构化信息,从而忽略了结构化格式(如表)中可用的大量信息。在本文中,我们介绍了一个新的数据集和基准,事实提取和验证,由非结构化和结构化信息衰竭,包括87,026个已验证索赔。每个索赔都以句子和或维基百科表中的表格形式的证据,以及指示此证据是否支持,反驳或不提供足够的信息以达到判决的标签。此外,我们详细介绍了跟踪和最小化数据集中存在的偏差的努力,并且可以通过模型进行利用,例如,能够在不使用证据的情况下预测标签。最后,我们开发了一种基线,用于验证对文本和表格的索赔,该索赔预测18项权利要求的正确证据和判决。 |
Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation Authors Yuanxin Liu, Fandong Meng, Zheng Lin, Weiping Wang, Jie Zhou 最近,知识蒸馏KD在BERT压缩方面取得了巨大的成功。研究人员认为,研究人员认为伯特隐藏层中包含的丰富信息有利于学生的性能。为了更好地利用隐藏的知识,常见的做法是迫使学生所有的令牌深深模仿老师•隐藏状态的层明智的方式。然而,在本文中,我们观察到虽然蒸馏老师的隐藏状态知识HSK是有帮助的,但在蒸馏更多的HSK时,性能增益边际效用会很快减少。要了解这种效果,我们进行一系列分析。具体而言,我们将伯特的HSK分成三维,即深度,长度和宽度。我们首先调查各种策略,以提取每个单尺寸的至关重要知识,然后共同压缩三维。通过这种方式,我们表明,1名学生的表现可以通过提取和蒸馏关键HSK,并使用2 HSK的一小部分能达到相同的性能,丰富的HSK蒸馏得到改善。基于第二个发现,我们进一步提出了一种高效的KD范例来压缩伯特,在培训学生期间,这不需要装载老师。对于两种学生模型和计算设备,所提出的KD范例导致培训超速2.7倍3.4倍。 |
DT-grams: Structured Dependency Grammar Stylometry for Cross-Language Authorship Attribution Authors Benjamin Murauer, G nther Specht 跨语言作者归因归因依赖于翻译,以便使用单语言功能,或语言独立功能提取方法。直到最近,缺少该问题的数据集阻碍了后者的开发,并在机器翻译的Corpora上执行单语言解决方案。在本文中,我们提出了一种基于依赖图和语音标签的依赖图和通用部分的作者分析的新颖独立特征,称为DT克依赖树克,这是通过选择句子依赖图的特定子部分来构造的。我们通过对双语作者的未翻译数据集进行跨语言作者归因来评估DT克,表明,平均而言,它们达到了比以前的五种不同语言对的先前方法高0.081的宏观分数。此外,通过为比较各种特征的结果提供结果,我们为未经翻译的跨语言作者归因的先前未记录任务提供了基准。 |
Ruddit: Norms of Offensiveness for English Reddit Comments Authors Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M. Mohammad, Ekaterina Shutova 在社交媒体平台上,仇恨和令人反感的语言对用户的心理福祉产生负面影响以及人们从不同的背景的参与。自动检测冒犯语言的方法在很大程度上依赖于分类标签的数据集。但是,评论可能因其冒险程度而异。我们创建了一个英语语言的第一个DataSet,其具有细小粒度的纺织品,真实值得的分数在1之间,最大限度地位,1最大令人反感。数据集用EMPH最佳缩放注释,一种比较注释形式,已被证明可以缓解使用评级尺度的已知偏差。我们表明该方法产生了高度可靠的抵抗力分数。最后,我们评估了广泛使用的神经模型来预测该新数据集中的冒险得分的能力。 |
Exploring Unsupervised Pretraining Objectives for Machine Translation Authors Christos Baziotis, Ivan Titov, Alexandra Birch, Barry Haddow 通过大幅减少对大型并行数据的需求,无监督的十字形普瑞林在神经机翻译NMT中取得了很强的结果。大多数方法通过屏蔽输入部分并将其重建在解码器中,对屏蔽语言建模MLM进行序列架构进行序列架构。在这项工作中,我们通过根据其上下文重新排序和替换单词,系统地比较屏蔽,以产生类似于真正的完整句子的输入。我们用不同方法采用不同方法的普通模型,英语Leftrightarrow Nepali和英语Leftrightarrow Sinhala单声道数据,并在NMT上进行评估。在半监督NMT中,改变预先训练目标导致FineTuned性能令人惊讶的小差异,而无监督的NMT对其更敏感。要了解这些结果,我们将使用一系列探针彻底研究预磨模的模型,并以不同方式编码和使用信息。我们得出结论,并行数据的FineTuning对大多数模型(例如强大的解码器)共享的少数属性敏感,与未经监督的NMT相比,也需要具有强大交叉能力的模型。 |
VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and Summarization Authors Tengchao Lv, Lei Cui, Momcilo Vasilijevic, Furu Wei 视频成绩单摘要是视频理解的基本任务。常规的转录程序摘要方法通常基于新闻文章等书法语言的摘要数据构建,而域差异可能会降低口语文本的模型性能。在本文中,我们展示了VT SSUM,这是一个具有口语转录语言的基准数据集,用于视频成绩单分段和摘要,其中包括来自9,616个视频的125K抄本总结对。 VT SSUM从中利用视频 |
AUGNLG: Few-shot Natural Language Generation using Self-trained Data Augmentation Authors Xinnuo Xu, Guoyin Wang, Young Bum Kim, Sungjin Lee 自然语言生成NLG是一个面向任务对话系统中的关键组成部分,它将结构化意义代表译成到自然语言转换为自然语言。对于大规模的对话系统,在拥有超过数百个意图和数千个时隙的情况下,既不是基于模板的方法也不是基于模型的方法是可扩展的。最近,神经NLGS开始利用转移学习,并在很少的拍摄环境中显示有希望的结果。本文提出了一种新的数据增强方法,将自动训练的神经检索模型与几次拍摄的NLU模型结合起来,自动创建来自开放式域文本的文本数据。所提出的系统主要优于Bleu和插槽错误率的几秒钟数据上的现有技术的状态。我们进一步确认了几秒钟数据上的改进结果,并提供了我们系统的关键组件的全面分析结果。我们的代码和数据可供选择 |
AGGGEN: Ordering and Aggregating while Generating Authors Xinnuo Xu, Ond ej Du ek, Verena Rieser, Ioannis Konstas 我们将AGGGEN呈现再次发音,该数据是文本模型的数据,重新将两个显式句规划阶段引入神经数据到文本系统输入排序和输入聚合。与以前的工作相比,使用句子规划,我们的模型仍然是Agggen的结束,同时执行句子规划作为通过输入表示和目标文本之间的语义事实来生成文本。 WebnLG和E2E挑战数据的实验表明,通过使用基于事实的对准,我们的方法是更具可解释的,表现力的,对噪声更容易控制,同时在流利的方面保持结束到最终系统的优势。我们的代码可供选择 |
Shades of BLEU, Flavours of Success: The Case of MultiWOZ Authors Tom Nekvinda, Ond ej Du ek MultiWoz DataSet Budzianowski等人,2018年经常用于基准测试背景以响应面向任务对话系统的能力。在这项工作中,我们确定数据预处理和报告在此数据集中使用的三个语料库的数据预处理和报告的不一致性,即BLEU分数并告知成功率。我们指出了若要多发性基准的一些问题,例如不令人满意的预处理,不足或根据指定的评估指标或刚性数据库。我们将7个结束和6个政策优化模型进行评估,如可能的设置,我们表明他们报告的分数不能直接比较。为了便于对未来系统的比较,我们释放了我们独立标准化的评估脚本。我们还为未来作品中基于基于基准的基本基本建议。 |
Progressive Multi-Granularity Training for Non-Autoregressive Translation Authors Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu 非自动翻译NAT通过预测整个目标序列显着加速推理过程。然而,最近的研究表明,NAT在学习高知识模式之外的弱势模式,例如一个转换。我们认为,模式可以分为各种粒度,可以从易于努力地学习。在这项研究中,我们经验证明,与句子相比,NAT模型易于学习细粒度的较低模式知识,例如单词和短语。基于这一观察,我们为NAT提出了逐步的多粒度训练。更具体地说,为了充分利用大多数培训数据,我们将句子级别示例分解为三种类型,即单词,短语,句子和培训,我们逐步增加粒度。罗马尼亚语英语,英语,中文英语和日语英语的实验证明了我们的方法提高了转换准确性和模型重新排序能力,因此导致强大的NAT基线的翻译质量更好。此外,我们表明更多的确定性细粒度知识可以进一步提高性能。 |
CogAlign: Learning to Align Textual Neural Representations to Cognitive Language Processing Signals Authors Yuqi Ren, Deyi Xiong 最先前的研究通过直接连接具有认知功能的单词嵌入,将电子语言处理信号(EEG)处理信号(EEG,眼睛跟踪或EEG数据集成到自然语言处理NLP的神经模型中,忽略了两个模态之间的间隙IE,文本与认知中的噪声。特征。在本文中,我们向这些问题提出了一种分解方法,这将学会将文本神经表征达到认知功能。在CogAlign中,我们使用配备有模态鉴别器的共享编码器来替代地编码文本和认知输入以捕获其差异和共性。另外,提出了一种意识注意机制来检测任务相关信息,并避免在认知功能中使用噪声。三个NLP任务的实验结果,即命名实体识别,情感分析和关系提取,表明,Cogalign在公共数据集上的最先进的艺术模型中实现了多种认知功能的显着改进。此外,我们的模型能够将认知信息转移到没有任何认知处理信号的其他数据集。 |
How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation Authors Swaroop Mishra, Anjana Arunkumar 顶级排行榜经常在现实世界应用部署时经常执行不象征的模型,这需要严格且昂贵的预部署模型测试。迄今为止的模型表现的未开发方面是我们的排行榜是在本文中进行公平评估的排行榜,我们通过基于其难度水平来探测排行榜的任务不可知论。我们发现排行榜可以是对面的攻击,而顶级表演模型可能并不总是最好的模型。我们随后提出了备用评估指标。我们对10种型号的实验表明了模型排名的变化和先前报告的性能的整体减少,从而整除了AI系统能力的高估。灵感来自行为测试原则,我们进一步开发了一种视觉分析工具的原型,可根据最终用户的对焦区域通过定制进行排行榜改造。这有助于用户分析模型优势和缺点,并指导它们在选择最适合其应用方案的模型中。在用户学习中,各种商业产品开发团队的成员,涵盖了5个焦点领域,发现我们的原型平均降低了41次预部署开发和测试努力。 |
Convolutions and Self-Attention: Re-interpreting Relative Positions in Pre-trained Language Models Authors Tyler A. Chang, Yifan Xu, Weijian Xu, Zhuowen Tu 在本文中,我们在自然语言任务中详细介绍了卷曲与自我关注之间的关系。我们表明,自我注意层中的相对位置嵌入相当于最近提出的动态轻量级卷曲,我们认为将卷曲集成到变压器自我关注中的多种新方法。具体而言,我们提出了综合关注,其在卷积框架下将先前的相对位置嵌入方法联合起来。我们通过通过综合关注训练BERT进行实验,发现卷积始终如一地提高多个下游任务的性能,取代绝对位置嵌入。为了告知未来的工作,我们在语言模型预训练中展示了轻量级卷积,动态卷积和深度可分离卷曲的结果,考虑到自我注意层中的卷积的多个注入点。 |
Variational Information Bottleneck for Effective Low-Resource Fine-Tuning Authors Rabeeh Karimi Mahabadi, Yonatan Belinkov, James Henderson 虽然在各种任务上进行微调时,大规模预训练的语言模型已经获得了令人印象深刻的结果,但它们仍然经常在低资源场景中遭受过度装备。由于这种模型是通用特征提取器,因此许多这些特征不可避免地对给定的目标任务无关。我们建议使用变分信息瓶颈VIB在微调低资源目标任务时抑制无关的功能,并表明我们的方法成功减少了过度装备。此外,我们表明我们的VIB模型找到了对自然语言推理数据集中的偏差更强大的句子表示,从而从域数据集中获得更好的概括。在不同任务中的七个低资源数据集的评估表明,我们的方法在低资源场景中显着提高了转移学习,超越了先前的工作。此外,它提高了15个中的13个中的概括,其中15种自然语言推理基准。我们的代码公开提供 |
Input Augmentation Improves Constrained Beam Search for Neural Machine Translation: NTT at WAT 2021 Authors Katsuki Chousa, Makoto Morishita 本文介绍了我们在Wat 2021的限制翻译任务中提交的系统。在此任务中,系统需要输出包含所有给定字约束的翻译句子。我们的系统组合输入增强和约束光束搜索算法。通过实验,我们发现这种组合显着提高了平移精度,可以节省推理时间,同时包含输出中的所有约束。对于en Ja和Ja en,我们的系统在自动评估中获得了最佳的评估性能。 |
Data augmentation to improve robustness of image captioning solutions Authors Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo 在本文中,我们研究了运动模糊的影响,现实世界形象中的共同质量缺陷,在最先进的两个阶段图像标题解决方案中,并注意到溶液性能的降解,因为模糊强度增加。我们研究了使用解决方案的每个或两个阶段的训练数据增强来提高解决方法的鲁棒性,即对象检测和标题,并观察改进的结果。特别是,增强阶段的增强阶段将高运动模糊强度从68.7到11.7上的高运动模糊强度降低到MS Coco DataSet上的高运动模糊强度,以及在Vizwiz数据集中的22.4至6.8。 |
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses Authors Richard Antonello, Javier Turek, Vy Vo, Alexander Huth 如何通过神经语言模型,翻译模型和语言标记任务所学到的表示如何通过调整计算机视觉的编码器解码器转移学习方法来研究从培训的各种网络的隐藏表示中提取的100个不同的特征空间之间的结构关于语言任务。该方法揭示了低维结构,其中语言模型和翻译模型在Word Embeddings,句法和语义任务中平滑地插入,以及未来的单词嵌入。我们称之为低维结构的语言表示嵌入,因为它会对处理语言进行各种NLP任务所需的表示之间的关系。我们发现,这种代表性嵌入可以预测每个具有FMRI记录的自然语言刺激的人脑对人体脑响应的情况如何。此外,我们发现该结构的主要维度可用于创建一个突出显示大脑自然语言处理层级的指标。这表明嵌入捕获了大脑的自然语言表示结构的某些部分。 |
DESCGEN: A Distantly Supervised Datasetfor Generating Abstractive Entity Descriptions Authors Weijia Shi, Mandar Joshi, Luke Zettlemoyer 实体的短文本描述提供了它们的关键属性的摘要,并且已被证明是实体链接和问题诸如实体链接和问题的任务的有用背景知识来源。然而,生成实体描述,特别是对于新的和长尾实体,可以具有挑战性,因为相关信息通常跨越多种内容和风格的多个来源。我们介绍了对提示传播多个文档的Descgen,目标是生成实体摘要描述。 descgen由维基百科和粉丝的37k实体描述组成,每个人平均配对九个证据文件。使用与维基百科和粉丝实体页面的实体链接和超链接的组合来收集文件,其中共同提供高质量的远程监督。由此产生的摘要比现有数据集中的那些更具抽象,并为描述新的和新兴实体的挑战提供更好的代理。我们还提出了一个两级提取物然后产生基线,并表明在艺术模型和人类性能的状态下,胭脂L中存在大的差距19.9,这表明数据将支持重要的未来工作。 |
End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering Authors Devendra Singh Sachan, Siva Reddy, William Hamilton, Chris Dyer, Dani Yogatama 我们呈现了用于在生成答案时将信息与多个检索文档的信息组合的可分解开放域问题应答系统的结束。我们将检索决策作为相关文件集的潜在变量。由于通过对所检索的文件集的边缘化,因此使用期望最大化算法来近似这一点。我们迭代地估算我们的潜在变量的价值,给定的问题的相关文档集,然后使用此估计来更新检索器和读取器参数。我们假设尽可能结束训练允许训练信号流向读者,然后比上演明智训练更好地流向猎犬。这导致检索器能够为问题和读者选择更多相关文档,这些文件在更准确的文档中培训以生成答案。三个基准数据集的实验表明,我们所提出的方法优于2 3个绝对精确匹配点的所有现有的相当大小的方法,实现了最新的最新状态。我们的结果还展示了学习检索,以改善答复一代的可行性,而无明确监督检索决策。 |
Automatic Speech Recognition in Sanskrit: A New Speech Corpus and Modelling Insights Authors Devaraja Adiga, Rishabh Kumar, Amrith Krishna, Preethi Jyothi, Ganesh Ramakrishnan, Pawan Goyal 由于语言中存在的各种语言特点,Sanskrit的自动语音识别ASR是有趣的。梵语语言是简单的富有成效的,经历了在单词边界上的手机的舒缓同化,并在拼写惯例和发音中表现出变化。在这项工作中,我们提出了梵语在梵语中自动语音识别ASR的第一个大规模研究,重点是梵语asr中单位选择的影响。在这项工作中,我们为Sanskrit发布了一个78小时的ASR数据集,忠实地捕捉了语言表达的几个语言特征。我们调查不同声学模型和语言模型单元在梵语系统中的作用。我们还提出了一种新的建模单元,灵感来自音节级别单元选择,从单词中捕获从一个元音到下一个元音的元音的字符序列。我们还突出了为梵语选择图形表示的重要性,并展示了这种选择对Word错误率的影响。最后,我们将这些见解从Sanskrit Asr扩展到两个其他目录语言的ASR系统,古吉拉蒂和泰卢固。对于这两种语言,我们的实验结果表明,与使用本机脚本的ASR系统相比,ASR中基于语音的显着表示的使用会导致性能改进。 |
Programming Puzzles Authors Tal Schuster, Ashwin Kalyan, Oleksandr Polozov, Adam Tauman Kalai 我们介绍了一种称为编程拼图的新型编程挑战,作为对程序合成的客观和综合评估,并释放Python编程拼图P3的开源数据集。每个拼图由短Python程序F定义,目标是找到一个输入x,这使得f输出为true。难题是目的,即每个人都由其验证器F的源代码完全指定,因此评估F X需要测试候选解决方案x所需的全部。它们不需要答案密钥或输入输出示例,也不依赖于自然语言理解。该数据集是全面的,因为它跨越了一系列困难和域的问题,从琐碎的字符串操作问题到人类程序员立即显而易见,但不一定是AI,经典编程谜题,例如河内的塔,采取竞争性规划例如,动态编程,以算法和数学的长期开放问题,例如,要分解。 P3的目标性质容易支持自我监督的自动启动。我们开发基准枚举计划合成和GPT 3个求解器,即使在没有自己的过去的解决方案中学习任何参考解决方案,也能够解决方便难题。基于小的用户学习,我们发现难题难以与人类程序员和基线AI求解器之间相关联。 |
Improving multi-speaker TTS prosody variance with a residual encoder and normalizing flows Authors Iv n Vall s P rez, Julian Roth, Grzegorz Beringer, Roberto Barra Chicote, Jasha Droppo 语音系统的文本最近从人类演讲中实现了几乎无法区分的质量。然而,这些系统的韵律通常比自然语音更平坦,产生具有低富有效力的样品。扬声器ID和韵律的解除术语对语音系统的文本至关重要,以改善自然,并产生更多可变合成。本文提出了一种新的神经文本来语音模型,通过在流量标准化扬声器嵌入的架构上调节架构等架构,并通过用新的学习潜在分布代替负责建模由于韵律而模拟句子变异性的新学习编码器来接近解剖问题。 。通过删除参考编码器依赖性,通常在这种系统中发生的扬声器泄漏问题消失,在推理时间内产生更独特的合成。新模型比一套定量韵律特征的基线实现显着更高的韵律方差,以及更高的扬声器独特性,而不会降低扬声器可懂度。最后,我们观察到规范化的扬声器嵌入物能够实现更丰富的扬声器插值,大大提高了新的内插扬声器的独特性。 |
U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition Authors Di Wu, Binbin Zhang, Chao Yang, Zhendong Peng, Wenjing Xia, Xiaoyu Chen, Xin Lei 统一的流和非流媒体两次通过U2结束于语音识别的终端模型在流传输能力,准确性,实时因素RTF和延迟方面表现出很大的性能。在本文中,我们呈现U2,U2的增强版本,进一步提高了准确性。 U2的核心思想是在训练中同时使用标签序列的前后信息,以学习更丰富的信息,并结合解码时的前后预测以提供更准确的识别结果。我们还提出了一种名为SPECSUB的新数据增强方法,以帮助U2模型更准确和强大。我们的实验表明,与U2相比,U2在训练中显示了更快的收敛,更好地对解码方法的鲁棒性,以及U2上的一致5 8字误差率降低增益。在Aishell 1的实验上,我们通过FELESING SETUP实现了4.63个字符的错误率CER,5.05,具有U2具有320ms延迟的流设置。据我们所知,5.05是Aishell 1测试集上的最佳发布流程结果。 |
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training Authors Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie Yan Liu 象征性的音乐理解,这是指从象征数据的象征数据的理解,例如,MIDI格式,但不是音频,涵盖了许多音乐应用,如类型分类,情感分类和音乐件匹配。虽然良好的音乐表示有益于这些应用,但缺乏培训数据阻碍了代表学习。在自然语言处理中的预培训模型的成功启发,在本文中,我们开发了音乐培训,是音乐理解的大规模预训练模型。为此,我们构建一个大规模的符号音乐语料库,包含超过100万令的音乐歌曲。由于符号音乐包含更多结构,例如,栏,位置和不同的信息,例如,速度,仪器和音高,简单地采用来自NLP到符号音乐的预训练技术仅带来边缘收益。因此,我们设计了多种机制,包括Octuplemidi编码和栏级掩蔽策略,以增强与符号音乐数据的预培训。实验表明音乐伯特在四音乐理解任务中的优势,包括旋律完成,伴奏建议,流派分类和风格分类。消融研究还验证了我们在音乐堡的Octuplemidi编码和条水平屏蔽策略的设计的有效性。 |
Eye of the Beholder: Improved Relation Generalization for Text-based Reinforcement Learning Agents Authors Keerthiram Murugesan, Subhajit Chaudhury, Kartik Talamadupula 基于文本的游戏TBGS已成为一个流行的探索,用于演示基于学习的代理,这些代理在准现实世界环境中做出决定。这种TBG中的强化学习代理问题的问题正在识别世界上的物体,以及与该世界的这些对象关系。虽然最近使用基于文本的资源来提高代理商的知识并改善其概括已经表明了承诺,但我们在本文中有很多尚待从这些同一世界的视觉表现中学到的。具体而言,我们建议检索代表来自世界的特定文本观测实例的图像,并在这些图像上培训我们的代理。这改善了代理商的整体理解游戏场景和对象与周围世界的关系,并且提供的各种视觉表示允许代理生成关系的更好概括。我们表明,该图像的结合可以提高各种TBG设置中的代理的性能。 |
Grover's Algorithm for Question Answering Authors A. D. Correia, M. Moortgat, H. T. C. Stoof GROVER S算法,众所周知的量子搜索算法,允许一个在数据库中找到正确的项目,具有二次加速。在本文中,我们将GROVER S算法适应了以英语中的自然语言问题找到正确答案的问题,从而有助于越来越多的量子自然语言处理领域。使用可以解释为张量凹陷的语法,每个单词表示为用作量子电路的输入的量子状态。我们在这里介绍量子测量来收缩单词的表示,导致更大的文本碎片的表示。使用此框架,找到了问题的表示,其中包含等Quantum叠加中的所有可能答案,并允许建立可以检测到正确答案的Oracle,而是对特定问题无关。此外,我们表明我们的建筑可以通过保持量子叠加中的各种不同含义来处理某些类型的模糊性短语。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com