AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 8 Jun 2021
Totally 76 papers
上期速览✈更多精彩请移步主页
A Simple Recipe for Multilingual Grammatical Error Correction Authors Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn 本文介绍了培训艺术多语言语法纠错GEC型号的简单配方。我们通过首先提出一种旨在产生大量合成示例的语言不可知方法来实现这一目标。第二种成分是使用高达11B参数的大规模多语言语言模型。一旦对语言专用的调整,我们将超越前一个艺术状态的GEC基准,以四种语言英语,捷克语,德语和俄语。为GEC建立了一组新的基线,我们通过释放铿cl的8个数据集可以轻松再现和可访问的结果。它是通过使用我们称之为GT5的最佳模型来制作,清除广泛使用的嘈杂的LANG 8数据集的目标。 Clang 8大大简化了由多种精细调谐阶段组成的典型GEC训练管道,我们证明了在废弃货架语言模型中对Clang 8执行单一微型调谐步骤产生了进一步的准确性改进,对英语的最高表演GT5模型产生了进一步的准确性。 |
Narrative Question Answering with Cutting-Edge Open-Domain QA Techniques: A Comprehensive Study Authors Xiangyang Mou, Chenghao Yang, Mo Yu, Bingsheng Yao, Xiaoxiao Guo, Saloni Potdar, Hui Su 开放域问题的最新进步应答ODQA,即,从Wikipedia这样的大型开放式语料库中找到答案,导致了许多数据集的人力级别表现。但是,尽管对ODQA类似的任务制定,但QA在书店上的进展情况就落后了落后。这项工作提供了关于书籍QA 1的难度的全面和定量分析,我们通过大量实验与尖端ODQA技术进行了广泛的实验,对叙述子数据集进行了基准测试。这量化了挑战书QA姿势的挑战,并通过SIM 7对Rouge L的绝对改进推进了本领域的公布状态.2我们通过人类研究进一步分析了书质书籍的详细挑战。脚注网址 |
Diversity driven Query Rewriting in Search Advertising Authors Akash Kumar Mohankumar, Nikit Begwani, Amit Singh 用与查询相同的意图检索关键字Bidwords,称为Close Variant关键字,是有效目标搜索广告的主要重要性。对于头部和躯干搜索查询,赞助搜索引擎使用相同意图查询和关键字的巨大存储库,提前开采。在线,此存储库用于重写查询,然后在有助于大量收入的BID关键字的存储库中查找重写。最近,已经显示了生成的检索模型在生成此类查询重写的任务中有效。我们遵守这种生成模型的两个主要局限性。首先,由这些模型生成的重写表现出低的词汇分集,因此重写无法检索具有不同语言变化的相关关键字。其次,培训之间存在未对准的目标培训数据的可能性,V S我们希望改善改写的质量和覆盖范围。在这项工作中,我们介绍了三叶草,通过使用我们多样性驱动的强化学习算法优化重写质量的人性评估来产生高质量和多样化的重写。我们使用评估模型,培训以预测人类判断,因为奖励致力于芬特的发电政策。我们经验展示了我们所提出的方法通过离线实验来跨越三种主要语言的地理位置搜索查询的实验。我们还在在线上进行Bing,这是一个大型商业搜索引擎的B实验,这表明我更好地用户参与点击的平均增加12.83,伴随着13.97年的平均缺陷减少,而II提高了21.29。 |
Deep Context- and Relation-Aware Learning for Aspect-based Sentiment Analysis Authors Shinhyeok Oh, Dongyub Lee, Taesun Whang, IlNam Park, Gaeun Seo, EungGyun Kim, Harksoo Kim 基于方面的情感分析ABSA的现有工作采用了统一的方法,允许子组织之间的互动关系。然而,我们观察到这些方法倾向于基于方面和意见术语的字面意义来预测极性,主要考虑单词级别的子组织之间隐含的关系。此外,识别具有它们极性的多个方面的意见对更具挑战性。因此,全面了解上下文信息w.r.t.在AbA中进一步要求方面和意见。在本文中,我们提出了深刻的语境化关系意识网络DCran,这允许基于两个模块的具有深层上下文信息的子组织之间的交互关系。,方面和意见传播和明确的自我监督策略。特别是,我们设计了ABSA的新型自我监督策略,这具有处理多个方面的优势。实验结果表明,DCRAN在三个广泛使用的基准上的大型边缘方面显着优于现有技术方法。 |
COVID-Fact: Fact Extraction and Verification of Real-World Claims on COVID-19 Pandemic Authors Arkadiy Saakyan, Tuhin Chakrabarty, Smaranda Muresan 我们介绍了像Covid 19流行病的4,086索赔的数据集Covid事实一样发烧。 DataSet包含索赔,证据驳回的索赔证据,并驳回了证据的矛盾索赔。与以前的方法不同,我们自动检测真正的权利要求及其源文章,然后使用自动方法而不是使用人类的注释器来生成计数器主张。除了我们构建的资源外,我们正式介绍了索赔的相关证据的任务,并核实证据是否驳斥或支持给出的索赔。除了科学索赔之外,我们的数据还包含来自媒体来源的简化一般要求,使得更适合检测关于Covid 19的一般错误信息。我们的实验表明,Covid事实将为新系统的开发提供具有挑战性的测试平台,我们的方法将减少构建域特定数据集的成本检测错误信息。 |
X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented Compositional Semantic Parsing Authors Zihan Liu, Genta Indra Winata, Peng Xu, Pascale Fung 任务面向的组成语义解析TCSP处理复杂的嵌套用户查询,并用作虚拟助手的基本组件。当前的TCSP模型依赖于众多培训数据来实现体面的性能,但不能概括到低资源目标语言或域。在本文中,我们呈现X2Parser,可转换交叉舌和跨域解析器进行TCSP。与学习生成嵌套意图和插槽生成分层表示的模型不同,我们建议分别预测扁平意图和时隙表示,并将预测任务投入到序列标记问题中。之后,我们进一步提出了一种基于生育的时隙预测器,首先学习动态地检测每个令牌的标签数,然后预测插槽类型。实验结果表明,我们的模型可以显着优于交叉语言和交叉域设置的现有强的基线,我们的模型也可以实现目标域目标语言的良好泛化能力。此外,我们的模型以高效的非自动出口方式解决问题,与生成模型相比,高达66次降低延迟。 |
Encouraging Neural Machine Translation to Satisfy Terminology Constraints Authors Melissa Ailem, Jinghsu Liu, Raheel Qader 我们提出了一种鼓励神经机翻译的新方法来满足词汇约束。我们的方法在训练步骤中起作用,从而避免在推理步骤中引入任何额外的计算开销。该方法结合了三种主要成分。第一个包括增强培训数据以指定约束。直观地,这鼓励模型在遇到约束条款时学习复制行为。与以前的工作相比,我们使用简化的增强策略而无需源极值。第二种成分是约束令牌掩蔽,这使得模型更容易学习复制行为并更好地概括。第三,是对标准交叉熵损失的修改,以偏向模型,以为为约束字分配高概率。经验结果表明,我们的方法在Bleu评分和产生的约束条款的百分比方面提高了相关基线。 |
Diverse Pretrained Context Encodings Improve Document Translation Authors Domenic Donato, Lei Yu, Chris Dyer 我们提出了一种新的架构,用于通过结合多个预先磨则的文档上下文信号来调整序列变压器的新架构,并评估对用于生成这些信号的1个不同预先预测方法的平移性能的影响,2可用文档上下文的并行数据量,以及在源,目标或源和目标上下文上的3个调理。对NIST中文英语和IWSLT和WMT英语德语任务的实验支持四个一般的结论,使用预磨化的上下文表示显着提高了样本效率,即足够的并行数据资源对于学习使用文档上下文至关重要,即在多个上下文表示上的共同调节胜过任何单个表示,并且该源上下文对于转换性能比目标侧面上下文更有价值。我们最好的多语境模型始终如一地占此优势,最佳现有的上下文感知变压器。 |
A Comprehensive Assessment of Dialog Evaluation Metrics Authors Yi Ting Yeh, Maxine Eskenazi, Shikib Mehri 自动评估指标是对话系统研究的重要组成部分。已知标准语言评估指标对于评估对话框无效。因此,最近的研究提出了许多小说,对话特定的指标,与人类判断更好地相关。由于研究的快速速度,这些指标中的许多指标都已在不同的数据集中进行评估,并且已经没有时间进行系统性比较。为此,本文对许多数据集进行了最近提出的对话评估指标进行了全面评估。本文在10个不同的数据集中评估了17个不同的自动评估度量。此外,指标在不同的环境中进行评估,以更好地限定各自的优势和劣势。在两个转弯水平和对话级别中评估1,2对于不同的对话长度,3为不同的对话素质,例如相辅相成,接合,4用于不同类型的响应生成模型,即,生成,检索,简单模型和状态艺术模型,5考虑了不同指标的相似性和6探索不同度量的组合。此综合评估提供了几个与对话评估指标相关的外带。它还建议如何最佳评估评估指标,并表明未来工作的有希望的方向。 |
GTM: A Generative Triple-Wise Model for Conversational Question Generation Authors Lei Shen, Fandong Meng, Jinchao Zhang, Yang Feng, Jie Zhou 在开放域对话中生成一些吸引人的问题是改善人机交互并将主题引导到更广泛或更深层的方向的有效方法。为避免沉闷或偏离的问题,一些研究人员试图利用答案,未来的信息,引导问题。但是,他们分开了一个问题答案,将PQA三倍分为问题PQ和问题答案QA对,这可能会损害整体一致性。此外,QA关系被建模为一个到一个映射,这在开放域对话中不合理。为了解决这些问题,我们提出了一种具有分层变体的生成三重明智模型,用于开放域会话问题生成CQG。三个层次结构中的潜在变量用于表示PQ和QA对中三倍和一个到许多语义映射的共享背景。在大规模CQG数据集上的实验结果表明,我们的方法在流畅性,一致性和多样性方面显着提高了问题的质量。 |
PROST: Physical Reasoning of Objects through Space and Time Authors St phane Aroca Ouellette, Cory Paik, Alessandro Roncone, Katharina Kann 我们在空间和时间介绍了一个名为Prost Manigle Pressing的新探测数据集。此数据集包含18,736个由14个手动策划模板制成的多项选择题,涵盖10个物理推理概念。所有问题均旨在探讨零拍摄设置中的因果和屏蔽语言模型。我们进行了广泛的分析,证明了艺术普试模型的状态在物理推理中不足,它们受到答案选项的顺序影响,当一个问题中的最高级倒置时,它们奋斗,例如,最少的,最重要的增加预先预测数据和参数的量仅产生最小的改进。这些结果为假设提供了支持,即当前预染色模型对物理互动的理性能力本质上受到缺乏现实世界经验的限制。通过突出这些限制,我们希望能够激励具有人类的模型的发展,比如对物理世界的理解。 |
Unsupervised Representation Disentanglement of Text: An Evaluation on Synthetic Datasets Authors Lan Zhang, Victor Prokhorov, Ehsan Shareghi 为了强调在无监督的环境中实现文本域的代表性解散的挑战,在本文中,我们从图像域中选择了一组代表成功应用模型。我们在6个解剖学指标以及下游分类任务和同型均衡方面评估这些模型。为了促进评估,我们提出了两个具有已知生成因子的合成数据集。我们的实验突出了文本域中的现有间隙,并说明了诸如表示稀疏性的某些元素作为感应偏差,或与解码器的表示耦合可能会影响解剖学。据我们所知,我们的作品是第一次尝试无监督的代表性解散和文本,并提供实验框架和数据集,用于在此方向上检查未来的发展。 |
Document-level Relation Extraction as Semantic Segmentation Authors Ningyu Zhang, Xiang Chen, Xin Xie, Shumin Deng, Chuanqi Tan, Mosha Chen, Fei Huang, Luo Si, Huajun Chen 文档级关系提取旨在从文档中提取多个实体对之间的关系。以前提出的基于曲线图或基于变压器的模型独立地利用了实体,无论关系三元组之间的全局信息如何。本文通过预测实体级关系矩阵来捕获本地和全局信息,并行于计算机视觉中的语义分段任务。这里,我们提出了一种用于文档级关系提取的文献U形网络。具体地,我们利用编码器模块在图像样式图中捕获实体的上下文信息和U形分割模块,以在三元组之间捕获全局相互依赖性。实验结果表明,我们的方法可以在三个基准数据集上获取最新的艺术表现,CDR和GDA。 |
RoSearch: Search for Robust Student Architectures When Distilling Pre-trained Language Models Authors Xin Guo, Jianlei Yang, Haoyi Zhou, Xucheng Ye, Jianxin Li 预培训的语言模型可以在NLP任务中实现出色的性能。已经提出了各种知识蒸馏方法,以降低预先培训的语言模型的沉重计算和存储要求。然而,从我们的观察结果来看,知识蒸馏获得的学生模型患有对抗性攻击,这限制了它们在安全敏感方案中的使用。为了克服这些安全问题,罗斯研究被提议作为在进行知识蒸馏时以更好的对抗鲁棒搜索学生模型的全面框架。构建了一种定向的基于非循环图的搜索空间,并且利用进化搜索策略来指导搜索方法。每个搜索的架构都是通过预培训的语言模型的知识蒸馏训练,然后在稳健性,准确性和效率意识的公制中作为环境健身进行评估。实验结果表明,ROSEARCH可以将学生模型的鲁棒性提高到7 18至45.8 47.8的不同数据集,其具有与现有蒸馏方法相当的重量压缩比为4.6倍,教师模型BERT基座的改进和低精度下降。此外,我们通过搜索模型的统计来总结学生体系结构与鲁棒性的关系。 |
SciFive: a text-to-text transformer model for biomedical literature Authors Long N. Phan, James T. Anibal, Hieu Tran, Shaurya Chanana, Erol Bahadroglu, Alec Peltekian, Gr goire Altan Bonnet 在本报告中,我们介绍了Scivive,该域特定的T5模型已经预先培训了大型生物医学Corpora。我们的模型优于当前的SOTA方法I.E. BERT,BIOBERT,基础T5,在命名实体关系中的任务,关系提取,自然语言推断和问题应答。我们表明文本生成方法在广泛的生物医学NLP任务中具有显着潜力,特别是那些需要更长,更复杂的输出的问题。我们的业绩支持探索更加困难的文本生成任务和该领域的新方法的开发 |
CAiRE in DialDoc21: Data Augmentation for Information-Seeking Dialogue System Authors Etsuko Ishii, Yan Xu, Genta Indra Winata, Zhaojiang Lin, Andrea Madotto, Zihan Liu, Peng Xu, Pascale Fung 寻求对话系统的信息,包括知识识别和反应生成,旨在根据用户的需求对具有流利,连贯性和信息性的响应的用户进行响应。为了解决这一挑战,我们利用数据增强方法和几种培训技术,其中具有预先培训的语言模型来学习任务的一般模式,从而实现有前途的性能。在DialDoc21竞争中,我们的系统实现了74.95 F1得分和60.74个子中的匹配分数,以及子任务中的37.72 sacrebleu得分2.提供了经验分析以解释我们方法的有效性。 |
RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models Authors Soumya Barikeri, Anne Lauscher, Ivan Vuli , Goran Glava 文本表示模型易于展示一系列社会偏见,反映了潜在的预介质数据的非控制和偏置性质,从而导致严重的道德问题甚至偏置扩增。最近的工作主要集中在预用语言模型中测量和缓解偏差。令人惊讶的是,偏差测量和缓解资源和对话语言模型的方法仍然非常稀缺,它仅限于只有几种类型的偏差,人工构造的资源,并且完全忽略了脱叠方法可能具有最终性能的影响对话任务,例如会话响应生成。在这项工作中,我们呈现了RedditBias,第一个对话数据集合在Reddit的实际人类对话中,允许跨越四个重要偏见的性别,种族,宗教和Queer的偏见测量和缓解。此外,我们开发了一个评估框架,它同时为开发的redditbias资源上的偏差1尺寸偏差,2在模型扩展后的对话框任务中评估模型功能。我们使用评估框架将广泛使用的会话Dialogpt模型的基准测试以及四种脱叠方法的适配。我们的结果表明,Dialogpt对宗教团体偏见,并且一些脱叠技术可以在保留下游任务性能的同时消除此偏差。 |
Position Bias Mitigation: A Knowledge-Aware Graph Model for EmotionCause Extraction Authors Hanqi Yan, Lin Gui, Gabriele Pergola, Yulan He 情绪原因提取ECE任务旨在识别包含在文本中表达的特定情绪的情感唤起信息的条款。我们观察到广泛使用的ECE数据集表现出偏见,即大多数注释的原因条款是直接在他们相关的情感条款之前或者情绪条款本身。 ECE的现有模型倾向于探索这些相对位置信息并遭受数据集偏差。为了研究现有ECE模型对条款相对位置的依赖程度,我们提出了一种新的策略来产生对抗的例子,其中相对位置信息不再是导致条款的指示特征。我们在这种对抗示例中测试现有模型的性能,并观察显着的性能下降。为了解决数据集偏见,我们提出了一种基于图形的基于图形的方法,以通过利用致命知识来显式模拟情绪触发路径,以增强候选条款和情感条款之间的语义依赖性。实验结果表明,与原始ECE数据集上的现有技术的现有状态表现为PAR,并且与现有模型相比,对对抗性攻击更加强大。 |
BERTGEN: Multi-task Generation through BERT Authors Faidon Mitzalis, Ozan Caglayan, Pranava Madhyastha, Lucia Specia 我们呈现BERTGEN,一种新型生成的解码器,仅通过融合多峰和多语言预磨型模型VL BERT和M BERT来延伸BERT。 BERTGEN在多任务设置下,用于语言生成任务,即图像标题,机器转换和多模式转换,即图像标题,机器转换和多模式转换。通过一系列全面的评估,我们表明BERTGEN优于探索任务的许多强大基线。我们还展示了Bertgen S的零拍语言生成能力,在那里它对监督对应物表现出竞争性能。最后,我们进行了消融研究,表明BERTGEN从多任务中产生了基本上的利益,并有效地从预训练的模型中传输相关的感应偏差。 |
Relative Importance in Sentence Processing Authors Nora Hollenstein, Lisa Beinborn 确定句子中元素的相对重要性是轻松自然语言理解的关键因素。对于人类语言处理,我们可以通过使用眼跟踪技术测量读取固定来近似相对重要的模式。在神经语言模型中,基于梯度的显着性方法表示目标目标的令牌的相对重要性。在这项工作中,我们通过人和模型比较了英语语言处理中的相对重要性的模式,并分析了潜在的语言模式。我们发现英语中的人为处理模式强烈地关联,在语言模型中的重要性,而不是基于关注的重要性。我们的结果表明,显着性可能是解释神经语言模型的认知更合理的指标。代码可在GitHub上获得 |
Multilingual Neural Semantic Parsing for Low-Resourced Languages Authors Menglin Xia, Emilio Monti 多语言语义解析是一种成本有效的方法,允许单一模型来理解不同的语言。但是,研究人员面临着培训数据的可用性的大量不平衡,英语是资源丰富,其他语言具有更少的数据。为了解决数据限制问题,我们建议使用机器转换从更丰富的英语数据中引导多语言训练数据。为了弥补机器翻译培训数据的数据质量,我们利用从预磨削的多语言编码器转移学习,进一步改进模型。为了评估我们对人类书面句子的多语言模型,而不是机器翻译的句子,我们以英语,意大利语和日语的新多语言语义解析数据集基于Facebook任务导向的解析数据集。我们表明,使用预磨料编码器的联合多语言训练显着优于顶级数据集的基线,并且优于公共NLMAPS数据集的最先进模型的状态。我们还在顶级数据集中建立了一个新的基准。我们发现,仅在英语数据上培训的语义解析器实现了意大利句子的零射击性能为44.9。 |
Attention Temperature Matters in Abstractive Summarization Distillation Authors Shengqiang Zhang, Xingxing Zhang, Hangbo Bao, Furu Wei 抽象文本摘要的最近进展在很大程度上依赖于序列变压器模型的大型预训练序列,这是计算昂贵的。本文旨在将这些大型型号蒸馏成更小的推理和最小性能损失。基于伪标记的方法是序列流行的序列模型蒸馏。在本文中,我们发现简单地操纵变压器中的注意温度可以使伪标签更容易学习学生模型。我们对三个摘要数据集的实验表明我们所提出的方法始终如一地改善了基于Vanilla伪标记的方法。我们还发现,我们学生制作的伪标签和摘要都较短,更有抽象。我们将公开提供我们的代码和模型。 |
Generating Relevant and Coherent Dialogue Responses using Self-separated Conditional Variational AutoEncoders Authors Bin Sun, Shaoxiong Feng, Yiwei Li, Jiamou Liu, Kan Li 条件变化Autiachoder CVAE通过丰富与采样的潜变量来有效地提高开放式对话生成任务中的响应的分集和信息性。然而,由于人类对话中的一种到许多和许多现象的固有,所采样的潜在变量可能无法正确反映上下文语义,导致无关和不连贯的产生响应。为了解决这个问题,我们提出了自分离的条件变分性AutoEncoder缩写为Sepacvae,以介绍组信息,以规范潜在变量,通过改善响应相关性和连贯性,同时保持其多样性和信息性来增强CVAE。 Sepacvae积极地将输入数据分为组,然后在不同组之间扩大数据对之间的绝对差异,同时缩小同一组中数据对之间的相对距离。自动评估和详细分析的经验结果表明,Sepacvae可以在建立的开放域对话数据集中显着提高响应。 |
Never guess what I heard... Rumor Detection in Finnish News: a Dataset and a Baseline Authors Mika H m l inen, Khalid Alnajjar, Niko Partanen, Jack Rueter 本研究介绍了芬兰语新闻标题中谣言检测的新数据集。我们已经评估了两种不同的基于LSTM的模型和两个不同的BERT模型,并发现了结果非常显着差异。精细调整的Finbert达到94.3的最佳整体精度,谣言标签准确度为96.0的时间。然而,在多语言杆上调整的模型达到了97.2的最佳事实标签精度。我们的结果表明,性能差异是由于原始培训数据的差异。此外,我们发现常规的LSTM模型优于一个训练有素的磨损Word2Vec模型。这些调查结果表明,需要为芬兰语的预用模型进行更多的工作,因为他们已经接受了小型和偏见的语料库。 |
LAWDR: Language-Agnostic Weighted Document Representations from Pre-trained Models Authors Hongyu Gong, Vishrav Chaudhary, Yuqing Tang, Francisco Guzm n 交叉语言文档表示在多语言背景下使语言理解能够在文档级别传输从高资源的学习到低资源语言。最近大型预培训的语言模型如BERT,XLM和XLM Roberta在句子级下游任务上进行了微调时取得了巨大的成功。将这些交叉语言模型应用于记录代表学习是诱人的。但是,有两个挑战1这些模型在长文档处理中强加高成本,因此它们中的许多具有严格的长度限制2模型精细调整需要额外的数据和计算资源,这在资源有限的设置中不实用。在这项工作中,我们通过提出无监督的语言无政可行的加权文件陈述草坪来解决这些挑战。我们研究预训练句嵌入的几何形状,并利用它来派生文件表示而不进行微调。在交叉语言文献对齐中评估,LAWDR展示了基准数据集上的美术模型的可比性。 |
A Globally Normalized Neural Model for Semantic Parsing Authors Chenyang Huang, Wei Yang, Yanshuai Cao, Osmar Za ane, Lili Mou 在本文中,我们提出了一种全局规范化的基于语境基于语法的语义解析。我们的模型而不是预测概率,而不是预测每个步骤的真实值得分,并且不会遭受标签偏置问题。实验表明,我们的方法在小型数据集上占地占据了本地规范化模型,但它不会在大型数据集中产生改进。 |
A Joint Model for Dropped Pronoun Recovery and Conversational Discourse Parsing in Chinese Conversational Speech Authors Jingxuan Yang, Kerui Xu, Jun Xu, Si Li, Sheng Gao, Jun Guo, Nianwen Xue, Ji Rong Wen 在本文中,我们在中国会话语音中展示了联合丢弃的代词恢复DPR和会话话语解析CDP的神经模型。我们表明DPR和CDP密切相关,联合模型效益两项任务。我们将我们的模型称为Discproreco,它首先在与定向图形卷积网络GCN的对话中编码每个话语中的令牌。然后聚合话语的令牌状态以产生每个话语的单个状态。然后将话语状态送入双方分类器以构建会话话语图。然后将第二多关系GCN应用于话语状态以产生话语关系的话语,然后将其与每个话语中的令牌状态一起融合在一起,作为丢弃的代词恢复层的输入。接头模型受到培训和评估的新结构解析增强的丢弃代词恢复SPDPR数据集,我们用两种类型的信息注释。 SPDPR数据集和其他基准的实验结果表明,DiscProreco显着优于两个任务的最新状态。 |
Summary Grounded Conversation Generation Authors Chulaka Gunasekara, Guy Feigenblat, Benjamin Sznajder, Sachindra Joshi, David Konopnicki 许多对话数据集在近年来使用众包构建。但是,数据收集过程可能是耗时的,并且呈现许多挑战以确保数据质量。由于近年来,近年来语言生成随着预培训的语言模型的进步,我们研究了如何利用这些模型来生成整个对话,只给出对话的摘要。我们探索了三种生成摘要的方法,并使用自动测量和人类判断评估生成的对话。我们还表明,通过使用生成的对话增强会话摘要数据集可以提高会话摘要的准确性。 |
Semantic and Syntactic Enhanced Aspect Sentiment Triplet Extraction Authors Zhexue Chen, Hong Huang, Bang Liu, Xuanhua Shi, Hai Jin 方面情绪三重态提取ASTE旨在从句子中提取三胞胎,其中每个三联网包括实体,其相关情绪和意见跨度解释了情绪的原因。大多数现有研究以多阶段管道方式解决了这个问题,这忽略了这三个元素之间的互信息并具有错误传播的问题。在本文中,我们提出了一种语义和句法增强的方面情绪Triplet提取模型S3E2,以充分利用三联元素之间的句法和语义关系并联合提取它们。具体而言,我们设计了一个图形序列决斗表示和建模范式,用于ASTE的任务我们代表了句子中的字对与图中的语义和句法关系,并通过图形神经网络GNN编码,以及通过LSTM建模原始句子保留顺序信息。在此设置下,我们进一步应用了一个更有效的推理策略,以提取三胞胎。四个基准数据集的广泛评估表明,S3E2显着优于现有的方法,这证明了我们的S3E2 S的优势和灵活性结束时尚。 |
On the Language Coverage Bias for Neural Machine Translation Authors Shuo Wang, Zhaopeng Tu, Zhixing Tan, Shuming Shi, Maosong Sun, Yang Liu 语言覆盖偏置,它表示源自源语言和目标语言的句子对之间的内容依赖差异,对于神经机翻译NMT很重要,因为目标原始培训数据在当前的实践中没有充分利用。通过仔细设计实验,我们在训练数据中提供了对语言覆盖率偏差的全面分析,并发现仅使用源原始数据使用完整培训数据来实现可比性的性能。基于这些观察,我们进一步提出了两个简单有效的方法,通过在源和目标原始培训数据之间明确区分来缓解语言覆盖偏置问题,这一致地提高了六个WMT20翻译任务的强大基线的性能。互补的翻译效果,语言覆盖率偏见为后退转换引起的性能下降提供了另一种解释。我们还将我们的方法应用于后退和转发翻译,并发现减轻语言覆盖率偏差可以提高两个代表性数据增强方法及其标记变体的性能。 |
Meta-learning for downstream aware and agnostic pretraining Authors Hongyin Luo, Shuyan Dong, Yung Sung Chuang, Shang Wen Li 由于其在自然语言处理应用中的出色性能,神经网络预介绍是关注的。然而,预先预测通常利用预定的任务序列来学习一般语言线索。在预测期间选择适当任务的机制缺乏机制使得学习和知识编码效率低下。因此,我们建议使用META学习来选择在预测的每一集中提供最丰富的学习信号的任务。通过提出的方法,我们的目标是在保持性能的同时,实现预先训练过程的计算和内存使用情况的更好的计算和内存使用效率。在这项初步工作中,我们讨论了该方法的算法及其两个变体,下游意识和下游无吻合售价。我们的实验计划还综述,而实证结果将在未来的作品中共享。 |
Itihasa: A large-scale corpus for Sanskrit to English translation Authors Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders S gaard 这项工作介绍了ITIHASA,这是一个包含93,000对梵语Shlokas及其英语翻译的大规模翻译数据集。 Shlokas从两个印度史诗和Mahabharata中提取。,ramayana和mahabharata。我们首先描述了这种数据集的策划背后的动机,并跟进了实证分析,以揭示其细微差别。然后,我们将标准翻译模型的性能进行基准测试在此语料库上,表明甚至均匀的变压器架构的状态表现不佳,强调数据集的复杂性。 |
Structured Reordering for Modeling Latent Alignments in Sequence Transduction Authors Bailin Wang, Mirella Lapata, Ivan Titov 尽管在许多领域成功,神经模型在从不同的分布中汲取火车和测试示例的环境中斗争。特别地,与人类相比,序列序列SEQ2SEQ模型的常规序列未能系统地概括,即代表概念的新组合的解释句子。,在训练中看到的文本段。传统语法形式主义通过隐式编码输入和输出段之间的对齐,但难以缩放和维护,因此传统的语法形式。而不是工程语法,我们直接模型到段对齐作为神经SEQ2Seq模型中的离散结构潜变量。为了有效地探索大量的对齐空间,我们介绍了一个重新排序的框架框架,其中央组件是神经重新排序模块,其产生可分离的置换。我们提出了一种高效的动态编程算法,执行可分离排列的精确边缘推理,从而使得能够结束我们模型的最终可分离的培训。由此产生的SEQ2SEQ模型比合成问题和NLP任务的标准模型表现出更好的系统泛化,并且语义解析和机器翻译。 |
Extractive Research Slide Generation Using Windowed Labeling Ranking Authors Athar Sefid, Jian Wu, Prasenjit Mitra, Lee Giles 演示幻灯片描述科学和技术论文的内容是一种有效而有效的方式来展示该工作。但是,手动产生演示幻灯片是劳动密集型的。我们提出了一种方法,用于基于从会议程序网站编制的5000张纸幻灯片对的语料库中自动生成科学论文的幻灯片。我们方法的句子标签模块基于Summarunner,是一种用于提取总结的神经序列模型。而不是基于整个文档中的语义相似性的基于语义相似性的句子,而是通过句子窗口中的语义和词汇功能来衡量句子的重要性和新颖性。我们的方法优于几种基线方法,包括在胭脂分数方面的显着保证金。 |
A Targeted Assessment of Incremental Processing in Neural LanguageModels and Humans Authors Ethan Gotlieb Wilcox, Pranali Vani, Roger P. Levy 我们通过在一系列结构现象上收集10个不同的句法测试套件来提出一个目标,扩大了人类和神经语言模型的增量处理的比较。人类反应时间数据来自一个名为内插迷宫任务的新型在线实验范式。我们将人工反应时间与四个当代语言模型的单词概率进行比较,不同的架构,并在一系列数据集大小上培训。我们发现跨越许多现象,人类和语言模型都显示出在不合语法句子区域的加工困难,具有人类和模型精度得分为La Marvin和Linzen 2018大约相等。然而,虽然语言模型输出匹配人类方向,但我们展示了系统地下的模型,预测了语法和不合语法句子之间的增量处理难度的大小差异。具体而言,当模型遇到句法违规时,它们未能准确地预测人类数据中观察到的更长的反应时间。这些结果调用了当代语言模型是否正在接近人类的性能,以便对句法违规的敏感性。 |
The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation Authors Naman Goyal, Cynthia Gao, Vishrav Chaudhary, Peng Jen Chen, Guillaume Wenzek, Da Ju, Sanjana Krishnan, Marc Aurelio Ranzato, Francisco Guzman, Angela Fan 妨碍低资源和多语种机床翻译的危险进展之一是缺乏良好的评估基准。当前的评估基准缺乏良好的低资源语言覆盖范围,仅考虑仅限限制域,或者是低质量,因为它们是使用SEMI自动过程构建的。在这项工作中,我们介绍了来自英国维基百科提取的3001个句子的弗洛雷斯101个评估基准,并覆盖各种不同的主题和域。这些句子已通过专业翻译通过精心控制的过程中的101种语言翻译。由此产生的数据集可以更好地评估低资源语言的长尾模型质量,包括对许多多语言翻译系统的评估,因为所有翻译都是多语对齐。通过公开发布如此高质量和高覆盖的数据集,我们希望在机器翻译社区及以后促进进展。 |
Let's be explicit about that: Distant supervision for implicit discourse relation classification via connective prediction Authors Murathan Kurfal , Robert stling 在隐式话语关系分类中,我们希望在没有任何公开的话语连接的情况下预测相邻句子之间的关系。这甚至对人类来说都是挑战,导致注释数据短缺,这是使任务对监督机器学习方法更加困难的事实。在目前的研究中,我们执行隐式话语关系分类,而无需依赖任何标记的隐式关系。我们通过解析隐含关系来缺乏数据来将任务减少到两个子问题语言建模和明确的话语关系分类,更容易的问题。我们的实验结果表明,这种方法甚至可以略微优于现有技术,尽管比相当性能的替代模型更简单。此外,我们表明,如全面不同域的零射击实验所建议的域所取得的性能是强大的。这表明语言建模的最近进步使语言模型充分擅长捕获句子关系而无需明确的话语标记。 |
Transient Chaos in BERT Authors Katsuma Inoue, Soh Ohara, Yasuo Kuniyoshi, Kohei Nakajima 语言是我们复杂和动态的人类交互的结果,自然语言处理技术的基于人类语言活动。来自变压器BERT的双向编码器表示最近通过在几个NLP基准中建立了艺术成绩的状态而获得了它的人气。 Lite Bert Albert实际上是伯特的轻质版本,其中通过重复使用称为变压器的编码器层的相同神经网络来减少BERT参数的数量。通过预先培训具有大量自然语言数据的参数,Albert可以将输入句子转换成可能能够解决多个NLP任务的多功能高维向量。从这种意义上说,Albert可以被视为设计的良好设计的高维动力系统,其操作者是变压器的编码器,因此预期人类语言的基本结构将被封装在其动态中。在这项研究中,我们调查了Albert的嵌入属性,揭示了如何通过利用其动态来有效解决NLP任务。因此,我们旨在探索人类语言的性质,从NLP模型的动态表达中探讨了人类语言的性质。我们的短期分析澄清说,预训练的模型稳定地产生具有更高维度的轨迹,这将提高NLP任务所需的表现能力。此外,我们的长期分析显示,Albert本质上显示瞬态混乱,典型的非线性现象仅在其瞬态中显示混沌动力学,并且预训练的艾伯特模型倾向于产生明显较长的时间段的混沌轨迹,与随机初始化的时间段明显较长。我们的结果暗示,当地混沌会有助于提高NLP性能,揭示混乱动态在人类语言行为中的作用中的新方面。 |
On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation Authors Ruidan He, Linlin Liu, Hai Ye, Qingyu Tan, Bosheng Ding, Liying Cheng, Jia Wei Low, Lidong Bing, Luo Si 基于适配器的调谐最近出现为微调的替代方案。它通过将轻量级适配器模块添加到预用的语言模型PRLM,并且仅在进行下游任务时更新适配器模块的参数。因此,它仅增加了每次新任务的少量培训参数,允许高度参数共享。先前的研究表明,基于适配器的调谐经常实现与微调的相当的结果。然而,现有工作仅关注基于适配器的调谐的参数有效方面,同时缺乏进一步调查其有效性。在本文中,我们研究后者。我们首先显示基于适配器的调整更好地减轻了遗忘问题,而不是微调,因为它产生了较少偏离初始PRLM的表示的表示。然后,我们经验在几个下游NLP任务和设置上比较了两种调整方法。我们证明了1个基于适配器的调谐优于低资源和交叉语言任务2的微调,对过度装备和对学习率的变化不太敏感。 |
Identifying Populist Paragraphs in Text: A machine-learning approach Authors Jogil Ulinkskait , Lukas Pukelis 摘要在本文中,我们提出了一种制定文本分类模型的方法,该模型将能够在文本中识别民粹化内容。基于BERT的基于BERT的模型在很大程度上是在识别文本中识别人口的内容,并仅产生可忽略的错误否定量,这使得它非常适合作为内容分析自动化工具,该工具缺失潜在的人类验证的相关内容。 |
Attend and Select: A Segment Attention based Selection Mechanism for Microblog Hashtag Generation Authors Qianren Mao, Xi Li, Hao Peng, Bang Liu, Shu Guo, Jianxin Li, Lihong Wang, Philip S. Yu 自动MicroBlog Hashtag Generation可以帮助我们更好,更快地了解或处理MicroBlog帖子的关键内容。 |
Lexical Semantic Change Discovery Authors Sinan Kurtyigit, Maike Park, Dominik Schlechtweg, Jonas Kuhn, Sabine Schulte im Walde 虽然词汇语义变化检测领域存在大量的研究,但只有很少的方法超出了现有模型的标准基准评估。在本文中,我们提出了从变更检测转变为改变发现的转变,即发现从完整的语料库词汇表中的新型词传感。通过严重调整基于类型的类型和基于令牌的方法,最近发布的德国数据,我们证明两种模型可以成功应用于发现正在进行的新词。此外,我们为评估和发现提供了几乎全自动的框架。 |
Enhancing Label Correlation Feedback in Multi-Label Text Classification via Multi-Task Learning Authors Ximing Zhang, Qian Wen Zhang, Zhao Yan, Ruifang Liu, Yunbo Cao 在多标签文本分类MLTC中,每个给定文档与一组相关标签相关联。捕获标签相关性,先前的分类器链和序列模型将MLTC转换为序列预测任务。但是,它们倾向于遭受标签订单依赖性,标记组合在拟合和误差传播问题上。为了解决这些问题,我们介绍了一种新的方法,具有多任务学习来增强标签相关反馈。我们首先利用联合嵌入JE机制,同时获取文本和标签表示。在MLTC任务中,采用文档标签跨关注CA机制来产生更辨别的文件表示。此外,我们提出了两个辅助标签CO发生预测任务,以增强标签相关性学习1成对标签CO发生预测PLCP,以及2个条件标签CO发生预测CLCP。 AAPD和RCV1 V2数据集上的实验结果表明,我们的方法优于竞争力的基线。我们分析低频标签性能,标签依赖性,标签组合多样性和覆盖速度,以显示我们提出的方法对标签相关学习的有效性。 |
Combining Static Word Embeddings and Contextual Representations for Bilingual Lexicon Induction Authors Jinpeng Zhang, Baijun Ji, Nini Xiao, Xiangyu Duan, Min Zhang, Yangbin Shi, Weihua Luo 双语词典诱导BLI旨在将一种语言映射到另一语言的单词,通常通过学习线性投影来对准单声道词表示空间。 BLI静态词嵌入和上下文表示探索了两类单词表示,但没有学习来组合两者。在本文中,我们提出了一种简单但有效的机制来结合静态词嵌入和上下文表示来利用两个范例的优势。我们在监督和无监督的BLI基准设置下测试各种语言对的组合机制。实验表明,我们的机制通过平均在监督环境中的3.2点平均提高了3.2点,在所有语言对上一直在所有语言对上的性能。 |
Semantic-Enhanced Explainable Finetuning for Open-Domain Dialogues Authors Chen Henry Wu, Yinhe Zheng, Yida Wang, Zhenyu Yang, Minlie Huang 在本文中,我们建议将预磨料语言模型与用于开放域对话建模的模块化对话范例组合。我们的方法,语义增强了FineTuning,实例化对话理解,规划和响应生成作为一种语言模型FineTuning任务。在推理时,我们通过分别为每个模块指定采样方法和约束来解开语义和令牌变化。对于培训和评估,我们展示了x微博,这是一个中国多匝开放域对话数据集,具有自动注释的情感,DAS和主题词。实验表明,语义增强了非语义和语义度量的强大基线强大的基线,改善了人类评估的相关性,连贯性和信息性,并在语义变量上表现出相当大的可控性。 |
How Did This Get Funded?! Automatically Identifying Quirky Scientific Achievements Authors Chen Shani, Nadav Borenstein, Dafna Shahaf 幽默是一种重要的社会现象,提供复杂的社会和心理功能。然而,尽管正在计算千禧年的幽默,但计算上不太了解,经常被认为是一个完整的问题。在这项工作中,我们在幽默挖掘中引入了一种新颖的环境,自动检测有趣和不寻常的科学论文。我们受到Ig Nobel奖励的灵感,每年庆祝有趣的科学成就授予的讽刺奖过去赢家的奖金是奶牛更有可能躺下他们的立场。这种具有挑战性的任务具有独特的特性,使其特别适合自动学习。我们构建一个包含数千篇有趣文件的数据集,并使用它来学习分类器,将来自心理学和语言学的调查结果与NLP的最近进步相结合。我们使用模型在超过630,000篇文章的大型数据集中识别可能有趣的论文。结果表明了我们方法的潜力,更广泛地将艺术NLP方法的效用与更多传统学科的见解。 |
Empowering Language Understanding with Counterfactual Reasoning Authors Fuli Feng, Jizhi Zhang, Xiangnan He, Hanwang Zhang, Tat Seng Chua 目前的语言理解方法通过机器学习表明了识别文本中的模式的非凡能力。然而,现有方法在测试阶段内不同时使用所公认的模式,该测试阶段与具有反事实思维的美国人类具有本质上不同,例如,审查硬测试样本。灵感来自这一点,我们提出了一种反事实推理模型,通过从少数反事实样本中学习来模仿反事实思考。具体地,我们设计了一代代模块,为每个事实样本生成代表性的反事实样本,以及通过比较反事实和事实样本来回顾模型预测的回顾模块。对情感分析的广泛实验SA和自然语言推理NLI验证了我们方法的有效性。 |
Emotion-aware Chat Machine: Automatic Emotional Response Generation for Human-like Emotional Interaction Authors Wei Wei, Jiayi Liu, Xianling Mao, Guibing Guo, Feida Zhu, Pan Zhou, Yuchong Hu 对语义水平和情绪水平的给定帖子的响应的一致性对于对话系统提供人类像互动的对话系统是必不可少的。然而,这一挑战在文献中没有很好地解决,因为大多数方法都忽视了在发电时由帖子传达的情绪信息。本文通过提出统一结束到最终神经结构的统一结束来解决这个问题,这能够同时编码语义和帖子中的情绪,以产生更聪明的反应,以适当表达的情绪。关于现实世界数据的广泛实验表明,所提出的方法在内容一致性和情感适当性方面优于现有技术的状态。 |
Do Grammatical Error Correction Models Realize Grammatical Generalization? Authors Masato Mita, Hitomi Yanaka 使用伪数据对语法误差校正GEC的数据生成方法增加了兴趣。然而,这些方法遭受了几个问题,使他们对现实世界部署不方便,包括对大量培训数据的需求。另一方面,如果GEC模型可以实现语法泛化,则基于语法规则的一些错误可能不一定需要大量数据。本研究探讨了GEC模型在多大程度上概括了纠正错误所需的语法知识。我们使用具有受控词汇表的合成和真实GEC数据集进行分析方法来评估模型是否可以概括到看不见的错误。我们发现,即使在具有有限的词汇和语法的简单设置中,目前基于标准的变压器的GEC模型也无法实现语法泛化,这表明它缺乏纠正提供培训示例的错误所需的泛化能力。 |
Embracing Ambiguity: Shifting the Training Target of NLI Models Authors Johannes Mario Meissner, Napat Thumwanit, Saku Sugawara, Akiko Aizawa 自然语言推理NLI数据集包含具有高度含糊不明显标签的示例。虽然许多研究作品不关注这一事实,但最近的几项努力承认并拥抱了歧义的存在,如UNLI和Chaosnli。在本文中,我们使用基于这种歧义分布而不是金标签,直接在NLI任务中的估计标签分布上探索培训的选择。我们准备了一个从易于获得的来源获得的试用数据集,并显示了在这种数据上进行过度的影响时,可以减少Chaosnli发散分数,这是学习如何捕获语言模糊性的有希望的第一步。此外,我们表明,对相同数量的数据进行培训,但针对歧义分布而不是金标签,可以导致实现更高性能的模型,并了解下游任务的更好表示。 |
Enhancing Taxonomy Completion with Concept Generation via Fusing Relational Representations Authors Qingkai Zeng, Jinfeng Lin, Wenhao Yu, Jane Cleland Huang, Meng Jiang 自动构建分类系统支持电子商务,网络搜索和问题的许多应用。现有的分类学扩展或完成方法假设已准确提取新概念,并从文本语料库中学到的嵌入向量。然而,固定分类学不完整的一个关键和根本挑战是提取的概念的不完整性,特别是对于那些在语料库中具有多个单词的那些并且因此低频率。为解决基于提取的方法的局限性,我们提出了Genaxo来通过识别需要新概念的现有分类中的职位来增强分类学完成,然后产生适当的概念名称。 Genaxo而不是依赖于概念嵌入的语音,而不是基于周围的图形和基于语言的关系信息的上下文嵌入,并利用了用于预训练概念名称生成器的语料库。实验结果表明,Genaxo通过现有方法提高了分类的完整性。 |
Meta-Learning with Variational Semantic Memory for Word Sense Disambiguation Authors Yingjun Du, Nithin Holla, Xiantong Zhen, Cees G.M. Snoek, Ekaterina Shutova 受监督词感歧义歧义的危急挑战WSD是缺乏大型注释数据集,其多样性覆盖了他们的多样性感官。这激发了最近使用元学习的几个射击WSD的研究。虽然这样的工作已成功应用Meta学习,但从很少的例子中学习新的单词感官,而其性能仍然落后于其完全监督的对应物。旨在进一步仔细结束这种差距,我们在元学习环境中提出了一种WSD的语义记忆模型。语义记忆封装在模型的整个寿命中看到的先前经验,这有助于在有限的数据设置中更好地推广。我们的模型基于分层变分推理,并通过HyperNetwork结合了自适应内存更新规则。我们展示了我们的模型在少数镜头WSD中推进了最先进的技术,支持极端数据稀缺的有效学习。一个拍摄场景并产生含义原型的原型,捕获了不同词语的类似感官。 |
Denoising Word Embeddings by Averaging in a Shared Space Authors Avi Caciularu, Ido Dagan, Jacob Goldberger 我们介绍了一种平滑和提高单词嵌入品质的新方法。我们考虑一种融合在同一语料库上培训但具有不同初始化的单词嵌入的方法。我们使用先前用于多语种词语翻译的GPA程序的高效实现将所有模型投影到共享矢量空间。我们的单词表示展示了对原始模型以及其简单平均值的一致性改进,以及一系列任务。随着新的陈述更稳定和可靠,稀有词评估有一个明显的改善。 |
BERTnesia: Investigating the capture and forgetting of knowledge in BERT Authors Jonas Wallat, Jaspreet Singh, Avishek Anand 探测复杂语言模型最近透露了在学习表现中发现的语言和语义模式的几个见解。在本文中,我们专门探测BERT,以了解和测量它在其参数存储器中捕获的关系知识。虽然对语言理解的探讨通常适用于所有伯特层以及精细调整模型,但这尚未为事实知识进行。我们利用现有的知识库完成任务LAMA来探测每层预训练以及精细调整BERT模型排名,问题应答,网。我们的研究结果表明,知识不仅包含在BERT S最终层中。中间层贡献了170份的总量,以获得的总知识。探测中间层还揭示了不同类型的知识如何以不同的速率出现。当BERT是微调时,忘记了关系知识。遗忘程度受到微调目标和培训数据的影响。我们发现,与屏蔽语言建模和问题应答相比,排名模型忘记了最终层中的更多知识。但是,屏蔽语言建模在从训练数据中获取新知识时最佳。谈到学习事实时,我们发现容量和事实密度是关键因素。我们希望这项初步工作将促进进一步研究语言模型的参数记忆以及培训目标对事实知识的影响。重复实验的代码在GitHub上公开提供。 |
MergeDistill: Merging Pre-trained Language Models using Distillation Authors Simran Khanuja, Melvin Johnson, Partha Talukdar 预训练的多语言语言模型LMS已经实现了最先进的交叉传输,但由于容量,偏斜的预培训数据和亚最优词汇表,它们通常会导致语言的不公平表示。这促使创建了一个不断增长的预训练模型宇宙,其中每个模型都在大量的语言或域特定数据中培训,并仔细策划,语言上通知的词汇。然而,这样做会带来我们回来全圈并阻止一个人利用多种语言的好处。为了解决频谱两端的差距,我们提出了Mergedistill,这是一个框架,以便以最大限度地利用其资产的方式合并预训练的LMS,使用任务不可知的知识蒸馏。我们通过利用预先现有的教师LMS和培训学生LMS竞争甚至优于几个数量级的课程和固定型号容量,通过利用现有的教师LMS和培训学生LMS来证明我们的框架在实际设置中的适用性。我们还突出了教师选择的重要性及其对学生模型性能的影响。 |
Improving Automated Evaluation of Open Domain Dialog via Diverse Reference Augmentation Authors Varun Gangal, Harsh Jhamtani, Eduard Hovy, Taylor Berg Kirkpatrick 对于给定的开放域对话框上下文,多个不同的响应通常是合理的。前工作表明,对有意义和强大的自动评估具有多个有效参考响应的重要性。在这种情况下,常见的做法是收集更多人类书面参考。然而,这种系列可能是昂贵的,耗时的,而不易扩展。相反,我们提出了一种新颖的技术,用于自动扩展人类生成的参考一组候选参考。我们从知识源获取合理的引用,并调整它们,以便在对话框中的上下文中更流利。更具体地说,我们使用1个致辞知识库,给出了从对话历史2从对话框语料库中检索的相关实例,使用类似的过去以及未来的上下文,从而引出大量合理的反应。我们展示我们自动扩展的参考集导致自动指标相关性的大量改进,对DaumonDialog数据集的系统输出的人类输出相关性。 |
Lifelong Learning of Hate Speech Classification on Social Media Authors Jing Qian, Hong Wang, Mai ElSherief, Xifeng Yan 自动讨厌语音分类的现有工作假定数据集是固定的,并且预先定义类。然而,社交媒体中的数据量每天增加,热门话题迅速变化,要求分类器能够在不忘记以前学识到的知识的情况下连续适应新数据。这种能力称为终身学习,对于社交媒体中仇恨语音分类器的真实单词应用是至关重要的。在这项工作中,我们向社交媒体提出了终身学习仇恨语音分类。为了缓解灾难性的遗忘,我们建议使用基于LB Soinn负载平衡自组织增量神经网络的变分别表示学习VRL。在实验上,我们表明,组合变分别学习和LB SOINN存储器模块比常用的终身学习技术实现了更好的性能。 |
Weakly-Supervised Methods for Suicide Risk Assessment: Role of Related Domains Authors Chenghao Yang, Yudong Zhang, Smaranda Muresan 社交媒体已成为对自杀意念和自杀风险评估进行研究的宝贵资源。在社交媒体平台中,Reddit由于其匿名性及其专注于主题的社区资金,这是最有前途的,这是一个可以指示某人的思想状态或有关r自杀术,焦虑,r焦虑,r的心理健康障碍的兴趣沮丧。对自杀风险评估的以前工作的挑战是标记数据的少量。我们提出了对若干弱势监督方法的实证调查,并表明使用基于心理健康周围相关问题的伪标签,例如,焦虑,抑郁有助于提高自杀风险评估的模型性能。 |
BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue Modeling Authors Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, Peng Xu, Feijun Jiang, Yuxiang Hu, Chen Shi, Pascale Fung 任务导向的对话TOD基准基准提供了一个重要的途径来衡量进度和发展更好的会话代理人。然而,用于端到端TOD建模的现有数据集仅限于单语言,阻碍了对多语种国家和地区的终端TOD系统的强劲开发。在这里,我们介绍位,第一双语多域数据集结束到结束任务面向对话建模。 Bitod包含超过7k的多域对话144K话语,具有大而逼真的双语知识库。它作为评估双语TOD系统的有效基准,交叉舌转移学习方法。我们在三种评价设置单格式,双语和交叉舌头下提供最先进的基线。在不同的环境中对我们的基线分析突出了1训练双语TOD系统的有效性与两个独立的单格式TOD系统相比,2潜力利用双语知识库和交叉语言转移学习,以提高低资源条件下的系统性能。 |
MultiOpEd: A Corpus of Multi-Perspective News Editorials Authors Siyi Liu, Sihao Chen, Xander Uyttendaele, Dan Roth 我们提出了一个多功能的开放式域新闻编辑语料库,支持与新闻编辑中的论证结构有关的各种任务,重点是自动透视发现。新闻编辑是有说服力的文本类型,争论结构通常是隐含的。然而,在一个社论中呈现的论点通常围绕一个简洁的,专注于,我们称为他们的观点。多功能旨在支持与自动透视发现相关的多个任务的研究,其中一个系统预计会产生一个句子论文声明,总结了所呈现的参数。我们认为,从社论中识别和抽象这种自然语言观点是研究新闻编辑中隐含论证结构的关键步骤。我们首先讨论挑战,并为我们的目标定义一些概念性任务。为了展示多转和所致任务的效用,我们研究了多任务学习环境中的透视摘要问题,如案例研究。我们展示了,通过所谓的任务作为辅助任务,我们可以提高所生成的透视摘要的质量。我们希望多转将成为未来关于新闻编辑领域论证的研究的有用资源。 |
The R-U-A-Robot Dataset: Helping Avoid Chatbot Deception by Detecting User Questions About Human or Non-Human Identity Authors David Gros, Yu Li, Zhou Yu 人类越来越多地通过语言与机器互动,有时在用户可能不知道他们正在与手机或文本聊天聊天时与机器交谈。我们的目标是了解系统设计师和研究人员如何允许其系统确认其非人类身份。我们收集超过2,500个与您的机器人有关的措施。这与超过2,500多个对接相关的话语配对,其中仅确认系统是非人类的不足或不充分的。我们比较分类器来识别意图并讨论精确召回和模型复杂性权衡。这些分类器可以集成到对话系统中以避免不期望的欺骗。然后,我们探索生成研究模型搅拌机以及两个部署的系统Amazon Alexa,Google Assistant处理这一意向,发现系统经常无法确认他们的非人类身份。最后,我们试图了解对意图的良好反应,并进行用户学习,以比较响应这一意图时的重要方面。 |
Emergent Communication of Generalizations Authors Jesse Mu, Noah Goodman 为了构建可以与他人有效合作的代理商,最近的研究已经培训了人工代理商在刘易斯风格的参考游戏中互相沟通。然而,这通常会导致成功但无法诠释的沟通。我们认为这是由于游戏目标在共享的视觉上下文中传播一个对象,容易出现过度,并不鼓励语言超出具体参考。相比之下,人类语言传达了丰富的抽象理念。为了促进此类技能,我们提出了需要通过代表抽象视觉概念的对象传播概括的游戏,可选地具有每个代理的单独上下文。根据文献中的几个指标,我们发现这些游戏大大提高了学习语言的系统性和可口译性。最后,我们提出了一种通过学习语言的近似组成重建来识别嵌入在紧急语言中的逻辑操作的方法。 |
W-RST: Towards a Weighted RST-style Discourse Framework Authors Patrick Huber, Wen Xiao, Giuseppe Carenini 旨在更好地整合数据驱动和语言启发方法,我们探讨了RST批量,分配了文本段之间重要性的二进制评估,可以通过自动生成的,真实的价值分数来替换,以便我们称之为加权第一个框架。特别是,我们发现加权话语树木从辅助任务中可以利用核心中心方法的关键NLP下游应用。我们进一步表明,与人类注册人的评估和不确定性部分地和有趣的对齐的真实重视的重要性。 |
Counterfactual Maximum Likelihood Estimation for Training Deep Networks Authors Xinyi Wang, Wenhu Chen, Michael Saxon, William Yang Wang 虽然深度学习模型在各种任务中具有驱动的最先进状态的状态,但它们易于学习不应该被学习为预测线索的虚假相关性。为了缓解这个问题,我们提出了一种基于因果关系的培训框架,以减少可观察混淆引起的杂散相关性。我们对基础一般结构因果模型SCM提供理论分析,并建议在介入分布上执行最大似然估计MLE,而不是观察分布,即反事实的最大似然估计CMLE。由于介入分布,一般来说,从观察数据中隐藏,我们从预期的负面日志可能的两个不同的上限,提出了两个通用算法,隐含的CMLE和显式CMLE,用于使用观察数据的深度学习模型的因果预测。我们对两个现实世界任务进行实验,自然语言推理NLI和图像标题。结果表明,CMLE方法在域泛化性能下呈现常规MLE方法,并降低杂散相关性,同时保持正常评估的可比性。 |
Active Speaker Detection as a Multi-Objective Optimization with Uncertainty-based Multimodal Fusion Authors Baptiste Pouthier, Laurent Pilati, Leela K. Gudupudi, Charles Bouveyron, Frederic Precioso 现在,它从各种研究中建立了很好的研究,即在检测有源扬声器中将视频和音频数据组合在一起具有显着的益处。然而,通过诱导不可靠或欺骗性信息,可以潜在误导视听融合。本文概述了活跃的扬声器检测作为一种多目标学习问题,以利用新颖的自我注意,不确定性的多模式融合方案利用最佳的每种方式。得到的结果表明,所提出的多目标学习架构优于改善地图和AUC得分的传统方法。我们进一步证明,我们的融合策略在积极的扬声器检测中超越,其他模态融合方法在各种学科中报告。我们终于表明,所提出的方法显着提高了AVA ActiveSpeaker数据集的最新状态。 |
Free-Choice Nets With Home Clusters Are Lucent Authors Wil M.P. van der Aalst 如果没有两个不同的可达标记,则朗讯是朗讯,如果没有两个不同的转换集,即状态是通过它们启用的过渡的完全表征。表征朗讯的系统类是一个基本的问题,也是挑战性的问题。但是,对这个话题已经完成了很少的研究。在本文中,表明具有家庭集群的所有自由选择网是朗讯。这些网有一个所谓的家庭标记,使得可以再次达到此标记。这种家庭标记可以作为再生点或作为终点。结果是高度相关的,因为在许多应用中,我们希望系统是朗讯,许多表现良好的过程模型属于本文中确定的课程。与以前的工作不同,我们不需要标记的Petri网才能生活和强烈连接。最大的自由选择网的分析技术被定制为良好的形成网。本文介绍的方法提供了一种新颖的透视,从而实现了不需要良好形成的自由选择网的新分析技术。因此,我们还可以模拟终止和或具有初始化阶段的系统和进程。 |
Hierarchical Task Learning from Language Instructions with Unified Transformers and Self-Monitoring Authors Yichi Zhang, Joyce Chai 尽管最近进展,通过语言指示学习新任务仍然是一个极具挑战性的问题。在任务学习的阿尔弗雷德基准测试中,与人类性能超过90岁的人类性能相比,艺术系统的公布状态仅在未经人类的性能相比,在看不见的环境中少于10的任务成功率。为了解决这个问题,本文仔细看看任务学习。在从广泛应用的结束到最终架构的出发中,我们将任务学习分解为三个子问题子目标规划,场景导航和对象操纵,并通过统一的变压器开发了一个模型的Hitut代表分层任务,该任务是在统一的统一中解决每个子问题的统一变压器。方式学习分层任务结构的方式。在阿尔弗雷德基准中,Hitut已经实现了最佳性能,具有更高的概括能力。在看不见的环境中,与以前的现有技术相比,Hitut达到了160多个性能收益。任务结构的显式表示还可以深入了解问题的性质和代理的能力,为未来的基准开发和评估提供了洞察力。 |
SelfDoc: Self-Supervised Document Representation Learning Authors Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu 我们提出了Selfoc,一项任务不可知的文档图像理解训练框架。由于文档是多式联数的,并且旨在顺序读数,我们的框架利用文档中每个语义有意义的组件的位置,文本和视觉信息,并且它模拟了每个内容块之间的上下文化。与现有文档预培训模型不同,我们的模型是粗粒粒度,而不是将单个单词视为输入,因此避免过度细微粗糙,具有过度的上下文化。除此之外,我们在模型预训练阶段引入跨模型学习,以充分利用未标记文件的多模式信息。对于下游使用,我们提出了一种通过自适应地强调语言和视觉信号来提出一种用于多模式特征融合的模型自适应机制。我们的框架从自我监督的预训练中获益于文件,而无需通过一个特征掩蔽培训策略的注释。它在与以前的作品相比,在预训练阶段中使用的文档图像的多个下游任务的卓越性能达到了多个下游任务。 |
FlexParser -- the adaptive log file parser for continuous results in a changing world Authors Nadine Ruecker, Andreas Maier 任何现代系统都将事件写入文件,称为日志文件。那些包含经过各种分析的重要信息。示例范围从网络安全,入侵检测对使用分析到麻烦拍摄。在可能的数据分析之前,需要首先从半结构化日志消息中提取所需的信息。最先进的事件解析通常假设静态日志事件。但是,任何现代系统都是一致更新,并且更新也会更新,日志文件结构可以改变。我们称这些变化突变并研究对不同突变病例的解析性能。最新的研究发现使用异常检测验尸发现的突变,但不涵盖实际的连续解析。因此,我们提出了一种新颖的灵活解析器,称为FlexParser,尽管日志消息中逐渐变化,但是尽管日志消息逐渐变化,但可以提取所需的值。它意味着基本的文本预处理,然后是监督的深度学习方法。我们在每次数据集上解析一个事件时培训有状态LSTM。有状态强制执行模型以在多个消息中学习日志消息结构。我们的模型在七种不同,公开可用的日志文件数据集和各种突变中进行了测试。表现出平均F1得分为0.98,它优于其他深度学习方法以及艺术艺术的无监督者的状态。 |
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation Authors Dongchan Min, Dong Bok Lee, Eunho Yang, Sung Ju Hwang 随着神经文本的快速进展到语音TTS模型,个性化语音一代现在对许多应用程序都有很高的需求。为了实际适用性,TTS模型应该产生高质量的语音,只有来自给定扬声器的少量音频样本,即长度也短。但是,现有的方法要么需要微调模型或在没有微调的情况下实现低适应质量。在这项工作中,我们提出了风明腔,这是一种新的TTS模型,不仅综合了高质量的语音,而且还有效地适应新的扬声器。具体地,我们提出了根据从参考语音音频提取的样式对准文本输入的增益和偏置的风格自适应层标准化Saln。搭配萨尔,我们的模型甚至有效地从单一语音音频中有效地综合了目标扬声器的风格。此外,为了增强来自新扬声器的语音语音的调整,我们将其扩展到Meta StudeteSpeech,通过引入具有风格原型的两种鉴别器,并进行情节训练。实验结果表明,我们的模型产生了高质量的演讲,精确跟随扬声器的声音,单个短持续时间1 3秒语音音频,显着优于基线。 |
CAPE: Encoding Relative Positions with Continuous Augmented Positional Embeddings Authors Tatiana Likhomanenko, Qiantong Xu, Ronan Collobert, Gabriel Synnaeve, Alex Rogozhnikov 没有位置信息,基于关注的变压器神经网络是置换不变的。绝对或相对位置嵌入是馈送变压器模型位置信息的最流行方式。绝对位置嵌入式易于实施,但是在评估不同长度的序列时遭受泛化问题,而不是在培训时间看到的序列。相对位置对长度的变化更加稳健,但是实现和产生较差的模型吞吐量更复杂。在本文中,我们提出了一种基于增强的方法,用于绝对位置嵌入物,这使绝对简单和速度和相对位置嵌入的优点更好地推广。此外,我们对机器翻译,图像和语音识别中的最新模式的实证评估表明,CAPE导致更好的泛化性能以及对训练超参数的稳定性增加。 |
Real-Time Cognitive Evaluation of Online Learners through Automatically Generated Questions Authors Ritu Gala, Revathi Vijayaraghavan, Valmik Nikam, Arvind Kiwelekar 随着E学习平台的采用增加,保持在整个课程的在线学习者挑战。一种解决这一挑战的一种方法是通过提出问题定期探讨。本文提出了一种自动从给定视频讲座生成问题的方法。所产生的问题旨在评估学习者降低级别的认知能力。该方法自动从视频讲座中提取文本以生成WH各种问题。当学习者回答答案时,建议的方法进一步评估了响应并提供了反馈。除了提高学习者的参与之外,这种方法的主要好处是它释放了教练来设计问题来检查一个主题的理解。因此,教师可以在其他活动中耗费妥善花费。 |
Zero-shot Task Adaptation using Natural Language Authors Prasoon Goyal, Raymond J. Mooney, Scott Niekum 仿制学习和指令以下是两个常见的方法,用于将用户的意图传达给学习代理。然而,随着任务的复杂性成长,使用演示和语言与代理商通信可能是有益的。在这项工作中,我们提出了一种新颖的设置,其中代理商是一个演示和描述,并且必须将信息与方式组合起来。具体而具体地,给定任务的演示源任务,以及对展示任务和相关但不同任务之间的差异的自然语言描述目标任务,我们的目标是培训代理以在零拍摄中完成目标任务设置,即,没有目标任务的任何演示。为此,我们介绍语言辅助奖励和值适应rarva,鉴于源演示和目标任务如何不同的语言描述,学习输出准确描述目标任务的奖励值函数。我们的实验表明,在各种适应集中,我们的方法能够在使用基于模板的描述时完成95多个目标任务,并且在使用自由形式自然语言时超过70个。 |
Exposing the Implicit Energy Networks behind Masked Language Models via Metropolis--Hastings Authors Kartik Goyal, Chris Dyer, Taylor Berg Kirkpatrick 虽然最近的工作表明,由普遍存在的屏蔽语言培训的模型的分数有效地区分可能的和不可能的序列,但如果这些MLMS指定了在可能序列的空间上的原则概率分布,则仍然是一个开放的问题。在本文中,我们将MLMS解释为能量的序列模型,并提出了从训练的MLMS中导出的两个能量参数化。为了从这些模型中正确绘制样品,我们开发了一种基于Metropolis Hastings Monte Carlo算法的易诊断模拟方案。在我们的方法中,从用于训练掩蔽语言模型的相同掩模条件提出了样本,并且根据目标分布,它们被认为或拒绝它们被接受或拒绝。我们通过探索从机器翻译的条件生成任务中从这些能量基础的模型中汲取的样本的质量来验证所提出的参数化的有效性。理论上,我们通过表明掩蔽条件不产生马尔可夫链,理论上并经验证明了我们的采样算法,其静止分配是我们的目标分布,而我们的方法比其他最近提出的无向生成方法产生更高的质量样本Wang等人。,2019,Ghazvininejad等,2019年。 |
Layered gradient accumulation and modular pipeline parallelism: fast and efficient training of large language models Authors Joel Lamy Poirier 变压器的出现引发了语言模型大小的快速增长,远远超出了硬件改进。预计致密变压器将在不久的将来达到万亿参数规模,培训需要数千次甚至成千上万的GPU。我们调查在该规模及超越市售的硬件上的培训挑战。特别是,我们分析了分布式训练的不同配置的最短培训时间,利用了语言模型的经验缩放法律来估计最佳临界批量大小。与流行的信念相反,我们没有发现记忆墙的证据,而是争辩说,除了成本以外的真正限制在于训练持续时间。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com