AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 30 Sep 2021
Totally 24 papers
上期速览✈更多精彩请移步主页
Overview of the Arabic Sentiment Analysis 2021 Competition at KAUST Authors Hind Alamro, Manal Alshehri, Basma Alharbi, Zuhair Khayyat, Manal Kalkatawi, Inji Ibrahim Jaber, Xiangliang Zhang 本文概述了由阿卜杜拉国王科技大学 KAUST 组织的阿拉伯语情绪分析挑战赛。此挑战中的任务是开发机器学习模型,将给定的推文分类为正面、负面或中性三个类别之一。 |
FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition Authors Yichong Leng, Xu Tan, Rui Wang, Linchen Zhu, Jin Xu, Linquan Liu, Tao Qin, Xiang Yang Li, Edward Lin, Tie Yan Liu 纠错广泛用于自动语音识别 ASR 对生成的句子进行后处理,可以进一步降低单词错误率 WER。尽管 ASR 系统通过波束搜索生成多个候选,但当前的纠错方法一次只能纠正一个句子,未能利用多个候选的投票效应来更好地检测和纠正错误标记。在这项工作中,我们提出了 FastCorrect 2,这是一种将多个 ASR 候选作为输入的纠错模型,以获得更好的纠错精度。 FastCorrect 2 采用非自回归生成进行快速推理,它由处理多个源语句的编码器和从调整后的源语句并行生成目标语句的解码器组成,其中调整基于每个源标记的预测持续时间。但是,在处理多个源语句时存在一些问题。首先,利用多个源句子的投票效应并非易事,因为它们的长度通常不同。因此,我们提出了一种新的对齐算法,以在标记和发音相似度方面最大化多个句子之间的标记对齐程度。其次,解码器只能将一个调整后的源句作为输入,而有多个源句。因此,我们开发了一个候选预测器来检测最适合解码器的候选者。在我们的内部数据集和 AISHELL 1 上进行的实验表明,FastCorrect 2 可以将 WER 比以前的单个候选校正模型进一步降低 3.2 和 2.6,证明了在 ASR 纠错中利用多个候选的有效性。 |
BiQUE: Biquaternionic Embeddings of Knowledge Graphs Authors Jia Guo, Stanley Kok 知识图嵌入 KGE 紧凑地编码多关系知识图 KG。现有的 KGE 模型依靠几何运算来对关系模式进行建模。欧几里得圆旋转对于对称性等模式建模很有用,但不能表示层次语义。相比之下,双曲线模型在建模层次关系方面很有效,但在圆形旋转擅长的模式上表现不佳。对于 KGE 模型来说,统一多个几何变换以完全覆盖 KG 中的各种关系至关重要。为此,我们提出了 BiQUE,这是一种采用双四元数来集成多个几何变换的新型模型,即缩放、平移、欧几里得旋转和双曲线旋转。 BiQUE 在训练期间在几何算子之间进行最佳权衡,为每个关系选择最好的一个或它们的最佳组合。 |
StoryDB: Broad Multi-language Narrative Dataset Authors Alexey Tikhonov, Igor Samenko, Ivan P. Yamshchikov 本文介绍了 StoryDB 一个广泛的多语言叙事数据集。 StoryDB 是一个文本语料库,包括 42 种不同语言的故事。每种语言都包含 500 个故事。其中一些语言包括 20 000 多个故事。每个故事都有跨语言索引,并标有类型或主题等标签。该语料库显示出丰富的主题和语言变化,可以作为研究叙事在自然语言处理中跨各种语言(包括低资源语言)的作用的资源。 |
EDGAR-CORPUS: Billions of Tokens Make The World Go Round Authors Lefteris Loukas, Manos Fergadiotis, Ion Androutsopoulos, Prodromos Malakasiotis 我们发布了 EDGAR CORPUS,这是一个新的语料库,包含来自美国所有上市公司超过 25 年的年度报告。据我们所知,EDGAR 语料库是迄今为止最大的金融 NLP 语料库。所有报告都被下载,分成相应的项目部分,并以干净、易于使用的 JSON 格式提供。我们使用 EDGAR CORPUS 来训练和发布 EDGAR W2V,这是金融领域的 WORD2VEC 嵌入。我们在一系列金融 NLP 任务中使用这些嵌入,并展示了它们相对于通用 GloVe 嵌入和其他现有金融词嵌入的优越性。 |
EdinSaar@WMT21: North-Germanic Low-Resource Multilingual NMT Authors Svetlana Tchistiakova, Jesujoba Alabi, Koel Dutta Chowdhury, Sourav Dutta, Dana Ruiter 我们描述了 EdinSaar 在第六届 WMT2021 机器翻译会议上提交给北日耳曼语言多语言低资源翻译的共享任务。我们提交了多语言翻译模型,用于从冰岛语 is、挪威语 Bokmal nb 和瑞典语 sv 的翻译。我们采用了各种实验方法,包括多语言预训练、回译、微调和集成。 |
Multilingual Fact Linking Authors Keshav Kolluru, Martin Rezk, Pat Verga, William Cohen, Partha Talukdar 知识密集型 NLP 任务可以受益于将自然语言文本与来自知识图谱 KG 的事实联系起来。虽然事实本身是语言不可知的,但事实标签,即 KG 中事实的语言特定表示通常只存在于几种语言中。这使得将 KG 事实与有限语言以外的语言的句子联系起来变得具有挑战性。为了解决这个问题,我们引入了多语言事实链接 MFL 的任务,其目标是将句子中表达的事实链接到 KG 中的相应事实,即使 KG 中的事实标签在句子的语言中不可用。为了促进该领域的研究,我们提出了一个新的评估数据集 IndicLink。该数据集包含 11,293 个链接的 WikiData 事实和 6,429 个跨越英语和六种印度语言的句子。我们提出了一种检索生成模型 ReFCoG,通过将基于双编码器的检索与基于 Seq2Seq 的生成模型相结合,该模型可以扩展到数百万个 KG 事实,该模型被限制为仅输出有效的 KG 事实。 |
Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models Authors Alexey Birshert, Ekaterina Artemova 开发面向任务的对话助手的实际需求需要能够理解多种语言。多语言自然语言理解 NLU 的新基准包括多种语言的单语句子,并用意图和槽进行注释。在这种跨语言转移的设置模型中,在联合意图识别和槽填充方面表现出卓越的性能。然而,现有的基准缺乏代码切换话语,由于语法结构的复杂性,这些话语很难收集和标记。 |
Hierarchical Character Tagger for Short Text Spelling Error Correction Authors Mengyi Gao, Canran Xu, Peng Shi 拼写错误纠正问题的最新方法包括基于 Transformer 的 Seq2Seq 模型,它需要大量的训练集,并且受到缓慢的推理时间和基于 Transformer 编码器(如 BERT)的序列标记模型的影响,这些模型涉及令牌级标签空间,因此需要大量的预定义词汇词典。在本文中,我们提出了一个分层字符标记器模型,或 HCTagger,用于纠正短文本拼写错误。我们在字符级别使用预训练的语言模型作为文本编码器,然后预测字符级别的编辑以将原始文本转换为具有更小的标签空间的无错误形式。对于解码,我们提出了一种分层多任务方法,以在不引入额外模型参数的情况下缓解长尾标签分布问题。 |
BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing Critical Translation Errors in Sentiment-oriented Text Authors Hadeel Saadany, Constantin Orasan 社交媒体公司和当局广泛使用人工智能工具来监控仇恨言论、暴力庆祝或亵渎的帖子。由于人工智能软件需要大量数据来训练计算机,在线内容的机器翻译 MT 通常用于处理以多种语言编写的帖子,从而增加训练所需的数据。然而,在翻译面向情感的用户生成内容 UGC 时,MT 错误是经常发生的,尤其是当涉及低资源语言时。整个过程的充分性依赖于这样一个假设,即所使用的评估指标能够可靠地表明翻译质量。在本文中,我们评估了自动质量指标检测关键机器翻译错误的能力,这些错误可能导致对影响信息的严重误解。我们比较了语义内容严重受损的三个规范性翻译标准的性能,与具有严重错误的有意义的翻译相比,该错误完全扭曲了源文本的情绪。 |
Who says like a style of Vitamin: Towards Syntax-Aware DialogueSummarization using Multi-task Learning Authors Seolhwa Lee, Kisu Yang, Chanjun Park, Jo o Sedoc, Heuiseok Lim 出于多种原因,抽象对话摘要是一项具有挑战性的任务。首先,对话中的大部分重要信息都通过不同文本风格的多方交互分散在话语中。其次,对话通常是非正式的结构,其中不同的个人表达个人观点,与文本摘要不同,这些任务通常针对新闻文章等正式文档。为了解决这些问题,我们专注于个体说话者的话语与独特的句法结构之间的关联。扬声器具有独特的文本样式,可以包含语言信息,例如声纹。因此,我们通过利用语言信息(即词性标注)构建了一个句法感知模型,通过固有地区分单个说话者发出的句子来缓解上述问题。我们采用了语法感知信息和对话摘要的多任务学习。据我们所知,我们的方法是第一种将多任务学习应用于对话摘要任务的方法。在SAMSum语料库上进行的大规模对话摘要语料库实验表明,我们的方法改进了vanilla模型。 |
Context based Roman-Urdu to Urdu Script Transliteration System Authors H Muhammad Shakeel, Rashid Khan, Muhammad Waheed 现在计算机是人类的必需品,它在搜索引擎、文本处理、短信服务、语音聊天和文本识别等许多领域都非常有用。自去年以来,已经开发了许多工具和技术来支持语言脚本的编写。大多数亚洲语言,如阿拉伯语、乌尔都语、波斯语、链子语和韩语,都是用罗马字母书写的。罗马字母是最常用于音译的语言,这些语言具有非拉丁文字。为了将乌尔都语字符作为输入,已经存在许多布局。大多数乌尔都语使用者更喜欢将罗马乌尔都语用于不同的应用程序,因为大多数用户不熟悉乌尔都语键盘。这项工作的目标是改进罗马乌尔都语到乌尔都语文字的上下文基础音译。在本文中,我们提出了一种有效解决音译问题的算法。该算法的工作原理类似于,将编码的罗马字转换为标准乌尔都语脚本中的字,并将其与词典匹配。如果找到匹配,则在文本编辑器中显示该词。如果在词典中找到多个匹配项,则会显示出现频率最高的词。如果没有找到匹配的单个实例,则显示第一个编码和转换的实例并将其设置为默认值,然后根据上下文将给定的歧义词调整到他们想要的位置。 |
Reflexivity in Issues of Scale and Representation in a Digital Humanities Project Authors Annie T. Chen, Camille Lyans Cole 在本文中,我们探讨了在开发将自然语言处理与数据分析和可视化技术相结合的管道时遇到的问题。由一个人跨越几十年的日记组成的语料库的特征在表征问题和作为历史研究来源的可供性方面提出了概念上的挑战。 |
Improving Arabic Diacritization by Learning to Diacritize and Translate Authors Brian Thompson, Ali Alshehri 我们提出了一种新的变音多任务学习方法,它训练一个模型来进行变音和翻译。我们的方法通过利用大型、现成的双文本语料库来解决数据稀疏问题。此外,翻译需要隐含的语言和语义知识,这有助于解决变音任务中的歧义。我们将我们的方法应用于 Penn Arab Treebank 并报告了一个新的最先进的词错误率 4.79 。 |
Improving Dialogue State Tracking by Joint Slot Modeling Authors Ting Rui Chiang, Yi Ting Yeh 对话状态跟踪模型在面向任务的对话系统中起着重要作用。然而,它们中的大多数都在给定输入的情况下独立地对槽类型进行建模。我们发现它可能会导致模型被共享相同数据类型的槽类型混淆。为了缓解这个问题,我们提出了联合建模槽的 TripPy MRF 和 TripPy LSTM。我们的结果表明,他们能够缓解上述混淆,并将数据集 MultiWoZ 2.1 上的最新技术从 58.7 提升到 61.3。 |
RAFT: A Real-World Few-Shot Text Classification Benchmark Authors Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlm ller 大型预训练语言模型已显示出对少量学习的前景,仅给出几个特定于任务的示例即可完成基于文本的任务。模型会很快解决迄今为止留给人类研究助理的分类任务吗?现有的基准测试并非旨在衡量应用设置中的进展,因此不要直接回答这个问题。 RAFT 基准测试 Real world Annotated Three shot Tasks 侧重于自然发生的任务,并使用反映部署的评估设置。 RAFT 的基线评估揭示了当前技术难以对长文本和多类任务进行推理的领域。人类基线表明,一些分类任务对于非专家人类来说是困难的,这反映了现实世界的价值有时取决于领域专业知识。然而,即使是非专家人类基线 F1 分数也超过 GPT 3 平均 0.11。 |
Generating Summaries for Scientific Paper Review Authors Ana Sabina Uban, Cornelia Caragea 审查过程对于确保出版物的质量至关重要。最近,机器学习和NLP顶级场地的投稿量增加,造成了审稿人负担过重的问题,经常引起人们的担忧,这不仅可能使审稿人负担过重,还可能影响审稿质量。用于协助审查过程的自动系统可能是改善问题的解决方案。在本文中,我们探索了科学论文的自动评论摘要生成。我们假设神经语言模型有可能成为这项任务的有价值的候选者。为了验证这一假设,我们发布了一个新的科学论文及其评论数据集,这些数据集是从 2013 年至 2020 年 NeurIPS 会议上发表的论文中收集的。 |
Second Order WinoBias (SoWinoBias) Test Set for Latent Gender Bias Detection in Coreference Resolution Authors Hillary Dawkins 尽管测试用例中没有明确的性别词,但我们在下游应用程序中观察到了性别引起的偏见。我们提供了一个测试集 SoWinoBias,用于测量共指解析系统中这种潜在的性别偏见。我们评估当前去偏方法在 SoWinoBias 测试集上的性能,特别是参考方法的设计和改变的嵌入空间属性。 |
Marked Attribute Bias in Natural Language Inference Authors Hillary Dawkins 报告和提供 NLP 应用程序中有害偏差的测试集对于建立对当前问题的深入理解至关重要。我们在下游 NLP 应用程序中提出了对性别偏见的新观察,标记了自然语言推理中的属性偏见。下游应用程序中的偏差可能源于训练数据、词嵌入,或者被使用的模型放大。然而,由于其普遍性,专注于有偏见的词嵌入可能是最具影响力的第一步。在这里,我们试图了解词嵌入的内在属性如何促成这种观察到的标记属性效应,以及当前的后处理方法是否成功解决了偏差。对当前去偏差环境的调查揭示了两个开放性问题,当前去偏差嵌入均未减轻标记属性错误,并且没有任何内在偏差度量可以预测标记属性效应。通过注意到一种新型的内在偏差度量与标记的属性效应有意义地相关,我们提出了一种新的静态词嵌入后处理去偏差方案。所提出的应用于现有嵌入的方法在标记的属性偏差测试集上取得了新的最佳结果。 |
Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with Controllable Perturbations Authors Ekaterina Taktasheva, Vladislav Mikhailov, Ekaterina Artemova 最近的研究采用了一个以文本扰动概念为中心的新实验领域,该领域表明,混洗的词序对许多 NLP 任务中基于 Transformer 的语言模型的下游性能几乎没有影响。这些发现与对模型如何编码层次和结构信息的普遍理解相矛盾,甚至质疑词序是否用位置嵌入建模。为此,本文提出了九个探测数据集,这些数据集按 emph 可控文本扰动的类型组织,用于三种印欧语言,具有不同程度的词序灵活性英语、瑞典语和俄语。基于 M BERT 和 M BART 模型的探测分析,我们报告说句法敏感性取决于语言和模型预训练目标。我们还发现,随着扰动粒度的增加,灵敏度随着层数的增加而增加。 |
Text Simplification for Comprehension-based Question-Answering Authors Tanvi Dadu, Kartikey Pant, Seema Nagar, Ferdous Ahmed Barbhuiya, Kuntal Dey 文本简化是将一个句子拆分并重新表述为一个句子序列的过程,使其更易于阅读和理解,同时保留内容并近似原始含义。文本简化已在机器翻译、摘要、语义角色标记和信息提取等 NLP 应用中得到利用,为其在基于理解的问答下游任务中的利用开辟了广阔的途径。在这项工作中,我们使用理解上下文研究了文本简化在问答任务中的效果。 |
Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? -- A computational investigation Authors Khazar Khorrami, Okko R s nen 数十年的研究已经研究了语言学习婴儿如何学会区分语音、分割单词以及将单词与其含义联系起来。虽然这些能力的逐渐发展是毋庸置疑的,但这些技能的确切性质和潜在的心理表征仍不清楚。同时,计算研究表明,语音的基本理解可以通过语音和并发参考模糊视觉输入之间的统计学习来实现。这些模型可以在没有先验语言知识(例如语言单位的表示)的情况下运行,也没有专门针对这些单位的学习机制。这就提出了一个问题,语言单位的知识,如音素、音节和单词,在多大程度上可以作为潜在的表征出现,支持语音和其他模态的表征之间的转换,并且这些单元不是最接近的学习目标对于学习者。在这项研究中,我们将这个想法表述为所谓的潜在语言假设 LLH,将语言表征学习与感官模式内和跨感官模式的一般预测处理联系起来。我们回顾了现有计算研究支持 LLH 视听方面的程度。然后,我们在广泛的学习模拟中进一步探索 LLH,使用不同的神经网络模型进行视听跨情境学习,并比较从合成和真实语音数据中学习。我们通过利用一系列与表征的语言选择性和时间特征相关的互补评估指标来研究网络学习的潜在表征是否反映了输入语音的语音、音节或词汇结构。 |
Contrastive Video-Language Segmentation Authors Chen Liang, Yawei Luo, Yu Wu, Yi Yang 我们专注于分割视频内容中自然语言句子所指的某个对象的问题,其核心是制定精确的视觉语言关系。虽然现有的尝试主要以隐式方式构建这种关系,即网格级多模态特征融合,但在这种范式下区分语义相似的对象已被证明是有问题的。在这项工作中,我们建议通过对比学习目标以明确的方式交织视觉和语言模式,该目标直接对齐引用对象和语言描述,并将未引用的内容跨帧分开。此外,为了解决退化问题,我们提出了两种互补的硬实例挖掘策略,即语言相关通道过滤器和相对硬实例构建。他们鼓励网络在对比训练期间排除视觉可区分特征并专注于容易混淆的对象。 |
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Authors Hu Xu, Gargi Ghosh, Po Yao Huang, Dmytro Okhonko, Armen Aghajanyan, Florian Metze Luke Zettlemoyer Christoph Feichtenhofer 我们提出了 VideoCLIP,这是一种对比方法,用于预训练用于零镜头视频和文本理解的统一模型,而无需在下游任务上使用任何标签。 VideoCLIP 通过将时间重叠的正视频文本对与来自最近邻检索的硬负进行对比来训练视频和文本转换器。我们在一系列不同的下游任务上进行的实验,包括序列级文本视频检索、VideoQA、令牌级动作定位和动作分割,揭示了最先进的性能,超越了先前的工作,在某些情况下甚至优于监督方法。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com