【AI视野·今日NLP 自然语言处理论文速览 第三十三期】Thu, 21 Apr 2022

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 21 Apr 2022
Totally 56 papers
上期速览✈更多精彩请移步主页

【AI视野·今日NLP 自然语言处理论文速览 第三十三期】Thu, 21 Apr 2022_第1张图片

Daily Computation and Language Papers

Medical Dataset Classification for Kurdish Short Text over Social Media
Authors Ari M. Saeed, Shnya R. Hussein, Chro M. Ali, Tarik A. Rashid
Facebook 应用程序用作收集此数据集评论的资源,该数据集由 6756 条评论组成,以创建医疗库尔德数据集 MKD。样本是用户的评论,这些评论来自 Medical、News、Economy、Education 和 Sport 页面的不同帖子。在原始数据集上执行六个步骤作为预处理技术,通过替换字符来清理和去除评论中的噪音。评论短文本被标记为正面类医学评论和负面类非医学评论作为文本分类。

Design and Development of Rule-based open-domain Question-Answering System on SQuAD v2.0 Dataset
Authors Pragya Katyayan, Nisheeth Joshi
人类的思想是寻求答案的好奇问题的宫殿。通过自然语言处理技术可以解决这一挑战。机器学习和深度学习等统计技术需要大量数据来训练,尽管它们无法挖掘语言的细微差别。此类系统通常在封闭域数据集上表现最佳。我们已经提议开发一种基于规则的开放领域问答系统,该系统能够从相应的上下文段落中回答任何领域的问题。我们使用了来自 SQuAD 2.0 数据集的 1000 个问题来测试开发的系统,它给出了令人满意的结果。

Generative Design Ideation: A Natural Language Generation Approach
Authors Qihao Zhu, Jianxi Luo
本文旨在通过在人工智能 AI 中应用最新的预训练语言模型,探索一种基于知识的设计构思的生成方法。具体来说,提出了一种使用 USPTO 专利数据库对生成的预训练变压器进行微调的方法。 AI生成的想法不仅语言简洁易懂,而且能够将目标设计与外部知识源相结合,知识距离可控。

The MIT Voice Name System
Authors Brian Subirana, Harry Levinson, Ferran Hueto, Prithvi Rajasekaran, Alexander Gaidis, Esteve Tarrag , Peter Oliveira Soens
这份 RFC 白皮书总结了我们在 MIT 语音名称系统 VNS 和 Huey 方面的进展。 VNS 在名称和功能上与 DNS 类似,是一个保留和使用唤醒词来激活人工智能 AI 设备的系统。就像你可以说 Hey Siri 来激活 Apple 的个人助理一样,我们建议使用智能扬声器和其他设备中的 VNS 根据关闭、打开杂货店购物清单或 271 等命令路由唤醒请求,开始我的闪存卡审查计算机视觉课。我们还介绍了 Huey,这是一种与 AI 设备交互的明确自然语言。我们的目标是将语音交互标准化到与其他系统类似的普遍范围,例如电话号码,采用公认的全球范围分配和使用号码的方法,或互联网的 DNS,采用标准命名系统,这有助于蓬勃发展万维网、FTP 和电子邮件等服务。就像这些标准是中立的一样,我们也旨在赋予 VNS 唤醒中立性,以便每个参与者都可以开发自己的数字语音。我们专注于语音作为与任何物联网对象交谈的起点,并简要解释 VNS 如何扩展到其他人工智能技术,使人能够机器对话,真正机器对机器,包括计算机视觉或神经接口。我们还简要描述了对更广泛的标准集 MIT Open AI MOA 的考虑,包括一个参考架构,作为开发具有标准唤醒词、NLP 命令(如购物清单或 Flash)的通用会话商务基础设施的起点

A Fast Post-Training Pruning Framework for Transformers
Authors Woosuk Kwon, Sehoon Kim, Michael W. Mahoney, Joseph Hassoun, Kurt Keutzer, Amir Gholami
剪枝是降低大型 Transformer 模型的巨大推理成本的有效方法。然而,先前关于模型修剪的工作需要重新训练模型。这会增加模型部署的高成本和复杂性,使其难以在许多实际情况下使用。为了解决这个问题,我们提出了一个不需要任何再训练的 Transformers 快速训练后修剪框架。给定资源约束和样本数据集,我们的框架使用结构化稀疏方法自动修剪 Transformer 模型。为了在不重新训练的情况下保持高精度,我们引入了三种新技术:i 轻量级掩码搜索算法,它根据 Fisher 信息找到要修剪的头和过滤器;ii 掩码重排,补充搜索算法;iii 掩码调整,重建每一层的输出激活.我们将我们的方法应用于 BERT BASE 和 DistilBERT,并评估其在 GLUE 和 SQuAD 基准上的有效性。我们的框架实现了高达 2.0 倍的 FLOP 减少和 1.56 倍的推理延迟加速,同时保持了 1 的准确性损失。重要的是,我们的框架在不到 3 分钟的时间内在单个 GPU 上修剪了 Transformer,这比现有的再训练修剪方法快两个数量级以上。

Syntax-informed Question Answering with Heterogeneous Graph Transformer
Authors Fangyi Zhu, Lok You Tan, See Kiong Ng, St phane Bressan
大型神经语言模型正在稳步为问答和其他自然语言和信息处理任务贡献最先进的性能。这些模型的训练成本很高。

LAMNER: Code Comment Generation Using Character Language Model and Named Entity Recognition
Authors Rishab Sharma, Fuxiang Chen, Fatemeh Fard
代码注释生成是为给定代码方法或函数生成高级自然语言描述的任务。尽管研究人员一直在研究自动生成代码注释的多种方法,但以前的工作主要考虑仅以完整的语义形式表示代码标记,例如,使用语言模型来学习代码标记的语义,以及附加的代码属性,例如代码的树结构作为模型的辅助输入。

The TalkMoves Dataset: K-12 Mathematics Lesson Transcripts Annotated for Teacher and Student Discursive Moves
Authors Abhijit Suresh, Jennifer Jacobs, Charis Harty, Margaret Perkoff, James H. Martin, Tamara Sumner
教学片段的文字记录可以成为理解课堂教学中话语模式的有效工具。大多数教育专家认为,持续的课堂话语是学生公平、参与和丰富学习环境的关键组成部分。本文描述了 TalkMoves 数据集,该数据集由 567 个人工注释的 K 12 数学课成绩单组成,包括整个课程或从视频记录中获得的部分课程。这套成绩单主要包括带有全班讨论和/或小组工作的面对面课程,以及一些在线课程。所有的成绩单都是人工转录的,由演讲者的老师或学生分割,并根据负责任的谈话理论在句子级别注释十个话语动作。此外,成绩单包括基于 Switchboard Dialog Act Corpus 的对话行为标签形式的话语级别信息。教育工作者、政策制定者和研究人员可以使用该数据集来了解 K 12 数学课堂中教师和学生话语的性质。

Detecting Unintended Memorization in Language-Model-Fused ASR
Authors W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews
端到端 E2E 模型通常伴随着语言模型 LM 通过浅层融合来提高其整体质量以及对稀有词的识别。同时,之前的几项工作表明,LM 容易无意中记住训练数据中稀有或独特的序列。在这项工作中,我们设计了一个框架来检测随机文本序列的记忆,当一个人只有黑盒查询访问 LM 融合语音识别器时,我们在 LM 训练数据中称为金丝雀,而不是直接访问 LM。在与 Transformer LM 融合的生产级 Conformer RNN T E2E 模型上,我们展示了从 300M 示例的 LM 训练数据中检测单个出现的金丝雀的记忆是可能的。

Extraction of Sleep Information from Clinical Notes of Alzheimer's Disease Patients Using Natural Language Processing
Authors Haneef Ahamed Mohammad, Sonish Sivarajkumar, Samual Viggiano, David Oniani, Shyam Visweswaran, Yanshan Wang
阿尔茨海默病 AD 是美国最常见的痴呆症。睡眠是与生活方式相关的因素之一,已被证明对老年人的最佳认知功能至关重要。 .然而,缺乏研究睡眠与 AD 发病率之间关系的研究。进行此类研究的一个主要瓶颈是获取睡眠信息的传统方式耗时、效率低、不可扩展且受限于患者的主观体验。在这项研究中,我们开发了基于规则的 NLP 算法和机器学习模型,以自动从临床笔记中提取睡眠相关概念,包括打鼾、午睡、睡眠问题、睡眠质量差、白天嗜睡、夜间醒来和睡眠持续时间被诊断患有 AD 的患者。我们根据从匹兹堡大学医学中心 UPMC 检索到的临床记录对提出的模型进行了训练和验证。

Hierarchical BERT for Medical Document Understanding
Authors Ning Zhang, Maciej Jankowski
医学文档理解近来备受关注。一项具有代表性的任务是国际疾病分类 ICD 诊断代码分配。现有工作采用 RNN 或 CNN 作为骨干网络,因为普通 BERT 不能很好地处理 2000 到 kens 的长文档。所有这些方法共有的一个问题是它们过于特定于 ICD 代码分配任务,失去了给出整个文档级别和句子级别嵌入的通用性。因此,将它们引导到其他下游 NLU 任务并不是直接的。受这些观察的启发,我们提出 Medical Document BERT MDBERT 用于长时间的医学文档理解任务。 MDBERT 不仅在学习不同语义级别的表示方面有效,而且通过利用自下而上的层次结构来有效编码长文档。与普通 BERT 解决方案 1 相比,MDBERT 在 MIMIC III 数据集上将性能提升至相对 20,使其与当前的 SOTA 解决方案相当 2,它将自我注意模块的计算复杂度降低到 1100 以下。除了 ICD 代码

Radiology Text Analysis System (RadText): Architecture and Evaluation
Authors Song Wang, Mingquan Lin, Ying Ding, George Shih, Zhiyong Lu, Yifan Peng
分析放射学报告是一项耗时且容易出错的任务,这就需要一个高效的自动化放射学报告分析系统来减轻放射科医师的工作量并鼓励精确诊断。在这项工作中,我们介绍了 RadText,这是一个由 Python 开发的开源放射学文本分析系统。 RadText 提供了一个易于使用的文本分析管道,包括去识别、部分分割、句子分割和词标记化、命名实体识别、解析和否定检测。 RadText 采用灵活的模块化设计,提供混合文本处理模式,并支持原始文本处理和本地处理,从而实现更好的可用性和改进的数据隐私。 RadText 采用 BioC 作为统一接口,还将输入输出标准化为与 Observational Medical Outcomes Partnership OMOP Common Data Model CDM 兼容的结构化表示。这为跨多个不同数据源的观察研究提供了更系统的方法。我们在 MIMIC CXR 数据集上评估了 RadText,我们为这项工作添加了五个新的疾病标签。 RadText 展示了高度准确的分类性能,平均精度为 0.94,召回率为 0.92,F 1 得分为 0.92。

Build a Robust QA System with Transformer-based Mixture of Experts
Authors Yu Qing Zhou, Xixuan Julie Liu, Yuanzhe Dong
在本文中,我们的目标是构建一个强大的问答系统,可以适应域外数据集。单个网络可能会过度拟合训练分布中的表面相关性,但具有有意义数量的专家子网络、为每个输入选择专家的稀疏组合的门控网络以及对专家子网络重要性的仔细平衡,专家混合 MoE 模型允许我们训练一个多任务学习器,该学习器可以泛化到域外数据集。我们还探索了将 MoE 层提升到 DistilBERT 中间的可能性,并用稀疏激活的开关 FFN 层替换密集前馈网络,类似于 Switch Transformer 架构,它通过减少通信和计算来简化 MoE 路由算法费用。除了模型架构之外,我们还探索了数据增强技术,包括 Easy Data Augmentation EDA 和反向翻译,以在小的域外训练数据之间创建更有意义的差异,从而提高我们模型的性能和鲁棒性。在本文中,我们展示了最佳架构和数据增强技术的组合在域外评估中获得了 53.477 的 F1 分数,比基线提高了 9.52 分。在最终测试集上,我们报告了更高的 59.506 F1 和 41.651 EM。

Perceiving the World: Question-guided Reinforcement Learning for Text-based Games
Authors Yunqiu Xu, Meng Fang, Ling Chen, Yali Du, Joey Tianyi Zhou, Chengqi Zhang
基于文本的游戏提供了一种学习自然语言处理的交互式方式。虽然深度强化学习在开发游戏代理方面已显示出有效性,但样本效率低和动作空间大仍然是阻碍 DRL 在现实世界中应用的两大挑战。在本文中,我们通过引入世界感知模块来应对挑战,这些模块通过回答有关环境的问题来自动分解任务和修剪动作。然后,我们提出了一个两阶段的训练框架,将语言学习与强化学习分离,进一步提高了样本效率。实验结果表明,该方法显着提高了性能和采样效率。

Exploring Continuous Integrate-and-Fire for Efficient and Adaptive Simultaneous Speech Translation
Authors Chih Chiang Chang, Hung yi Lee
同步语音翻译 SimulST 是一项具有挑战性的任务,旨在在观察到完整输入之前直接翻译流式语音。 SimulST 系统通常包括两个重要组件:聚合语音信息的预决策和决定读取或写入的策略。虽然最近的工作提出了多种策略来改进预决策,但它们大多采用固定等待 k 策略。适应性政策很少被探索。我们建议使用 Continuous Integrate 和 Fire CIF 对自适应策略进行建模。在我们提出的模型中,CIF 不仅负责聚合语音信息,还决定何时读取或写入。为了使 CIF 适应 SimulST 任务,我们提出了两个修改:令牌级别的数量损失或无限回溯注意。

Predicting Clinical Intent from Free Text Electronic Health Records
Authors Kawsar Noor, Katherine Smith, Julia Bennett, Jade OConnell, Jessica Fisk, Monika Hunt, Gary Philippo, Teresa Xu, Simon Knight, Luis Romao, Richard JB Dobson, Wai Keong Wong
在患者咨询后,临床医生确定患者管理的步骤。例如,临床医生可以要求再次看病人或将他们转诊给专科医生。虽然大多数临床医生会在患者的临床记录中记录他们的意图作为下一步,但在某些情况下,临床医生可能会忘记将他们的意图作为命令或请求来表明,例如未能下跟进订单。因此,这会导致患者失去随访,并且在某些情况下可能会导致不良后果。在本文中,我们训练了一个机器学习模型,以从患者的临床记录中检测临床医生对患者进行随访的意图。注释者系统地确定了 22 种可能的临床意图类型并注释了 3000 条减肥临床注释。注释过程揭示了标记数据中的类别不平衡,我们发现只有足够的标记数据来训练 22 个意图中的 11 个。

COOL, a Context Outlooker, and its Application to Question Answering and other Natural Language Processing Tasks
Authors Fangyi Zhu, See Kiong Ng, St phane Bressan

A Survey on Bias and Fairness in Natural Language Processing
Authors Rajas Bansal
随着 NLP 模型越来越融入人们的日常生活,检查这些系统的使用所产生的社会影响变得很重要。虽然这些模型理解语言并提高了下游任务的准确性,但有证据表明,这些模型放大了性别、种族和文化刻板印象,并在许多环境中导致了恶性循环。在本次调查中,我们分析了偏见的起源、公平的定义,以及 NLP 的不同子领域如何减轻偏见。

Distantly Supervised Named Entity Recognition via Confidence-Based Multi-Class Positive and Unlabeled Learning
Authors Kang Zhou, Yuepei Li, Qi Li
在本文中,我们研究了远程监督下的命名实体识别 NER 问题。由于外部字典和/或知识库的不完整性,这种带有远距离注释的训练数据通常会遭受高误报率。为此,我们通过多类正面和未标记的 MPU 学习制定了远程监督 NER DS NER 问题,并提出了一种理论上和实践上新颖的基于 CONFidence 的 MPU Conf MPU 方法。为了处理不完整的注释,Conf MPU 包含两个步骤。首先,为每个作为实体令牌的令牌估计置信度分数。然后,应用所提出的 Conf MPU 风险估计来训练 NER 任务的多类分类器。

On the Ethical Considerations of Text Simplification
Authors Sian Gooding
本文概述了辅助系统框架内文本简化的伦理含义。我们认为应该在执行文本简化的技术和在辅助技术中实现这些技术之间进行区分。当使用后者作为研究动机时,仔细考虑随后的伦理影响是很重要的。

Extracting Impact Model Narratives from Social Services' Text
Authors Bart Gajderowicz, Daniela Rosu, Mark S Fox
命名实体识别 NER 是叙述提取中的一项重要任务。叙事作为一个故事系统,提供了关于故事中的事件和人物如何随着时间的推移而发展的见解。本文提出了一种关于社会目的组织的语料库上的 NER 架构。这是第一个专门针对社会服务实体的 NER 任务。我们展示了如何使用从非结构化文本中提取的信息来对服务和受影响的客户进行排序。该方法概述了提取实体的本体表示(例如需求和满足者)并​​生成假设以回答有关社会目的组织定义的影响模型的查询的步骤。

A Survey on Neural Abstractive Summarization Methods and Factual Consistency of Summarization
Authors Meng Cao
自动摘要是通过计算缩短一组文本数据的过程,以创建代表原始文本中最重要信息片段的摘要的子集。现有的摘要方法大致可分为抽取式和抽象式两种。

Generalizing to the Future: Mitigating Entity Bias in Fake News Detection
Authors Yongchun Zhu, Qiang Sheng, Juan Cao, Shuokai Li, Danding Wang, Fuzhen Zhuang
假新闻的广泛传播对个人和社会的威胁越来越大。假新闻检测旨在根据过去的新闻训练模型并检测未来的假新闻。尽管已经做出了很大努力,但现有的假新闻检测方法忽略了现实世界数据中的无意实体偏差,这严重影响了模型对未来数据的泛化能力。例如,在我们的数据中,2010 年和 2017 年 97 条包含实体 Donald Trump 的新闻是真实的,但该百分比在 2018 年下降到只有 33 条。这将导致在前者上训练的模型很难推广到后者,因为它倾向于将有关唐纳德特朗普的新闻预测为真实的,以降低训练损失。在本文中,我们提出了一个实体去偏框架 textbf ENDEF,它通过从因果角度减轻实体偏差,将假新闻检测模型推广到未来数据。基于实体、新闻内容和新闻真实性之间的因果图,我们分别对每个原因实体和内容在训练期间的贡献进行建模。在推理阶段,我们消除了实体的直接影响以减轻实体偏差。在英文和中文数据集上进行的大量离线实验表明,所提出的框架可以大大提高基础假新闻检测器的性能,在线测试验证了其在实践中的优越性。据我们所知,这是第一项明确提高假新闻检测模型对未来数据的泛化能力的工作。

Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot Classifiers
Authors Angelo Basile, Marc Franco Salvador, Paolo Rosso
基于标签描述的零样本文本分类器将输入文本和一组标签嵌入到相同的空间度量中,例如余弦相似度,然后可以用于选择与输入文本最相似的标签描述作为预测标签。在真正的零样本设置中,设计好的标签描述具有挑战性,因为没有可用的开发集。受“不同意学习”文献的启发,我们研究了如何使用重复评分分析的概率模型以无监督的方式选择最佳标签描述。我们在一组不同的数据集和任务情绪、主题和立场上评估我们的方法。

Event Transition Planning for Open-ended Text Generation
Authors Qintong Li, Piji Li, Wei Bi, Zhaochun Ren, Yuxuan Lai, Lingpeng Kong
开放式文本生成任务,例如对话生成和故事完成,需要模型在有限的先前上下文中生成连贯的延续。这些任务的开放性性质给当今的神经自回归文本生成器带来了新的挑战。尽管这些神经模型擅长生成类似人类的文本,但它们很难安排给定事实与可能发生的事件之间的因果关系。为了弥合这一差距,我们提出了一种新颖的两阶段方法,该方法明确地安排了开放式文本生成中的后续事件。我们的方法可以理解为经过特殊训练的从粗到细的算法,其中事件转换计划器提供粗略的情节骨架,第二阶段的文本生成器细化骨架。对两个开放式文本生成任务的实验表明,我们提出的方法有效地提高了生成文本的质量,尤其是在连贯性和多样性方面。

A Corpus for Understanding and Generating Moral Stories
Authors Jian Guan, Ziqi Liu, Minlie Huang
讲道德是讲故事的最重要目的之一。理解和撰写道德故事的一项基本能力是连接故事情节和隐含的道德。其挑战主要在于 1 掌握道德中抽象概念的知识, 2 捕捉故事中的事件间话语关系, 3 将故事的价值偏好与道德关于好坏行为的价值偏好保持一致。在本文中,我们提出了两个理解任务和两个生成任务来评估机器的这些能力。我们提出了 STORAL,这是一个新的中英文人类书面道德故事数据集。我们通过在 STORAL 上使用自动和手动评估测试各种模型来展示所提出任务的难度。

You Are What You Write: Preserving Privacy in the Era of Large Language Models
Authors Richard Plant, Valerio Giuffrida, Dimitra Gkatzia
大型语言模型的大规模采用为大量自然语言处理任务引入了便捷的知识转移新时代。但是,这些模型也存在通过暴露有关数据主体的不需要的信息来破坏用户信任的风险,这些信息可能被恶意方提取,例如通过对抗性攻击。我们对一系列流行模型编码为预训练表示的个人信息的程度进行了实证研究,我们发现模型的复杂性、预训练中使用的数据量和数据泄漏之间存在正相关关系。在本文中,我们在一个带有人口统计信息位置、年龄和性别注释的大型多语言情感分析数据集上,首次展示了一些最流行的隐私保护算法的广泛覆盖评估和比较。结果表明,由于更大和更复杂的模型更容易泄露私人信息,因此非常需要使用隐私保护方法。

Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in Text Classification
Authors Dawei Zhu, Michael A. Hedderich, Fangzhou Zhai, David Ifeoluwa Adelani, Dietrich Klakow
当人工注释者出错或通过弱监督或远程监督生成数据时,训练数据中的标签会出现错误。已经表明,需要通过对噪声实例进行建模、清理或过滤的复杂噪声处理技术来防止模型拟合这种标签噪声。然而,我们在这项工作中表明,对于具有现代 NLP 模型(如 BERT)的文本分类任务,在各种噪声类型上,现有的噪声处理方法并不总能提高其性能,甚至可能使其性能恶化,这表明需要进一步研究。

Analyzing the Intensity of Complaints on Social Media
Authors Ming Fang, Shi Zong, Jing Li, Xinyu Dai, Shujian Huang, Jiajun Chen
抱怨是一种言语行为,表达了现实与人类期望之间的负面不一致。虽然先前的研究主要集中在识别投诉的存在或类型,但在这项工作中,我们提出了计算语言学中第一项测量来自文本的投诉强度的研究。从这种角度分析投诉特别有用,因为一定程度的投诉可能会对公司或组织造成严重后果。我们创建了第一个中国数据集,其中包含 3,103 条来自中国流行社交媒体平台微博的投诉帖子。然后使用 Best Worst Scaling BWS 方法用投诉强度分数对这些帖子进行注释。我们表明,投诉强度可以通过计算模型准确估计,最佳均方误差达到 0.11。此外,我们围绕投诉进行了全面的语言分析,包括投诉与情绪之间的联系,并对中英文人士使用的投诉表达进行跨语言比较。

Generative or Contrastive? Phrase Reconstruction for Better Sentence Representation Learning
Authors Bohong Wu, Hai Zhao
尽管提供了令人惊叹的上下文化令牌级别表示,但当前的预训练语言模型实际上在其自我监督的预训练期间不太关注获取句子级别的表示。如果自监督学习可以分为生成式和对比式两个子类别,那么现有的大多数研究表明,句子表示学习可能更受益于对比式方法,而不是生成式方法。然而,对比学习不能很好地兼容常见的令牌级生成自监督学习,并且不能保证在下游语义检索任务上的良好性能。因此,为了减轻这些明显的不便,我们提出了一种基于短语重建的新型生成式自我监督学习目标。实证研究表明,我们的生成学习可能会产生足够强大的句子表示,并在句子文本相似性 STS 任务中达到与对比学习相当的性能。

Active Few-Shot Learning with FASL
Authors Thomas M ller, Guillermo P rez Torr , Angelo Basile, Marc Franco Salvador
自然语言处理 NLP 的最新进展为许多任务带来了强大的文本分类模型。然而,仍然经常需要数千个示例来训练高质量的模型。这使得针对现实世界的问题和业务需求快速开发和部署新模型变得具有挑战性。很少有镜头学习和主动学习是两条研究方向,旨在解决这个问题。在这项工作中,我们将这两行结合到 FASL 中,这是一个允许使用迭代和快速过程训练文本分类模型的平台。我们研究了在我们的少数镜头设置中哪种主动学习方法效果最好。此外,我们开发了一个模型来预测何时停止注释。

Towards Arabic Sentence Simplification via Classification and Generative Approaches
Authors Nouran Khallaf, Serge Sharoff
本文提出了构建现代标准阿拉伯语 MSA 句子级简化系统的尝试。我们使用两种方法进行了句子简化试验到文本传输转换器 mT5。我们通过对齐来自国际知名的阿拉伯小说 Saaq al Bambuu 的原始句子和简化句子来开发我们的训练语料库。我们通过使用 BERTScore 评估指标将生成的简单句子与目标简单句子进行比较来评估这些方法的有效性。 mT5 模型生成的简单句子通过 BERTScore 达到 P 0.72、R 0.68 和 F 1 0.70,而结合阿拉伯语 BERT 和 fastText 达到 P 0.97、R 0.97 和 F 1 0.97。此外,我们报告了这些实验的手动错误分析。

A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond
Authors Yisheng Xiao, Lijun Wu, Junliang Guo, Juntao Li, Min Zhang, Tao Qin, Tie yan Liu
非自回归 NAR 生成首先在神经机器翻译 NMT 中提出以加速推理,在机器学习和自然语言处理社区都引起了广泛关注。虽然 NAR 生成可以显着加快机器翻译的推理速度,但与对应的自动回归 AR 生成相比,这种加速是以牺牲翻译准确性为代价的。近年来,许多新的模型和算法被设计出来,以弥合 NAR 生成和 AR 生成之间的准确性差距。在本文中,我们从不同方面对各种非自回归翻译 NAT 模型进行了系统的比较和讨论。具体来说,我们将 NAT 的工作分为几组,包括数据操作、建模方法、训练标准、解码算法以及预训练模型的好处。此外,我们简要回顾了 NAR 模型在机器翻译之外的其他应用,例如对话生成、文本摘要、语法纠错、语义解析、语音合成和自动语音识别。此外,我们还讨论了未来探索的潜在方向,包括释放 KD 的依赖关系、动态长度预测、NAR 的预训练以及更广泛的应用等。希望本次调查能够帮助研究人员掌握 NAR 生成的最新进展,启发设计先进的 NAR 模型和算法,并使行业从业者能够为其应用选择合适的解决方案。

DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine Translation
Authors Cheonbok Park, Hantae Kim, Ioan Calapodescu, Hyunchang Cho, Vassilina Nikoulina
神经机器翻译 NMT 模型的域适应 DA 通常依赖于预训练的通用 NMT 模型,该模型在域内并行数据样本上适应新域。如果没有平行数据,就无法估计 DA 的潜在好处,也无法估计它需要的平行样本量。然而,这是一个理想的功能,可以帮助 MT 从业者在将资源投入到数据集创建之前做出明智的决定。我们提出了一种域适应学习曲线预测 DaLC 模型,该模型基于源语言中的域单语样本预测预期 DA 性能。我们的模型依赖于 NMT 编码器表示结合各种实例和语料库级别的特征。我们证明,与先前研究中提出的语料库级框架相比,实例级能够更好地区分不同领域。

Synthetic Target Domain Supervision for Open Retrieval QA
Authors Revanth Gangi Reddy, Bhavani Iyer, Md Arafat Sultan, Rong Zhang, Avirup Sil, Vittorio Castelli, Radu Florian, Salim Roukos
神经段落检索是开放式检索问题回答中一种新的且有前途的方法。在这项工作中,我们对密集通道检索器 DPR 进行了压力测试,这是一种最先进的 SOTA 开放域神经检索模型,用于封闭和专门的目标域(例如 COVID 19),并发现它在这个重要的现实世界环境中落后于标准 BM25。为了使 DPR 在域转移下更加健壮,我们使用合成训练示例探索它的微调,我们使用文本到文本生成器从未标记的目标域文本生成。在我们的实验中,这种嘈杂但完全自动化的目标域监督使 DPR 在域外设置中比 BM25 具有相当大的优势,使其在实践中成为更可行的模型。

Compositional Semantics and Inference System for Temporal Order based on Japanese CCG
Authors Tomoki Sugimoto, Hitomi Yanaka
自然语言推理 NLI 是确定前提是否包含假设的任务。具有时间顺序的 NLI 是一项具有挑战性的任务,因为时态和体态是复杂的语言现象,涉及与时间副词和时间连接词的交互。为了解决这个问题,已经在形式语义领域以各种方式分析了时间和方面推理。然而,基于形式语义分析的时间顺序的日本 NLI 系统尚未得到充分开发。我们提出了一个基于逻辑的 NLI 系统,该系统通过组合分类语法 CCG 句法分析基于组合语义考虑日语中的时间顺序。我们的系统通过使用时间关系公理和自动定理证明器来执行涉及时间顺序的推理。我们通过试验涉及时间顺序的日本 NLI 数据集来评估我们的系统。

Cross-stitched Multi-modal Encoders
Authors Karan Singla, Daniel Pressel, Ryan Price, Bhargav Srinivas Chinnari, Yeon Jun Kim, Srinivas Bangalore
在本文中,我们提出了一种用于多模态语音和文本输入的新颖架构。我们使用多头交叉模态注意力结合预训练的语音和文本编码器,并对目标问题进行联合微调。由此产生的架构可用于连续的标记级别分类或作用于同时文本和语音的话语级别预测。由此产生的编码器有效地捕获声学韵律和词汇信息。我们将基于多头注意力的融合对多模态话语级别分类的好处与预汇集的、模态特定表示的简单串联进行比较。

LingYi: Medical Conversational Question Answering System based on Multi-modal Knowledge Graphs
Authors Fei Xia, Bin Li, Yixuan Weng, Shizhu He, Kang Liu, Bin Sun, Shutao Li, Jun Zhao
医疗对话系统可以减轻医生的负担,提高医疗效率,尤其是在大流行期间。本文提出了一种基于多模态知识图谱的医学对话式问答CQA系统,即LingYi,它被设计为一个管道框架,以保持高度的灵活性。我们的系统采用自动化医疗程序,包括医疗分诊、会诊、图像文本药物推荐和记录。为了与患者进行基于知识的对话,我们首先构建了一个中医多模态知识图 CM3KG,并收集了一个大规模的中医 CQA CMCQA 数据集。与现有的其他医疗问答系统相比,我们的系统采用了包括医疗实体消歧和医疗对话生成在内的多项先进技术,更加友好地为患者提供医疗服务。

Who Is Missing? Characterizing the Participation of Different Demographic Groups in a Korean Nationwide Daily Conversation Corpus
Authors Haewoon Kwak, Jisun An, Kunwoo Park
对话语料库对于构建交互式 AI 应用程序至关重要。然而,此类语料库中参与者的人口统计信息在很大程度上没有得到充分探索,这主要是由于许多语料库中缺乏个人数据。

On the Representation Collapse of Sparse Mixture of Experts
Authors Zewen Chi, Li Dong, Shaohan Huang, Damai Dai, Shuming Ma, Barun Patra, Saksham Singhal, Payal Bajaj, Xia Song, Furu Wei
专家的稀疏混合提供了更大的模型容量,同时需要恒定的计算开销。它采用路由机制根据隐藏表示将输入令牌分配给最匹配的专家。然而,学习这种路由机制会鼓励围绕专家质心进行令牌聚类,这意味着表示趋于崩溃。在这项工作中,我们建议在低维超球面上估计令牌和专家之间的路由分数。我们对跨语言语言模型的预训练和下游任务的微调进行了广泛的实验。七个多语言基准的实验结果表明,我们的方法取得了一致的收益。我们还对模型的表示和路由行为进行了全面分析。

Analyzing Gender Representation in Multilingual Models
Authors Hila Gonen, Shauli Ravfogel, Yoav Goldberg
多语言语言模型被证明允许跨脚本和语言的非平凡传输。在这项工作中,我们研究了实现这种转移的内部表示的结构。我们专注于将性别差异的表示作为一个实际案例研究,并检查性别概念在不同语言的共享子空间中编码的程度。我们的分析表明,性别表征包括几个跨语言共享的重要组成部分,以及特定语言的组成部分。

DialoKG: Knowledge-Structure Aware Task-Oriented Dialogue Generation
Authors Md Rashad Al Hasan Rony, Ricardo Usbeck, Jens Lehmann
面向任务的对话生成具有挑战性,因为基础知识通常是动态的,并且很难将知识有效地整合到学习过程中。在这种情况下产生类似人类和信息丰富的反应尤其具有挑战性。最近的研究主要集中在各种知识蒸馏方法,其中知识库中事实之间的潜在关系没有被有效地捕获。在本文中,我们更进一步,展示了知识图谱的结构信息如何提高系统的推理能力。具体来说,我们提出了 DialoKG,这是一种新颖的面向任务的对话系统,可以有效地将知识整合到语言模型中。我们提出的系统将关系知识视为知识图谱,并引入了 1 一种结构感知知识嵌入技术,以及 2 一种知识图谱加权注意力掩蔽策略,以促进系统在对话生成期间选择相关信息。

What Makes Instruction Learning Hard? An Investigation and a New Challenge in a Synthetic Environment
Authors Matthew Finlayson, Kyle Richardson, Ashish Sabharwal, Peter Clark
模型仅从任务描述中学习执行新任务的指令学习范式在通用模型研究中变得很流行。然而,大型 Transformer 模型作为教学学习者的能力仍然知之甚少。我们使用受控的合成环境来描述这些能力。具体来说,我们使用确定给定字符串是否与被视为指令的正则表达式匹配的任务来识别使指令学习具有挑战性的任务、指令和实例的属性。例如,我们发现我们的模型是一个微调的基于 T5 的 text2text 转换器,它在处理大型常规语言时遇到了困难,这表明不太精确的指令对模型来说是具有挑战性的。此外,需要跟踪先前步骤的较长上下文的指令执行也更加困难。我们使用我们的发现系统地构建了一个具有挑战性的指令学习数据集,我们称之为 Hard RegSet。在 Hard RegSet 上进行微调,我们的大型转换器仅能正确解释 65.6 条测试指令,准确率至少为 90 条,以及 11 24 条分布外泛化设置中的指令。

ALBETO and DistilBETO: Lightweight Spanish Language Models
Authors Jos Ca ete, Sebasti n Donoso, Felipe Bravo Marquez, Andr s Carvallo, Vladimir Araujo
近年来,预训练语言模型取得了相当大的进步,其中也提供了非英语语言版本。由于越来越多的使用,这些模型的许多减少参数的轻量级版本也已发布,以加快训练和推理时间。然而,这些轻量级模型的版本,例如 ALBERT、DistilBERT 用于英语以外的其他语言的版本仍然很少。在本文中,我们介绍了 ALBETO 和 DistilBETO,它们是 ALBERT 和 DistilBERT 的版本,专门在西班牙语料库上进行了预训练。我们训练了几个版本的 ALBETO,从 5M 到 223M 参数和一个具有 67M 参数的 DistilBETO。我们在 GLUES 基准测试中评估我们的模型,其中包括西班牙语中的各种自然语言理解任务。结果表明,尽管参数较少,但我们的轻量级模型取得了与 BETO 西班牙 BERT 相媲美的结果。更具体地说,我们更大的 ALBETO 模型在 MLDoc、PAWS X、XNLI、MLQA、SQAC 和 XQuAD 数据集上优于所有其他模型。但是,对于 POS 和 NER,BETO 仍然保持不败。

A Survey on Multi-hop Question Answering and Generation
Authors Vaibhav Mavi New York University, United States of America , Anubhav Jangra Indian Institute of Technology, Patna, India , Adam Jatowt University of Innsbruck, Austria
问答 QA 问题长期以来一直吸引着重要的研究兴趣。它与语言理解和知识检索任务的相关性以及简单的设置使得 QA 的任务对于强大的 AI 系统至关重要。最近在简单 QA 任务上取得的成功已将重点转移到更复杂的设置上。其中,Multi Hop QA MHQA 是近年来研究最多的任务之一。回答多跳问题和执行多步推理的能力可以显着提高 NLP 系统的实用性。因此,该领域突然出现了高质量的数据集、模型和评估策略。多跳的概念有些抽象,这导致需要多跳推理的各种任务。这意味着不同的数据集和模型存在显着差异,这使得该领域难以概括和调查。这项工作旨在提供 MHQA 任务的一般和正式定义,并组织和总结现有的 MHQA 框架。我们还概述了创建 MHQA 数据集的最佳方法。

PICT@DravidianLangTech-ACL2022: Neural Machine Translation On Dravidian Languages
Authors Aditya Vyawahare, Rahul Tangsali, Aditya Mandke, Onkar Litake, Dipali Kadam
本文总结了我们基于德拉威语言机器翻译的共享任务获得的发现。我们在分配给我们的主要共享任务的五个子任务中的三个中排名第一。我们对以下五种语言对卡纳达语到泰米尔语、卡纳达语到泰卢固语、卡纳达语到马拉雅拉姆语、卡纳达语到梵语以及卡纳达语到图卢语进行了神经机器翻译。五个语言对中的每一个的数据集都用于训练各种翻译模型,包括 LSTM、双向 LSTM、Conv2Seq 等 Seq2Seq 模型,以及从头开始训练作为转换器的最先进技术,以及微调已经预训练的模型。对于一些涉及单语语料库的模型,我们也实现了回译。

Optimize_Prime@DravidianLangTech-ACL2022: Emotion Analysis in Tamil
Authors Omkar Gokhale, Shantanu Patankar, Onkar Litake, Aditya Mandke, Dipali Kadam
本文旨在对泰米尔语的社交媒体评论进行情感分析。情感分析是识别文本的情感背景的过程。在本文中,我们介绍了 Team Optimize Prime 在泰米尔语 ACL 2022 共享任务情绪分析中获得的发现。该任务旨在将社交媒体评论分为喜悦、愤怒、信任、厌恶等情绪类别。该任务进一步分为两个子任务,一个具有 11 个广泛的情绪类别,另一个具有 31 个特定的情绪类别。我们实施了三种不同的方法来解决这个问题,基于转换器的模型、循环神经网络 RNN 和集成模型。

Named Entity Recognition for Partially Annotated Datasets
Authors Michael Strobl, Amine Trabelsi, Osmar Zaiane
最常见的命名实体识别器通常是在完全注释的语料库上训练的序列标记器,即所有实体的所有单词的类别都是已知的。部分注释的语料库,即某些类型的一些但不是所有的实体都被注释,对于训练序列标注器来说太嘈杂了,因为同一实体可能会用它的真实类型标注一次,而不是另一次标注,这会误导标注器。因此,我们正在比较针对部分注释数据集的三种训练策略,以及一种从维基百科中为新的实体类别派生新数据集的方法,而无需耗时的手动数据注释。

Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments
Authors Jacob Krantz, Stefan Lee
视觉和语言导航 VLN 的最新工作提出了两种具有不同现实主义的环境范式,标准 VLN 设置建立在导航被抽象化的拓扑环境上,以及代理必须使用低级动作导航连续 3D 环境的 VLN CE 设置。尽管共享高级任务甚至底层指令路径数据,但 VLN CE 的性能明显落后于 VLN。在这项工作中,我们通过将代理从 VLN 的抽象环境转移到 VLN CE 的连续环境来探索这一差距。我们发现这种 sim 2 sim 传输非常有效,比 VLN CE 中的现有技术提高了 12 成功率。虽然这证明了这个方向的潜力,但转移并没有完全保留代理在抽象设置中的原始性能。

On the Transferability of Pre-trained Language Models for Low-Resource Programming Languages
Authors Fuxiang Chen, Fatemeh Fard, David Lo, Timofey Bryksin
Ahmed 和 Devanbu 最近的一项研究报告称,与仅使用一种编程语言编写的代码库相比,使用多语言数据集中编写的代码库来微调多语言预训练语言模型 PLM 可以获得更高的性能。但是,没有对微调单语 PLM 进行分析。此外,一些编程语言本质上是不同的,用一种语言编写的代码通常不能与其他语言互换,即 Ruby 和 Java 代码具有非常不同的结构。为了更好地了解单语言和多语言 PLM 如何影响不同的编程语言,我们调查了 1 PLM 在 Ruby 上对两个流行的软件工程任务代码摘要和代码搜索的性能,2 选择适合微调多语言 PLM 的编程语言的策略

Exploring Descriptions of Movement Through Geovisual Analytics
Authors Scott Pezanowski, Prasenjit Mitra, Alan M. MacEachren
使用从文本中自动提取的信息进行意义建构是一个具有挑战性的问题。在本文中,我们讨论了一种特定类型的信息提取,即提取与运动描述相关的信息。汇总和理解与文本中指定的运动描述和缺乏运动相关的信息可以提高对各种类型运动现象的理解和理解,例如人和动物的迁移、由于 COVID 19 导致的旅行障碍等。我们目前 GeoMovement 是一个基于结合机器学习和基于规则的运动相关信息提取与最先进的可视化技术的系统。除了运动的描述,我们的工具可以提取并呈现缺乏运动。在自动提取运动的描述,尤其是否定和运动方面,现有的工作很少。除了解决这些问题,GeoMovement 还提供了一个新颖的集成框架,用于将这些提取模块与可视化相结合。我们包括两个关于 GeoMovement 的系统案例研究,展示了人类如何获得有意义的地理运动信息。

Cross-view Brain Decoding
Authors Subba Reddy Oota, Jashn Arora, Manish Gupta, Raju S. Bapi
大脑如何跨多个视图捕获语言刺激的含义仍然是神经科学中一个关键的悬而未决的问题。考虑概念公寓 1 图片 WP 的三个不同视图,其中包含目标词标签,2 个使用目标词的句子 S,以及包含目标词和其他语义相关词的 3 个词云 WC。与之前仅关注单视图分析的努力不同,在本文中,我们研究了大脑解码在零镜头交叉视图学习设置中的有效性。此外,我们提出了在跨视图翻译任务(如图像字幕 IC、图像标记 IT、关键字提取 KE 和句子形成 SF)的新上下文中进行大脑解码。通过广泛的实验,我们证明了跨视图零镜头大脑解码是实用的,导致跨视图对的平均成对精度为 0.68。此外,解码的表示足够详细,以实现交叉视图翻译任务的高精度,具有以下成对精度 IC 78.0、IT 83.0、KE 83.7 和 SF 74.5。对不同大脑网络贡献的分析揭示了令人兴奋的认知见解 1 高比例的视觉体素参与图像字幕和图像标记任务,高比例的语言体素参与句子形成和关键字提取任务。

Exploration strategies for articulatory synthesis of complex syllable onsets
Authors Daniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul K. Krug, Peter Birkholz, Yi Xu
高质量的发音语音合成在语音科学和技术中有许多潜在的应用。然而,开发从语言规范到发音手势的适当映射既困难又耗时。在本文中,我们构建了一个基于优化的框架,作为在没有人工干预的情况下学习这些映射的第一步。

Situational Perception Guided Image Matting
Authors Bo Xu, Jiake Xie, Han Huang, Ziwen Li, Cheng Lu, Yandong Guo
大多数自动抠图方法都试图将突出的前景与背景分开。然而,当前现有的抠图数据集数量不足和主观偏见,使得难以充分探索给定图像中对象与对象和对象与环境之间的语义关联。在本文中,我们提出了一种情境感知引导的图像抠图 SPG IM 方法,该方法可以减轻抠图注释的主观偏差,并捕获足够的情境感知信息,从而更好地从视觉到文本任务中提炼出全局显着性。 SPG IM 可以更好地将对象间和对象与环境显着性相关联,并补偿图像抠图的主观性及其昂贵的注释。我们还引入了一个文本语义转换 TST 模块,该模块可以有效地转换和集成语义特征流以指导视觉表示。此外,提出了一种自适应焦点变换 AFT 细化网络,以自适应地切换多尺度感受野和焦点,以增强全局和局部细节。大量实验证明了从视觉到文本任务的情景感知指导在图像抠图上的有效性,我们的模型优于最先进的方法。我们还分析了模型中不同组件的重要性。

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations
Authors Leila Pishdad, Ran Zhang, Konstantinos G. Derpanis, Allan Jepson, Afsaneh Fazly
概率嵌入已被证明可用于捕获多义词的含义,以及图像匹配中的歧义。在本文中,我们研究了概率嵌入在跨模态设置(即文本和图像)中的优势,并提出了一种简单的方法,该方法将现有图像文本匹配模型中的标准向量点嵌入替换为参数学习的概率分布。我们的指导假设是,概率嵌入中编码的不确定性捕获了输入实例中的跨模态模糊性,并且正是通过捕获这种不确定性,概率模型才能在下游任务中表现更好,例如图像到文本或文本到图像恢复。

K-LITE: Learning Transferable Visual Models with External Knowledge
Authors Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Anna Rohrbach, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, Jianfeng Gao
最近最先进的计算机视觉系统从自然语言监督训练,从简单的对象类别名称到描述性标题。这种自由形式的监督确保了学习的视觉模型的高度通用性和可用性,基于对数据收集的广泛启发式,以涵盖尽可能多的视觉概念。或者,利用关于图像的外部知识学习是一种很有前途的方法,它利用了更加结构化的监督来源。在本文中,我们提出了 K LITE 知识增强语言图像训练和评估,这是一种利用外部知识构建可迁移视觉系统的简单策略。在训练中,它通过 WordNet 和维基词典知识丰富了自然语言中的实体,从而实现了一种高效且可扩展的方法学习可以理解视觉概念及其知识的图像表示在评估中,自然语言也增加了外部知识,然后用于参考学习的视觉概念或描述新的视觉概念,以实现预训练模型的零镜头和少量镜头转移.我们研究了 K LITE 在两个重要的计算机视觉问题(图像分类和对象检测)上的性能,分别在 20 个和 13 个不同的现有数据集上进行了基准测试。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(NLP,Papers,自然语言处理,语言模型,NLP,NLPer,智能问答)