AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 4 Nov 2021
Totally 20 papers
上期速览✈更多精彩请移步主页
HmBlogs: A big general Persian corpus Authors Hamzeh Motahari Khansari, Mehrnoush Shamsfard 本文介绍了波斯语的 hmBlogs 语料库,作为一种低资源语言。该语料库是基于在大约 15 年内从波斯博客空间收集的近 2000 万篇博客文章而准备的,包括超过 68 亿个代币。可以说,这个语料库是目前为波斯语独立准备的最大的波斯语语料库。该语料库以原始和预处理两种形式呈现,并基于预处理的语料库生成一些词嵌入模型。通过提供的模型,将 hmBlogs 与一些最重要的波斯语语料库进行了比较,结果表明 hmBlogs 语料库优于其他语料库。这些评估还展示了语料库、评估数据集、模型生成方法、不同超参数甚至评估方法的重要性和影响。 |
End-to-End Annotator Bias Approximation on Crowdsourced Single-Label Sentiment Analysis Authors Gerhard Hagerer, David Szabo, Andreas Koch, Maria Luisa Ripoll Dominguez, Christian Widmer, Maximilian Wich, Hannah Danner, Georg Groh 情感分析通常是一项众包任务,容易受到许多注释者给出的主观标签。尚未完全理解如何使用最先进的方法正确建模每个注释器的注释偏差。然而,准确可靠地解决注释者偏见是理解注释者标记行为并成功解决相应的个人对注释任务的误解和错误行为的关键。我们的贡献是对精确的神经端到端偏差建模和地面实况估计的解释和改进,这减少了现有技术在这方面的不希望的不匹配。分类实验表明,在每个样本仅由一个注释者进行注释的情况下,它具有提高准确性的潜力。我们公开提供整个源代码,并发布自己的特定领域情感数据集,其中包含 10,000 条讨论有机食品的句子。 |
SERC: Syntactic and Semantic Sequence based Event Relation Classification Authors Kritika Venkatachalam, Raghava Mutharaju, Sumit Bhatia 时间和因果关系在确定事件之间的依赖关系方面起着重要作用。对事件之间的时间和因果关系进行分类有很多应用,例如生成事件时间线、事件摘要、文本蕴涵和问答。时间和因果关系密切相关,相互影响。因此,我们提出了一个结合时间和因果特征的联合模型来执行因果关系分类。我们使用文本的句法结构来识别文本中两个事件之间的时间和因果关系。我们从文本中提取词性标签序列、依赖标签序列和词序列。我们提出了一个基于 LSTM 的时间和因果关系分类模型,它捕获了三个编码特征之间的相互关系。 |
A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion Mining Authors Gerhard Hagerer, Wing Sheung Leung, Qiaoxi Liu, Hannah Danner, Georg Groh 来自社交媒体的用户生成内容以多种语言制作,这使得在不同文化和地区比较来自一个领域的讨论主题在技术上具有挑战性。它与全球化世界中的领域相关,例如市场研究,来自两个国家和市场的人们可能对产品有不同的要求。我们提出了一种简单、现代且有效的方法,用于构建具有能够同时覆盖多种语言的情感分析的单一主题模型,基于用于自然语言理解的预训练的最先进的深度神经网络。为了证明其可行性,我们将该模型应用于特定领域的报纸文章和用户评论,即有机食品和相关消费行为。不同语言的主题相匹配。此外,我们获得了高比例的稳定和领域相关的主题,主题与其各自文本内容之间的有意义的关系,以及社交媒体文档的可解释表示。营销可能会从我们的方法中受益,因为它提供了一种易于使用的方法来解决来自全球不同市场区域的特定客户兴趣。 |
Automatic Embedding of Stories Into Collections of Independent Media Authors Dylan R. Ashley, Vincent Herrmann, Zachary Friggstad, Kory W. Mathewson, J rgen Schmidhuber 我们研究如何使用机器学习技术导出独立媒体集合中项目的属性,将故事自动嵌入到此类集合中。为此,我们使用提取歌曲节奏的模型使音乐播放列表遵循叙事弧线。我们的工作指定了一个开源工具,它使用预训练的神经网络模型来提取一组原始音频文件的全局速度,并应用这些措施来创建一个叙述跟随播放列表。 |
Learning Implicit Sentiment in Aspect-based Sentiment Analysis with Supervised Contrastive Pre-Training Authors Zhengyan Li, Yicheng Zou, Chong Zhang, Qi Zhang, Zhongyu Wei 基于方面的情感分析旨在识别产品评论中特定方面的情感极性。我们注意到大约 30 条评论不包含明显的意见词,但仍然传达了清晰的人类感知情感取向,这被称为隐性情感。然而,最近基于神经网络的方法很少关注评论中的隐含情感。为了克服这个问题,我们对从领域语言资源中检索到的大规模情感标注语料库采用监督对比预训练。通过将隐式情感表达的表示与具有相同情感标签的表示对齐,预训练过程可以更好地捕获针对评论方面的隐式和显式情感取向。 |
BERT-DRE: BERT with Deep Recursive Encoder for Natural Language Sentence Matching Authors Ehsan Tavan, Ali Rahmati, Maryam Najafi, Saeed Bibak 本文通过向 BERT 添加一个深度递归编码器(即 BERT with Deep Recursive Encoder BERT DRE ),提出了一种用于自然语言句子匹配 NLSM 的深度神经架构。我们对模型行为的分析表明,BERT 仍然没有捕获文本的全部复杂性,因此在 BERT 之上应用了深度递归编码器。三个具有残差连接的 Bi LSTM 层用于设计递归编码器,并在该编码器之上使用一个注意力模块。为了获得最终向量,使用了一个由平均池化和最大池化组成的池化层。我们在四个基准上试验我们的模型,SNLI、FarsTail、MultiNLI、SciTail 和一个新的波斯宗教问题数据集。这篇论文的重点是改进 NLSM 任务中的 BERT 结果。对此,我们对BERT DRE和BERT进行了对比,结果表明,在所有情况下,BERT DRE都只优于BERT。 |
Lingua Custodia's participation at the WMT 2021 Machine Translation using Terminologies shared task Authors Melissa Ailem, Jinghsu Liu, Raheel Qader 本文描述了 Lingua Custodia 提交给 WMT21 共享任务的机器翻译使用术语。我们考虑三个方向,即英文到法文、俄文和中文。我们依赖基于 Transformer 的架构作为构建块,我们探索了一种方法,该方法对标准程序进行了两个主要更改以处理术语。第一个包括以这种方式增加训练数据,以鼓励模型在遇到术语约束条件时学习复制行为。第二个变化是约束标记屏蔽,其目的是简化复制行为学习并改进模型泛化。 |
Automatic Evaluation and Moderation of Open-domain Dialogue Systems Authors Zhang Chen, Jo o Sadoc, Luis Fernando D Haro, Rafael Banchs, Alexander Rudnicky 近年来,对话系统引起了学术界和工业界的极大兴趣。尤其是开放域对话系统学科,又名聊天机器人,已经获得了巨大的发展势头。然而,困扰研究人员的一个长期挑战是缺乏有效的自动评估指标,这导致当前研究的重大障碍。评估开放域对话模型性能的常见做法涉及对最终部署的模型进行大量人工评估,这既耗时又耗成本。此外,构建开放域聊天机器人的最新趋势涉及使用大量社交媒体对话数据进行预训练对话模型。但是,社交媒体对话中包含的信息可能具有攻击性和不恰当性。不加区别地使用此类数据会导致生成模型不敏感且有毒。 |
Multilingual Machine Translation Systems from Microsoft for WMT21 Shared Task Authors Jian Yang, Shuming Ma, Haoyang Huang, Dongdong Zhang, Li Dong, Shaohan Huang, Alexandre Muzio, Saksham Singhal, Hany Hassan Awadalla, Xia Song, Furu Wei 这份报告描述了微软的机器翻译系统,用于大规模多语言机器翻译的 WMT21 共享任务。我们参与了所有三个评估轨道,包括大轨道和两个小轨道,其中前一个不受约束,后两个完全受约束。 |
An Explanation of In-context Learning as Implicit Bayesian Inference Authors Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma 大型预训练语言模型(例如 GPT 3)在上下文学习中具有惊人的能力,其中模型仅通过对由输入输出示例组成的提示进行调节来学习执行下游任务。语言模型在没有明确预训练的情况下,在其前向传递期间从这些示例中学习,而不会在超出分布提示时进行参数更新。因此,尚不清楚上下文学习中的机制是什么。在本文中,我们研究了在预训练文本具有长期一致性的数学环境下,预训练分布对上下文学习中出现的作用。在这里,语言模型预训练需要从条件文本中推断出潜在文档级别的概念,以生成连贯的下一个标记。在测试时,该机制通过推断提示示例之间共享的潜在概念并将其应用于对测试示例进行预测,从而实现上下文学习。具体来说,我们证明了当预训练分布是 HMM 的混合时,在上下文学习中通过潜在概念的贝叶斯推理隐式发生。尽管提示和预训练数据之间的分布不匹配,但仍可能发生这种情况。与自然语言上下文学习中凌乱的大规模预训练数据集相比,我们生成了一系列小规模合成数据集 GINC,其中 Transformer 和 LSTM 语言模型都在上下文学习中展示。 |
OpenPrompt: An Open-source Framework for Prompt-learning Authors Ning Ding, Shengding Hu, Weilin Zhao, Yulin Chen, Zhiyuan Liu, Hai Tao Zheng, Maosong Sun 即时学习已成为现代自然语言处理中的一种新范式,它直接将预训练的语言模型 PLM 应用于完形填空样式预测、自回归建模或序列到序列生成,从而在各种任务上取得有希望的表现。然而,目前还没有提出标准的快速学习实现框架,并且大多数现有的快速学习代码库通常不受监管,仅针对特定场景提供有限的实现。由于在即时学习中需要考虑模板策略、初始化策略、语言化策略等许多细节,从业者面临着快速将所需的即时学习方法应用于他们的应用的障碍。在本文中,我们介绍了 OpenPrompt,这是一个统一的易于使用的工具包,用于在 PLM 上进行即时学习。 OpenPrompt 是一个具有高效性、模块化和可扩展性的研究友好型框架,其可组合性允许在统一范式中自由组合不同的 PLM、任务格式和提示模块。用户可以方便地部署即时学习框架,并不受限制地评估它们在不同 NLP 任务上的泛化能力。 |
Leveraging Advantages of Interactive and Non-Interactive Models for Vector-Based Cross-Lingual Information Retrieval Authors Linlong Xu, Baosong Yang, Xiaoyu Lv, Tianchi Bi, Dayiheng Liu, Haibo Zhang 交互和非交互模型是基于向量的跨语言信息检索 V CLIR 中的两个事实上的标准框架,它们分别以同步和异步方式嵌入查询和文档。从检索准确率和计算效率的角度来看,每种模型都有自己的优缺点。在本文中,我们提出了一个新颖的框架来利用这两种范式的优势。具体来说,我们引入了半交互机制,该机制在非交互架构上构建我们的模型,但将每个文档与其相关的多语言查询一起编码。因此,可以像交互模型一样更好地学习跨语言特征。此外,我们通过重用其词嵌入和采用知识蒸馏,进一步将知识从训练有素的交互模型转移到我们的模型中。我们的模型是从多语言预训练语言模型 M BERT 初始化的,并在来自维基百科的两个开放资源 CLIR 数据集和从现实世界搜索引擎收集的内部数据集上进行评估。 |
An Empirical Study of Training End-to-End Vision-and-Language Transformers Authors Zi Yi Dou, Yichong Xu, Zhe Gan, Jianfeng Wang, Shuohang Wang, Lijuan Wang, Chenguang Zhu, Nanyun Violet Peng, Zicheng Liu, Michael Zeng 视觉和语言 VL 预训练已被证明对各种 VL 下游任务非常有效。虽然最近的工作表明,完全基于变压器的 VL 模型可以比以前基于区域特征的方法更有效,但它们在下游任务上的性能通常会显着降低。在本文中,我们提出了 METER textbf Multimodal textbf End to end textbf Transform textbf ER,通过它我们系统地研究了如何以端到端的方式设计和预训练一个完全基于转换器的 VL 模型。具体来说,我们沿着多维视觉编码器(如 CLIP ViT、Swin 转换器)、文本编码器(如 RoBERTa、DeBERTa)、多模态融合(如合并注意力与共同注意力)、架构设计(如仅编码器与编码器解码器)剖析模型设计,和预训练目标,例如蒙版图像建模。我们对各种 VL 任务进行了全面的实验,并提供了有关如何在保持快速推理速度的同时训练高性能 VL 转换器的见解。 |
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts Authors Wenhui Wang, Hangbo Bao, Li Dong, Furu Wei 我们提出了一个统一的视觉语言预训练模型 VLMo,它联合学习双编码器和具有模块化 Transformer 网络的融合编码器。具体来说,我们介绍了 Modality Experts MoME Transformer 的混合,其中每个块都包含一个特定于模态的专家池和一个共享的自我注意层。由于 MoME 的建模灵活性,预训练的 VLMo 可以作为视觉语言分类任务的融合编码器进行微调,或用作高效图像文本检索的双编码器。此外,我们提出了一种阶段式预训练策略,除了图像文本对之外,它有效地利用了大规模的仅图像和仅文本数据。实验结果表明,VLMo 在包括 VQA 和 NLVR2 在内的各种视觉语言任务上取得了最先进的结果。 |
A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition Authors Ziwang Fu, Feng Liu, Hanyang Wang, Jiayin Qi, Xiangling Fu, Aimin Zhou, Zhibin Li 基于音频视频的多模态情感识别由于其强大的性能而引起了很多关注。大多数现有方法都侧重于提出不同的跨模态融合策略。然而,这些策略在没有充分考虑模态信息之间的互补特性的情况下,在不同模态的特征中引入了冗余,并且这些方法不能保证在模态内和模态间交互过程中不丢失原始语义信息。在本文中,我们提出了一种基于自我注意和残差结构 CFN SR 的新型跨模态融合网络,用于多模态情感识别。首先,我们对音频和视频模态进行表征学习,分别通过高效的 ResNeXt 和 1D CNN 获得两种模态的语义特征。其次,我们分别将两种模态的特征输入到跨模态块中,通过自注意力机制和残差结构来保证信息的高效互补和完整性。最后,我们通过将获得的融合表示与原始表示拼接来获得情绪的输出。为了验证所提出方法的有效性,我们在 RAVDESS 数据集上进行了实验。实验结果表明,所提出的 CFN SR 达到了最先进的水平,并在 26.30M 参数下获得了 75.76 的准确率。 |
The Klarna Product Page Dataset: A RealisticBenchmark for Web Representation Learning Authors Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi, Jens Lagergren 本文解决了 DOM 树元素表示学习的未充分探索的问题。我们推进了基于机器学习的 Web 自动化领域,并希望通过两项贡献推动有关这一关键领域的进一步研究。首先,我们采用了几种流行的基于图的神经网络模型,并将它们应用于网站 DOM 树中的嵌入元素。其次,我们提供了一个大规模和真实的网页数据集。通过提供这种开放获取资源,我们降低了这一研究领域的进入门槛。该数据集包含来自 8,175 个真实电子商务网站的 51,701 个手动标记的产品页面。这些页面可以完全在 Web 浏览器中呈现,适用于计算机视觉应用程序。这使得它比网络上用于元素表示学习、分类和预测的其他数据集更加丰富和多样化。 |
LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Authors Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki 在数亿个图像文本对上训练的多模态语言视觉模型,例如CLIP、DALL E 最近获得了激增,即使在目标图像数据上没有每个样本标签的情况下,也显示出执行零或很少镜头学习和转移的卓越能力。尽管有这种趋势,但迄今为止,还没有足够规模的公开可用数据集来从头开始训练此类模型。 |
A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches Authors Dongyue Guo, Jianwei Zhang, Bo Yang, Yi Lin 空中交通管制 ATC 中管制员飞行员对话的自动语音指令理解 SIU 不仅需要识别语音的单词和语义,还需要确定说话者的角色。然而,关于空中交通通信中的自动理解系统的已发表作品很少关注说话人角色识别 SRI。在本文中,我们将控制器飞行员通信的 SRI 任务表述为一个二元分类问题。此外,还提出了基于文本、基于语音以及基于语音和文本的多模态方法,以实现对 SRI 任务的综合比较。为了消除比较方法的影响,应用了各种先进的神经网络架构来优化基于文本和基于语音的方法的实现。最重要的是,多模态说话人角色识别网络 MMSRINet 旨在通过同时考虑语音和文本模态特征来实现 SRI 任务。为了聚合模态特征,提出了模态融合模块,分别通过模态注意机制和自注意池层来融合和挤压声学和文本表示。最后,比较方法在从真实世界 ATC 环境中收集的 ATCSpeech 语料库上得到验证。 |
Deep Keyphrase Completion Authors Yu Zhao, Jia Song, Huali Feng, Fuzhen Zhuang, Qing Li, Xiaojie Wang, Ji Liu Keyphrase 提供准确的文档内容信息,高度紧凑、简洁、含义丰富,广泛用于语篇理解、组织和文本检索。尽管以前的研究已经为自动提取和生成关键短语做出了大量努力,但令人惊讶的是,很少有研究对 textit 关键短语完成 KPC 进行。 KPC 旨在为文档生成更多的关键短语,例如科学出版物利用文档内容以及数量非常有限的已知关键短语,可用于改进文本索引系统等。在本文中,我们提出了一种具有编码器解码器框架的新型 KPC 方法。我们将其命名为 textit deep keyphrase completion DKPC,因为它试图通过深度学习框架捕获文档内容的深层语义以及已知的关键短语。具体来说,DKPC 中的编码器和解码器扮演不同的角色,以充分利用已知的关键短语。前者考虑关键短语指导因素,将已知关键短语的信息聚合到上下文中。相反,后者考虑关键短语抑制因素来抑制语义重复的关键短语生成。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com