【AI视野·今日NLP 自然语言处理论文速览 第三十期】Thu, 14 Apr 2022

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 14 Apr 2022
Totally 35 papers
上期速览✈更多精彩请移步主页

【AI视野·今日NLP 自然语言处理论文速览 第三十期】Thu, 14 Apr 2022_第1张图片

Daily Computation and Language Papers

Fast Few-shot Debugging for NLU Test Suites
Authors Christopher Malon, Kai Li, Erik Kruus
我们研究了基于 Transformer 的自然语言理解模型的少量调试,使用最近流行的测试套件来诊断和纠正问题。给定一些特定现象的调试示例,以及相同现象的测试集,我们的目标是在原始测试集上以最小的准确性成本最大化该现象的准确性。我们研究了几种比完整时期再训练更快的方法。我们引入了一种新的快速方法,该方法从原始训练集中抽取了一些危险示例。

Better Uncertainty Quantification for Machine Translation Evaluation
Authors Chrysoula Zerva, Taisiya Glushkova, Ricardo Rei, Andr F. T. Martins
基于神经的机器翻译 MT 评估指标正在快速发展。但是,这些系统通常难以解释,并且当人工参考或评估有噪音或数据超出域时,可能会产生不可靠的分数。最近的工作利用了不确定性量化技术,例如蒙特卡洛 dropout 和深度集成来提供置信区间,但我们展示的这些技术在几个方面受到限制。在本文中,我们研究了更强大和有效的 MT 评估指标的不确定性预测器,以及它们捕获任意和认知不确定性的潜力。为此,我们使用新的异方差回归、散度最小化和直接不确定性预测目标来训练 COMET 度量。我们的实验显示了 WMT20 和 WMT21 指标任务数据集的改进结果以及计算成本的大幅降低。

Multilingual Event Linking to Wikidata
Authors Adithya Pratapa, Rishubh Gupta, Teruko Mitamura
我们提出了将事件多语言链接到知识库的任务。我们为这项任务自动编译了一个大规模的数据集,包括 44 种语言的 180 万次提及,涉及来自 Wikidata 的超过 10.9K 事件。我们提出了事件链接任务的两种变体 1 多语言,其中事件描述来自与提及相同的语言,以及 2 跨语言,其中所有事件描述都是英语。在两个提议的任务中,我们比较了多个事件链接系统,包括 BM25 Lv 和 Zhai,2011 年,以及 BLINK Wu 等人,2020 年的双编码器和交叉编码器架构的多语言适应。在我们对这两个任务变体的实验中,我们发现 biencoder 和 crossencoder 模型都显着优于 BM25 基线。我们的结果还表明,跨语言任务通常比多语言任务更具挑战性。为了测试提议的链接系统的域外泛化,我们另外创建了一个基于 Wikinews 的评估集。

FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations
Authors Leonardo F. R. Ribeiro, Mengwen Liu, Iryna Gurevych, Markus Dreyer, Mohit Bansal
尽管最近在抽象摘要方面有所改进,但大多数当前方法生成的摘要实际上与源文档不一致,严重限制了它们在现实世界应用程序中的信任和使用。最近的工作已经显示出使用文本或依赖弧蕴涵在事实性错误识别方面的有希望的改进,但是,他们没有同时考虑整个语义图。为此,我们提出了 FactGraph,一种将文档和摘要分解为结构化的意义表示 MR 的方法,更适合于事实性评估。 MR 描述核心语义概念及其关系,以规范的形式聚合文档和摘要中的主要内容,并减少数据稀疏性。 FactGraph 使用带有结构感知适配器的图形编码器对此类图形进行编码,以捕获基于图形连接性的概念之间的交互,以及使用基于适配器的文本编码器的文本表示。在评估事实性的不同基准上进行的实验表明,FactGraph 的性能比以前的方法高出多达 15 倍。

Study of Indian English Pronunciation Variabilities relative to Received Pronunciation
Authors Priyanshi Pal, Shelly Jain, Anil Vuppala, Chiranjeevi Yarra, Prasanta Ghosh
与英式或美式英语相比,印度英语 IE 的语音级别的标注发音数据很少。这使得研究印度英语的发音变得具有挑战性。此外,由于母语对 L2 英语的影响,IE 种类繁多。过去,一些语言学著作对印度英语进行了研究。他们报告了这种表征的语音规则,但是,它们在多大程度上可以应用于各种大规模的印度发音数据仍有待研究。我们考虑一个语料库 IndicTIMIT,它富含 IE 品种的多样性,并以自然平衡的方式进行管理。它包含来自印度各个地区的 80 位演讲者的数据。我们提出了一种方法来验证 IE 的语音规则以及报告使用数据驱动方式派生的未探索规则,在这个语料库上。

Multilingual Language Model Adaptive Fine-Tuning: A Study on African Languages
Authors Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, Dietrich Klakow
多语言预训练语言模型 PLM 在高资源和低资源语言的多个下游任务中表现出令人印象深刻的性能。但是,对于预训练期间未见的语言,尤其是非洲语言,仍然存在较大的性能下降。适应新语言的最有效方法之一是语言自适应微调 LAFT 使用相同的预训练目标在一种语言的单语文本上微调多语言 PLM。但是,具有大量单语文本的非洲语言很少,并且单独适应每种语言会占用大量磁盘空间并限制了所得模型的跨语言传输能力,因为它们专门针对单一语言。在本文中,我们对 17 种资源最丰富的非洲语言和非洲大陆英语、法语和阿拉伯语广泛使用的其他三种高资源语言执行多语言自适应微调 MAFT,以鼓励跨语言迁移学习。此外,为了进一步专门化多语言 PLM,我们从嵌入层中删除了 MAFT 之前与非非洲文字脚本相对应的词汇标记,从而将模型大小减少了大约 50 。我们对两个多语言 PLM AfriBERTa 和 XLM R 以及三个 NLP 任务 NER、新闻主题分类和情感分类的评估表明,我们的方法与在单个语言上应用 LAFT 相比具有竞争力,同时需要的磁盘空间显着减少。

The Impact of Cross-Lingual Adjustment of Contextual Word Representations on Zero-Shot Transfer
Authors Pavel Efimov, Leonid Boytsov, Elena Arslanova, Pavel Braslavski
大型预训练多语言模型(例如 mBERT 和 XLM R)在许多 NLP 任务中实现了有效的跨语言零镜头迁移。使用小型平行语料库对这些模型进行跨语言调整可能会进一步改善结果。与仅使用并行数据从头开始训练机器翻译系统或多语言模型相比,这是一种数据效率更高的方法。在这项研究中,我们尝试将英语模型零镜头迁移到四种类型不同的语言西班牙语、俄语、越南语和印地语以及三个 NLP 任务 QA、NLI 和 NER。我们对现成的 mBERT 模型进行跨语言调整。我们确认了先前的发现,这种调整使来自不同语言的语义相似词的嵌入彼此更接近,同时将不相关的词分开。然而,从我们工作中引入的配对差异直方图我们可以看到,调整只会适度影响相关词和不相关词之间的相对距离。相比之下,针对特定任务(例如 NER)对英语数据进行 mBERT 微调会使相关和不相关单词的嵌入彼此更接近。 mBERT 的跨语言调整提高了四种语言的 NLI 和两种语言的 NER,而 QA 性能从未提高甚至有时会下降。当我们为特定任务(例如 NLI)微调跨语言调整的 mBERT 时,mBERT 的跨语言调整可能仍会改善相关词和相关词之间的分离,但这仅适用于 XNLI 任务。

Revisiting Markovian Generative Architectures for Efficient Task-Oriented Dialog Systems
Authors Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng
最近,基于 Transformer 的预训练语言模型 PLM,例如 GPT2 和 T5,已被用于构建面向生成任务的对话 TOD 系统。现有基于 PLM 的模型的一个缺点是它们跨轮次的非马尔可夫架构,即,整个历史被用作每个轮次的条件输入,这会导致内存、计算和学习效率低下。在本文中,我们建议重新审视 Markovian Generative Architectures MGA,它已在以前的基于 LSTM 的 TOD 系统中使用,但尚未针对基于 PLM 的系统进行研究。

CRUSH: Contextually Regularized and User anchored Self-supervised Hate speech Detection
Authors Parag Dutta, Souvic Chakraborty, Sumegh Roychowdhury, Animesh Mukherjee
过去十年见证了人们通过社交网络平台进行的互动激增。虽然这些社交平台有几个积极的方面,但扩散导致它们成为网络欺凌和仇恨言论的温床。 NLP 的最新进展经常被用来减轻这种仇恨内容的传播。由于仇恨言论检测任务通常适用于社交网络的上下文,我们介绍了 CRUSH,这是一个使用用户锚定自我监督和上下文正则化的仇恨言论检测框架。

WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types
Authors Xuwu Wang, Junfeng Tian, Min Gui, Zhixu Li, Rui Wang, Ming Yan, Lihan Chen, Yanghua Xiao
多模态实体链接 MEL 旨在将提及与多模态上下文链接到来自知识库(例如 Wikipedia)的参考实体,是许多多模态应用程序的基本任务。尽管 MEL 受到了广泛关注,但现有 MEL 数据集存在的上下文主题和实体类型有限、提及模糊性简化、可用性受限等缺点,给 MEL 的研究和应用带来了很大障碍。在本文中,我们展示了 WikiDiverse,这是一个来自 Wikinews 的具有多种上下文主题和实体类型的高质量人工注释 MEL 数据集,它使用 Wikipedia 作为相应的知识库。采用量身定制的注释程序来确保数据集的质量。基于 WikiDiverse,实现了一系列精心设计的具有模态内和模态间注意力的 MEL 模型,它们比现有的 MEL 模型更充分地利用了图像的视觉信息。进行了广泛的实验分析,以研究不同模式在 MEL 方面的贡献,促进未来对该任务的研究。

A Novel Approach to Train Diverse Types of Language Models for Health Mention Classification of Tweets
Authors Pervaiz Iqbal Khan, Imran Razzak, Andreas Dengel, Sheraz Ahmed
健康提及分类处理包含疾病词的给定文本中的疾病检测。然而,疾病词汇的非健康和比喻性使用给这项任务增加了挑战。最近,作为正则化手段的对抗性训练在许多 NLP 任务中获得了普及。在本文中,我们提出了一种新的方法来训练涉及对抗性训练的推文健康提及分类的语言模型。我们通过使用高斯噪声在不同级别的推文示例的变压器模型的表示中添加扰动来生成对抗性示例。此外,我们采用对比损失作为附加目标函数。我们在 PHM2017 数据集扩展版本上评估所提出的方法。结果表明,与基线方法相比,我们提出的方法显着提高了分类器的性能。此外,我们的分析表明,在早期层添加噪声可以提高模型性能,而在中间层添加噪声会降低模型性能。

HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition
Authors Ji Won Yoon, Beom Jun Woo, Nam Soo Kim
使用自监督模型进行预训练,例如 Hidden unit BERT HuBERT 和 wav2vec 2.0,为自动语音识别 ASR 带来了显着的改进。但是,这些模型通常需要昂贵的计算成本才能获得出色的性能,从而降低了推理速度。为了提高模型效率,我们提出了一种 ASR 的早期退出方案,即 HuBERT EE,它允许模型动态停止推理。在 HuBERT EE 中,在中间层添加了多个提前退出分支,每个分支用于决定是否可以提前退出预测。

Call-sign recognition and understanding for noisy air-traffic transcripts using surveillance information
Authors Alexander Blatt, Martin Kocour, Karel Vesel , Igor Sz ke, Dietrich Klakow
空中交通管制 ATC 依靠飞行员和空中交通管制员 ATCO 之间的语音通信。呼号作为每个航班的唯一标识符,由 ATCO 用来称呼特定的飞行员。由于嘈杂的 ATC 语音信道和接收器引入的额外噪声,从通信中提取呼号是一项挑战。语音中的低信噪比 SNR 会导致高字错误率 WER 转录。我们提出了一个新的呼号识别和理解 CRU 系统来解决这个问题。识别器经过训练可以识别嘈杂的 ATC 抄本中的呼号,并将其转换为标准的国际民用航空组织 ICAO 格式。通过结合监控信息,我们可以将呼号准确度 CSA 提高到四倍。

Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification
Authors Han Wang, Canwen Xu, Julian McAuley
基于提示的学习,即提示是一种新兴的范式,用于利用通过预训练的语言模型学习的知识。在本文中,我们提出了自动多标签提示 AMuLaP,这是一种简单而有效的方法,可以自动选择标签映射,用于带提示的少量镜头文本分类。我们的方法利用一对多标签映射和基于统计的算法在给定提示模板的情况下选择标签映射。

TIB-VA at SemEval-2022 Task 5: A Multimodal Architecture for the Detection and Classification of Misogynous Memes
Authors Sherzod Hakimov, Gullal S. Cheema, Ralph Ewerth
在社交媒体上检测令人反感、仇恨的内容是一个具有挑战性的问题,每天都会影响许多在线用户。仇恨内容通常用于根据种族、性别、宗教和其他因素针对一群人。社交平台上对女性的仇恨或蔑视一直在增加。当文本和视觉模式结合形成一个单一的上下文时,厌恶女性的内容检测尤其具有挑战性,例如,嵌入在图像顶部的覆盖文本,也称为 meme。在本文中,我们提出了一种结合文本和视觉特征的多模态架构,以检测厌恶女性的 meme 内容。所提出的架构在 SemEval 2022 任务 5 MAMI 多媒体自动厌女症识别挑战中以团队名称 TIB VA 进行评估。

Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding
Authors Zeming Chen, Qiyue Gao
在大型 Transformer 语言模型时代,语言评估在诊断模型能力和自然语言理解的局限性方面发挥着重要作用。然而,目前的评估方法显示出一些明显的缺陷。特别是,它们不能深入了解语言模型如何捕捉语言理解和推理所必需的不同语言技能。因此,他们未能有效地绘制出对现有模型仍然具有挑战性的语言理解方面,这使得很难发现模型和数据集的潜在限制。在本文中,我们介绍了 Curriculum 作为 NLI 基准的一种新格式,用于评估广泛覆盖的语言现象。课程包含一组涵盖 36 种主要语言现象的数据集和一个评估程序,用于诊断语言模型如何捕捉不同类型语言现象的推理技能。我们表明,这种语言现象驱动的基准可以作为诊断模型行为和验证模型学习质量的有效工具。

TangoBERT: Reducing Inference Cost by using Cascaded Architecture
Authors Jonathan Mamou, Oren Pereg, Moshe Wasserblat, Roy Schwartz
基于大型转换器的模型(例如 BERT、RoBERTa 和 XLNet)在许多 NLP 任务中的显着成功伴随着由于其高计算负载和能耗而大大增加了金钱和环境成本。为了减少推理时间的计算负载,我们提出了 TangoBERT,这是一种级联模型架构,其中实例首先由高效但不太准确的第一层模型处理,并且只有部分实例由效率较低但更多准确的第二层模型。是否应用第二层模型的决定基于第一层模型产生的置信度分数。与基于多层变压器模型的标准级联方法相比,我们的简单方法具有几个吸引人的实际优势。首先,它可以实现更高的加速增益,平均更低的延迟。其次,它利用级联的批量大小优化,从而增加了相对推理成本的降低。我们在四个文本分类 GLUE 任务和一个阅读理解任务上报告了 TangoBERT 推理 CPU 加速。

Self-critical Sequence Training for Automatic Speech Recognition
Authors Chen Chen, Yuchen Hu, Nana Hou, Xiaofeng Qi, Heqing Zou, Eng Siong Chng
尽管自动语音识别 ASR 任务通过序列到序列模型取得了显着的成功,但其训练和测试之间存在两个主要的不匹配可能导致性能下降 1 通常使用的交叉熵标准旨在最大​​化训练数据的对数似然度,而性能是通过单词错误率 WER 来评估的,而不是对数似然度 2 教师强制方法导致训练过程中对 ground truth 的依赖,这意味着模型在测试之前从未暴露于自己的预测。在本文中,我们提出了一种称为自临界序列训练 SCST 的优化方法,以使训练过程更接近测试阶段。作为一种基于强化学习 RL 的方法,SCST 利用定制的奖励函数将训练标准和 WER 关联起来。此外,它消除了对教师强迫的依赖,并在推理过程方面协调了模型。

Can Question Rewriting Help Conversational Question Answering?
Authors Etsuko Ishii, Yan Xu, Samuel Cahyawijaya, Bryan Wilie
问题重写 QR 是对话式问答 CQA 的子任务,旨在通过以自包含的形式重新制定问题来缓解理解对话历史之间依赖关系的挑战。尽管看起来似乎合理,但几乎没有证据证明 QR 可以作为 CQA 的一种缓解方法。为了验证 QR 在 CQA 中的有效性,我们研究了一种强化学习方法,该方法集成了 QR 和 CQA 任务,并且不需要针对目标 CQA 的相应 QR 数据集。然而,我们发现 RL 方法与端到端基线相当。

Probing for Constituency Structure in Neural Language Models
Authors David Arps, Younes Samih, Laura Kallmeyer, Hassan Sajjad
在本文中,我们研究了上下文神经语言模型 LM 在多大程度上隐含地学习了句法结构。更具体地说,我们关注 Penn Treebank PTB 中所代表的组成结构。使用基于诊断分类器的标准探测技术,我们评估了在 RoBERTa 等 LM 的神经元激活中表示不同类别成分的准确性。为了确保我们的探索侧重于句法知识而不是隐式语义概括,我们还试验了一个 PTB 版本,该版本是通过在保持句法结构的同时随机替换成分而获得的,即语义错误但句法良好PTB 的形成版本。我们发现 4 个预训练的变换器 LM 在我们的探测任务中甚至在操纵数据上也获得了高性能,这表明它们表示中的语义和句法知识可以分开,并且选区信息实际上是由 LM 学习的。

A Universality-Individuality Integration Model for Dialog Act Classification
Authors Gao Pengfei, Ma Yinglong
对话法案 DA 揭示了谈话中说话者话语的一般意图。准确预测 DA 可以极大地促进对话代理的开发。尽管研究人员对对话行为分类进行了广泛的研究,但并未充分考虑分类的特征信息。本文提出词线索、词性线索和统计线索可以相互补充,提高识别的基础。此外,三者的不同类型导致其分布形式的多样性,阻碍了特征信息的挖掘。为了解决这个问题,我们提出了一种基于普遍性和个性化策略的新模型,称为 Universality Individuality Integration Model UIIM。 UIIM不仅通过学习普遍性来加深线索之间的联系,而且还利用对个体性的学习来捕捉线索本身的特征。在两个最流行的对话行为分类基准数据集 SwDA 和 MRDA 上进行了实验,结果表明,提取线索之间的普遍性和个性性可以更充分地挖掘话语中的隐藏信息,提高自动对话行为识别的准确率

Efficient Cluster-Based k-Nearest-Neighbor Machine Translation
Authors Dexin Wang, Kai Fan, Boxing Chen, Deyi Xiong
k 最近邻机器翻译 kNN MT 最近被提出作为神经机器翻译 NMT 中域适应的非参数解决方案。它旨在通过与从域数据中构建的基于标记级特征的附加检索模块协调来缓解高级 MT 系统在翻译域语句时的性能下降。先前的研究已经证明,非参数 NMT 甚至优于对域外数据进行微调的模型。尽管取得了成功,但 kNN 检索是以高延迟为代价的,特别是对于大型数据存储。为了使其实用,在本文中,我们探索了一种更有效的 kNN MT,并提出使用聚类来提高检索效率。具体来说,我们首先提出了一个基于集群的紧凑网络,以对比学习的方式进行特征缩减,将上下文特征压缩为 90 个低维向量。然后,我们建议使用基于集群的修剪解决方案来过滤大型数据存储中的 10 40 个冗余节点,同时保持翻译质量。我们提出的方法在几个机器翻译基准上与高级非参数 MT 模型相比,实现了更好或相当的性能,同时减少了多达 57 个推理延迟。

HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection
Authors Zheng Chu, Ziqing Yang, Yiming Cui, Zhigang Chen, Ming Liu
相同的多词表达在不同的句子中可能有不同的含义。它们主要可以分为字面意义和惯用意义两大类。非基于上下文的方法在这个问题上表现不佳,我们需要上下文嵌入来正确理解多词表达的惯用意义。

Impossible Triangle: What's Next for Pre-trained Language Models?
Authors Chenguang Zhu, Michael Zeng
大规模预训练语言模型 PLM 的最新发展显着提高了模型在各种 NLP 任务中的能力,包括任务特定微调和零样本少样本学习后的性能。然而,许多此类模型的规模大得令人望而生畏,很少有机构能够负担得起预训练、微调甚至部署的费用,而中等规模的模型通常缺乏强大的泛化少数镜头学习能力。在本文中,我们首先从不可能三角形 1 中等模型大小、2 最先进的少数镜头学习能力和 3 最先进的微调能力方面阐述了当前使用 PLM 模型的障碍。我们认为,所有现有的 PLM 模型都缺乏不可能三角中的一个或多个属性。为了弥补 PLM 的这些缺失特性,人们提出了各种技术,例如知识蒸馏、数据增强和快速学习,这不可避免地为 PLM 在实际场景中的应用带来了额外的工作。

ASQA: Factoid Questions Meet Long-Form Answers
Authors Ivan Stelmakh, Yi Luan, Bhuwan Dhingra, Ming Wei Chang
丰富的数据集和可靠的评估指标的可用性导致事实问答 QA 取得了长足的进步。然而,这一进展并不容易转移到长篇 QA 的任务中,其目标是回答需要深入解释的问题。障碍包括 i 缺乏高质量的数据,以及 ii 缺乏明确定义的答案质量概念。在这项工作中,我们通过发布一个新的数据集和一个任务来解决这些问题,我们称之为 ASQA 对不明确的问题的答案摘要,并且 ii 提出了一个可靠的指标来衡量 ASQA 的性能。我们的任务侧重于模棱两可的事实性问题,即根据解释有不同的正确答案。对模棱两可的问题的答案应该将来自多个来源的事实信息综合成一个长篇摘要,以解决模棱两可的问题。与现有的长格式 QA 任务(例如 ELI5)相比,ASQA 承认一个明确的正确性概念,用户面对一个好的摘要应该能够回答对原始模棱两可问题的不同解释。我们使用这种正确性的概念来定义 ASQA 的自动性能指标。

A Review on Language Models as Knowledge Bases
Authors Badr AlKhamissi, Millicent Li, Asli Celikyilmaz, Mona Diab, Marjan Ghazvininejad
最近,NLP 社区对使用预训练语言模型 LM 作为知识库 KB 的兴趣激增。研究人员表明,在足够大的网络语料库上训练的 LM 将在其参数中隐含地编码大量知识。生成的 LM 可以针对不同类型的知识进行探测,从而充当 KB。与传统 KB 相比,这具有一个主要优势,因为这种方法不需要人工监督。

L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT models
Authors Parth Patil, Aparna Ranade, Maithili Sabane, Onkar Litake, Raviraj Joshi
命名实体识别 NER 是一项基本的 NLP 任务,主要应用在会话和搜索系统中。它帮助我们识别用于下游应用程序的句子中的关键实体。 NER 或用于流行语言的类似插槽填充系统已在商业应用中大量使用。在这项工作中,我们专注于马拉地语,这是一种印度语言,主要由马哈拉施特拉邦的人民使用。马拉地语是一种低资源语言,仍然缺乏有用的 NER 资源。我们介绍了 L3Cube MahaNER,这是马拉地语中第一个主要的黄金标准命名实体识别数据集。我们还描述了在此过程中遵循的手动注释指南。最后,我们在不同的基于 CNN、LSTM 和 Transformer 的模型(如 mBERT、XLM RoBERTa、IndicBERT、MahaBERT 等)上对数据集进行了基准测试。MahaBERT 在所有模型中提供了最佳性能。

CUNI-KIT System for Simultaneous Speech Translation Task at IWSLT 2022
Authors Peter Pol k, Ngoc Quan Ngoc, Tuan Nam Nguyen, Danni Liu, Carlos Mullov, Jan Niehues, Ond ej Bojar, Alexander Waibel
在本文中,我们描述了我们在 IWSLT 2022 上提交的同步语音翻译。我们探索了在同步环境中利用离线模型而无需修改原始模型的策略。在我们的实验中,我们表明我们的在线化算法几乎与离线设置相当,而在测试集的延迟方面比离线快 3 倍。

A pipeline and comparative study of 12 machine learning models for text classification
Authors Annalisa Occhipinti, Louis Rogers, Claudio Angione
基于文本的通信作为一种通信方法非常受欢迎,尤其是在商业环境中。因此,它经常被滥用,通过发送恶意消息(例如垃圾邮件)来欺骗用户传递个人信息,包括在线账户凭据或银行详细信息。出于这个原因,已经提出了许多用于文本分类的机器学习方法,并将其纳入大多数电子邮件提供商的服务中。

Scalable Training of Language Models using JAX pjit and TPUv4
Authors Joanna Yoo, Kuba Perlin, Siddhartha Rao Kamalakara, Jo o G.M. Ara jo
现代大型语言模型由于其大小而需要分布式训练策略。随着软件和硬件前沿的快速发展,有效和稳健地训练他们面临挑战。

Production federated keyword spotting via distillation, filtering, and joint federated-centralized training
Authors Andrew Hard, Kurt Partridge, Neng Chen, Sean Augenstein, Aishanee Shah, Hyun Jin Park, Alex Park, Sara Ng, Jessica Nguyen, Ignacio Lopez Moreno, Rajiv Mathews, Fran oise Beaufays
我们在真实用户设备上使用联合学习训练了一个关键字发现模型,并观察到将该模型部署到手机上进行推理时的显着改进。为了弥补设备训练缓存中缺少的数据域,我们采用了联合联合集中训练。为了在设备上没有精选标签的情况下学习,我们制定了一种基于用户反馈信号的置信过滤策略,用于联合蒸馏。

What Matters in Language Conditioned Robotic Imitation Learning
Authors Oier Mees, Lukas Hermann, Wolfram Burgard
机器人技术的一个长期目标是制造能够通过其机载传感器获得并仅通过自然语言指定的感知来执行广泛的日常任务的机器人。虽然最近通过利用像素的端到端学习在语言驱动的机器人技术方面取得了重大进展,但由于设置的潜在变化,没有明确且易于理解的过程来进行各种设计选择。在本文中,我们对从离线自由形式模仿数据集中学习语言条件策略的最关键挑战进行了广泛的研究。我们进一步确定了提高性能的架构和算法技术,例如机器人控制学习的分层分解、多模态变压器编码器、离散的潜在计划和对齐视频和语言表示的自我监督对比损失。通过将我们的调查结果与我们改进的模型组件相结合,我们能够提出一种新颖的方法,该方法在具有挑战性的语言条件下的长视野机器人操作 CALVIN 基准测试中显着优于现有技术。我们已经开源了我们的实现,以促进未来的研究,以学习以自然语言指定的方式连续执行许多复杂的操作技能。

Experimental Standards for Deep Learning Research: A Natural Language Processing Perspective
Authors Dennis Ulmer, Elisa Bassignana, Max M ller Eberstein, Daniel Varab, Mike Zhang, Christian Hardmeier, Barbara Plank
深度学习 DL 领域在过去十年中经历了爆炸式增长,对自然语言处理 NLP 也产生了重大影响。然而,与采用深度学习技术的其他领域一样,与更成熟的学科相比,缺乏通用的实验标准。从基本的科学原理开始,我们将正在进行的关于深度学习实验标准的讨论提炼成一个单一的、广泛适用的方法。遵循这些最佳实践对于加强实验证据、提高可重复性和促进科学进步至关重要。

Finding Trolls Under Bridges: Preliminary Work on a Motif Detector
Authors W. Victor H. Yarlott, Armando Ochoa, Anurag Acharya, Laurel Bobrow, Diego Castro Estrada, Diana Gomez, Joan Zheng, David McDonald, Chris Miller, Mark A. Finlayson
主题是民间传说中反复出现的独特元素,在新闻、文学、新闻稿和宣传中具有重要的交流手段。母题简明扼要地暗示了大量的文化相关信息,它们的广泛使用表明它们作为文化知识试金石的认知重要性,使它们的检测成为朝着具有文化意识的自然语言处理任务迈出的有价值的一步。到目前为止,民俗学家和其他对母题感兴趣的人只是手动从叙事中提取母题。我们提交了一份关于开发自动检测基序的系统的初步报告。我们简要描述了为训练主题检测生成数据的注释工作,该工作正在进行中。我们详细描述了我们正在进行的架构,其目的是部分捕捉人们如何确定主题候选者是否以主题方式使用。

InCoder: A Generative Model for Code Infilling and Synthesis
Authors Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen tau Yih, Luke Zettlemoyer, Mike Lewis
代码很少以从左到右的方式编写,而是反复编辑和完善。我们介绍了 InCoder,这是一个统一的生成模型,可以通过从左到右生成以及通过填充进行编辑来执行程序合成。 InCoder 经过训练可以从大量许可代码中生成代码文件,其中代码区域已被随机屏蔽并移动到每个文件的末尾,从而允许代码填充双向上下文。我们的模型是第一个能够直接执行零镜头代码填充的生成模型,我们对具有挑战性的任务进行评估,例如类型推断、评论生成和变量重命名。我们发现,双向上下文条件的能力显着提高了这些任务的性能,同时在标准程序综合基准测试中的表现与从左到右仅以类似规模预训练的模型相比仍然相当。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(NLP,Papers,NLP,NLPer,自然语言处理,机器翻译,语言模型)