【AI视野·今日NLP 自然语言处理论文速览 第五十九期】Fri, 20 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 20 Oct 2023
Totally 74 papers
上期速览✈更多精彩请移步主页

【AI视野·今日NLP 自然语言处理论文速览 第五十九期】Fri, 20 Oct 2023_第1张图片

Daily Computation and Language Papers

AutoMix: Automatically Mixing Language Models
Authors Aman Madaan, Pranjal Aggarwal, Ankit Anand, Srividya Pranavi Potharaju, Swaroop Mishra, Pei Zhou, Aditya Gupta, Dheeraj Rajagopal, Karthik Kappaganthu, Yiming Yang, Shyam Upadhyay, Mausam, Manaal Faruqui
云 API 提供商现在提供各种规模和配置的大型语言模型 LLM。虽然这种多样性提供了广泛的选择,但有效利用这些选项来优化计算成本和性能仍然具有挑战性。在这项工作中,我们提出了 AutoMix,这是一种基于较小 LM 输出的近似正确性,战略性地将查询路由到较大 LM 的方法。 AutoMix 的核心是少量镜头自我验证机制,无需训练即可估计其自身输出的可靠性。鉴于验证可能会有噪音,我们在 AutoMix 中使用元验证器来提高这些评估的准确性。我们使用 LLAMA2 13 70B 在五个基于上下文的推理数据集上进行的实验表明,AutoMix 超越了既定基线,将单位成本的增量收益提高了 89 倍。

An Emulator for Fine-Tuning Large Language Models using Small Language Models
Authors Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning
广泛使用的语言模型 LM 通常是通过扩展两阶段训练管道来构建的:预训练阶段使用非常大、多样化的文本数据集,有时进行微调,对齐阶段使用目标示例或所需行为的其他规范。虽然人们假设知识和技能来自预训练,并且微调主要过滤这些知识和技能,但这种直觉尚未经过广泛的测试。为了帮助做到这一点,我们引入了一种新颖的技术,用于将这两个阶段中获得的知识和技能解耦,从而能够直接回答以下问题:如果我们将大型模型在预训练期间学到的知识与知识相结合,会发生什么?在微调期间由小模型学习,反之亦然。使用从人类偏好学习的最新发展中衍生出来的基于强化学习的框架,我们引入了模拟微调 EFT,这是一种从近似或模拟结果的分布中进行采样的原则性且实用的方法。不同尺度的预训练和微调。我们对 EFT 的实验表明,扩大微调往往会提高有用性,而扩大预训练往往会提高事实性。除了解耦规模之外,我们还表明,EFT 无需额外培训即可调整竞争行为特征(例如乐于助人和无害)的测试时间。最后,模拟微调的一种特殊情况,我们称之为 LM 放大,通过将大型预训练模型与小型微调模型集成,本质上模拟微调大型预训练模型的结果,从而避免对大型预训练模型进行资源密集型微调。

SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving
Authors Xueliang Zhao, Xinting Huang, Wei Bi, Lingpeng Kong
近年来,大型语言模型法学硕士推动了人工智能领域的重大进步,在解决数学问题等广泛任务中展现了令人印象深刻的能力。受基于子目标的方法成功的启发,我们提出了一种名为 textbf SE quential sub textbf G oal textbf O ptimization SEGO 的新颖框架,以增强法学硕士解决数学问题的能力。通过在子目标分解过程和解决问题的概率之间建立联系,SEGO 旨在识别具有理论保证的更好的子目标。为了解决在大型解决方案空间中识别合适子目标的挑战,我们的框架生成特定于问题的子目标,并根据精心设计的标准对其进行调整。将这些优化的子目标纳入策略模型训练中可以显着提高问题解决性能。

On the Representational Capacity of Recurrent Neural Language Models
Authors Franz Nowak, Anej Svete, Li Du, Ryan Cotterell
这项工作研究了基于循环神经网络 RNN 的语言模型 LM 的计算表达能力。 Siegelmann 和 Sontag 1992 年提出了著名的观点,即具有理性权重、隐藏状态和无限计算时间的 RNN 是图灵完备的。然而,除了未加权的语言成员资格之外,语言模型还定义了字符串的权重,并且对 RNN 语言模型和 RLM 的计算能力的分析应该反映这一点。我们将图灵完备性结果扩展到概率情况,展示了具有无限计算时间的合理加权 RLM 如何模拟任何概率图灵机 PTM 。由于在实践中,RLM 是实时工作的,在每个时间步处理一个符号,因此我们将上述结果视为 RLM 表达能力的上限。

A Predictive Factor Analysis of Social Biases and Task-Performance in Pretrained Masked Language Models
Authors Yi Zhou, Jose Camacho Collados, Danushka Bollegala
在之前的工作中,预训练的屏蔽语言模型 MLM 已报告了各种类型的社会偏见。然而,多个潜在因素与 MLM 相关,例如模型大小、训练数据大小、训练目标、预训练数据采样的领域、标记化以及预训练语料库中存在的语言等等。目前尚不清楚哪些因素会影响传销所习得的社会偏见。为了研究模型因素与 MLM 学到的社会偏见之间的关系,以及模型的下游任务绩效,我们对 39 个预训练的 MLM 进行了全面研究,涵盖不同的模型大小、训练目标、标记化方法、训练数据域和语言。

Experimental Narratives: A Comparison of Human Crowdsourced Storytelling and AI Storytelling
Authors Nina Begus
该论文提出了一个框架,该框架结合了行为和计算实验,利用虚构的提示作为研究人类和生成人工智能讲故事中的文化制品和社会偏见的新工具。该研究通过融合叙事学和推理统计的方法,分析了 2019 年 6 月众包工作者创作的 250 个故事以及 2023 年 3 月 GPT 3.5 和 GPT 4 生成的 80 个故事。众包工作者和大型语言模型都对创造和爱上人造人的相同提示做出了反应。所提出的实验范式允许直接比较人类和法学硕士生成的故事讲述。对皮格马利翁式提示的反应证实了皮格马利翁神话在人类和大型语言模型的集体想象中普遍存在。所有征集的叙述都呈现出科学或技术的追求。分析表明,GPT 3.5(尤其是 GPT 4)的叙述在性别角色和性行为方面比人类编写的叙述更加进步。虽然人工智能叙事偶尔可以提供创新的情节曲折,但它们提供的想象力场景和修辞不如人类创作的文本。

A Systematic Study of Performance Disparities in Multilingual Task-Oriented Dialogue Systems
Authors Songbo Hu, Han Zhou, Moy Yuan, Milan Gritta, Guchun Zhang, Ignacio Iacobacci, Anna Korhonen, Ivan Vuli
实现能够在世界多种语言中良好运行的强大语言技术是多语言 NLP 的核心目标。在这项工作中,我们评估并实证分析了多语言任务导向对话 ToD 系统之间存在的任务绩效差异。我们首先定义系统性能的绝对和相对等效性的新定量度量,捕获语言之间和单个语言内部的差异。通过一系列受控实验,我们证明性能差异取决于多种因素:手头的 ToD 任务的性质、底层预训练语言模型、目标语言以及 ToD 注释数据量。我们凭经验证明当前 ToD 系统中存在适应性和内在偏差,例如,使用与英语 ToD 数据完全并行的带注释的 ToD 数据训练阿拉伯语或土耳其语的 ToD 系统仍然表现出下降的 ToD 任务性能。

StoryAnalogy: Deriving Story-level Analogies from Large Language Models to Unlock Analogical Understanding
Authors Cheng Jiayang, Lin Qiu, Tsz Ho Chan, Tianqing Fang, Weiqi Wang, Chunkit Chan, Dongyu Ru, Qipeng Guo, Hongming Zhang, Yangqiu Song, Yue Zhang, Zheng Zhang
叙述之间的类比是自然语言理解中最关键的能力之一。在本文中,我们通过构建第一个大规模故事级类比语料库 StoryAnalogy 来评估识别和生成类比的能力,其中包含来自不同领域的 24K 个故事对,并根据扩展结构映射理论对两个相似点进行了人工注释。我们设计了一组关于StoryAnalogy的测试,提出了故事级类比识别和生成的第一个评估。有趣的是,我们发现类比识别任务不仅对于句子嵌入模型来说非常具有挑战性,对于最近的大型语言模型LLM(例如ChatGPT和LLaMa)来说也是如此,其中ChatGPT在多项选择问题上仅达到30左右的准确率,而对于人类来说85的准确率。

The Locality and Symmetry of Positional Encodings
Authors Lihu Chen, Ga l Varoquaux, Fabian M. Suchanek
位置编码 PE 用于将词序信息注入到基于转换器的语言模型中。虽然它们可以显着提高句子表示的质量,但它们对语言模型的具体贡献尚未完全理解,特别是考虑到最近发现各种位置编码对词序不敏感。在这项工作中,我们对 textbf 双向掩码语言模型 BERT 风格中的位置编码进行了系统研究,它在三个方面补充了现有工作 1 我们通过识别两个共同属性(局部性和对称性)揭示了 PE 的核心功能 2 我们表明这两个属性与下游任务的性能密切相关 3 我们通过引入两个新的探测任务来量化当前 PE 的弱点,当前 PE 在这两个任务上表现不佳。我们相信这些结果是为基于 Transformer 的语言模型开发更好的 PE 的基础。

Probing LLMs for hate speech detection: strengths and vulnerabilities
Authors Sarthak Roy, Ashish Harshavardhan, Animesh Mukherjee, Punyajoy Saha
最近,社交媒体平台和研究人员努力使用大型语言模型来检测仇恨或有毒语言。然而,这些工作都没有旨在在检测过程中使用解释、附加背景和受害者社区信息。我们利用不同的提示变化,输入信息并在零样本设置中评估大型语言模型,而无需添加任何上下文示例。我们选择三个大型语言模型 GPT 3.5、text davinci 和 Flan T5 以及三个数据集 HateXplain、implicit hat 和 ToxicSpans。我们发现,平均而言,在管道中包含目标信息可将模型性能比整个数据集的基线提高 20 30 倍。在跨数据集的基线上将基本原理解释添加到管道 10 20 中也会产生相当大的影响。此外,我们还进一步提供了这些大型语言模型无法分类并解释其做出决定的原因的错误案例的类型。

Knowledge-Augmented Language Model Verification
Authors Jinheon Baek, Soyeong Jeong, Minki Kang, Jong C. Park, Sung Ju Hwang
最近的语言模型 LM 在利用参数内化的知识生成文本方面表现出了令人印象深刻的能力。然而,LM 经常对给定的查询生成事实上不正确的响应,因为他们的知识可能不准确、不完整且过时。为了解决这个问题,之前的工作提出使用从外部知识源检索的知识来增强语言模型。然而,由于两个原因,此类方法通常会表现出次优的文本生成性能:1 模型可能无法检索与给定查询相关的知识;2 模型可能无法在生成的文本中忠实地反映检索到的知识。为了克服这些问题,我们建议使用单独的验证器来验证知识增强 LM 的输出和知识,验证器是一个小型 LM,经过训练可以通过指令微调来检测这两类错误。然后,当验证者识别出错误时,我们可以通过检索新知识或生成新文本来纠正它。此外,我们将不同指令的输出与单个验证器结合使用,以增强验证过程的可靠性。我们在多个问答基准上验证了所提出的验证步骤的有效性,其结果表明所提出的验证器有效地识别了检索和生成错误,从而使 LM 能够提供更符合事实的正确输出。

AgentTuning: Enabling Generalized Agent Abilities for LLMs
Authors Aohan Zeng, Mingdao Liu, Rui Lu, Bowen Wang, Xiao Liu, Yuxiao Dong, Jie Tang
开放式大型语言模型法学硕士在各种任务中表现出色,极大地促进了法学硕士的发展。然而,它们在充当代理来处理现实世界中的复杂任务时,远远不如 ChatGPT 和 GPT 4 等商业模型。这些代理任务采用 LLM 作为中央控制器,负责规划、记忆和工具利用,需要细粒度的提示方法和强大的 LLM 才能获得令人满意的性能。尽管已经提出了许多提示方法来完成特定的代理任务,但缺乏专注于提高法学硕士本身的代理能力而不损害其一般能力的研究。在这项工作中,我们提出了 AgentTuning,这是一种简单而通用的方法,可以增强 LLM 的代理能力,同时保持其一般的 LLM 能力。我们构建了 AgentInstruct,一个包含高质量交互轨迹的轻量级指令调整数据集。我们采用混合指令调优策略,将 AgentInstruct 与通用领域的开源指令相结合。 AgentTuning 用于指令调整 Llama 2 系列,从而产生 AgentLM。我们的评估表明,AgentTuning 可以在不影响一般能力的情况下实现法学硕士的代理能力。 AgentLM 70B 在执行看不见的代理任务时可与 GPT 3.5 Turbo 相媲美,展示了通用代理功能。

GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents
Authors Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen
当前的手势识别系统主要专注于识别预定义集合内的手势,在将这些手势连接到交互式 GUI 元素或系统功能(例如,将拇指向上手势链接到类似按钮)方面留下了空白。我们推出 GestureGPT,这是一种利用大型语言模型法学硕士的新颖的零镜头手势理解和基础框架。手势描述是根据手势视频中的手部地标坐标制定的,并输入到我们的双代理对话系统中。手势代理破译这些关于交互上下文的描述和查询,例如上下文代理组织和提供的界面、历史、注视数据。在迭代交换之后,手势代理识别用户意图,并将其基于交互功能。我们使用公共第一视图和第三视图手势数据集验证了手势描述模块,并在两个真实世界设置视频流和智能家居物联网控制中测试了整个系统。

Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models
Authors Weize Chen, Xiaoyue Xu, Xu Han, Yankai Lin, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou
参数共享的预训练语言模型 PLM 已成为资源受限环境中的一种成功方法,可大幅降低模型存储和内存成本,而不会显着影响性能。然而,值得注意的是,参数共享并不能减轻与推理相关的计算负担,从而阻碍了其在延迟要求或计算资源有限的情况下的实用性。基于神经常微分方程 ODE,我们引入了一种简单的技术来提高参数共享 PLM 的推理效率。此外,我们提出了一种简单的预训练技术,可以实现完全或部分共享的模型,从而实现更大的推理加速。

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
Authors Zhiyuan Liu, Sihang Li, Yanchen Luo, Hao Fei, Yixin Cao, Kenji Kawaguchi, Xiang Wang, Tat Seng Chua
语言模型 LM 在各种一维文本相关任务中表现出了令人印象深刻的分子理解能力。然而,它们本质上缺乏二维图形感知,而二维图形感知是人类专业人员理解分子拓扑结构的关键能力。为了弥补这一差距,我们提出了使用 Cross Modal Projector 和 Uni Modal Adapter 的 MolCA 分子图语言建模。 MolCA 使 LM(例如卡拉狄加)能够通过跨模式投影仪理解基于文本和图形的分子内容。具体来说,跨模态投影仪被实现为 Q Former,以连接图形编码器的表示空间和 LM 的文本空间。此外,MolCA 采用单模态适配器,即 LoRA,使 LM 能够有效适应下游任务。与之前通过跨模态对比学习将 LM 与图形编码器耦合的研究不同,MolCA 保留了 LM 开放式文本生成的能力,并通过 2D 图形信息对其进行了增强。为了展示其有效性,我们在分子字幕、IUPAC 名称预测和分子文本检索任务上对 MolCA 进行了广泛的基准测试,其中 MolCA 显着优于基线。

Are Structural Concepts Universal in Transformer Language Models? Towards Interpretable Cross-Lingual Generalization
Authors Ningyu Xu, Qi Zhang, Jingting Ye, Menghan Zhang, Xuanjing Huang
大型语言模型法学硕士表现出了相当大的跨语言泛化能力,从而隐式地跨语言转移知识。然而,迁移并非对所有语言都同样成功,特别是对于资源匮乏的语言,这构成了持续的挑战。目前尚不清楚我们是否已达到隐式跨语言泛化的极限以及显式知识转移是否可行。在本文中,我们研究了明确调整语言之间概念对应以增强跨语言泛化的潜力。使用语言的句法方面作为测试平台,我们对 43 种语言的分析揭示了对于仅编码器和仅解码器的法学硕士,每种语言的结构概念空间之间具有高度的一致性。然后,我们提出了一种基于元学习的方法来学习对齐不同语言的概念空间,这有助于概念分类中的零镜头和少镜头泛化,并提供对上下文学习现象中跨语言的见解。

Label-Aware Automatic Verbalizer for Few-Shot Text Classification
Authors Thanakorn Thaminkaew, Piyawat Lertvittayakumjorn, Peerapon Vateekul
基于提示的学习已在少量文本分类中显示出其有效性。其成功的一个重要因素是语言器,它将语言模型的输出转换为预测的类别。值得注意的是,最简单且广泛认可的语言表达器使用手动标签来表示类别。然而,当以所选语言模型为条件时,手动选择并不能保证所选单词的最优性。因此,我们提出了标签感知自动语言器 LAAV,有效地增强手动标签以实现更好的少量镜头分类结果。具体来说,我们使用手动标签和连词来诱导模型为言语表达者生成更有效的单词。在五种语言的五个数据集上的实验结果表明,LAAV 的性能显着优于现有的语言器。

Survival of the Most Influential Prompts: Efficient Black-Box Prompt Search via Clustering and Pruning
Authors Han Zhou, Xingchen Wan, Ivan Vuli , Anna Korhonen
基于提示的学习一直是大型预训练语言模型 LLM 的有效范例,可以实现少量甚至零样本学习。黑盒提示搜索最近因其独特的无梯度优化特性而受到越来越多的关注,事实证明,黑盒提示搜索对于模型即服务的使用特别有用和强大。然而,组合优化的离散性和复杂性阻碍了现代黑盒方法的效率。尽管对搜索算法进行了广泛的研究,但搜索空间设计和优化的关键方面在很大程度上被忽视了。在本文中,我们首先通过提示 LLM 进行敏感性分析,发现只有少数代币对 LLM 预测产生了不成比例的影响。利用这一见解,我们提出了高效黑盒提示搜索的聚类和修剪 ClaPS,这是一种简单的黑盒搜索方法,它首先对搜索空间进行聚类和修剪,以专门关注有影响力的提示标记。通过在修剪的搜索空间内采用简单的搜索方法,ClaPS 在各种任务和 LLM 中实现了最先进的性能,超越了复杂方法的性能,同时显着降低了搜索成本。

Transformer-based Entity Legal Form Classification
Authors Alexander Arimond, Mauro Molteni, Dominik Jany, Zornitsa Manolova, Damian Borth, Andreas G.F. Hoepner
我们建议应用基于 Transformer 的语言模型来根据原始法律实体名称对实体法律形式进行分类。具体来说,我们采用各种 BERT 变体,并将它们的性能与多个传统基线进行比较。我们的评估涵盖了免费提供的法人机构识别码 LEI 数据的一个重要子集,其中包括来自 30 个不同法律管辖区的超过 110 万个法人实体。每个司法管辖区分类的基本事实标签取自实体法律形式 ELF 代码标准 ISO 20275。我们的研究结果表明,预先训练的 BERT 变体在 F1 分数方面优于传统文本分类方法,同时在宏观 F1 分数方面也表现得相当好。此外,我们提案的有效性得到了在十个选定司法管辖区进行的第三方专家评审结果的支持。这项研究强调了基于 Transformer 的模型在推进数据标准化和数据集成方面的巨大潜力。

Character-level Chinese Backpack Language Models
Authors Hao Sun, John Hewitt
Backpack 是 Transformer 的替代方案,通过将预测分解为标记意义分量的加权和,可以提高英语语言建模的可解释性。然而,Backpacks 对标记定义含义的依赖引发了对其在英语以外语言中的潜力的质疑,对于英语以外的语言,子词标记化为词汇项提供了合理的近似值。在这项工作中,我们训练、评估、解释和控制字符标记化中文的 Backpack 语言模型,其中单词通常由许多字符组成。我们发现我们的 134M 参数的中文 Backpack 语言模型的性能与 104M 参数的 Transformer 相当,并且学习丰富的字符级含义,这些含义通过日志加法组合形成单词含义。在 SimLex 风格的词汇语义评估中,Backpack 字符感知的简单平均值优于来自 Transformer 的输入嵌入。我们发现复杂的多字符含义通常是通过在上下文中一致地使用相同的每个字符含义权重来形成的。

Representing and Computing Uncertainty in Phonological Reconstruction
Authors Johann Mattis List, Nathan W. Hill, Robert Forkel, Frederic Blum
尽管历史语言学中的重建本质上是模糊的,但大多数学者在提出原始形式时并没有表现出他们的不确定性。随着最近提出的使传统比较方法的某些方面自动化的方法越来越成功,原型形式的形式表示也得到了改进。这种形式化使得解决不确定性的表示和计算成为可能。基于监督语音重建的最新进展,在此过程中,算法学习如何根据先前注释的数据重建给定原始语言中的单词,并受到同源集自动单词预测改进方法的启发,我们提出了一个新的框架,该框架允许

Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing
Authors Yue Guo, Zian Xu, Yi Yang
ChatGPT 等大型语言模型 LLM 的出现彻底改变了一般自然语言预处理 NLP 任务。然而,他们在金融领域的专业知识缺乏全面的评估。为了评估法学硕士解决金融 NLP 任务的能力,我们提出了 FinLMEval,这是一个金融语言模型评估框架,包含九个旨在评估语言模型性能的数据集。本研究比较了仅编码器语言模型和仅解码器语言模型的性能。我们的研究结果表明,虽然一些仅解码器的法学硕士通过零样本提示在大多数金融任务中表现出显着的性能,但它们通常落后于微调的专家模型,特别是在处理专有数据集时。

Towards Real-World Streaming Speech Translation for Code-Switched Speech
Authors Belen Alastruey, Matthias Sperber, Christian Gollan, Dominic Telaar, Tim Ng, Aashish Agargwal
代码切换 CS,即在一个句子中混合不同的语言,是交流中的常见现象,并且在许多自然语言处理 NLP 设置中可能具有挑战性。

Non-Autoregressive Sentence Ordering
Authors Yi Bin, Wenhao Shi, Bin Ji, Jipeng Zhang, Yujuan Ding, Yang Yang
现有的句子排序方法通常采用带有指针网络的编码器解码器框架,通过逐步循环预测每个句子来恢复一致性。这种自回归方式仅利用解码时的单边依赖关系,无法充分挖掘句子之间的语义依赖关系进行排序。为了克服这些限制,在本文中,我们提出了一种新颖的非自回归排序网络,称为 textit NAON,它探索句子之间的双边依赖关系并并行预测每个位置的句子。我们认为,非自回归方式不仅适用,而且特别适合句子排序任务,因为该任务有两个独特的特征:1每个生成目标的长度是确定的,2句子和位置应该唯一匹配。此外,为了解决朴素的非自回归 Transformer 的重复问题,我们引入了排他性损失来限制位置和句子之间的排他性。为了验证所提出模型的有效性,我们对几个常用的数据集进行了广泛的实验,实验结果表明,我们的方法优于所有自回归方法,并且与现有技术相比具有竞争性的性能。

Predict the Future from the Past? On the Temporal Data Distribution Shift in Financial Sentiment Classifications
Authors Yue Guo, Chenxi Hu, Yi Yang
时间数据分布变化在金融文本中普遍存在。如何在波动的市场环境中训练金融情绪分析系统,使其能够准确推断情绪并对时间数据分布变化具有鲁棒性。本文,我们使用真实的模型对时间数据分布变化下的金融情绪分析系统进行了实证研究。跨越三年的世界金融社交媒体数据集。我们发现,在存在时间分布变化的情况下,微调模型的总体性能会下降。此外,受金融文本独特的时间性质的启发,我们提出了一种将分布检测与时间序列建模相结合的新方法,用于时间金融情绪分析。

Identifying and Adapting Transformer-Components Responsible for Gender Bias in an English Language Model
Authors Abhijith Chintam, Rahel Beloch, Willem Zuidema, Michael Hanna, Oskar van der Wal
语言模型 LM 表现并放大了从训练数据中学到的许多类型的不良偏见,包括性别偏见。然而,我们缺乏有效且高效地改变这种行为而不损害通用语言建模性能的工具。在本文中,我们研究了三种识别 LM 组件和特定输出因果中介分析之间因果关系的方法、自动电路发现以及基于差分掩蔽的称为 DiffMask 的新颖高效方法。我们将这些方法应用于 GPT 2 小和性别偏见问题,并使用发现的组件集来执行参数有效的微调以减轻偏见。我们的结果显示,尽管方法的计算要求存在巨大差异,并且在减轻性别偏见方面取得了成功,但与完整模型微调相比,对通用语言建模的损害较小,但已识别的组件存在显着重叠。然而,我们的工作也强调了定义和衡量偏差的难度,以及因果发现程序对数据集选择的敏感性。

Time-Aware Representation Learning for Time-Sensitive Question Answering
Authors Jungbin Son, Alice Oh
时间是现实世界问答 QA 问题的关键因素之一。然而,语言模型很难理解时间说明符(例如 after 和 before )与数字之间的关系,因为现有的 QA 数据集不包含足够的时间表达式。为了解决这个问题,我们提出了一个时间上下文感知问答 TCQA 框架。我们提出了时间上下文相关的跨度提取 TCSE 任务,并构建了一个用于模型训练的时间上下文相关的数据生成框架。此外,我们提出了一个指标来评估使用 TCSE 的 QA 模型的时间意识。 TCSE 任务由一个问题和四个候选句子组成,根据时间和上下文分为正确或不正确。该模型经过训练,可以从时间和上下文均正确的句子中提取答案范围。使用 TCQA 训练的模型的性能优于基线模型,高达 TimeQA 数据集中 F1 分数的 8.5。

Pretraining Language Models with Text-Attributed Heterogeneous Graphs
Authors Tao Zou, Le Yu, Yifei Huang, Leilei Sun, Bowen Du
在许多现实世界场景中,例如学术网络、社交平台,不同类型的实体不仅与文本相关,而且通过各种关系连接,可以抽象为文本属性异构图TAHG。当前语言模型 LM 的预训练任务主要集中于单独学习每个实体的文本信息,而忽略了捕获 TAHG 中实体之间的拓扑连接的关键方面。在本文中,我们提出了一种新的 LM 预训练框架,该框架明确考虑了 TAHG 中的拓扑和异构信息。首先,我们将上下文图定义为特定顺序内目标节点的邻域,并提出拓扑感知预训练任务,通过联合优化 LM 和辅助异构图神经网络来预测上下文图中涉及的节点。其次,根据观察到一些节点文本丰富,而另一些节点文本很少,我们设计了一种文本增强策略,用邻居文本丰富无文本节点,以处理不平衡问题。我们对来自不同领域的三个数据集进行链接预测和节点分类任务。实验结果证明了我们的方法相对于现有方法的优越性以及每个设计的合理性。

Multilingual estimation of political-party positioning: From label aggregation to long-input Transformers
Authors Dmitry Nikolaev, Tanise Ceron, Sebastian Pad
尺度分析是计算政治科学中的一种技术,它指定一个政治参与者,例如:政客或政党根据典型的长文本正文(例如,议会演讲或选举宣言。例如,政治学家经常使用左右尺度来系统地分析不同国家的政治格局。用于自动缩放分析的 NLP 方法可以找到广泛的应用,只要它们能够处理长文本并且能够跨领域和语言稳健地工作。在这项工作中,我们实现并比较了两种自动缩放分析政党宣言标签聚合的方法,一种依赖于宣言中各个陈述的注释的管道策略,以及基于长输入 Transformer 的模型,该模型直接从原始文本计算缩放值。

Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong
Authors Chenglei Si, Navita Goyal, Sherry Tongshuang Wu, Chen Zhao, Shi Feng, Hal Daum III, Jordan Boyd Graber
大型语言模型 法学硕士越来越多地用于访问网络信息。因此,它们的真实性和事实性令人非常感兴趣。为了帮助用户对所获得的信息做出正确的决定,法学硕士不仅应该提供信息,还应该帮助用户事实核查信息。在本文中,我们对总共 80 名众包工作者进行了实验,将语言模型与搜索引擎信息检索系统进行比较,以方便人类用户进行事实检查。我们提示法学硕士验证给定的主张并提供相应的解释。阅读 LLM 解释的用户比使用类似准确度的搜索引擎的效率要高得多。然而,当解释错误时,他们往往会过度依赖法学硕士。为了减少对法学硕士的过度依赖,我们要求法学硕士提供对比信息,解释为什么该主张是正确的和错误的,然后我们向用户提供双方的解释。这种对比解释减轻了用户对法学硕士的依赖,但不能显着优于搜索引擎。然而,与单独的搜索引擎相比,同时显示搜索引擎结果和 LLM 解释并不能提供互补的好处。

DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial Reasoning in Text
Authors Shuaiyi Li, Yang Deng, Wai Lam
文本中的空间推理在各种现实世界应用中起着至关重要的作用。现有的空间推理方法通常从纯文本中推断空间关系,而忽略了自然语言和符号结构之间的差距。图神经网络 GNN 在归纳和聚合符号结构方面表现出了非凡的能力。然而,由于过度平滑问题,经典 GNN 在处理多跳空间推理方面面临挑战,即随着图层数的增加,性能大幅下降。为了应对这些挑战,我们提出了一种新颖的textbf Dep th textbf Wise textbf G raph textbf N eural textbf Network textbf DepWiGNN。具体来说,我们设计了一种新颖的节点存储方案,并在图的深度维度而不是广度维度上聚合信息,这使得能够在不堆叠多层的情况下收集长依赖关系。在两个具有挑战性的多跳空间推理数据集上的实验结果表明,DepWiGNN 优于现有的空间推理方法。

Product Attribute Value Extraction using Large Language Models
Authors Alexander Brinkmann, Roee Shraga, Christian Bizer
电子商务应用程序(例如分面产品搜索或产品比较)基于结构化产品描述(例如属性值对)。电子商务平台上的供应商不提供结构化的产品描述,而是使用标题或描述来描述报价。为了处理此类报价,有必要从文本产品属性中提取属性值对。最先进的属性值提取技术依赖于预先训练的语言模型 PLM,例如 BERT。这些属性值提取模型的两个主要缺点是:模型需要大量特定于任务的训练数据;微调模型在泛化到训练数据中未包含的属性值时面临挑战。本文探讨了大型语言模型 LLM 作为基于 PLM 的属性值提取方法的高效且稳健的训练数据替代方案的潜力。我们考虑托管 LLM,例如 GPT 3.5 和 GPT 4,以及基于 Llama2 的开源 LLM。我们在零样本场景和特定任务训练数据可用的场景中评估模型。在零样本场景中,我们比较了用于表示有关提取的目标属性的信息的各种提示设计。在具有训练数据的场景中,我们研究 i 示例属性值的提供,ii 上下文演示的选择,以及 iii GPT 3.5 的微调。我们的实验表明,GPT 4 在两个评估数据集上的平均 F1 得分为 85,而使用相同数量的训练数据时,基于 PLM 的最佳技术的平均性能较差 5。 GPT 4 的 F1 分数比最好的开源 LLM 高 10。

ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding
Authors Guojun Wu
大多数多语言视觉和语言视觉研究的目标是在一个模型内实现多语言和多模式功能。然而,图像多语言字幕的缺乏阻碍了其发展。为了克服这个障碍,我们提出了 ICU,Image Caption Understanding,它将 VL 任务分为两个阶段,VL 模型用英语执行图像字幕,而多语言语言模型 mLM 反过来将字幕作为替代文本并执行跨语言语言理解。多语言处理的负担从 V L 模型上卸下并交给 MLM。由于多语言文本数据相对丰富和质量较高,ICU可以帮助V L模型克服语言障碍。

Named Entity Recognition for Monitoring Plant Health Threats in Tweets: a ChouBERT Approach
Authors Shufan Jiang CRESTIC, ISEP , Rafael Angarita ISEP , St phane Cormier CRESTIC , Francis Rousseaux CRESTIC
精准农业的一个重要应用场景是利用传感器和数据分析技术来检测和测量作物健康威胁。然而,由于缺乏标记数据和细粒度语义资源,现有解决方案中文本数据仍在探索中。最近的研究表明,如果我们能够从非结构化文本数据中提取重要信息,农民之间的联系不断增强以及在线农业社区的出现,使 Twitter 等社交媒体成为检测不熟悉的植物健康事件的参与平台。 ChouBERT 是一种经过预训练的法语语言模型,可以识别有关植物健康问题观察的推文,并可推广到看不见的自然灾害。

Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond
Authors Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi
多模态技术的最新进展为在涉及文本、音频和图像处理的各种任务中表现出色的模型提供了令人兴奋的可能性。像 GPT 4V 这样的模型融合了计算机视觉和语言建模,在复杂的文本和图像任务中表现出色。之前的许多研究工作都认真研究了这些视觉大型语言模型 VLLM 在目标检测、图像字幕等任务中的性能。然而,这些分析通常侧重于单独评估每种模式的性能,缺乏对其跨模式相互作用的深入了解。具体来说,有关这些视觉语言模型是否一致或独立地执行视觉和语言任务的问题仍未得到解答。在这项研究中,我们从最近对多语言的研究中汲取灵感,并对模型的跨模态交互进行了全面分析。我们引入了一个系统框架,该框架量化了多模态设置中不同模态之间的能力差异,并提供了一组为这些评估设计的数据集。我们的研究结果表明,当任务相对简单时,像 GPT 4V 这样的模型往往会执行一致的模式。然而,随着任务变得更具挑战性,从视觉模态得出的结果的可信度就会降低。

Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks
Authors Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao
尽管使用指令调整和检索增强在防止大语言模型 LLM 幻觉方面取得了显着进展,但使用人工制作的评估数据来衡量 LLM 的可靠性仍然具有挑战性,而这些数据不适用于许多任务和领域,并且可能会遭受数据泄漏的影响。受对抗性机器学习的启发,本文旨在开发一种通过适当修改法学硕士忠实表现的现有数据来自动生成评估数据的方法。具体来说,本文提出了 AutoDebug,一个基于 LLM 的框架,使用提示链以问答示例的形式生成可转移的对抗性攻击。

Attack Prompt Generation for Red Teaming and Defending Large Language Models
Authors Boyi Deng, Wenjie Wang, Fuli Feng, Yang Deng, Qifan Wang, Xiangnan He
大型语言模型 LLM 很容易受到红队攻击,这可能会导致 LLM 生成有害内容。以往的研究都是通过手动或自动的方法构建攻击提示,这些方法在构建成本和质量上都有其局限性。为了解决这些问题,我们提出了一种综合方法,结合手动和自动方法来经济地生成高质量的攻击提示。具体来说,考虑到新出现的法学硕士令人印象深刻的能力,我们提出了一个攻击框架来指示法学硕士通过上下文学习模仿人类生成的提示。此外,我们提出了一个防御框架,通过与攻击框架的迭代交互来微调受害者 LLM,以增强其针对红队攻击的安全性。对不同法学硕士的广泛实验验证了我们提出的攻击和防御框架的有效性。此外,我们还发布了一系列不同大小的名为SAP的攻击提示数据集,方便更多LLM的安全评估和增强。

Co$^2$PT: Mitigating Bias in Pre-trained Language Models through Counterfactual Contrastive Prompt Tuning
Authors Xiangjue Dong, Ziwei Zhu, Zhuoer Wang, Maria Teleki, James Caverlee
预训练的语言模型广泛应用于许多重要的现实应用中。然而,最近的研究表明,这些模型可以编码来自大型预训练语料库的社会偏见,甚至放大下游应用程序中的偏见。为了应对这一挑战,我们提出了 Co 2 PT,这是一种高效且有效的去偏差同时提示调整方法,通过对下游任务进行反事实对比提示调整来减轻偏差。我们在三个外部偏差基准上进行的实验证明了 Co 2 PT 在提示调整过程中减轻偏差的有效性及其对现有上游去偏差语言模型的适应性。

MedAI Dialog Corpus (MEDIC): Zero-Shot Classification of Doctor and AI Responses in Health Consultations
Authors Olumide E. Ojo, Olaronke O. Adebanji, Alexander Gelbukh, Hiram Calvo, Anna Feldman
零样本分类能够将文本分类到训练期间未见过的类别中。在本文中,我们研究了预先训练的语言模型通过零样本学习对健康咨询中医生和人工智能的反应进行准确分类的有效性。我们的研究旨在确定这些模型是否能够在没有特定语料库训练的情况下有效地检测文本是否源自人类或人工智能模型。在我们的实验中,我们收集了医生对患者询问其健康状况的答复,并向人工智能模型提出了相同的问题答复。我们的研究结果表明,虽然预先训练的语言模型通常表现出对语言的深刻理解,但它们可能需要特定的语料库训练或其他技术才能在医疗保健咨询中实现对医生和人工智能生成的文本的准确分类。作为基线方法,本研究显示了在医学分类任务中仅依赖零样本分类的局限性。

Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models
Authors Wenxuan Wang, Wenxiang Jiao, Jingyuan Huang, Ruyi Dai, Jen tse Huang, Zhaopeng Tu, Michael R. Lyu
在本文中,我们发现了大型语言模型法学硕士中的文化主导问题,因为在模型训练中主要使用英语数据,例如聊天GPT。当用户用非英语语言提问时,法学硕士经常提供与英语文化相关的不恰当答案,这些答案与预期文化无关。为了系统地评估文化主导问题,我们建立了一个基准,其中包括具体的内容,例如:假期、歌曲和摘要,例如文化对象的价值观和观点。实证结果表明,代表性的 GPT 模型存在文化优势问题,其中 GPT 4 受到的影响最大,而文本 davinci 003 受到的影响最小。我们的研究强调在其发展和部署过程中需要对文化主导地位和道德考虑进行严格审查。我们展示了模型开发中的两种简单方法,即对更多样化的数据进行预训练和部署,例如

Contrastive Learning for Inference in Dialogue
Authors Etsuko Ishii, Yan Xu, Bryan Wilie, Ziwei Ji, Holy Lovenia, Willy Chung, Pascale Fung
推理,尤其是从归纳过程中得出的推理,是我们对话中的一个重要组成部分,可以补充说话者隐式或明确传达的信息。虽然最近的大型语言模型在推理任务中显示出显着的进步,但它们在归纳推理(并非所有信息都存在于上下文中)中的表现远远落后于演绎推理。在本文中,我们根据语义信息差距定义的任务难度来分析模型的行为,语义信息差距区分归纳推理和演绎推理 Johnson Laird,1988,1993。我们的分析表明,对话上下文和所需推理之间的信息差异对归纳推理过程构成了重大挑战。为了缩小这种信息差距,我们通过输入负样本来研究对比学习方法。

Rethinking the Construction of Effective Metrics for Understanding the Mechanisms of Pretrained Language Models
Authors You Li, Jinhui Yin, Yuming Lin
预训练的语言模型有望有效地将输入文本映射到一组向量,同时保留文本内的固有关系。因此,设计白盒模型来计算反映这些向量中特定内部关系的存在的指标已成为预训练语言模型事后可解释性分析的常用方法。然而,当源模型缺乏固有的可解释性时,在白盒模型中实现可解释性并确保度量计算的严谨性变得具有挑战性。因此,在本文中,我们讨论了在这种权衡中取得平衡,并提出了一种新颖的路线来构建理解预训练语言模型机制的指标。我们沿着这一研究方向专门设计了一系列指标,用于计算这些指标的模型称为树拓扑探针。我们使用这些指标对 BERT Large 进行了测量。

A Read-and-Select Framework for Zero-shot Entity Linking
Authors Zhenran Xu, Yulin Chen, Baotian Hu, Min Zhang
连接 EL 的零样本实体旨在将实体提及与未见过的实体对齐,以挑战泛化能力。以前的方法主要关注候选检索阶段,而忽略了重要的候选排序阶段,该阶段消除实体之间的歧义并做出最终的链接预测。在本文中,我们通过对实体消歧的主要组成部分(即提及实体匹配和跨实体比较)进行建模,提出了一种读取和选择 ReS 框架。首先,对于每个候选者,阅读模块利用提及上下文来输出提及感知实体表示,从而实现提及实体匹配。然后,在选择模块中,我们将候选者的选择视为序列标记问题,并将所有候选表示融合在一起以实现跨实体比较。我们的方法在已建立的零样本 EL 数据集 ZESHEL 上实现了最先进的性能,具有 2.55 微平均精度增益,无需在之前的大部分工作中使用费力的多阶段预训练,显示了提及实体和实体的有效性。

Revisiting Sparse Retrieval for Few-shot Entity Linking
Authors Yulin Chen, Zhenran Xu, Baotian Hu, Min Zhang
实体链接旨在将不明确的提及链接到知识库中相应的实体。关键挑战之一来自特定领域的标记数据不足。尽管密集检索器在多个基准测试中取得了出色的性能,但当只有有限数量的域内标记数据可用时,它们的性能会显着下降。在如此少的镜头设置中,我们重新审视了稀疏检索方法,并提出了一种基于 ELECTRA 的关键字提取器来对提及上下文进行去噪并构建更好的查询表达式。为了训练提取器,我们提出了一种远程监督方法,根据提及上下文和实体描述之间的重叠标记自动生成训练数据。

Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer
Authors Qingru Zhang, Dhananjay Ram, Cole Hawkins, Sheng Zha, Tuo Zhao
预训练的 Transformer 模型在各种自然语言处理任务中表现出了卓越的性能。这些模型利用注意力机制来捕获序列中的长程和短程依赖性。然而,完全注意机制会产生序列长度二次方的高计算成本,这在长序列任务(例如具有 8k 个标记的输入)中是无法承受的。尽管稀疏注意力可以用来提高计算效率,但正如现有工作中所建议的那样,它的建模能力有限,并且通常无法捕获长序列中的复杂依赖关系。为了应对这一挑战,我们提出了 MASFormer,这是一种易于实现的具有混合注意力跨度的变压器变体。具体来说,MASFormer 具有充分的注意力来捕获长范围依赖关系,但仅限于少量层。对于其余层,MASformer 仅采用稀疏注意力来捕获短程依赖性。我们对自然语言建模和生成任务的实验表明,仅解码器的 1.3B 参数的 MASFormer 模型可以在充分关注的情况下实现与普通 Transformer 竞争的性能,同时显着降低计算成本高达 75 。

PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models
Authors Hongwei Yao, Jian Lou, Zhan Qin
最近,Prompts 显着提高了预训练的大型语言模型 LLM 在各种下游任务上的性能,使其在各种 LLM 应用场景中变得越来越不可或缺。然而,后门漏洞是一种严重的安全威胁,可以恶意改变受害者模型的正常预测,但对于基于提示的法学硕士来说,尚未得到充分的探索。在本文中,我们提出了 POISONPROMPT,这是一种新颖的后门攻击,能够成功破坏基于硬提示和软提示的 LLM。我们使用六个数据集和三个广泛使用的法学硕士,通过对三种流行的提示方法进行大量实验来评估 POISONPROMPT 的有效性、保真度和鲁棒性。

MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language Models
Authors Deepak Nathani, David Wang, Liangming Pan, William Yang Wang
语言模型 LM 在各种自然语言任务中表现出了令人印象深刻的性能。然而,在自然语言推理方面,LM 仍然面临着幻觉、生成不正确的中间推理步骤以及犯数学错误等挑战。最近的研究重点是通过使用反馈进行自我改进来增强语言模型。然而,依赖于单一通用反馈源的现有方法无法解决 LM 生成的推理链中发现的各种错误类型。在这项工作中,我们提出了多方面反馈,这是一种迭代细化框架,集成了多个反馈模块,包括冻结的 LM 和外部工具,每个模块都专注于特定的错误类别。我们的实验结果证明了我们的方法能够有效解决 LM 生成的推理链中的多个错误,从而提高 LM 在多个推理任务中的整体性能。

The Shifted and The Overlooked: A Task-oriented Investigation of User-GPT Interactions
Authors Siru Ouyang, Shuohang Wang, Yang Liu, Ming Zhong, Yizhu Jiao, Dan Iter, Reid Pryzant, Chenguang Zhu, Heng Ji, Jiawei Han
法学硕士在大型语言模型方面的最新进展已经产生了在各种 NLP 任务中表现出卓越性能的模型。然而,目前尚不清楚 NLP 研究的现有重点是否准确捕捉了人类用户的真正需求。本文通过大量收集的用户 GPT 对话,全面分析了当前 NLP 研究与现实世界 NLP 应用需求之间的差异。我们分析了大量真实用户对 GPT 的查询。我们将这些查询与现有的 NLP 基准任务进行比较,并发现用户经常向法学硕士请求的任务与学术研究中通常研究的任务之间存在显着差距。例如,我们发现设计和规划等任务在用户交互中很普遍,但在很大程度上被忽视或与传统的 NLP 基准不同。

FinEntity: Entity-level Sentiment Classification for Financial Texts
Authors Yixuan Tang, Yi Yang, Allen H Huang, Andy Tam, Justin Z Tang
在金融领域,进行实体层面的情绪分析对于准确评估针对特定金融实体的情绪至关重要。据我们所知,目前不存在用于此目的的公开数据集。在这项工作中,我们引入了一个实体级情感分类数据集,称为 textbf FinEntity ,它注释金融实体范围及其在金融新闻中的积极、中性和消极情绪。我们在论文中记录了数据集构建过程。此外,我们在实体级情感分类上对几个预训练模型 BERT、FinBERT 等和 ChatGPT 进行了基准测试。在案例研究中,我们展示了使用 FinEntity 监控加密货币市场的实用性。

Solving Hard Analogy Questions with Relation Embedding Chains
Authors Nitesh Kumar, Steven Schockaert
建模概念如何相关是词汇语义学的中心主题。一种常见的策略是依赖知识图谱 KG(例如 ConceptNet),并将两个概念之间的关系建模为一组路径。然而,KG 仅限于一组固定的关系类型,并且它们不完整且通常存在噪声。另一种策略是从微调的语言模型中提取关系嵌入。然而,这不太适合仅间接相关的单词,并且它不容易让我们合并结构化的领域知识。在本文中,我们的目标是结合两个世界的优点。我们将关系建模为路径,但将它们的边缘与关系嵌入相关联。通过首先识别合适的中间单词,然后选择可以获得信息关系嵌入的那些单词来获得路径。

GRI: Graph-based Relative Isomorphism of Word Embedding Spaces
Authors Muhammad Asif Ali, Yan Hu, Jianbin Qin, Di Wang
使用单语嵌入空间自动构建双语词典是机器翻译的核心挑战。这些字典的最终性能依赖于各个空间的几何相似性,即它们的同构程度。旨在控制不同空间的相对同构的现有尝试未能将语义相关单词的影响纳入训练目标。为了解决这个问题,我们提出了 GRI,它将分布式训练目标与注意力图卷积相结合,以一致考虑定义计算多个空间的相对同构所需的语义相似单词的影响。实验评估表明,GRI优于现有研究,将平均P 1 相对分数提高了高达63.6。

knn-seq: Efficient, Extensible kNN-MT Framework
Authors Hiroyuki Deguchi, Hayate Hirano, Tomoki Hoshino, Yuto Nishida, Justin Vasselli, Taro Watanabe
k 最近邻机器翻译 kNN MT 通过在解码过程中利用翻译示例来提高预训练神经机器翻译 NMT 模型的翻译质量。翻译示例存储在称为数据存储的矢量数据库中,其中包含来自其所构成的并行数据的每个目标标记的一个条目。由于其大小,构建和从数据存储中检索示例的计算成本都很高。在本文中,我们为研究人员和开发人员提出了一个高效且可扩展的 kNN MT 框架 knn seq,该框架经过精心设计,即使在十亿级大型数据存储中也能高效运行。 knn seq 是作为 fairseq 的插件开发的,可以轻松切换模型和 kNN 索引。实验结果表明,我们实现的 kNN MT 实现了与原始 kNN MT 相当的增益,并且在 WMT 19 德英翻译任务中,十亿级数据存储构建花费了 2.21 小时。

LACMA: Language-Aligning Contrastive Learning with Meta-Actions for Embodied Instruction Following
Authors Cheng Fu Yang, Yen Chun Chen, Jianwei Yang, Xiyang Dai, Lu Yuan, Yu Chiang Frank Wang, Kai Wei Chang
当在训练中看到环境时,端到端 Transformers 在具体化教学方面表现出了令人印象深刻的成功率。然而,当部署在看不见的环境中时,它们往往会陷入困境。这种普遍性的缺乏是由于智能体对自然语言指令的细微变化不敏感。为了缓解这个问题,我们建议通过对比学习将代理的隐藏状态与指令明确对齐。然而,高级语言指令和代理的低级动作空间之间的语义差距仍然是一个障碍。因此,我们进一步引入了元操作的新概念来弥补这一差距。元动作是普遍存在的动作模式,可以从原始动作序列中解析出来。这些模式代表更高级的语义,直观地与指令更接近。当元动作用作附加训练信号时,代理可以更好地泛化到未见过的环境。与强大的多模态 Transformer 基线相比,我们在 ALFRED 体现指令跟踪的未见环境中实现了 4.5 倍的成功率绝对增益。附加分析表明,对比目标和元操作在实现最佳结果方面是互补的,并且生成的代理更好地将其状态与相应的指令保持一致,使其更适合现实世界的具体代理。

Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking
Authors Yongqi Tong, Yifan Wang, Dawei Li, Sizhe Wang, Zi Lin, Simeng Han, Jingbo Shang
思想链 CoT 提示及其变体探索通过模拟人类的线性认知和逻辑,为大型语言模型法学硕士配备高级推理能力。然而,人类的思维是复杂的,混合着线性和非线性思维。在这项工作中,我们提出了textbf Inferential textbf Exclusion textbf Prompting IEP,这是一种结合了排除和推理原则的新颖提示,以指导LLM进行非线性思考。 IEP指导法学硕士规划并利用自然语言推理NLI来推断每个可能的解决方案与上下文、常识或事实的蕴涵关系,从而通过回想推理产生更广阔的视角。与其他仅反映线性认知过程的基于 CoT 的方法相比,这种前向规划和后向消除过程使 IEP 能够更好地模拟复杂的人类思维过程。我们进行了一系列实证研究,并证实 IEP 在各种任务中始终优于 CoT。此外,我们观察到集成 IEP 和 CoT 进一步提高了法学硕士在某些任务上的表现,凸显了为法学硕士配备混合逻辑流程的必要性。此外,为了更好地评估人类逻辑固有的综合特征,我们引入了心理文本能力文本推理文本基准MARB。该基准包括 6 个新颖的子任务,总共 9,115 个问题,其中 1,685 个问题是通过手工制作的基本原理参考来开发的。我们相信 textsc IEP 和 textsc MARB 都可以作为揭示法学硕士逻辑和语言推理能力并推动进一步进步的有前途的方向。

A Survey of GPT-3 Family Large Language Models Including ChatGPT and GPT-4
Authors Katikapalli Subramanyam Kalyan
大型语言模型 LLM 是通过缩放模型大小、预训练语料库和计算而获得的一类特殊的预训练语言模型。法学硕士由于其规模大且需要对大量文本数据进行预训练,因此表现出特殊的能力,使他们无需在许多自然语言处理任务中进行任何特定任务的培训即可取得出色的表现。 LLM 的时代始于 OpenAI GPT 3 模型,在 ChatGPT 和 GPT4 等模型的引入后,LLM 的受欢迎程度呈指数级增长。我们将 GPT 3 及其后续 OpenAI 模型(包括 ChatGPT 和 GPT4)称为 GPT 3 家族大语言模型 GLLM。随着GLLMs的日益普及,特别是在研究界,迫切需要进行一项全面的调查,从多个维度总结近期的研究进展,并为研究界提供有洞察力的未来研究方向。我们从变压器、迁移学习、自监督学习、预训练语言模型和大型语言模型等基础概念开始调查论文。然后,我们简要概述 GLLM,并讨论 GLLM 在各种下游任务、特定领域和多种语言中的性能。我们还讨论了 GLLM 的数据标记和数据增强能力、GLLM 的稳健性、GLLM 作为评估器的有效性,最后总结了多个富有洞察力的未来研究方向。

The Sentiment Problem: A Critical Survey towards Deconstructing Sentiment Analysis
Authors Pranav Narayanan Venkit, Mukund Srinath, Sanjana Gautam, Saranya Venkatraman, Vipul Gupta, Rebecca J. Passonneau, Shomir Wilson
我们通过严格审查 189 篇同行评审论文的应用程序、模型和数据集,对情感分析 SA 的社会技术方面进行了调查。我们的调查源于这样的认识:SA 已成为多样化社会技术系统的一个组成部分,对社会和技术用户都产生影响。通过深入研究有关情绪的社会学和技术文献,我们揭示了该术语在金融、政府和医学等领域的独特概念。我们的研究暴露出缺乏明确的定义和框架来描述情绪,从而导致潜在的挑战和偏见。为了解决这个问题,我们提出了一份包含关键问题的道德表,以指导从业者确保公平地利用 SA。

Document-Level Language Models for Machine Translation
Authors Frithjof Petrick, Christian Herold, Pavel Petrushkov, Shahram Khadivi, Hermann Ney
尽管存在已知的限制,当今大多数机器翻译系统仍然在句子级别上运行。原因之一是,大多数并行训练数据仅是句子级别对齐的,没有可用的文档级别元信息。在这项工作中,我们着手利用文档级单语数据构建上下文感知翻译系统。这可以通过将任何现有的句子级翻译模型与文档级语言模型相结合来实现。我们通过利用模型组合的最新进展来改进现有方法。此外,我们提出了新颖的加权技术,使系统组合更加灵活并显着减少计算开销。在对四种不同翻译任务的综合评估中,我们表明我们的扩展大大提高了文档目标分数,并且计算效率也更高。然而,我们还发现,在大多数情况下,反向翻译可以提供更好的结果,但代价是必须重新训练翻译系统。最后,我们根据大型语言模型的最新进展探索语言模型融合。

Measuring Pointwise $\mathcal{V}$-Usable Information In-Context-ly
Authors Sheng Lu, Shan Chen, Yingya Li, Danielle Bitterman, Guergana Savova, Iryna Gurevych
上下文学习 ICL 是一种新的学习范式,随着大型语言模型的发展而受到欢迎。在这项工作中,我们将最近提出的硬度度量、逐点数学 V 可用信息 PVI 改编为上下文 PVI 中的上下文版本。与原始 PVI 相比,PVI 在上下文中更加高效,因为它只需要很少的样本并且不需要微调。我们进行了全面的实证分析来评估 PVI 的可靠性。我们的研究结果表明,在上下文中 PVI 估计值表现出与原始 PVI 相似的特征。具体到上下文设置,我们表明,在上下文中,PVI 估计在不同的样本选择和镜头数量之间保持一致。不同样本选择的上下文 PVI 估计的方差微不足道,这表明上下文 PVI 是稳定的。此外,我们还演示了如何在上下文中使用 PVI 来识别具有挑战性的实例。

Direct Neural Machine Translation with Task-level Mixture of Experts models
Authors Isidora Chara Tourni, Subhajit Naskar
直接神经机器翻译直接 NMT 是一种在两种非英语语言之间翻译文本的 NMT 系统。由于非英语语言对之间缺乏并行数据,直接 NMT 系统通常面临局限性。为了解决这一限制,人们提出了几种方法,例如多语言 NMT 和通过英语在两种语言之间进行枢轴 NMT 翻译。任务级专家模型的混合任务级 MoE 是基于 Transformer 的模型的推理高效变体,已在大量语言对上显示出有希望的 NMT 性能。在Task level MoE中,不同语言组可以使用不同的路由策略来优化跨语言学习和推理速度。在这项工作中,我们研究了任务级 MoE 在直接 NMT 中的适用性,并提出了一系列高性能训练和评估配置,通过这些配置,基于任务级 MoE 的直接 NMT 系统在大量低资源和高资源的情况下优于双语和基于枢轴的模型直接配对和翻译方向。

Overview of ImageArg-2023: The First Shared Task in Multimodal Argument Mining
Authors Zhexiong Liu, Mohamed Elarby, Yang Zhong, Diane Litman
本文概述了 ImageArg 共享任务,这是第一个多模态论证挖掘共享任务,与 EMNLP 2023 第十届论证挖掘研讨会共同举办。该共享任务包含两个分类子任务 1 子任务 A 论证立场分类 2 子任务 B 图像说服力分类。前者确定包含图像和一段文字的推文对有争议话题(例如枪支管制和堕胎)的立场。后者决定图像是否使推文文本更具说服力。该共享任务收到了来自 6 个国家/地区 9 个不同团队的 31 份子任务 A 提交内容和 21 份子任务 B 提交内容。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers
Authors Ziqi Pang, Ziyang Xie, Yunze Man, Yu Xiong Wang
这篇论文揭示了大型语言模型 LLM,尽管仅基于文本数据进行训练,但在没有语言的情况下对于纯视觉任务来说却是令人惊讶的强大编码器。更有趣的是,这可以通过一种简单但之前被忽视的策略来实现,该策略采用预先训练的 LLM 中的冻结变压器块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用法学硕士执行计算机视觉任务的界限,显着偏离了通常需要具有相关语言提示、输入或输出的多模态视觉语言设置的传统实践。我们证明,我们的方法能够持续增强各种任务的性能,包括纯 2D 和 3D 视觉识别任务(例如图像和点云分类)、时间建模任务(例如动作识别)、非语义任务(例如运动预测)和多模态任务任务,例如 2D 3D 视觉问答和图像文本检索。这种改进是一种普遍现象,适用于各种类型的 LLM,例如 LLaMA 和 OPT 以及不同的 LLM 变压器块。我们还提出了信息过滤假设来解释预训练的 LLM 在视觉编码中的有效性,预训练的 LLM 转换器块可识别信息丰富的视觉标记并进一步放大其效果。这一假设得到了观察的实证支持,即在使用 LLM 变压器块进行训练后,特征激活表现出对相关区域更加关注。我们希望我们的工作能够激发人们利用法学硕士的新视角,并加深我们对其潜在机制的理解。

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks
Authors Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop
在先进人工智能和人机交互的时代,识别口语中的情感至关重要。这项研究探索了深度学习技术在语音情感识别中的集成,为与说话人分类和情感识别相关的挑战提供了全面的解决方案。它引入了一个框架,该框架结合了现有的说话人二值化管道和基于卷积神经网络 CNN 构建的情绪识别模型,以实现更高的精度。所提出的模型使用来自五个语音情感数据集的数据进行训练,即 RAVDESS、CREMA D、SAVEE、TESS 和 Movie Clips,其中后者是专门为本研究创建的语音情感数据集。从每个样本中提取的特征包括梅尔频率倒谱系数 MFCC 、过零率 ZCR 、均方根 RMS 以及各种数据增强算法,例如音调、噪声、拉伸和移位。这种特征提取方法旨在提高预测精度,同时降低计算复杂度。

Prompt Injection Attacks and Defenses in LLM-Integrated Applications
Authors Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong
大型语言模型 LLM 越来越多地部署为各种现实世界应用程序(称为 LLM 集成应用程序)的后端。最近的多项研究表明,LLM 集成应用程序很容易受到提示注入攻击,攻击者将恶意指令数据注入这些应用程序的输入中,以便它们产生攻击者想要的结果。然而,现有的工作仅限于案例研究。因此,文献缺乏对即时注入攻击及其防御的系统理解。我们的目标是弥合这项工作的差距。特别是,我们提出了一个通用框架来形式化即时注入攻击。研究论文和博客文章中讨论的现有攻击是我们框架中的特例。我们的框架使我们能够通过组合现有的攻击来设计新的攻击。此外,我们还提出了一个框架来系统化防御即时注入攻击。使用我们的框架,我们通过 10 个法学硕士和 7 个任务对即时注入攻击及其防御进行了系统评估。我们希望我们的框架能够激发该领域的未来研究。

Model Merging by Uncertainty-Based Gradient Matching
Authors Nico Daheim, Thomas M llenhoff, Edoardo Maria Ponti, Iryna Gurevych, Mohammad Emtiyaz Khan
在不同数据集上训练的模型可以通过参数的加权平均来合并,但它为什么有效以及何时会失败在这里,我们将加权平均的不准确性与梯度的不匹配联系起来,并提出了一种新的基于不确定性的方案来改进通过减少失配来提高性能。这种联系还揭示了其他方案中的隐含假设,例如平均、任务算术和 Fisher 加权平均。

Causal-structure Driven Augmentations for Text OOD Generalization
Authors Amir Feder, Yoav Wald, Claudia Shi, Suchi Saria, David Blei
文本分类器对虚假相关性的依赖可能会导致部署时的泛化能力较差,从而引发人们对其在医疗保健等安全关键领域的使用的担忧。在这项工作中,我们建议在数据因果结构知识的指导下使用反事实数据增强来模拟对虚假特征的干预并学习更强大的文本分类器。我们证明这种策略适用于标签与属性虚假相关的预测问题。在此类问题的假设下,我们讨论了与重要性重新加权相比,反事实数据增强的有利样本复杂性。务实上,我们使用辅助数据来匹配示例,基于 diff 方法中的 diff,并使用大型语言模型 LLM 来表示文本的条件概率。

Large Language Model for Multi-objective Evolutionary Optimization
Authors Fei Liu, Xi Lin, Zhenkun Wang, Shunyu Yao, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang
多目标进化算法MOEA是解决多目标优化问题MOP的主要方法。在过去的几十年里,人们提出了许多 MOEA,其中运营商需要利用领域知识精心设计。最近,人们尝试用基于学习的算子(例如神经网络模型)取代 MOEA 中手动设计的算子。然而,设计和训练此类模型仍然需要付出很多努力,并且学习到的算子可能无法很好地泛化来解决新问题。为了应对上述挑战,这项工作研究了一种利用强大的大语言模型 LLM 来设计 MOEA 算子的新颖方法。通过适当的提示工程,我们成功地让通用的LLM作为黑盒搜索算子,以零样本的方式进行基于分解的MOEA MOEA D。此外,通过学习LLM行为,我们进一步设计了一个具有随机性的显式白盒算子,并提出了一种新版本的基于分解的MOEA,称为MOEA D LO。对不同测试基准的实验研究表明,我们提出的方法可以实现与广泛使用的 MOEA 竞争的性能。我们还希望看到仅从少数实例中学习的算子就可以对具有完全不同模式和设置的未见问题具有强大的泛化性能。

An Exploration of In-Context Learning for Speech Language Model
Authors Ming Hao Hsu, Kai Wei Chang, Shang Wen Li, Hung yi Lee
自从 GPT 3 在自然语言处理 NLP 领域的发展以来,在上下文学习中 ICL 在利用大型语言模型 LLM 方面发挥了重要作用。通过在输入处呈现 LM 话语标签演示,LM 可以完成少量镜头学习,而无需依赖梯度下降或需要显式修改其参数。这使得 LM 能够以黑盒方式学习和适应。尽管 ICL 在 NLP 领域取得了成功,但探索 ICL 在语音处理中的可能性的工作却很少。本研究首次提出了在没有文本监督的情况下使用语音 LM 进行 ICL 的探索。我们首先证明当前的语音 LM 不具备 ICL 能力。因此,通过建议的热身训练,语音 LM 可以对未见过的任务执行 ICL。

Unmasking Transformers: A Theoretical Approach to Data Recovery via Attention Weights
Authors Yichuan Deng, Zhao Song, Shenghao Xie, Chiwun Yang
在深度学习领域,变压器已成为主导架构,特别是在自然语言处理任务中。然而,随着它们的广泛采用,人们开始担心这些模型处理的数据的安全性和隐私性。在本文中,我们解决了一个关键问题:可以使用注意力权重和输出来恢复输入变压器的数据吗?我们引入了一个理论框架来解决这个问题。具体来说,我们提出了一种算法,旨在通过最小化损失函数 L X ,从 mathbb R d times d 中的给定注意力权重 W QK top 恢复 mathbb R d times n 中的输入数据 X ,并恢复 mathbb R n times n 中的输出 B 。该损失函数捕获变压器的预期输出和实际输出之间的差异。我们的研究结果对本地化逐层机制法学硕士具有重大影响,从安全和隐私的角度表明模型设计中存在潜在的漏洞。

Know Where to Go: Make LLM a Relevant, Responsible, and Trustworthy Searcher
Authors Xiang Shi, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu
大型语言模型法学硕士的出现表明了提高相关性并在网络搜索中提供直接答案的潜力。然而,由于传统信息检索算法的局限性和法学硕士幻觉问题,在验证生成结果的可靠性和贡献来源的可信度方面出现了挑战。我们旨在打造LLM时代的PageRank,努力将LLM转变为相关的、负责任的、值得信赖的搜索者。我们提出了一种新颖的生成检索框架,利用法学硕士的知识来促进查询和在线资源之间的直接联系。该框架由三个核心模块组成:生成器、验证器和优化器,每个模块分别专注于生成可信的在线源、验证源的可靠性和精炼不可靠的源。

DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
Authors Cong Yao
在本报告中,我们介绍了 DocXChain,这是一个强大的文档解析开源工具链,其设计和开发的目的是自动将文本、表格和图表等非结构化文档中包含的丰富信息转换为可读和可操作的结构化表示。机器。具体来说,提供了文本检测、文本识别、表格结构识别、布局分析等基本能力。在这些基本能力的基础上,我们还构建了一套功能齐全的文档解析管道,即通用文本读取、表格解析和文档结构化,以驱动现实场景中与文档相关的各种应用。此外,DocXChain简洁、模块化、灵活,可以轻松与LangChain、ChatGPT等现有工具、库或模型集成,构建更强大的系统,完成更复杂、更具挑​​战性的任务。

Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing
Authors Yixiao Zhang, Akira Maezawa, Gus Xia, Kazuhiko Yamamoto, Simon Dixon
创作音乐是迭代的,每个阶段都需要不同的方法。然而,现有的人工智能音乐系统在协调多个子系统以满足不同需求方面存在不足。为了解决这一差距,我们推出了 Loop Copilot,这是一种新颖的系统,使用户能够通过交互式多轮对话界面生成并迭代地完善音乐。该系统使用大型语言模型来解释用户意图并选择合适的AI模型来执行任务。每个后端模型专门用于特定任务,并且它们的输出被聚合以满足用户的要求。为了确保音乐的连贯性,基本属性都保存在一个集中的表中。

REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models
Authors Ruisi Zhang, Shehzeen Samarah Hussain, Paarth Neekhara, Farinaz Koushanfar
我们提出了 REMARK LLM,这是一种新颖、高效、强大的水印框架,专为大型语言模型 LLM 生成的文本而设计。使用法学硕士合成类似人类的内容需要大量的计算资源和广泛的数据集,封装关键的知识产权 IP。然而,生成的内容很容易受到恶意利用,包括垃圾邮件和抄袭。为了应对这些挑战,REMARK LLM 提出了三个新组件:i 基于学习的消息编码模块,用于将二进制签名注入 LLM 生成的文本中;ii 重新参数化模块,用于将消息编码的密集分布转换为带水印的文本标记的稀疏分布;iii 解码专用于签名提取的模块此外,我们引入了优化的波束搜索算法以保证生成内容的连贯性和一致性。 REMARK LLM 经过严格的培训,鼓励保留水印内容的语义完整性,同时确保有效的水印检索。对多个未见过的数据集的广泛评估突显了 REMARK LLM 的熟练程度和可转移性,与现有技术相比,在相同文本中插入了两倍多的签名位,同时保持了语义完整性。

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Concept Prompt Learning
Authors Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
纹理反转是一种即时学习方法,它学习新单词的奇异嵌入来表示图像风格和外观,使其能够集成到自然语言句子中以生成新颖的合成图像。然而,即使可以实现单个概念的嵌入,在一个场景中识别和集成多个对象级概念也会带来重大挑战。我们的实证测试进一步证实了这一点。为了应对这一挑战,我们引入了多概念提示学习 MCPL 框架,其中从单个句子图像对同时学习多个新单词。为了提高单词概念相关性的准确性,我们提出了三种正则化技术Attention Masking AttnMask来集中学习相关领域Prompts Contrastive Loss PromptCL来分离不同概念的嵌入和Bind adjective Bind adj。将新单词与已知单词联系起来。我们通过图像生成、编辑和使用不同图像的注意力可视化进行评估。广泛的定量比较表明,我们的方法可以通过增强的单词概念相关性来学习更多语义上解开的概念。

Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins
Authors Markus J. Buehler
我们报告了一种基于灵活语言模型的深度学习策略,应用于解决蛋白质建模中复杂的正向和逆向问题,基于注意力神经网络,该网络在因果多头图机制中集成了变压器和图卷积架构,以实现生成预训练模型。该模型用于预测每个残基水平的二级结构含量和总体含量、蛋白质溶解度和测序任务。在逆向任务上进一步训练,该模型能够设计具有这些特性作为目标特征的蛋白质。该模型被制定为一个通用框架,完全基于提示,并且可以适应各种下游任务。我们发现,添加额外的任务会产生新的协同效应,模型可以利用这种协同效应来提高整体性能,这超出了单独在每个数据集上训练模型所能达到的效果。案例研究旨在验证该方法,产生专门针对结构蛋白的蛋白质设计,同时也探索了可溶性抗菌生物材料设计的适用性。虽然我们的模型经过训练最终可以执行 8 项不同的任务,但利用可用的数据集,它可以扩展以解决其他问题。从更广泛的意义上讲,这项工作说明了一种多尺度建模的形式,它将一组最终构建块联系起来,字节级 utf8 字符定义了现有物理系统的性质与复杂输出。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(NLP,LLM,Papers,1024程序员节,自然语言处理,LLM,大语言模型,叙述类比基准,小语言模型,文本生成)