标题:大型语言模型指令调整中的零点跨语言转移
author:Nadezhda Chirkova, Vassilina Nikoulina
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14778v1
摘要:
指令调整(IT)被广泛用于教导预训练的大型语言模型(LLMs)遵循任意指令,但在多语言环境中的研究却不足。在这项工作中,我们对 IT 中的零次跨语言迁移进行了系统研究,即在纯英语数据上对 LLM 进行指令调整,然后在其他语言的用户提示上进行测试。我们研究了模型配置选择的影响,并为多语言教学设计了多方面的评估策略。我们发现,即使模型训练的所有阶段都以英语为中心,跨语言迁移也能在信息技术中成功实现,但前提是在超参数调整中考虑到多语言性,并且有足够大的信息技术数据。经过英语训练的 LLM 能够用其他语言生成语言正确、全面和有帮助的回答,但事实性较低,偶尔会出现流利性错误。
标题:高效扩展 LLM
author:B. N. Kausik
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14746v1
摘要:
训练过的 LLM 通常是稀疏的,即大部分参数为零,这就提出了效率问题。对此,我们研究了高效的 LLM,即在训练语料库上能达到预期准确度的参数最少的 LLM。具体来说,我们比较了当前规模下训练损失的理论估计值和经验估计值,以获得自然训练语料库中唯一序列的数量随其规模变化的上下限。我们的结果意味着:(1) 若要将训练语料库中代表的技能数量增加一倍,语料库的规模必须扩大大约三到五倍;(2) 对于高效的 LLM,自然训练语料库的参数数 N N N 和大小 D D D 的比例为 N ∼ D 0.58 N \sim D^{0.58} N∼D0.58;(3) 如果 LLM 的参数数小于训练语料库中唯一序列的数量,那么扩大规模就能发现新出现的技能。
标题:LLM-DA:通过大型语言模型进行数据扩充,实现少量命名实体识别
author:Junjie Ye, Nuo Xu, Yikun Wang, Jie Zhou, Qi Zhang, Tao Gui, Xuanjing Huang
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14568v1
摘要:
尽管大型语言模型(LLM)的能力令人印象深刻,但它们在信息提取任务中的表现仍不尽如人意。然而,它们卓越的重写能力和广泛的世界知识为改进这些任务提供了宝贵的见解。在本文中,我们提出了一种基于 LLMs 的新型数据增强技术– L L M − D A LLM-DA LLM−DA,用于少量信息提取任务。为了克服现有数据扩增方法的局限性,即损害语义完整性和解决 LLM 生成文本中固有的不确定性,我们通过在上下文和实体两个层面扩增原始数据,充分利用了 NER 任务的显著特征。我们的方法包括采用 14 种上下文重写策略,设计同类型的实体替换,以及注入噪声以增强鲁棒性。广泛的实验证明了我们的方法在利用有限数据提高 NER 模型性能方面的有效性。此外,额外的分析还提供了进一步的证据,证明我们生成的数据质量超过了其他现有方法。
标题:到底是谁的 LLM?GPT-3.5、GPT-4 和 Bard 的语言学比较和 LLM 归属
author:Ariel Rosenfeld, Teddy Lazebnik
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14533v1
摘要:
大型语言模型(LLM)能够生成与人类质量相似或更高的文本。然而,目前还不清楚 LLM 是否倾向于表现出与人类作者类似的独特语言风格。通过全面的语言分析,我们比较了由当今最流行的三种 LLMS(GPT-3.5、GPT-4 和 Bard)生成的文本的词汇、语音部分(POS)分布、依赖关系分布和情感,以及不同的输入。研究结果表明,语言上的显著差异反过来又使我们能够使用一个简单的现成分类模型,以88%的准确率将给定文本归因于其 LLM 起源。本文讨论了这一有趣发现的理论和实践意义。
标题:LLM 是否会隐含地为用户确定合适的文本难度?
author:Seiji Gobara, Hidetaka Kamigaito, Taro Watanabe
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14453v1
摘要:
要提高学生的理解能力,就必须开展适合个人学习水平的教育。利用大语言模型(LLMs)实现这一目的的第一步是调整学生回答的文本难度。这项工作分析了 LLM 如何在用户输入和其生成的文本之间隐式地调整文本难度。为了进行实验,我们从 Stack-Overflow 中创建了一个新的数据集,以探索基于问题解答的对话的性能。在 Stack-Overflow 数据集和 TSCC 数据集(包括多轮对话)上的实验结果表明,LLM 可以隐式处理用户输入与其生成的回复之间的文本难度。我们还观察到,一些 LLM 在处理文本难度和指令调整的重要性方面超过了人类。
标题:语言模型能否作为大规模知识库?
author:Qiyuan He, Yizhong Wang, Wenya Wang
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14273v1
摘要:
大型语言模型(LLMs)通过大规模的预训练,在理解和生成对复杂查询的响应方面表现出了非凡的能力。然而,这些模型在记忆大规模结构化知识(尤其是明确涵盖大量事实信息的世界知识)并进行推理方面的功效仍然值得怀疑。针对这一空白,我们的研究探讨了 LLM 是否能有效地存储、调用和推理与维基数据(Wikidata)等最新知识库(KB)相当的大规模知识。具体来说,我们主要从三个关键方面来研究其可行性:(1) 不同规模的 LLM 在记忆大规模知识库中的准确知识方面的效率;(2) 在响应自然语言查询时调用记忆知识的灵活性;(3) 通过推理推断新知识的能力。我们的研究结果表明,虽然 LLM 有希望成为能够灵活检索和响应的大规模知识库,但要充分发挥其潜力,还需要增强其推理能力。
标题:迎难而上硬样本加权持续训练提高了 LLM 的泛化能力
author:Xuxi Chen, Zhendong Wang, Daouda Sow, Junjie Yang, Tianlong Chen, Yingbin Liang, Mingyuan Zhou, Zhangyang Wang
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14270v1
摘要:
在快速发展的大型语言模型(LLMs)领域,一个关键的挑战是如何在高质量训练数据短缺的情况下提高其能力。我们的研究从使用原始预训练数据集对 LLMs 进行轻度持续训练的经验策略入手,重点关注有选择地保留损失率适中的样本。这些样本被认为信息丰富,有利于模型的完善,与损失最大的样本形成鲜明对比,后者会因为与数据噪声和复杂性相关而被舍弃。然后,我们将这一策略形式化为实例重加权分布稳健优化(IR-DRO)的原则性框架。IR-DRO 的设计目的是通过实例重权机制,动态地将训练重点优先放在信息样本上,并通过闭式解决方案进行简化,以便直接集成到既定的训练协议中。通过对各种模型和数据集的严格实验,我们的研究结果表明,在持续预训练和指令调整场景中,我们的样本定向方法显著提高了多个基准的 LLM 性能。我们的代码见 https://github.com/VITA-Group/HardFocusTraining。
标题:大型语言模型能否发现科学新闻报道中的错误信息?
author:Yupeng Cao, Aishwarya Muralidharan Nair, Elyon Eyimife, Nastaran Jamalipour Soofi, K. P. Subbalakshmi, John R. Wullert II, Chumki Basu, David Shallcross
date Time:2024-02-22
paper pdf:http://arxiv.org/pdf/2402.14268v1
摘要:
科学事实经常被大众媒体歪曲,目的是影响公众舆论和行动,这在 COVID-19 大流行期间就有所体现。自动检测科学领域的错误信息是一项挑战,因为这两种媒体的写作风格截然不同,而且仍处于起步阶段。大多数关于科学报道有效性的研究都将这一问题视为索赔验证难题。在此过程中,需要大量的专家人力来生成适当的声明。我们的解决方案绕过了这一步骤,解决了现实世界中可能无法获得这种明确、标注的声明的问题。本文的核心研究问题是,是否有可能使用大型语言模型(LLM)来检测科学报告中的错误信息。为此,我们首先提出了一个新的标注数据集 SciNews,其中包含来自可信和不可信来源的 2.4k 篇科学新闻报道,以及 CORD-19 数据库中的相关摘要。我们的数据集既包括人工撰写的新闻文章,也包括由 LLM 生成的新闻文章,因此在捕捉使用 LLM 生成热门新闻文章这一日益增长的趋势方面更加全面。然后,我们确定了科学新闻文章中的科学有效性维度,并探讨了如何将其整合到科学错误信息的自动检测中。我们提出了几种使用 LLM 自动检测大众媒体中科学发现的虚假表述的基准架构。对于每个架构,我们都使用了几种提示工程策略,包括零点提示、少量提示和思维链提示。我们还在 GPT-3.5、GPT-4 和 Llama2-7B、Llama2-13B 上测试了这些架构和提示策略。
标题:FanOutQA:大型语言模型的多跳、多文档问题解答
author:Andrew Zhu, Alyssa Hwang, Liam Dugan, Chris Callison-Burch
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.14116v1
摘要:
日常场景中常见的一类问题是 "fan-out "问题,即需要查找大量实体信息的复杂的多跳、多文档推理问题。然而,目前用于评估大型语言模型中此类问题解答能力的资源很少。为了更全面地评估 LLM 的复杂推理能力,我们提出了 FanOutQA,这是一个以英语维基百科为知识基础的高质量数据集,包含扇出问题-答案对和人类注释的分解。我们在数据集上制定了三个基准设置,并对 GPT-4、LLaMA 2、Claude-2.1 和 Mixtral-8x7B 等 7 个 LLM 进行了基准测试,发现当代模型仍有改进长语境下文档间依赖关系推理的空间。我们提供了数据集和运行模型的开源工具,以鼓励在 https://fanoutqa.com 上进行评估。
标题:LexC-Gen:利用大型语言模型和双语词典为资源极少的语言生成数据
author:Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.14086v1
摘要:
低资源语言的数据匮乏问题可以通过使用双语词典从高资源语言的标注任务数据中进行词对词翻译来解决。然而,双语词典通常与任务数据的词汇重叠有限,导致翻译覆盖率和词典利用率低下。我们提出了词典条件数据生成(LexC-Gen),这是一种大规模生成低资源语言分类任务数据的方法。具体来说,LexC-Gen 首先使用双语词典中的高资源语言词汇生成与词典兼容的任务数据,然后通过单词翻译将其翻译成具有双语词典的低资源语言。在 17 种资源极度匮乏的语言中,LexC-Gen 生成的数据与专家翻译的黄金数据相比具有竞争力,在情感分析和主题分类任务上分别比现有的基于词典的单词翻译方法平均提高了 5.6 分和 8.9 分。我们表明,以双语词典为条件是 LexC-Gen 的关键组成部分。LexC-Gen 也很实用–它只需要一个 GPU 就能大规模生成数据。它能很好地与开放访问的 LLM 配合使用,其成本仅为基于 GPT4 的多语言数据生成成本的五分之一。
标题:水印能否经得起翻译?论大语言模型文本水印的跨语言一致性
author:Zhiwei He, Binglin Zhou, Hongkun Hao, Aiwei Liu, Xing Wang, Zhaopeng Tu, Zhuosheng Zhang, Rui Wang
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.14007v1
摘要:
文本水印技术旨在标记和识别由大型语言模型(LLM)生成的内容,以防止滥用。在本研究中,我们引入了文本水印的 "跨语言一致性 "概念,即评估文本水印在翻译成其他语言后保持其有效性的能力。两种 LLM 和三种水印方法的初步实证结果表明,当前的文本水印技术在文本被翻译成不同语言时缺乏一致性。基于这一观察结果,我们提出了一种跨语言水印去除攻击(CWRA),通过首先从一种支点语言的 LLM 获取响应,然后将其翻译成目标语言,从而绕过水印。CWRA 可以有效去除水印,将曲线下面积(AUC)从 0.95 降低到 0.67,而不会造成性能损失。此外,我们还分析了导致文本水印跨语言一致性的两个关键因素,并提出了一种防御方法,可将 CWRA 下的 AUC 从 0.67 提高到 0.88。
标题:幻觉还是注意力误导?利用大型语言模型挖掘商业战略价值之路
author:Aline Ioste
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.14002v1
摘要:
采用转换器架构的大型语言模型在文本生成领域掀起了一场革命,树立了前所未有的标杆。尽管大型语言模型的能力令人印象深刻,但也有人批评它们生成的结果偏离事实准确性或显示逻辑不一致,这些现象通常被称为幻觉。然而,这一术语往往被误用于任何偏离教师预期的结果,本文将其定义为注意力误导,而非真正的幻觉。在商业环境中,理解幻觉和注意力误导之间的区别变得越来越重要,因为这种错误的后果会严重影响从这些固有的预训练模型中提取价值。本文重点介绍了 PGI(角色、分组和智能)方法的最佳实践,该方法是一个战略框架,在应对实际业务挑战时,GPT 生成的 4,000 个回复中,错误率仅为 3.15%,成绩斐然。报告强调,通过为实验配备知识,企业可以利用这些原生预训练模型释放创新机会。这强化了一个概念,即以熟练团队为基础的战略应用可以最大限度地发挥 LLMs 等新兴技术的优势。
标题:哪些语言特点和语言在 LLM 翻译中很重要?
author:Ryandito Diandaru, Lucky Susanto, Zilu Tang, Ayu Purwarianti, Derry Wijaya
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13917v1
摘要:
大型语言模型(LLM)在包括机器翻译在内的多项任务中表现出强大的能力。我们的研究重点是评估 Llama2 的机器翻译能力,并探索翻译如何取决于其训练数据中的语言。我们的实验表明,7B Llama2 模型在所有见过的语言中都能获得高于 10 的 BLEU 分数,但在没见过的语言中却不一定。与使用聊天版本或增加拍摄次数相比,使用该模型规模对那些未见过的语言的增益最大。此外,我们的语言距离分析表明,句法相似性并不总是决定翻译质量的主要语言因素。有趣的是,我们发现在特定情况下,尽管某些语言的训练数据比英语少得多,但却表现出与英语相当的强相关性。我们在这里的发现为当前的 LLMs 提供了新的视角,使以英语以外的语言为中心的 LLMs 有可能为多语言模型提供更有效的基础。
标题:LongRoPE:将 LLM 上下文窗口扩展到 200 万个代币以上
author:Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13753v1
摘要:
大语境窗口是大型语言模型(LLM)的理想功能。然而,由于微调成本高、长文本稀缺以及新标记位置引入的灾难性值,目前的扩展上下文窗口仅限于 128k 左右的标记。本文介绍了 LongRoPE,它首次将预训练 LLM 的上下文窗口扩展到了令人印象深刻的 2048k 标记,在 256k 的训练长度内只需 1k 个微调步骤,同时保持了原始短上下文窗口的性能。这是通过三项关键创新实现的:(i) 我们通过高效搜索识别并利用位置插值中的两种不均匀性,为微调提供更好的初始化,并在非微调情况下实现 8 倍扩展;(ii) 我们引入渐进扩展策略,首先微调 256k 长度的 LLM,然后在微调扩展的 LLM 上进行第二次位置插值,以实现 2048k 上下文窗口;(iii) 我们在 8k 长度上重新调整 LongRoPE,以恢复短上下文窗口性能。在 LLaMA2 和 Mistral 上对各种任务进行的大量实验证明了我们方法的有效性。通过 LongRoPE 扩展的模型保留了原始架构,只对位置嵌入稍作修改,并且可以重复使用大部分已有的优化。
标题:从文本到 CQL:衔接自然语言和语料库搜索引擎
author:Luming Lu, Jiyuan An, Yujie Wang, Liner yang, Cunliang Kong, Zhenghao Liu, Shuo Wang, Haozhe Lin, Mingwei Fang, Yaping Huang, Erhong Yang
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13740v1
摘要:
自然语言处理(NLP)技术彻底改变了我们与信息系统交互的方式,其重点是将自然语言查询转换为正式查询语言(如 SQL)。然而,人们对语料库查询语言(CQL)的重视程度较低,而 CQL 是语言学研究和文本语料库详细分析的重要工具。手动构建 CQL 查询是一项复杂而耗时的任务,需要大量的专业知识,这对研究人员和从业人员都是一个显著的挑战。本文首次提出了文本到 CQL 任务,旨在将自然语言自动翻译成 CQL。我们为这项任务提出了一个全面的框架,包括一个专门策划的大规模数据集和利用大型语言模型(LLM)的方法,以有效地完成文本到 CQL 任务。此外,我们还建立了先进的评估指标,以评估生成查询的语法和语义准确性。我们创建了基于 LLM 的创新转换方法并进行了详细的实验。实验结果证明了我们方法的有效性,并让我们深入了解了文本到 CQL 任务的复杂性。
标题: i n f t y infty inftyBench:将长语境评估扩展到 100K 标记之外
author:Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen, Moo Khai Hao, Xu Han, Zhen Leng Thai, Shuo Wang, Zhiyuan Liu, Maosong Sun
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13718v2
摘要:
处理和推理长语境对于大型语言模型(LLM)的许多实际应用(如文档理解和代理构建)至关重要。尽管最近在使 LLM 处理超过 10 万个词组的上下文方面取得了长足进步,但目前仍缺乏评估这种长上下文能力的标准化基准。现有的公开基准通常侧重于 10K 左右的上下文,这限制了对 LLM 处理更长上下文的评估和比较。在本文中,我们提出了 ∞ \infty ∞Bench,它是第一个平均数据长度超过 10 万 token 的 LLM 基准。 ∞ \infty ∞Bench由跨不同领域的合成任务和现实任务组成,以中英文两种语言呈现。 ∞ \infty ∞Bench中的任务需要很好地理解上下文中的长依赖关系,因此仅仅从上下文中检索有限数量的段落不足以完成这些任务。在基于 ∞ \infty ∞Bench 的实验中,我们评估了专为处理长上下文而定制的最先进的专有和开源 LLM。结果表明,现有的长上下文 LLM 仍需大幅改进,才能有效处理 100K 以上的上下文。我们进一步介绍了有关处理长上下文的 LLM 行为的三项引人入胜的分析。
标题:Neeko:利用动态 LoRA 实现高效的多角色角色扮演代理
author:Xiaoyan Yu, Tongxu Luo, Yifan Wei, Fangyu Lei, Yiming Huang, Peng Hao, Liehuang Zhu
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13717v1
摘要:
大型语言模型(LLM)为开放域对话代理带来了革命性的变化,但在多角色扮演(MCRP)场景中却遇到了挑战。为了解决这个问题,我们提出了 Neeko,这是一个专为高效多角色模仿而设计的创新框架。与现有方法不同,Neeko 采用了动态低等级适配器(LoRA)策略,使其能够无缝适应各种角色。我们的框架将角色扮演过程分解为代理预培训、多角色扮演和角色增量学习,可有效处理见过和没见过的角色。这种动态方法与每个角色独特的 LoRA 模块相结合,增强了 Neeko 对独特属性、个性和说话模式的适应性。因此,与大多数现有方法相比,Neeko 在 MCRP 中表现出了卓越的性能,为用户提供了更具吸引力和更多用途的交互体验。代码和数据请访问 https://github.com/weiyifan1023/Neeko。
标题:GCOF:利用大语言模型自迭代生成文案文本
author:Jianghui Zhou, Ya Gao, Jie Liu, Xuemin Zhao, Zhaohua Yang, Yue Wu, Lirong Shi
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13667v1
摘要:
大型语言模型(LLM)(如 ChatGPT)大大简化了营销文案的生成,但要制作出满足特定领域要求(如有效吸引客户)的内容仍然是一项重大挑战。在这项工作中,我们引入了遗传文案优化框架(GCOF),旨在提高营销文案创建的效率和吸引力。我们在 LLM 的提示中进行了明确的特征工程。此外,我们还修改了遗传算法(GA)中的交叉算子,将其集成到 GCOF 中,以实现自动特征工程。这种整合促进了营销文案的自我迭代完善。与人工策划的文案相比,在线结果表明,由我们的框架生成的文案的点击率(CTR)平均提高了 50% 以上。
标题:User-LLM:利用用户嵌入实现高效的 LLM 上下文关联化
author:Lin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O’Banion, Jun Xie
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13598v1
摘要:
大型语言模型(LLM)为自然语言处理带来了革命性的变化。然而,有效整合复杂且可能存在噪声的用户交互数据仍然是一项挑战。为了解决这个问题,我们提出了 User-LLM,这是一个新颖的框架,它利用用户嵌入对 LLM 进行语境化。这些内嵌数据是通过自监督预训练从不同的用户交互中提炼出来的,可以捕捉潜在的用户偏好及其随时间的演变。我们通过交叉关注和软提示将这些用户嵌入信息与 LLM 相结合,使 LLM 能够动态地适应用户上下文。我们在 MovieLens、Amazon Review 和 Google Local Review 数据集上进行的综合实验表明,我们在各种任务中都取得了显著的性能提升。值得注意的是,在长序列任务和需要深入理解用户的任务上,我们的方法优于基于文本提示的上下文化,同时计算效率也很高。我们进一步加入了感知器层,以简化用户编码器和 LLM 之间的集成,从而降低计算需求。
标题:语言学习者与长视频相遇:利用交互式视觉适配器促进学习者对长视频的理解
author:Yunxin Li, Xinyu Chen, Baotain Hu, Min Zhang
date Time:2024-02-21
paper pdf:http://arxiv.org/pdf/2402.13546v1
摘要:
长视频理解是多媒体和人工智能交叉领域的一项重大而持续的挑战。利用大型语言模型(LLMs)理解视频成为一种新兴且前景广阔的方法。然而,由于视频标记数量庞大,这种方法的计算成本很高;标记聚合会降低视觉清晰度;在回答与视频相关的问题时,还会面临无关视觉标记带来的挑战。为了缓解这些问题,我们在 LLM 中提出了交互式视觉适配器(IVA),旨在增强与细粒度视觉元素的交互。具体来说,我们首先利用视觉编码器和经过预训练的因果转换器将长视频转换成时态视频标记,然后将它们与视频指令一起输入 LLM。随后,我们在 LLM 的内部区块中集成了 IVA,其中包含一个轻量级时帧选择器和一个空间特征交互器,以捕捉指令感知和细粒度的视觉信号。因此,拟议的视频 LLM 可通过适当的长视频建模和精确的视觉交互来促进对长视频内容的全面理解。我们在九个视频理解基准上进行了广泛的实验,实验结果表明,我们的交互式视觉适配器显著提高了视频 LLM 在长视频质量保证任务上的性能。消融研究进一步验证了 IVA 在长视频和短视频理解方面的有效性。