研究发现,LLM基于数据的内在含义进行表示,并以其主导语言推理

 每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

【本周AI新闻: Deepseek崛起背后:AI智能代理时代正式到来?】 https://www.bilibili.com/video/BV1ud99YCEJB/

像人脑一样,大型语言模型也能以通用方式推理多种数据

MIT研究发现,LLM基于数据的内在含义进行表示,并以其主导语言推理

早期的语言模型只能处理文本,而如今的大型语言模型(LLM)已经能跨越多种数据类型执行复杂任务——不仅能理解多种语言,还能生成代码、解数学题,甚至分析图像和音频。

MIT的研究人员深入探究了LLM的内部机制,发现它们在处理不同数据时,竟然与人脑有些相似之处。

LLM的“大脑”结构:语义中心+多模态处理

神经科学研究表明,人脑在前颞叶(anterior temporal lobe)拥有一个“语义中心”,专门用来整合视觉、触觉等多种感官信息,同时依靠一些“专门通道”来传递不同类型的数据。而MIT的研究显示,LLM也存在类似的机制——它们会将多模态数据以抽象化方式进行统一处理。

换句话说,一个以英语为主导语言的LLM,在处理日语、数学运算、计算机代码等内容时,仍然会先“转换”成英语作为核心媒介进行推理。更有趣的是,研究人员发现,即便模型正在处理其他语言的数据,也可以通过插入其主导语言的文本,来干预并改变其输出结果。

这一发现或许能为未来的LLM训练提供新思路,使其更好地应对多种数据类型。

深入解析LLM的推理方式

早期研究已经发现,以英语为核心的LLM在处理其他语言时,仍然会依赖英语进行推理。此次MIT团队更进一步,详细剖析了LLM如何处理不同类型的数据。

LLM由多层神经网络组成,输入的文本会被拆解成单词或子单元(token),然后模型会为每个token赋予特定的表示,以便理解它们之间的关系并生成合理的输出。对于图像或音频,模型会将其转换成类似token的单位,代表特定区域或片段。

研究人员发现,模型的前几层会先以特定语言或数据类型进行处理(类似于人脑的“专门通道”),随后在更深层次将这些信息转化为通用的、与具体数据类型无关的语义表示(类似人脑的“语义中心”)。

例如,即便一张图片和它的文字描述属于完全不同的数据类型,只要它们的含义相同,LLM就会为它们分配相似的内部表示。

更令人惊讶的是,一个以英语为主导的LLM,在处理中文输入时,仍然会先“在心里”将其转换成英语,再输出中文结果。类似地,模型在处理代码、数学题或其他多模态数据时,也会表现出类似的推理习惯。

实验验证:“思考”方式接近人类大脑

为了验证这一假设,研究人员进行了两组实验:

  1. 让LLM处理一对意义相同但语言不同的句子,并测量模型内部的表示是否相似。
  2. 让一个以英语为主的LLM处理其他语言(如中文)文本,并分析其内部表示更接近英语还是中文。

结果显示:无论是处理语言文本,还是代码、数学题等不同数据类型,LLM都会倾向于以英语为核心进行表示和推理。

“很多输入数据类型看起来与语言毫不相干,比如数学或代码,但我们竟然能在模型处理中发现英语的‘痕迹’——这真的非常意外。”研究负责人吴兆锋(Zhaofeng Wu)表示。

如何利用LLM的“语义中心”?

研究团队认为,LLM可能是因为“节约认知资源”才发展出了这种“语义中心”机制。

“世界上有成千上万种语言,但它们共享大量的知识,比如常识或事实性知识。如果模型能用一种核心语言统一推理,就不需要在每种语言中重复存储相同的知识。”吴兆锋解释道。

研究人员进一步测试了干预LLM语义中心的方法:当模型处理非英语数据时,插入英语文本进行干预,结果发现他们可以可预测地改变模型的输出,即便最终输出仍然是其他语言。

这一发现有望帮助科学家优化LLM,使其更高效地跨越不同数据类型进行推理。然而,研究人员也指出,一些文化特定的知识无法通过英语来完全转译,因此LLM仍然需要一定程度的语言专属处理机制。

“未来的研究可以探索如何在最大程度上共享知识,同时保留各语言的独特处理方式。”吴兆锋表示。

此外,这一研究也可能有助于改善多语言模型。通常,一个以英语为主的LLM在学习其他语言后,可能会导致其英语能力下降。而深入理解LLM的语义中心,或许可以帮助研究人员减少这种“语言干扰”现象。

AI与人脑的联系:更深层次的探索

“理解LLM如何跨语言和多模态处理数据,是人工智能领域的核心问题。这项研究提出的‘语义中心假设’,不仅与人脑的认知机制相呼应,还通过实验验证了该机制在现代LLM中的存在。”特拉维夫大学计算机科学学院的莫尔·格瓦(Mor Geva Pipek)教授评论道。

这项研究不仅为多模态模型的未来发展提供了新方向,也可能进一步揭示LLM与人类大脑功能的潜在联系。

研究由MIT-IBM Watson AI Lab部分资助,并将在国际学习表征会议(ICLR)上发表。

你可能感兴趣的:(人工智能,自然语言处理,语言模型,深度学习,copilot)