早在一个多月前,ChatGPT性能下降的传闻便开始在网上流行,不少订阅了Plus版的用户纷纷表示,感觉ChatGPT在经历了几轮更新后开始降智,甚至有时反应速度也会出现问题。而如今,这一传闻终于得到了证实。
就在本周,斯坦福大学和加州大学伯克利分校的研究人员发表了一篇论文,验证了ChatGPT近几个月来的变化,即ChatGPT的多方面能力出现了波动,尤其是在处理编码和组合任务方面的效率发生了严重下滑。
此篇论文的发布也在业界引起了热议,不少AI领域大牛都在各个平台发表了自己的看法,而有关ChatGPT性能变化原因的分析以及OpenAI究竟意欲何为的推测也开始如野火般在圈内蔓延。
根据论文介绍,研究人员评估了2023年3月和6月版本的GPT3.5和GPT4模型在四个不同任务上的表现,包括解决数学问题、回答敏感或危险问题、生成代码以及根据图像识别进行视觉推理。
令人感到惊讶的是,实验结果证明了这两款大模型的性能和行为会随时间推移发生很大变化。例如3月版的GPT4在解决数学问题方面非常出色,素数识别准确率能达到97%以上,而6月版的准确率居然暴降至了仅2.4%。
代码生成方面,从3月到6月,GPT4生成代码的可执行率从50%暴跌至了10%,GPT3.5虽然下降不太明显,但也出现了同样趋势。并且在处理相同任务时,相比此前,6月版的两款模型生成代码的用时都有了一定增加。
而在回答敏感问题以及图像推理方面,两款模型的两个版本差异则不明显。由于增加了更多护栏限制,6月版GPT4对敏感问题的控制能力提升了16%,GPT3.5则下降了6%。而在图像推理方面,不同版本之间几乎没有区别。
关于GPT模型性能衰退的原因,不少业内人士也纷纷给出了自己推测。归结起来大致可以分为三类,其一是OpenAI为了降低成本牺牲了模型性能,其二是过多AI对齐限制了模型能力,其三则是一个有些阴谋论的观点——OpenAI是故意为之。
根据SEEK 全球人工智能总监Conan的推测,OpenAI在构建GPT4时大概率采用了混合专家模型(MOE)架构,也就是说GPT4并非是一个大模型,而是由多个特定领域小型专家模型所组成。值得一提的是,OpenAI创始人Greg Brockman也曾在自己所参与的研究中提到过MOE这条技术路径。
这样的架构理论上能够让GPT4更便宜、更快速地生成响应,但Conan也表示,“使用混合专家模型虽然能够提供性价比方面的优势,但在模型成本和质量之间需要进行取舍。”在论文发布后,Conan也特地发表了一条推特表示自己的想法很可能得到了验证。
英伟达AI科学家Jim Fan则在推特上分享了另一个角度的观点——安全性与性能的权衡。根据Jim Fan的猜测,OpenAI从3月至6月花费了大量精力为GPT4切除脑叶(进行AI对齐),但他们没时间完全恢复其他的重要功能。
几个月前微软研究院发布的一篇论文也曾提到过这一观点:对AI模型所进行的任何AI对齐,都会损失模型的准确性和性能。根据顾得哈特定律,奖励模型并非完美代理,因此过度的AI对齐会阻碍模型对任务理解的真实程度及反应速度。
除此之外,目前一个有些阴谋论的观点也在网上得到了大量的传播——OpenAI故意降低GPT4的编码能力,以便更多人为Copilot买单。而支持这一观点的主要论据,则是微软几天前刚刚将Copilot的定价提高了惊人的83%。
作为身处漩涡中心之“人”,对于ChatGPT性能下降一事,其实OpenAI自5月底开始已经进行了多次回应。5月31日,OpenAI官方技术发言人Logan.GPT就曾在一条讨论ChatGPT性能问题的推特下留言表示,GPT4在API模式中的质量并没有下降。
7月14日,OpenAI产品副总裁Peter Welinder也亲自发推表示,“不,我们没有让GPT4变笨,恰恰相反,我们让每个版本都比上一个版本更加聪明。”对于网友留言所提出的质疑,Peter还解释道,“当你更多使用它,你就会开始注意到以前没有注意过的问题。”
然而伴随着论文的发布,OpenAI对于此事的底气与态度也发生了一些转变。就在周三,Logan.GPT回应了论文作者之一Matei Zaharia在推特上发表的论文链接。然而这次Logan.GPT一改此前话锋,不仅感谢了Matei的研究,还表示OpenAI正在调查此事,并提出愿意为此后的实验提供帮助。
对于Logan.GPT前后不一的言论,不少网友也在这条推特下方开启了嘲讽。一位名为Pranay的网友提到,“想要让别人帮你进行评估和解决问题,你先开源自己的模型如何?”然而截止目前,无论是Logan.GPT还是其他OpenAI人员都没有再对推文进行评论。
伴随着论文再一次坐实ChatGPT性能下降的事实,越来越多来自业界的指责与质疑也在指向OpenAI。AI科学家Daniel Jeffries在接受采访时表示,OpenAI应当在推出新变化时继续对旧版本模型进行支持,以便软件开发人员能将工作建立在可靠工具上,而不是在没有提示的情况下进行更新。
解决不稳定性问题的最佳解决方案就是开源模型,例如Meta刚刚宣布开源的Llama2。通过广泛分布的权重,这些模型可以让研究人员从相同基线开始工作,并获取稳定可重复的结果。微软近期与Meta的密切合作也在证明这条路线的可行性。
Hugging Face人工智能研究员Sasha Luccioni也认为OpenAI的不透明性存在很大问题,“任何闭源模型的结果都是不可复制和验证的,科学家们也没有责任持续监控已经部署的大模型。虽然GPT4非常优秀,但未来的更多应用与研究将会建立在更加透明和稳定的模型之上。”
值得一提的是,在Llama2发布后,包括英伟达、AMD、HuggingFace、GitHub、DataBricks等在内的一众科技巨头高管,以及伯克利、MIT等顶尖院校的教授也纷纷官宣将于Meta进行合作。而这对于如今受困于模型性能问题的OpenAI来说无疑是一个雪上加霜的消息。
虽然目前业内也有部分专家也在质疑这份论文中所提出的检测方法的准确性。但无论是论文中所显示的巨大的数据差异,还是大量来自用户的反馈,亦或是OpenAI对待此事时的态度的转变,无疑都证明了GPT4模型在过去几个月确实出现了一些问题。
我们必须承认的是,如今的OpenAI依然伫立在AI技术之巅。关于技术层面的问题,如果连OpenAI也无法顺利解决,那么这对于其他企业而言也将会成为一个短期内难以逾越深谷。
然而即便OpenAI在技术上拥有着领先优势,但越来越多来自竞争对手的压力与大模型市场格局的加速变化,也使得OpenAI这家年轻的明星公司逐渐暴露出了一些在长远布局规划方面的短板,近期ChatGPT访问量增长率的大幅下降也足以说明一些问题。
一个明显的道理是,当周遭一切都在飞速发生变化时,只有拥有足够强大适应能力并能够根据环境作出相应改变的物种,才拥有长期生存及持续发展的权利。而就目前来看,留给OpenAI作出改变的时间已经越来越紧张了。
最后,关于ChatGPT降智的原因,你有什么不同的看法呢,欢迎在评论区分享你的观点。