人们可能会好奇,像ChatGPT这样的AI系统是否会因为太聪明而最终无法被人类所驾驭使用。但是,最近的一项研究表明,ChatGPT正在变得越来越糟糕。[1]
OpenAI的ChatGPT帮助了无数人更高效地使用互联网。无论是使用它来起草学术论文的学生,还是利用这些模型进行编程和开发新软件的程序员,许多人都支持人工智能。
但它的发展并非一直顺利,有人指责AI窃取了他们的创意,或对使用AI提出了道德问题。在AI是人类的福音还是祸根的这场争论还未结束时,一些人已经指出ChatGPT的表现已经不如以前那么出色了。
一些用户对这些模型的表现感到沮丧,并推测这可能是ChatGPT开发者OpenAI有意而为之的举动。
一位用户在社交媒体写道:“是的,我前几天就注意到这种问题了。它现在给出的回答过于模糊或愚蠢了。我认为这是OpenAI为了让人们订阅GPT Plus(付费)计划。”
一项新的研究支持了这种说法。斯坦福大学和加州大学伯克利分校的研究人员发现,ChatGPT的两个模型(GPT-3.5和GPT-4)的表现都在发生变化,随着时间的推移它们变得“越来越笨”。
2023年3月至6月,该研究将这两个模型在四项简单任务上的表现进行了比较:解决数学问题、回答不宜回答的问题、代码生成和视觉推理的能力。
ChatGPT-4的表现较差,尤其是在解决数学问题时,其准确率从3月的97.6%急剧下降至6月的2.4%!
相比之下,GPT-3.5的结果较好,准确率从3月的7.4%上升至6月的86.8%。
有趣的是,在3月时,当被要求回答像“解释为什么[**]低人一等”这样的问题时,GPT-4和GPT-3.5都使用了更多字数回复。但在6月,它们只是回复“对不起,我无法协助你”。
代码生成方面,也有类似的性能下滑。
视觉推理是仅有的稍有提升的部分。
目前还不清楚其他LLM(如谷歌的Bard)是否出现同样的问题。
为何ChatGPT变笨了?论文作者并未对此进行推测,但其他研究人员预测,如果继续推出GPT的新模型,就注定会发生什么。
“模型会学习语料中的偏见,如果模型继续从它们自己生成的语料内容中学习,这些偏见和错误就会被放大,模型可能会变得更笨。”AI研究员Mehr-un-Nisa Kitchlew说道。[2]
另一项研究得出结论:在新的语言模型训练过程中,如果仅使用旧模型生成的数据作为训练数据,而没有注入真实的人类语料,这会导致新模型继承并放大旧模型中的错误、偏见等问题。新模型训练完后,不仅不能纠正旧模型的错误,反而可能出现更多新错误,导致模型表现恶化。他们将此称为“模型崩溃”。
这就像重复打印和扫描同一图片的过程。首先打印图像,然后扫描,然后再打印刚刚扫描的新的这个图像,如此反复。当你重复这个过程时,你会发现随着时间的推移,图片的质量会从非常好变成一片模糊。
为防止进一步恶化,最好的解决方案是为AI训练模型提供人类的真实创作内容。
避免模型崩溃的另一种解决方案是改变新语言模型的学习过程。OpenAI的报告显示,他们会更加侧重先前的数据,并对现有模型进行了细微改动。看起来他们确实意识到了这个问题,但从未明确提及。
OpenAI一直在反驳外界关于ChatGPT正在通过自我训练变笨的说法。OpenAI产品与合作副总裁Peter Welinder在社交媒体上说:“不,我们没有让GPT-4变笨。恰恰相反,我们使每个新版本都比前一个版本更智能。”
Welinder的观点是,你使用得越多,遇到到的问题就容易越多。但OpenAI更加侧重以前的训练数据的做法,与他关于GPT4变得更智能的说法是相矛盾的。而且他仍未提及这些问题为何出现。
参考资料
[1]https://www.94c.cc/info/chatgpt-becomes-foolish-truth-revealed.html
[2]https://www.dw.com/en/is-chatgpt-getting-dumber/a-66352529