推荐:使用NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景
一个强大而专注于做善事的聊天机器人
如您所知,通过GenAI,我们为AI打开了一个窗口来生成文本或图像之类的东西,这很棒。
但与技术中的任何东西一样,它伴随着权衡,因为GenAI模型缺乏对“好”或“坏”的认识或判断。
实际上,他们已经通过模仿人类生成的数据来实现生成文本的能力,这些数据通常隐藏着有争议的偏见和可疑的内容。
可悲的是,随着这些模型变得越来越大,无论内容如何,简单地给它任何你能找到的文本的动机都是特别诱人的。
这会带来巨大的风险。
对齐问题
由于缺乏判断力,基础大型语言模型或通常所说的基本LLM特别危险,因为它们非常容易受到学习训练数据隐藏的偏见的影响,因为它们重演了相同的行为。
例如,如果数据偏向种族主义,这些LLM就会成为它的活生生的体现。这同样适用于同性恋恐惧症和你能想象到的任何其他歧视。
因此,考虑到许多人将互联网视为测试他们不道德和不道德极限的完美游乐场,LLM已经接受了几乎所有互联网的培训,没有任何护栏的事实说明了潜在的风险。
值得庆幸的是,像 ChatGPT 这样的模型是这些基本模型的演变,通过调整它们对人类认为“适当”的反应来实现的。
这是使用一种被称为人类反馈强化学习(RLHF)的奖励机制完成的。
特别是,ChatGPT通过OpenAI工程师的命令性判断进行了过滤,将一个非常危险的模型转变为不仅偏见少得多,而且在遵循说明方面也更有用和出色。
不出所料,这些LLM通常被称为指令调整语言模型。
当然,OpenAI工程师不应该负责决定对世界其他地方的好坏,因为他们也有相当多的偏见(文化,种族等)。
引用
归根结底,即使是最有道德的人也有偏见。
不用说,这个过程并不完美。
我们已经看到,在一些案例中,这些模型尽管据称是一致的,但对用户采取了粗略的、几乎是卑鄙的方式,正如许多 Bing 所遭受的那样,迫使Microsoft将交互的上下文限制在事情横盘整理之前只有几条消息。
考虑到所有这些,当两位前OpenAI研究人员创立Anthropic时,他们想到了另一个想法...... 他们将使用人工智能而不是人类来对齐他们的模型,并采用完全革命性的自我对齐概念。
从Massachusetts到人工智能
首先,该团队起草了一部宪法,其中包括《世界人权宣言》或苹果的服务条款。
通过这种方式,该模型不仅被教导预测句子中的下一个单词(就像任何其他语言模型一样),而且还必须在它给出的每个响应中考虑决定它可以说什么或不说什么的宪法。
接下来,真正的人工智能不是人类,而是负责对齐模型,有可能将其从人类偏见中解放出来。
但Anthropic最近发布的关键消息不是将他们的模型与人类可以容忍和利用AI的东西对齐的概念,而是最近的一项公告,使Claude成为GenAI战争中坚定不移的主导者。
具体来说,它已将其上下文窗口从 9,000 个代币增加到 100,000 个。前所未有的改进,具有无与伦比的影响。
但这是什么意思,这些含义是什么?
一切都与代币有关
让我明确一点,这个“代币”概念的重要性不容忽视,因为尽管很多人可能会告诉你,LLM 不会预测序列中的下一个单词......至少不是字面意思。
生成响应时,LLM 会预测下一个标记,该标记通常表示 3 到 4 个字符,而不是下一个单词。
当然,这些标记可以代表一个单词,或者单词可以由其中几个组成(作为参考,100 个标记代表大约 75 个单词)。
在运行推理时,像 ChatGPT 这样的模型将你提供给它们的文本分解成几部分,并执行一系列矩阵计算,这个概念被定义为自我注意,将文本中的所有不同标记组合在一起,以了解每个标记如何影响其余部分。
这样,模型就可以“学习”文本的含义和上下文,然后可以继续响应。
问题是这个过程对于模型来说是非常计算密集型的。
准确地说,计算要求与输入长度是二次的,因此您提供的文本(称为上下文窗口)越长,在训练和推理时间中运行模型的成本就越高。
这些迫使研究人员大大限制提供给这些模型的输入大小,大约在2,000到8,000个令牌之间的标准比例,后者约为6,000个单词。
可以预见的是,限制上下文窗口已经严重削弱了LLM影响我们生活的能力,使它们成为一个有趣的工具,可以帮助您解决一些事情。
但是,为什么增加此上下文窗口可以释放LLM的最大潜力?
嗯,很简单,因为它解锁了LLM最强大的功能,上下文学习。
无需培训即可学习
简而言之,LLM具有一种罕见的能力,使他们能够“在旅途中”学习。
如您所知,培训LLM既昂贵又危险,特别是因为要培训它们,您必须将您的数据交给他们,如果您想保护您的隐私,这不是最佳选择。
此外,每天都有新数据出现,所以如果你不得不不断地微调——进一步训练——你的模型,LLM的商业案例将绝对被拆除。
幸运的是,LLM擅长这个被描述为上下文学习的概念,这是他们在不实际修改模型权重的情况下学习的能力。
换句话说,他们可以学会回答您的查询,只需向他们提供所需的数据,同时您向他们请求您需要的任何内容......无需实际训练模型。
这个概念,也称为零镜头学习或少镜头学习(取决于它需要多少次看到要学习的数据),是LLM使用他们以前从未见过的数据准确响应给定请求的能力,直到那个时间点。
因此,上下文窗口越大,您可以提供给它们的数据就越多,因此它可以回答的查询就越复杂。
因此,尽管小上下文窗口可以用于聊天和其他更简单的任务,但它们完全无法处理真正强大的任务......直到现在。
秒内星球大战传奇
我会进入正题。
正如我之前提到的,最新版本的 Claude 1.3 版可以一次性摄取 100,000 个代币,或大约 75,000 个单词。
但这并不能告诉你很多,不是吗?
让我给你一个更好的了解,什么是适合75,000字。
中标题
从弗兰肯斯坦到阿纳金
你现在正在阅读的文章不到2字,比Claude现在一口气摄入的文章少了000.37倍以上。
但是什么是可比规模的例子? 好吧,更具体地说,75,000字代表:
大约玛丽雪莱的弗兰肯斯坦书的总长度
整本《哈利·波特与魔法石》全书,共 76,944 字
任何纳尼亚传奇书籍,因为所有书籍的字数都较小
最令人印象深刻的是,它足以包括多达 8 部星球大战电影的对话......组合的
现在,考虑一个聊天机器人,它可以在几秒钟内让你有能力向它询问任何你想要的关于任何给定文本的信息。
例如,我最近看了一个视频,他们给了Claude一个长达五个小时的约翰·科马克播客,这个模型不仅能够用几个词总结整个播客,还能够在五个小时的演讲中指出在一个精确的时刻所说的特定内容。
令人难以置信的是,这个模型不仅能够用75,000字的成绩单做到这一点,而且令人兴奋的是,它还可以使用它第一次看到的数据。
毫无疑问,对于学生、律师、研究科学家以及基本上任何必须同时处理大量数据的人来说,这是巅峰解决方案。
对我来说,这是人工智能的范式转变,这是我们很少见过的。
毫无疑问,真正颠覆性创新的大门已经为法学硕士打开。
令人难以置信的是,人工智能在短短几个月内发生了怎样的变化,每周的变化速度也有多快。我们唯一知道的是它正在发生变化......一次一个令牌。