快速了解大语言模型

前言:

本博客是基于李宏毅老师于2023年11月10日发布的大模型介绍视频作出的提炼总结。

一、现阶段的ChatGPT可以做什么

1.解答某些专业知识领域的问题

李宏毅老师(以下简称“李”)用台大的线性代数期中试题举例,让ChatCPT去做里面的判断题并给出解释,试验发现结果正确率为80%,即使如此,GPT在对某些问题的解释上仍存在问题。

2.根据示例仿写语段

李让GPT参考给出的五条体示例生成一段描述线性代数的语段,不得不说,博主本人看到GPT的结果后还是忍不住笑了出来,在此也将示例放出供各位看官欣赏:

李给出的示例:

五条悟: 宿傩太强了 而且宿傩还没有使出全力的样子 对方就算没有十影也会赢 我甚至觉得有点对不起他 我没能在这场战斗中展现我的全部给宿傩 杀死我的不是时间或疾病 而是比我更强的家伙,真是太好了

GPT参照示例给出的描述:

线性代数太难了 而且考题还没有涵盖全部范围的样子 即使不考特征值也很难 我甚至觉得有点对不起教授 我没能在这场考试中展现我的全部给线性代数 打败我的不是懒惰或遗忘 而是比我更难的理论,真是太好了

看到这里,苦逼大学僧露出辛酸的笑……

二、GPTs:打造AI应用只要一瞬间

前几日在OpenAI的开发者大会上,OpenAI推出了新的功能:GPTs,它可以让用户使用GPT在一瞬间打造出一个新的应用。

怎么一个新法呢?

不妨通过下面的示例来解释这个新:

使用过chatGPT的人应该都会被GPT的智慧深深折服,它就像个智囊一样,无所不知,无所不晓。但是!如果你问它这周的离散数学作业ddl是啥时候,你收到的回答一定是除正确答案外的其他答案。如此看来,GPT也没有那么无所不知无所不晓嘛。

然而,这就是GPTs做的事。

利用GPTs,你可以打造出一个专属的离散数学助教。

你没有听错!专属助教!(超大声)

还在为记不住ddl烦恼吗?还在为没有时间梳理课件知识而惆怅吗?来吧,在GPTs中上传你的课件,感受魔法的力量吧(bushi

现在你来问:这周的离散数学ddl是什么时候? 此时你收到的将会是正确的答案。从何而来?没错,就是你提供给GPT学习的课件。换言之,GPTs的强大之处就在于,让GPT有了阅读学习用户上传给它的资料的能力,而不再只局限于出厂商提供的知识。

看完之后你觉得简单吗?

其实很简单。

真的简单吗?

一点都不。

为什么?

时代变了。

回想GPT的爆火到现在还不到一年时间。最初听说它的时候,还是从同学口中,那个时候,它还只是一条微博热搜,和其他头条没什么不一样,无非是悬挂的时长多了几天。那时的我貌似还只知道,有了它,很多水作业就有盼头了。而这些,只是一个缺乏想象力的大学生所能洞见的全部罢了。

还有什么呢?

半年前:GPT这么厉害,我来做一个GPT小助手的平台吧
疯狂加班……
11月10日晚:OpenAI推出GPTs,每个人都能定制自己的GPT,还能放到商店赚钱

半年前:GPT上下文长度不行啊,我来优化一下
疯狂加班…… 11月10日晚:GPT4 Turbo上下文长度增加到128k

半年前:ChatGPT的知识停留在2021年,我来拓展一下! 疯狂加班……
11月10日晚:GPT的知识库更新到2023年4月

半年前:GPT不支持多模态,我来优化一下
疯狂加班……
11月10日晚:新GPT支持图像、语音、代码解释器!

可以说,一夜之间OpenAI就让很多想利用大模型来做点延申开发的工作失去了价值。

但是对于我们普通用户来说,以后,只需要简单的几个按钮,就可以打造你自己的AIapp。

三、ChatGPT原理介绍

1.从名字出发

  • chat:字面意思,聊天

  • G:代表了Generative,即 生成

  • P:Pre-trained,即 预训练

  • T:Transformer,2017年Google在Attention Is All You Need论文中提出的一种模型,ChatGPT正是基于此搭建出来的

2.ChatGPT真正做的事——文字接龙

ChatGPT把用户输入的句子作为一个字头,据此在自己存储的所有的token里按照概率分布寻找合适的token拼接上去,然后将这个token附加到字头中,再次进行寻找下一个token的操作,如此迭代,循环往复至下一个token最有可能为END(句子在此处最有可能结束)时停止。

因此,ChatGPT的输出其实是一种机率分布(掷骰子)。也正是由于掷骰子这种操作本身的随机性,所以当用户向GPT提出同一个问题时,得到的回答会有所不同。

此外,正是因为GPT的工作本质上是文字接龙,所以很多时候它的回答并不真实,而是“撒谎”。

3.为什么是掷骰子而不是选择机率最高的token作为输出?

在2019年发表的论文The Curious Case Of Neural Text Degeneration中就曾发现,如果每次都选择机率最大的token,那么模型的回答就会十分固定和死板。相反,如果采用掷骰子的方法,则能够得到比较自然的回答。

4.GPT如何学习文字接龙?

任何文句都可以是教材!

eg:网络上无穷无尽的资料

5.大语言模型是如何根据所学产生出一个关于token的概率分布呢?

方法:模型背后巨大的类神经网络。ChatGPT所采用的是Transformer。

什么是类神经网络?

其实就是一个有很多参数的函数,本质上是对线性代数的应用(矩阵、向量的相乘)

一个形象的比喻:

如果说模型的参数量代表了模型的天赋,那么用来投喂给模型的资料量就是模型后天的努力

6.GPT3的出现

6.1.GPT3的参数量:175B 训练资料:580GB

6.2.GPT3的表现如何?

差强人意

原因:GPT只是无脑学习网络上的资料,不知道人类的需求是什么。它就像是山野中长大的孩子,不知道自己应该沿着哪个方向做事情,有时候甚至不会给出你问题的回答,而是给你几个选项让你从中挑选。

7.模型微调(督导式学习)

7.1. 为什么要微调模型

从上面对GPT3的分析可以看出,我们必须要采取手段,告诉GPT人类的需求,而不是让它漫无目的地自己摸索应该回答什么。

换言之,对于遍览网络资料的GPT(山野中的野孩子),我们需要让它继续学习,与之前不同的是,这次需要由人类老师给出它学习的方向,指引它向某一方面学习,这个让模型继续学习的过程,就是微调,这种学习方式,就叫做督导式学习。与之相对的,先前让GPT自己从网络上学习的方式,叫做自督导式学习。如果把跟着老师学习称为真正意义上的训练,那么模型自督导式学习的过程就称为预训练

经过微调以后的模型,会将相应token出现的概率提高。以后在对它进行相关提问时,这些相关的token就更有可能出现,以此来使模型更倾向于回答相关专业和领域的知识。

7.2. 督导式学习的重要性

在2023年发表的论文InstructGPT中指出,参数量小但经过督导式学习的模型在性能上要好过参数量大但未经督导式学习的模型。

从中可以窥见,对于天资再好的“学生”,有个“好老师”也是很重要的。

7.3. 预训练的重要性

有了预训练以后,督导式学习不用大量资料,它更像是一种画龙点睛。

通俗来讲,一个学生预习到位了之后,课堂上老师只需要稍微点播,而不需要讲太多东西。

那么预训练有多厉害呢?

李实验发现,在对GPT进行多重语言的预训练后,只要教某一个语言的某一项任务,它就会自动学习其它语言的同样任务。换言之,让GPT学习了英文阅读后,它就能自动学会中文的阅读。

8.增强式学习(RL)

在RL里,人类老师不再像督导式学习里那样提供正确答案,而是提供回馈,告诉语言模型什么样的答案是好的,什么样的是不好的。

经过这样一种feedback,模型会想办法提高你认为好的答案出现的概率。

也正是由于RL的这种特性,它往往被放在预训练和微调后,作为最后一步。换言之,模型必须要偶有佳作,人类才能从中挑选出一些好的回答,如果它提出的回答都不好,即使人类勉强说某些差的答案是好的,也不会有太大的帮助。

回归本质,RL其实是在让模型模仿人类老师的偏好,训练出一个额外的Reward Model。当这个Reward Model训练到一定程度后,它模型就可以取代人类老师,去教模型给出更符合人类老师要求的答案。

9.阶段总结

综上所述,ChatGPT的学习有3个阶段:预训练,督导式学习,增强式学习。后两个阶段又被统称为“对齐”,对齐什么东西呢?对齐人类的需求。

GPT3.5就是GPT3经过督导式学习和增强式学习后得到的产物。

四、ChatGPT4

1.GPT4最大的突破:看得见了!

2.人类如何更好地使用ChatGPT

  • 把需求讲清楚

  • 提供资讯给ChatGPT

  • 提供范例

  • 鼓励ChatGPT想一想

    • 具体实验发现,在对GPT进行提问时,出现“详细列出过程”“一步一步展现”等字眼而不是让它“直接给出结果”可以有效提高GPT回答地正确率。

  • 找出让GPT作出更好回答地“咒语”

  • 上传档案

    • 给GPT提供课件、论文之类地参考物,GPT可以自主阅读,并回答相关问题,其实就是对GPT进行了督导式学习

  • 将ChatGPT与其他AI工具结合

  • 先拆解任务,然后将拆解后的任务分开喂给ChatGPT

  • 引导机器自己做计划

  • 利用ChatGPT的反省机制

  • 引导GPT与真实环境互动

    • 关于这一方面的训练有望实现以GPT为大脑去操控机器做事

五、总结

关于李宏毅老师视频中所讲的大模型的基础知识就总结到这了。下面是博主个人的一些感悟。

就像李宏毅老师在视频中提到的:“在我的实验室,我出钱让学生们用GPT4,而且我要给大家建立一个关键观念,你给教授看论文,没有让GPT改过,是一个失礼的行为,今天,没有任何人应该会有错字或者不通顺的英文了,因为所有的东西,都由ChatGPT改过了。”在对ChatGPT众说纷纭的当下,人类应该多思考如何去利用这一强大的工具去做事,改善人类生活。

纵观人类发展史,从新石器时代到金属时代,人类走了一万多年;从金属时代到蒸汽时代,人类走了四千多年;从电气时代到信息时代,人类走了一百年;从电气时代到信息时代,人类走了七十多年。科技的进步越来越快,而今,一个新的时代又在展露轮廓。适逢这一时刻,我认为我们比远比自己所能想象到的更幸运。智能时代,诚可谓为一百年未有之大变局。

我们似乎已经看到数字世界挺进的步伐,或者,它正在未来,凝望着我们。

新时代,当大有可为。

你可能感兴趣的:(机器学习,人工智能,语言模型,gpt-3,程序人生,chatgpt,gpt)