谭中意 | 百模大战方酣,AI 开源亮剑


点击以下链接收听本期 “大咖访谈” 播客,与大咖面对面:
大咖访谈链接:谭中意 | 百模大战方酣,AI 开源亮剑

刘天栋:访谈主持,开源雨林顾问,开源社联合创始人,Apache 软件基金会正式成员
谭中意:访谈嘉宾,Apache 软件基金会正式成员,LF AI & Data TAC 成员,开放原子基金会 TOC(技术监督委员会)主席,第四范式资深架构师AI

开源是主流趋势?

您是如何看待人工智能与开源的呢?它会为我们人类社会带来什么机遇和挑战?

谭中意:开源是一种社会化的协作模式,而 AI 一开始就是开源的,因为 AI 起源于学术界的教授与博士,他们的主要活动就是发 Paper,需要让所研究的成果能被重现,因此那些能被重现的程序和代码,一定是开源的。因此从 AI 出现到现在,开源一直都是默认的选择,虽然也有部分不开源的项目,但相对较少,比如 OpenAI 并未开源它的 GPT-3.5 与 GPT-4,但这是少数。从大趋势来看,AI 的许多问题与挑战都需要通过全球范围内透明的、大范围的协作来解决,而这只能通过开源进行,因此开源一定会在 AI 里成为一个重要的、或者说是主流的工作方式。

开源大模型与多模态

之前您有一篇文章:《中国开源大模型这一仗怎么打?分三步》,您能简单介绍一下大致内容吗?

谭中意:在这篇文章里面,我首先分析了大模型为何这么重要。大家也都能看到,ChatGPT 在去年10月份发布,至今已有半年多,它在国内非常火爆,我认为主要有两个原因:

  • 第一次以一种 To C 应用的方式,让普罗大众能体会到 AI 的能力。

    正如吴恩达所说:“AI is the new electricity。” AI 已经在众多企业内部创造了巨大的商业价值,例如百度搜索背后的广告系统、字节抖音的推荐系统,以及一些电商企业内等,我们称之为“搜广推”的场景,这些场景后面都是有千亿级参数的推荐大模型在服务,但普通用户在这方面的感知比较少。

    而 ChatGPT 用一个非常自然的方式让我们与之对话,它就像一个智能管家,能回答各式各样的问题,这种方式立马显现出了 AI 的能力。回想到电力时代,真正让电力走进千家万户的是爱迪生发明的电灯,ChatGPT 就好比这电灯,迅速将这种 To C 的应用推到大众面前,让其产生了破圈和爆发的结果。

  • 它提出了一种新的交互方式,用户交互方式的改变总是能引起一个划时代的改变。

    跟计算机交互最早是通过命令行,后来 Windows 和 Mac 推出了图形化界面,直接把 PC 推进了千家万户;然后苹果用手指这个交互工具,代替了传统手机上的键盘和触控笔,从而掀起智能手机的革命;而现在,自然语言交互这种交互方式强势来袭,我们只需要用自然语言表达出来,软件就能理解并执行。我觉得在 ChatGPT 之后任何流行起来的软件一定会基于这种“Language user interface(LUI)”交互方式来做改变。

ChatGPT 同时拥有这俩个特点,也给 AI 产业打了前所未有的强心针。

其实我研究 AI 已经有很多年了,之前的 AI 场景中相对有巨大商业价值的基本都集中在“搜广推”,但总体比较单调,技术上未有大的突破,直到 ChatGPT 出现,打开另外那一扇门。之前我们所看到的场景,有商业价值的都是叫决策性 AI ——即判断是或不是、用户会不会点等情况;生成式样大模型出现之后,生成式 AI 点燃整个市场,现在在企业内部,有决策性 AI 可以服务“搜广推”场景,同时也有新的生成式 AI 来改造所有的 To B 软件来提升各个场景的效率。

我觉得大语言模型最厉害的地方在于:通过大量的模型训练,它浓缩了全世界大部分的知识。现在 GPT-3.5 大概有 1750 亿参数,再加上多模态之后,GPT-4 大概含有 2 万亿参数,而 GPT-4 还不是一个严格意义上多模态大模型。

什么是多模态对齐?为什么说现在的 GPT-4 还没有做到真正多模态对齐?

谭中意:多模态就是说,不仅仅能从文本数据里发现规律,还能从视频、音频等不同形态的数据里发现规律。为什么说现在的 GPT-4 还没有做到真正多模态?就在于它还未做到多模态对齐。假设我们看视频,视频里有图片、语音、字幕等,基于同一时间线,将图片、语音、文字连在一起,共同发现其中的规律,这个我们称之为“多模态对齐”,达到这种程度的大模型,我觉得 2 万亿参数是不够的,可能还需要再乘以 100 甚至 1000,这种大模型一定能成为一个大而全的百科全书,以后的学习、教育等基本与之交互,而知识就是力量,决定产业、教育、国防等多个行业,所以我将它定义为 “下一代数字经济的核心基础设施”。

开源协作现在正是百模大战阶段,大家在资源有限的情况下应该如何协作呢?

谭中意:首先中国应该建立一个开源的 Foundation Model 或者叫 Base Model,这个 Base Model 在能力上不输于 GPT-3.5 或者 GPT-4,但这个模型不会作为线上服务,而是各个企业拿过去之后,再进行 Fine-tuning,然后结合自有的私有数据再进行部署,而训练这个大模型的过程中需要的各种数据、程序等是可以通过开源进行共建的。

您觉得有可能建一个开源的 Base Model 么?

谭中意:当然有可能!做还有可能,不做永远就没有可能。但这件事需要由组织者进行决策,而由于技术路线上的挑战、团队管理的风险,以及道德方面等一些原因,开源基金会不能做那种急功近利的事,例如挑选一家公司来全力支持做,这是垄断。而应该做些百模大战参与者的公约数的事情,就是做一些公共的、基础的、大家都需要的活,第一步应该先从开源数据集做起,大模型需要数据集,而这些数据集也需要符合中国的法律规定。

相较于像新加披、欧洲一些国家,以及美国等,在开放数据这方面,我们还有许多需要做的,做数据集的挑战好像有点大?

谭中意:这个事情看着挑战挺大,其实也没有想象中那么难。其实很多中国公司或者组织已经把自己的一些数据开源了,包括百度、智源、上海人工智能学会等,因此只需要将这些数据集纳入到开放原子开源基金会的管理范围内,形成一个良好的更新机制,再搭配一些数据集合规检查工具来保证其合规,从而产生一个高质量的、大家都需要的数据集出来,而这个数据集又是一个不断累计的过程,当累计到一定程度上,就能成为这个领域内有分量的玩家,这个玩家不是来参与百模大战竞争的,而是所有人的朋友。因此第一步做开源数据集相对来说是容易的,可行的。

您说的各个企业已经开源的数据,都是原始数据还是元数据(Metadata)?

谭中意:都是 RawData,当然也需要清洗之后拿来做 Pretraining(预训练)。大模型训练也分为三步:

第一步:“Pre-training - 预训练”,需要大量的语料,通过非监督学习来进行,虽然对语料要求的量级比较大,但不需要进行人工标注,所以成本比较低。

第二步:“Instruction Tuning - 指令调优”,这个需要人工进行标注,是指由人类专家来写各种各样高质量的问答,其中人工标注的 GPT-3.5 序列大概有 5 万多条。

第三步:“Reinforcement Learning with Human Feedback(RLHF)- 人类反馈强化学习”,这一块也是需要进行人工标注。

这三种数据,第一步的数据集是最多的,第二步的数据在网络上也有不少,第三步的数据则特别少。

模型开发与开源许可

这些数据的隐私、数据的保护等,会不会涉及到相关法律?

谭中意:是的,所以我们不仅需要 raw data,还需要合规的工具,将这些都作为第一步的内容,用合规工具对 raw data 进行加工,得到 clean data,这些 clean data 用于 pre-training 或者 fine-tuning 都可以。

基金会这边是否有在跟国家在沟通相关合规的一些法令?规划如何调整这个工具,让数据能合规?

谭中意:这个现在已经有在进行了,例如网信办,他们制定了很多规定,网信办也有一些合作商业公司,主要做符合网信办规定的数据合规工具,其中有一家公司叫 “RealAI(瑞莱智慧)",是由清华的张钹院士担任创始人的一家公司。第二步将模型训练出来,训练成 Base Model,然后再不断对 Base Model 进行更新,这个则需要与国内的一些算力中心进行合作。第三步则是定制化 Model,可能会出现一些行业类模型,也可能会出现移动端的模型,还可能会针对某些特定场景,比如像编码的这种特定的一个模型。

最近,Meta 发布了开源可商用的 Llama 2,您觉得它是怎么样来改变大模型市场的格局?

谭中意:事实上在 Llama 出来之后,一直被认为是最好用的基础大模型,而在 Llama 之上出来的其他 “羊驼”,都是基于 Llama 进行微调的,近期重返 Open AI 的总监 Karpathy 也曾表示过:“Llama 是我见过最好的开源大模型”。之前的版本虽然不小心泄露出来,但业界已经有很多人在使用了,而前不久出来的 Llama 2 更好用、能力更强,我觉得可以这么说,开源大模型中,目前来看,很多企业可以选择的就是 Llama 2 了,这是它质量上带来的好口碑。

很多人认为 Llama2 可商用,但并不是开源,您这边是有什么建议或者反馈?

谭中意:关于 License 的问题,主要有两方面:第一方面它确实不是采用传统的 OSI 认证的开源许可证,因为它对使用者用途有几个限制。但另一方面,开源的定义从 1998 年推出到现在大概有 25 年了,却未有任何更新,这是一件非常奇怪的事情,最近也有听说 OSI 会出一些关于 open AI 的 License 的新东西,我们可以拭目以待。
而从务实角度来说,我们需要与时俱进,如果 License 不能与商业模式相匹配,那 License 的生命力是有限的。当年 GPL 的发布,是针对当时的环境来制定的,当时 copyright 无处不在,而现在大家对 copyleft 已经接受良好,相反需要去平衡开源与商业化,因此我也非常期待 OSD 如何对这一块进行更新。所以,根据现有的开源定义,Llama 2 它不是一个开源产品,但是我们不觉得将来也是这样,我们需要一些改变。

结语

对开源雨林接下来有什么建议?或者期望开源雨林做哪些事情?

谭中意:对于开源雨林,我认为需要坚守一个清晰的定位,以用户为中心,从理解开源、使用开源、贡献开源等几个阶段构建开源知识体系,共建开源繁荣生态。把开源雨林做成一个品牌,不断的通过各种形式来输出内容,比如大咖访谈、三人行等,吸引更多人来参与,来强化这个品牌。


开源雨林围绕开源通识、开源使用、开源贡献三大方面构建知识体系,愿把长期积累的经验系统化分享给企业,在团队、机制、项目三方面提供合作,推动各企业更高效地使用开源、贡献开源,提升全行业开源技术与应用水平。

开源雨林的内容已开源,并托管在 https://github.com/opensource-rainforest/osr ,欢迎通过 Pull Request 的形式贡献内容,通过 Issue 的形式展开讨论,共同维护开源雨林的内容。

如果您有新的想法,欢迎加入开源雨林交流群,一起探讨。小助手微信:osrainforest(添加时请备注“交流群”)

你可能感兴趣的:(开源人工智能开放原子开源基金会)