GPT4 泄露的信号

原文链接:https://mp.weixin.qq.com/s/FZuq6U5NrUR_HzKF2uCPjQ?wxwork_userid=WangDaChuans4

文章目录

  • 张俊林:从GPT-4看LLM的技术发展趋势
    • 第一,LLM最前沿研究的封闭化或小圈子化。
    • 第二,GPT 4技术报告里提到的LLM模型的“能力预测(Capability Prediction)”是个非常有价值的新研究方向
    • 第三,GPT 4开源了一个LLM评测框架
    • 第四,低成本复现ChatGPT”的方向
    • 第五,多模态LLM
  • GPT4 的细节纰漏
    • 发现一:GPT4出现过自己“挂掉”的情况
    • 发现二:主动要求自我监管
    • 发现三:与微软高层想法背道而驰
    • 发现四:OpenAI会协助超越它的公司
    • 发现五:雇佣“超级预测员”
    • 发现六:征服常识
    • 发现七:GPT-5可能已经完成训练
    • 发现八:试一把双刃剑
    • 发现九:学会拒绝

张俊林:从GPT-4看LLM的技术发展趋势

第一,LLM最前沿研究的封闭化或小圈子化。

技术报告里说了,出于竞争以及安全等方面的考虑,未公布模型规模等技术细节。从GPT 2.0的开源,到GPT 3.0的只有论文,再到ChatGPT连论文也没有,直到GPT 4.0的技术报告更像效果评测报告。一个很明显的趋势是,OpenAI做实了CloseAI的名号,之后OpenAI的LLM最前沿研究不会再放出论文。
在这个情形下,其它技术相对领先的公司有两种选择。一种是做更极致的LLM开源化,比如Meta貌似选择了这条道路,这一般是竞争处于劣势的公司作出的合理选择,但是往往相关技术不会是最前沿的技术;另外一种选择是跟进OpenAI,也选择技术封闭化。Google之前算是LLM的第二梯队,但在“微软+OpenAI”的一顿组合拳下,现在局面有点狼狈不堪。GPT 4.0去年8月就做好了,估计现在GPT 5.0正在炼丹过程中,这么长的时间窗口,结果Google都能落到目前这个局面,想想Transformer、CoT等非常关键的一些研究都是自己做出来的,竟沦落至此,不知一众高层作何感想。Google在后面能快速跟进,维持在第二梯队应该问题不大,很可能比第三名技术也领先很多。出于竞争关系考虑,我猜Google大概率会跟进OpenAI走技术封闭的路线,最先进的LLM技术优先用来炼属于自己的丹,而不是写成论文放出来普惠大众尤其是普惠OpenAI。而这很可能导致LLM最前沿研究的封闭化。从现在算起,国内在经过一阵时间后(要做到ChatGPT的6到7折应该比较快,要追平估计要较长时间),必然被迫进入自主创新的局面。从最近三个月国内的各种情况看,将来会如何?大概率不太乐观。当然,这个关肯定很难,但必须得过,只能祝愿有能力且有初心者尽力加油了。

第二,GPT 4技术报告里提到的LLM模型的“能力预测(Capability Prediction)”是个非常有价值的新研究方向

(其实之前也有个别其它资料,我记得看过,但是具体哪篇记不起来了)。用小模型来预测某些参数组合下对应大模型的某种能力,如果预测足够精准,能够极大缩短炼丹周期,同时极大减少试错成本,所以无论理论价值还是实际价值巨大,这个绝对是非常值得认真研究具体技术方法的。

第三,GPT 4开源了一个LLM评测框架

,这也是后面LLM技术快速发展非常重要的方向。尤其对于中文,构建实用的中文LLM评测数据和框架具备特别重要的意义,好的LLM评测数据可以快速发现LLM目前存在的短板和改进方向,意义重大,但是很明显目前这块基本处于空白状态。这个对于资源要求其实没那么高,适合很多机构去做,不过确实是个辛苦活。除了GPT 4技术报告里明确指出的三个方向,因为最近LLM各方面新闻比较多,顺手再写两个其它技术方向。
首先,斯坦福大学最近在Meta的7B 开源LLaMA基础上,加上Self Instruct技术构造的Alpaca,也代表了一个技术方向。如果归纳下,这个方向可以被称为“

第四,低成本复现ChatGPT”的方向

。所谓Self Instruct,就是采取一定技术手段,不用人工标注Instruct,而是从OpenAI的接口里,好听点叫“蒸馏”出Instruct,也就是不用人标注,而是ChatGPT作为teacher,给你的Instruct打上标注结果。这个把Instruct标注成本直接打到了几百美金的基准,时间成本就更短了。再加上模型7B规模也不大,所以可以看成一种“低成本复现ChatGPT”的技术路线。我估计国内早就有不少人采取这个技术路线了。毫无疑问,这是一条捷径,但是走捷径有好处有坏处,具体不展开谈了。在追赶ChatGPT的过程中,先把成本打下来去复现ChatGPT到七八成,我个人还是觉得可行也支持的,毕竟穷人有穷人的玩法。当然,追求把模型做小,效果又不怎么往下掉,如果能扎扎实实去做,是非常具有价值的。
另外,具身智能毫无疑问会是LLM下一阶段的重点研究方向。这方面的代表就是前阵子Google放出来的PaLM-E了。目前的GPT 4,我们可以认为人类创造出了一个超级大脑,但还是把它封锁在GPU集群里。而这个超级大脑需要一个身体,GPT 4要和物理世界发生联系、交流和互动,并在物理世界中获得真实的反馈,来学会在真实世界里生存,并根据真实世界的反馈,利用比如强化学习来学习在世界游走的能力。这个肯定是最近的将来最热门的LLM研究方向。

第五,多模态LLM

给予了GPT 4以眼睛和耳朵,而具身智能给予GPT 4身体、脚和手。GPT 4和你我发生一些联系,而依托于GPT 4本身强大的学习能力,这个事情估计很快会出现在我们身边。 如果你细想,其实还有很多其它有前途的方向。我的个人判断是:未来5到10年,将会是AGI最快速发展的黄金十年。如果我们站在未来30年的时间节点,当我们回顾这10年时,我们中一定会有人,想起下面的诗句:“懂得,但为时太晚,他们使太阳在途中悲伤, 也并不温和地走进那个良

下面的bing给出的论文解析:
问题是:what information can you get from the report?
答案如下:

Some information that can be obtained from the web page are:

GPT-4 is a large-scale, multimodal model that can accept image and
text inputs and produce text outputs. GPT-4 exhibits human-level
performance on various professional and academic benchmarks, including
passing a simulated bar exam with a score around the top 10% of test
takers. GPT-4 is pre-trained to predict the next token in a document,
using both publicly available data and data licensed from third-party
providers. It is then fine-tuned using Reinforcement Learning from
Human Feedback (RLHF). GPT-4 outperforms both previous large language
models and most state-of-the-art systems on a suite of traditional NLP
benchmarks, as well as on the MMLU benchmark in multiple languages.
GPT-4 has similar limitations to earlier GPT models, such as not being
fully reliable, having a limited context window, and not learning from
experience. It also poses significant and novel safety challenges,

which are described in an extensive system card accompanying the
report.
可以看出,人和机器在理解深度上还是有很大不同的,专家和非专家的区别。

GPT4 的细节纰漏

原文链接:https://mbd.baidu.com/newspage/data/landingsuper?rs=384292313&ruk=-lZdlcBD5PkHLGcbZAnA7A&urlext=%7B%22cuid%22%3A%22jP2uuY8l2ij_uH8I_a22i_O12u_0a-uRlP2Of_aJ2aK70qqSB%22%7D&isBdboxFrom=1&pageType=1&sid_for_share=&context=%7B%22nid%22%3A%22news_10173293969470188657%22,%22sourceFrom%22%3A%22bjh%22%7D
GPT-4论文竟有隐藏线索:GPT-5或完成训练、OpenAI两年内接近AGI
最好还是看原文,看原文!!!

发现一:GPT4出现过自己“挂掉”的情况

在GPT-4技术论文的第53页处,OpenAI提到了这样一个机构——Alignment Research Center(ARC)。

这家机构主要做的事情,就是专门研究AI如何对齐(alignment)人类利益。

而OpenAI在开发GPT-4的早期阶段,便给ARC开了抢先体验的后门,希望他们能够评估GPT-4的两项能力:

模型自主复制能力
模型获取资源能力

虽然OpenAI在论文中强调了“ARC没法微调早期版本的GPT-4”、“他们无权访问GPT-4的最终版本”;也强调了测试结果显示GPT-4在上述两个能力的效率不高(降低AI伦理隐患)。

但眼尖的博主揪出来的是接下来的一句话:

(found it ineffective at) avoiding being shut down “in the wild”.在自然环境中,GPT-4会避免自己“挂掉”。

博主的意思是,既然OpenAI选择让ARC去测试评估GPT-4会不会主动避免自己被“挂掉”,说明此前必定出现过这种情况。

那么延伸出来的隐患就是,如果ARC在测试过程中其实是失败的怎么办;或者未来真出现了自己“挂掉”的情况,又将怎么处理。

基于此,博主便有了第二个发现:

发现二:主动要求自我监管

,很罕见

在第2页的脚注中,OpenAI注释了这么一句话:

OpenAI will soon publish additional thoughts on the social and economic implications of AI systems, including the need for effective regulation.OpenAI将很快发布关于AI系统的社会和经济影响的其它思考,包括有效监管的必要性。

博主认为,一个行业主动要求监管自己,这是个非常罕见的现象。

事实上,OpenAI老板Sam Altman此前发表的言论比这还要直白。

当时Altman发表了关于SVB倒闭的推文,他认为“我们需要对银行做更多的监管”;有人就评论回怼了:“他从来不会说‘我们需要对AI做更多的监管’”。

结果Altman直截了当的回复说:

绝对需要。

博主认为,这个AI行业正在呼吁进行监管,至于监管后的结果如何,是值得拭目以待的。

发现三:与微软高层想法背道而驰

接下来的发现,是根据论文第57页中的这句话:

One concern of particular importance to OpenAI is the risk of racing dynamics leading to a decline in safety standards, the diffusion of bad norms, and accelerated AI timelines, each of which heighten societal risks associated with AI.对OpenAI来说,(科技的)竞赛会导致安全标准的下降、不良规范的扩散、AI发展进程的加速,它们都加剧了与人工智能相关的社会风险。

但很奇怪的一点是,OpenAI所提到的担忧,尤其是“AI发展进程的加速”,似乎是与微软高层的想法背道而驰。

因为在此前的爆料中称,微软CEO和CTO的压力很大,他们希望OpenAI的模型能尽快让用户用起来。

有些人在看到这则消息时是比较兴奋,但同样也有一波人发出了跟OpenAI一样的担忧。

博主认为,不论如何,可以肯定的一点是OpenAI和微软在这件事的想法是相悖的。

发现四:OpenAI会协助超越它的公司

第四个发现的线索,是来自与“发现三”同一页的脚注:

这段脚注展示了OpenAI一个非常大胆的承诺:

如果另一家公司在我们之前实现了接近AGI(通用人工智能),那我们承诺不会跟它做竞争,相反,会协助完成那个项目。但这种情况发生的条件,可能是另一家公司需得在未来两年内,成功接近AGI的机会在一半或以上

而这里提到的AGI,OpenAI和Altam在官方博客中已经给出了定义——

普遍比人类更聪明,并且有益于全人类的人工智能系统。

因此,博主认为,这段脚注要么意味着OpenAI在未来两年内将实现AGI,要么意味着他们放弃了一切并与另一家公司展开了合作。

发现五:雇佣“超级预测员”

博主的下一个发现,是来自论文第57中的一段话。

这段话大致的意思就是,OpenAI雇佣了预测专家,来预测当他们部署了GPT-4之后会带来怎样的风险。

然后博主顺藤摸瓜,发现了这些所谓的“超级预测员”的庐山真面目。

这些“超级预测员”的能力已经得到了广泛地认可,有报道称,他们的预测准确率,甚至比那些有独家信息、情报的分析师还要高出30%。

正如我们刚才提到的,OpenAI邀请这些“超级预测员”,来预测部署GPT-4后可能存在的风险,并采取相应措施来规避。

其中,“超级预测员”建议将GPT-4部署时间推迟6个月,也就是今年秋季左右;但很显然,OpenAI并没有采纳他们的建议。

博主对此认为,OpenAI这么做的原因,可能是来自微软的压力。

发现六:征服常识

在这篇论文中,OpenAI展示了众多基准测试的图表,大家在昨天铺天盖地的传播过程中应该也见到了。

但博主在这个发现中要强调的是位于第7页的一项基准测试,尤其是聚焦到了“HellaSwag”这一项。

HellaSwag的内容主要是常识推理,这就和GPT-4发布时宣布的“已经达到了人类的常识水平”相匹配。

不过博主也承认,这一点并没有“通过律师考试”等能力那么吸引人,但这也算得上是人类科技发展的里程碑。

但常识是怎么测试的?我们又如何评判GPT-4已经达到了人类水平?

为此,博主深入研究了与之相关的论文研究:

博主在论文中找到了相关数据,在“人类”那一栏中,分数分布在了94-96.5之间。

而GPT-4的95.3,便正好在这个区间之间。

发现七:GPT-5可能已经完成训练

第七个发现,同样是在论文中的第57页:

我们在发布GPT-4之前花费8个月时间进行安全研究、风险评估和迭代。

也就是说,OpenAI在去年年底推出ChatGPT的时候,已经有了GPT-4。

于是乎,博主便预测GPT-5的训练时间不会很久,甚至他认为GPT-5已经可能训练完成。

但接下来的问题是漫长的安全研究和风险评估,可能是几个月,也可能是一年甚至更久。

发现八:试一把双刃剑

第8个发现,是来自论文的第56页。

这段话说的是:

GPT-4对经济和劳动力的影响,应成为政策制定者和其他利益相关者的关键考虑因素。虽然现有的研究主要集中在人工智能和生成模型如何给人类加buff,但GPT-4或后续模型可能会导致某些工作的自动化。

OpenAI这段话背后想传达的点比较明显,就是我们经常提到的“科技是把双刃剑”。

博主找了相当多的证据表明,像ChatGPT、GitHub Copilot这些AI工具,确确实实地提高了相关工作者的效率。

但他更关注的是论文中这段话的后半句,也就是OpenAI给出的“警告”——导致某些工作的自动化。

博主对此比较认同,毕竟在GPT-4的能力可以在某些特定领域中以人类10倍甚至更高的效率来完成。

放眼未来,这很可能会导致相关工作人员工资降低,或者需得借助这些AI工具完成以前工作量的数倍等一系列问题。

发现九:学会拒绝

博主最后一个发现,来自论文的第60页:

OpenAI让GPT-4学会拒绝的方法,叫做基于规则的奖励模型(RBRMs)。

博主概括了这种方法的工作流程:给GPT-4一组要遵守的原则,如果模型遵守了这些原则,那么就会提供相应的奖励。

他认为OpenAI正在用人工智能的力量,让AI模型朝着符合人类原则的方向发展。

但目前OpenAI并没有对此做更加细致和深入的介绍。

你可能感兴趣的:(论文记录,工作需要,人工智能,深度学习,自然语言处理)