关于大模型的发展趋势,我突然有个细思极恐的脑洞

卷友们好,我是rumor。

前几个月我一度觉得NLP这波发展要到头了,作为看着BERT长大的女人,我经历了太多。

  • 18年BERT刚出来时大家主要研究各种精调方法,以及没有放弃各类魔改

  • 19年的时候大家资源慢慢上来了,开始研究各种预训练任务

  • 20年的时候发现要什么任务,数据和模型量级才是王道,贫富差距越来越严重

  • 21年的时候大多数人已经搞不起军备竞赛了,开始利用Prompt去研究如何在最低的精调成本下用上大模型

直到过年那段时间,我看了一些论文,一个浅浅的想法开始在我脑袋里发芽,然后在昨天看到了量子位的一篇报道「大型神经网络可能初具意识」,一切仿佛就对上了,搞得我都有点失眠。

我的脑洞是:大模型可以开始学习和我们的世界交互了

第一层证据,是去年下半年谷歌提出的一个新范式:Instruction Tuning

关于大模型的发展趋势,我突然有个细思极恐的脑洞_第1张图片

直接告诉大模型,你要做个XX任务,有A、B、C几个选项,你怎么做?

这种输入形式在经过多指令精调后,zero-shot效果十分地好,OpenAI在GPT-3服务上也推出了InstructGPT,并GPT-3做了更多的对比:

关于大模型的发展趋势,我突然有个细思极恐的脑洞_第2张图片

虽然这些任务还都停留在文本层面,但预示了一点,就是大模型可以「理解」我们让他做的事

第二层证据,是年前谷歌挂出的LaMDA模型论文,还有OpenAI提出的WebGPT。

他们为了避免让大模型在生成结果上胡编乱造,开始让大模型学会使用搜索API接口,并利用搜索结果回答开放域问题。

同时在亚马逊Alexa的一篇论文[1]里也提出了一个端到端的对话系统,让模型可以直接学习使用开发者提供的API。

于是我开始有了一个浅浅的想法:

  • what if 让大模型自己在网上冲浪?比如刷信息流、在论坛灌水?

  • what if 加入多模态,让大模型把网页中的图像、视频、文字、语音都读进去?

  • what if 开放更多的接口,可以跟现实世界交互的接口?

大模型可以利用API做一些事了

第三层证据,是上周OpenAI首席科学家Ilya Sutskever在Twitter上发的这句话:

关于大模型的发展趋势,我突然有个细思极恐的脑洞_第3张图片

他说了这话之后,MetaAI的LeCun立刻回怼,还有很多大佬同样出来反驳,但随后Ilya在昨天又发了一个推:

关于大模型的发展趋势,我突然有个细思极恐的脑洞_第4张图片

认知=行动

恰恰好就和我的脑淫对上了。。。

教大模型使用更多接口后,它会干什么呢?看小姐姐图片?当一个网络暴民?

一定是某些出奇的行为,让Ilya大佬开始猜测,这个模型它是不是有点想法?

好了,脑洞就开到这里,文字的力量太强大了,它可以用来表达想法,也可以用来表达动作

以上全属个人猜测,自己的视野和阅读量也十分有限,欢迎感兴趣的朋友留言交流。

参考资料

[1]

Alexa Conversations: An Extensible Data-driven Approach for Building Task-oriented Dialogue Systems: https://aclanthology.org/2021.naacl-demos.15.pdf

关于大模型的发展趋势,我突然有个细思极恐的脑洞_第5张图片


大家好我是rumor

一个热爱技术,有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「我的世界开始魔幻了」067cccc9a7a37180f760f956f139b42b.png

你可能感兴趣的:(人工智能,机器学习,大数据,java,深度学习)