一年又是转瞬即逝,今年更是以飞一样的速度度过。我不清楚是由于目前科学技术和社会发展速度变快了,还是因为年龄问题导致自己反应速度下降了。如果去年是上一个阶段的结尾,那么今年则是一个新的阶段的开始。
像往常一样,我这边列举一下之前写的每年年终总结,希望可以记录我一路走来的轨迹:
有些东西,写的多了,回过头才发现,原来自己的人生就是这样过来的。
今年的技术发展飞速,无论是年轻人还是年纪大的人在以ChatGPT为代表的技术轰炸下,都在努力的学习。早在今年2月份,我的一篇《一文讲清chatGPT的发展历程、能力来源和复现它的关键之处》就有了30K以上的阅读量,100K+的曝光量,可以说算是一个爆款了。当然受到前辈的指点,今年把博客名字更改为更具有显著度的“AI让世界更懂你”,希望我能够坚守这个口号的时间再长一些。而在客观指标上,今年算是没完成去年的目标,虽然粉丝量增长了20%,但是排名并没有保持在1000名以内,这是我比较惭愧的。
如果非要说今年在CSDN上的进展,那么也是受CSDN的邀请做了一个大规模模型的直播系列讲座《大规模语言模型应用实战之系列直播课》。这是我第一次做直播,经验还不是很足,整体上有几千个学员,也算是试水一把了。虽然我们总是说,演员的演技拙劣,抖音直播看起来内容没那么好,但是真正直播后我才发现,直播的要求也是非常高的,后续还是需要多加练习,才能够创造出更好的课程。
可能很多人的关注点都在以ChatGPT为代表的大规模语言模型的飞速进展上。但是如果我们拉长时间线,我们就能看到,尽管今年的进展飞速,但是从历史的长河上看,也只是一个短期发展较为迅速的时代,对于整体的技术栈而言,AI没有本质的变化。
如果和我在前几年读博时交流过的朋友就知道,我当时持有一个观点,我说,如果到了我博士毕业时,还没有什么新的突破性进展的话,AI发展可能就要陷入瓶颈期了。我当时说,13年出现了Word2Vec,18年出现了BERT,23年应该出现一个如此轰动的技术,现在看来是LLM。回顾当初,我才发现当时的预言有一点偏颇之处,那就是,对于语言建模而言,技术的更新都不是关键的,无论是Word2Vec,还是BERT,甚至是最新的LLM都是之前就已经存在的,只是没有被显著关注而已。Word2Vec的基础是RNNLM,BERT则是半个Transformer,如今的LLM是另外半个Transformer,这三者都是对于语言建模的一种方式,整体而言都是基于语义是可以被向量化表示的,从而使得其变得可计算了。但是真正让其达到顶峰的是,是他们真正的做到了技术下沉。让更多的科研人员能够接触、使用这些技术的同时,也让非科研人员也能够知道和使用它们。就像许多历史书里说的那样,一个东西的存在有2层,一层是它在物理世界上存在过,另一层则是它存在于所有人的思想里,现在科研也是如此。像ChatGPT真正比它的前辈们有实质性的好吗?现在来看并不是,而且也没有什么真正新的技术出现过,论变革性上,还没有Attention is all your need更关键(这篇论文应该可以预定27年的NeurlPS的时间检验奖)。今年的狂欢是因为真的有一项技术可以让普通人没有成本的用上,使得讨论的参与人群范围变得无比巨大了。
尽管是如此,我也认为这是一个积极的信号。不积跬步无以至千里,不积小流无以至江河。没有量变哪里来的质变。事物的发展是螺旋式上升的。这些大家看起来的废话,缺恰恰阐述了当前AI发展的模式。我真正接触的人工智能是在2013年的word2Vec,它才是真正让语言学变得可以被普通人使用的可计算了的一个标志。今年的NeurIPS的时间检验奖颁给了Word2Vec也算是实至名归了,这是我进入NLP的第一个真正掌握的技术。(作者Tomas的经历还是挺另类的,并不是一个典型的科研人员的发展历程。人生能有一个word2Vec这样的成果我认为就够了,至少对于我而言,就够了。)
抛开文本的话,今年的语音和图像也都有非常大的进展,我相信距离AIGC的距离又近了一步。
关于学术进展,我想今年在数量上,确实还差了不少,只有一个共一的Findings of EMNLP。其他的都是指导学生做的或者参与的,并没有实质性的进展。不过话又说回来,今年算是站在潮上的弄潮儿,在LLM的主赛道上也曾经驰骋过一段时间,算是冷门热门赛道都体验过的人了,整体氛围上,确实不同。就看今年论文引用数比累计引用数翻了一番,就可以知道冷门赛道和热门赛道的巨大差异了。
但是,今年学习到的,可能成为未来我的科研生涯上更上一层的关键。今年,我真正了解了整个科研的完整的流程,也从导师的视角和学生打交道。并且,今年作为组织委员会的主席团成员之一,成功举办了EMNLP2023,可以说是可遇不可求的机会,在此也要感谢博后导师的大力栽培。在学术角色上,也从原来的审稿人变为领域主席了,担任了EMNLP2023的AC以及将要举办的NAACL2024的AC,身上的担子更加的重了。另外,学术圈其实比社交圈更小。今年第一次线下出国参加国际会议,在会上和许多同行线下会面,才发现许多人都是和自己研究相关的,甚至有些人都是互相读过各自的论文的,有点相见恨晚的感觉。
对于学术生态上的构建,可能是未来亟需加强的。我参加了摘要的Summarization的workshop后,感慨为什么摘要Track可以发展的如此之好,一个workshop愣是办出了一个独立会议的感觉。5个KeyNote,32个论文汇报外加1个海报讨论时间,整体而言体验感极佳。尤其是组织者的最后总结发言令我印象深刻,他说,workshop已经连续举办了4届了,他很高兴看到该科研领域的人员不断地增加,如今参会者已经上百人了。这是因为我们社区里,总是会提出新问题,总是有新想法,大家都在努力把这个蛋糕做大,而不是互相残杀。
我个人认为,这是一个非常好的氛围。一个社区活跃,才能够吸引更多的新人加入其中,它才能够具备生机与活力。否则,它就有可能消失在历史的长河中。
展望未来,在具体的研究内容上,大部分会是围绕着LLM展开的,虽然内容更加多样了,但是万变不离其宗。今年作为LLM的上半场,大家还在探索ChatGPT是什么,到复现ChatGPT,以及利用ChatGPT进行下游的任务。当然还有一些研究可控AI,目前来看也是急需要研究的。
以上都是一个逐步深入的过程,正如曾经18年BERT出来一样。19年上半年还是分析BERT的各个部分和利用BERT微调到各个任务上,19年下半年就已经开始了各种BERT变种了,再往后,就是各种花式BERT了,让BERT取代了原有的Word2Vec系列的编码器部分。有人说,这都是在水论文,这也不是水论文,这是把现有的技术扎实完善,从而使得其在经过时间检验后,最终可以写入教科书里的必要过程。天才的人也是人,一天只有24小时,或者说是有限的时间。尽管有做非他不能的事情,但是还有一些非他也能但是不得不做的事,这时候,就不用劳驾天才去做了,交给一流人才去做,一流人才忙不过来的事情让二流人才去做,最终构建起完整的科研生态。因此,我这里大胆猜想一下,也许猜错了,也许猜对了,这都应该被原谅。一定会有一部分人会走历史的老路,而另一部分,则会为未来而努力,就像奥特曼所说,GPT-5,GPT-6说不定都可以发布。
而从长期来看,27/28年应该会是一个统一建模多模态的体系被构建。目前文本基本上可以说已经被一个评价为良好的简单的下一个词预测的任务和Transformer-Decoder模式所掌控。但是其他模态,包括图像、语音、物理信号等还都没有被一种简单有效的方式建模。因此,这部分可能是需要解决的。而如果一切顺利,那么下一阶段真正需要去建模的就是对于时间的感知。这个不是简单的下一个词预测这么简单。人类的智慧,不仅由于人类存在了语言,更本质的则是因为有对于时间的感知,我们能够记住过去发生的事情,能够预测未来可能发生的事情,这看起来可以被语言所描述,但是这先后顺序是先有时间感知能力,后有认知的语言。如果有一天人工智能能够感知到时间的流逝,而不仅仅是存储和预测,那时候,才是他们觉醒的时刻。当然,很多人并没有把人工智能的最终形态定位为另一个智能体,更希望它是一个工具,更能懂人类的工具,这也不是不可以,就像我的名字说的那样“AI让世界更懂你”,内涵也就是如此。
今年读的书不多,大部分都是涉及了人类心理学、语言学和认知方面的书籍,例如《脑与意识》、《思想本质》、《理性》、《当自我来敲门》等。它们是科研之外的东西,更多的了解人类,有助于更好的了解自己,也能够对于人工智能的发展有一些参考。当然在技术爆发的今年早期,我也是购买了许多其它展望未来的书籍,例如《虚拟人》、《元宇宙改变一切》、《未来呼啸而来》和《最后一个人类》等,大部分都是外国的未来学家勾画的美好的未来蓝图。我想,我们缺少的其中的一个要素就是,我们不知道我们未来要什么,未来是什么样,这导致我们更加的现实和怀旧。当然也有可能是反着来的,因为我们的历史有值得我们怀旧的,我们的现实有我们所在乎的,所以我们才忽略了未来。
2023年是一个非常激荡的一年。在这一年里,大家都在找新的节奏和方向,我也还在不断学习过程中。严格意义上,今年算是一个转型时期吧,人生还早,世界还没有探索完整,如果2024年,我仍然无法安定下来,那我希望,三十岁应该立着的旗杆,将会插在我探索世界的船上,与我一同前往,那些未知的区域。你问我害不害怕,我当然害怕。但是,人生又何尝不是一个更长的旅行呢?我们没有机会拒绝,也无法拒绝。