文 | 付奶茶
2022年是令人印象深刻的一年。
在这一年中,我们目睹了许多前所未有的AI模型的出现,这些模型不断刷新着人类对AI力量的认知。关于这一年中最好的工作,每个人都有自己不同的看法。在这篇文章中,我们跟随Alan D. Thompson在回顾这神奇的一年,并由他来告诉我们我们这一年中给他最深刻印象的工作是什么。
文章标题《Integrated AI: The sky is infinite》源自于作者在2022年年中对AI发展的一次报道中的一句话:
"天空比我们想象的更大,在大规模语言模型的发展历程中,我们见证了AI的快速扩展,一切变得更加美好。
2022年下半年,请你睁大眼睛,人类将经历人工智能的革命,天空的浩瀚将被展现出来。"
现在回看过去,事实证明Alan D. Thompson的预期是正确的。直到2022年下半年,大规模语言模型呈现出爆炸式增长。不仅在任务的表现上有了巨大的飞跃,还有许多令人眼目一新的工作出现,同时大规模语言模型的商业化落地也在以惊人的速度前进。
在这篇博客文章的开头,作者列举了他心目中2022年最优秀的五项研究工作。这些工作代表了当年在AI领域取得的最大进展,并且展示了AI的潜力和持久的影响力。作者对这五项工作的选择是基于他个人的经验和观察,并不一定代表全面的研究界共识。
具有插入文本能力的text-davinci-003
Pathways的第一个作品PaLM
ai作图的Midjourney v4
规模最大的文生图模型Parti
人工智能聊天软件艾默生。
2022年下半年,数十家公司在短短几个月内实现了数十亿美元的估值,这在商业上是一个巨大的成功。
除了我们熟知的OpenAI、DeepMind、HuggingFace等,还有被Spotify收购的Sonantic等公司也值得关注。数字背后,显然还有更多的投资者和更广的商业应用场景。
例如,DeepMind以Chinchilla预训练语言模型为基础创造Dramatron,这一模型被用来协助共同创作剧场或电影剧本。由Dramatron生成的剧本已被改编成戏剧,并在2022年8月在北美最大的艺穗节上由真人表演。这表明,"AI写剧本"从幻想变成了现实,并且大规模语言模型已经走向了更为广阔的应用舞台。
文本转图像模型的商业化速度非常快。全球最大的玩具制造商之一美泰(芭比娃娃之父)已在DALLE-2的协助下发布了风火轮系列。通过将文本转图像模型生成的设计应用到公司的概念中。美泰的产品设计总监解释说,使用文本转图像模型可以提高创意的质量和丰富度,并且可以从模型中得到之前从未想到过的组合。
在2022年11月,德国啤酒制造商Brauquadrat10使用最近发布的Midjourney v4为他们的酸啤酒系列制作包装。他们只提供了几个简单的提示——"覆盆子,蓝绿色背景,飞溅,多汁",但最终得到的设计令人惊讶。Midjourney v4的能力使得Brauquadrat10能够在短时间内得到高质量的包装设计,并且这种方法对他们的商业成功产生了重要的贡献。
同月,Stability.ai宣布,其最大的开源文本转图像模型Stable Diffusion已获得超过20万软件开发人员的许可。这表明文本转图像技术在软件开发领域的应用正在迅速扩展。
此外,Adobe也正在将文本转图像模型嵌入到当前的应用软件中,包括Photoshop和AutoCAD,并计划在2023年发布正式版本。例如,在Photoshop中圈定的区域块中输入文本,就可以生成对应描述的图块,展示了文本转图像技术在实际应用中的能力。
在过去的两年中,虽然预训练语言模型已经取得了惊人的成就,但是它们并不像视觉图片和视频那样直观。文本转图像模型很好地“可视化”了人工智能的力量,它们能在几秒内生成出来的图像让人惊叹。
下面的表格列出了这一年出现的文本转图像模型,每一个模型都代表了数百万或数十亿个文本图像对,以及数十亿美元的潜在收益:
在过去的一年中,AI模型的开源工作也在不断发展。
俄罗斯的谷歌公司Yandex发布了一个100B参数的模型,能够同时分析英语和俄语。中国向全球开放了GLM-130B模型和WeLM模型。
在美国,亚马逊承诺开放他们最新的Alexa 20B模型。Meta也向公众开放了GAL 120B模型,但因为被恶意的行为故意输入辱骂性的提示,而被迫将界面隐藏。
大规模语言模型逐渐渗透在企业级的应用中,例如英语到SQL语句的转换器。以下是一些已经公开商用GPT-3的企业:
AI已经证明其能够优化流程和效率,甚至产生未知的协同效应。谷歌利用AI设计了TPU芯片,而NVIDIA在H100 Hopper芯片上也有所借鉴。使用AI帮助设计GPUs,NVIDIA的实验结果表明AI不仅能学习设计电路,而且设计更精细且效率更高。
在2022年3月,DeepMind的Jordan Hoffmann和其他研究人员发表了一篇关于Chinchilla的文章,在文章中,他们指出人们原来一直在使用约9%的数据量来训练模型,这个发现震惊了AI界。
“The dogs bark, and the caravan moves on”
虽然狗吠声音不止,但是商队一直前进。
在当前的AI发展中,虽然有许多批评的声音,但是科学家们并没有停止前进的脚步。现在的情况就像洪流无法阻挡,伦理争论就像石头在流动的水中,无法阻挡技术前进的步伐。在过去的历史中,没有任何争论能够阻挡技术的发展。
AI领域的发展不仅仅是技术的前进,还包含着巨大的道德责任。我们目前还有数以亿计的人正在遭受疾病和贫困的困扰,因此解决这些问题比起解决伦理和政策上的质疑更为重要。
大规模语言模型在测试任务中的表现优于人类,如谷歌4月发布的PaLM和随后的Minerva等。这些模型在最新的基准测试中表现出色,甚至在从未训练过的数学问题中也表现出惊人的能力。例如,使用谷歌的Minerva模型在波兰国家数学测试中也取得了惊奇的表现:
在选定的问题子集中,谷歌的Pathways30的表现惊人,其在测试任务中的表现优于人类:
在2022年5月的波兰国家数学考试中,Minerva 540B的成绩比学生平均分高出14%。
在2019年英国国家数学考试中,Minerva 540B的成绩比学生平均分高出79%左右。
PaLM 540B和其他模型在SuperGLUE测试上的表现集皆超过了人类。
Flan-PaLM 540B在MMLU基准上实现了平均人类性能的两倍。
大规模语言模型的成长已经超过人类智力的进化速度。
在这里作者列举了他在2023最期待的工作:
1. DeepMind Gato2
Gato是一个多模态、多任务、多具身的通才智能体,它的出现是一个未预见的创新。DeepMind的首席执行官Demis Hassabis透露,公司正在为AGI培养下一代通用智能体。
2. Google Pathways扩展
Pathways的模型家族的扩展速度是非常惊人的,正在扩展以覆盖更多的语言。Jeff Dean表示未来将支持1000种最终用的语言,为全球数十亿边缘的国度的人带来更大的包容性。pathways的扩展是一项多年的计划。已经取得了有意义的进展,前路已经清晰可见。
3. OpenAI GPT-4
GPT-3的后续研究预计将极大地影响人工智能领域的发展。
4. Text-to-video模型
在22年下半年我们看到了一些文本转视频的模型,期待更高分辨率和帧率的模型出现。
在2022年初,OpenAI的首席科学家预测:
“在未来,很明显,科学的唯一目的是建立AGI”。
而我们现在在某种意义上正处于这个未来之路的中点。
在过去的几个月中,我们看到了数十亿美元的投资、十几个新的文本转图像模型的出现,以及AI领域的快速发展。虽然AI正在蓬勃发展,但是我们的社会并没有从其带来的优化中受益,我们还有很多可以被AI优化的问题:
手动驾驶
按照数据的显示,在每24秒就有一个人在驾驶中死亡,而每秒钟又会有两人严重受伤。
无用教育
当前的教育模式浪费了大量的时间,大概在11000个小时(以及额外的课下时间,几千个小时的学习市场),仅仅是用来学习如何记住已发生的事实、解决问题和创造事物。
笼子里一样的职场
大多数成年人几乎清醒的时间都在为工作效力,然而他们的生产力和效率达不到当前AI的50%,也达不到未来AGI的1%。
不劳而获
CEO与同公司最低工资员工之间的薪酬的差距是670:1,这意味着CEO平均每获得1万美元的薪酬,就能获得670万美元的薪酬。
摄入与身体之间的关系
用 AI 来分析身体健康问题可能有助于解决全球 32% 的死亡是由心脏病引起的问题,相较于当前大多数基于人为、研究和推测的饮食模式,这是一种更具有效率的做法。
黑盒的人际关系。
大多数成年人在处理人际关系时没有受过科学训练,其中有一半以上的人在经历心理健康问题。
而AI明明已经准备好为这些问题提供一个有益的解决方案
2022年是AI的一年,Alan D. Thompson总结了其中的亮点。这一年标志着AI全面爆发,我们看到了AI在许多领域的快速发展和令人惊叹的进展。随着更多人关注和从事AI领域,我们期待在2023年看到更多的新模型。
过去一年的工作表明,我们可能已经看到了通用人工智能(AGI)的辉煌前景。AGI一直是AI领域的指导性愿景,而现在的模型似乎已经具备了推理能力、想象能力和记忆能力等,但从真正的AGI到通过AI看世界的新方式,前路的天空也是无限的。
与此同时2022年也是背负更多希望的一年,我们能够更清晰地看到AI背后的潜力是无限的,可是其对人类世界改变的速度着实有些缓慢。我们坚定地相信AI的愿景是改善地球上每一个人的生活,期待着在未来看到AI在真实应用中的更多落地,使AI在帮助人类的愿景下飞翔得更高。
卖萌屋作者:付奶茶
新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!
作品推荐
1.在斯坦福,做 Manning 的 phd 要有多强?
2.史上最大多模态图文数据集发布!
3.MSRA-万字综述 直击多模态文档理解
4.ICLR’22 最佳脑洞奖提名:《GPT 如何进行布朗运动?》
5.大模型时代,我们真的不再需要分词了吗
6.Batch size 没必要设为2的次方!?
加入卖萌屋NLP、CV、搜推广与求职讨论群
[1]https://lifearchitect.ai/the-sky-is-infinite/