回顾2022,那些令人印象深刻的AI突破

回顾2022,那些令人印象深刻的AI突破_第1张图片

文 | 付奶茶

2022年是令人印象深刻的一年。

在这一年中,我们目睹了许多前所未有的AI模型的出现,这些模型不断刷新着人类对AI力量的认知。关于这一年中最好的工作,每个人都有自己不同的看法。在这篇文章中,我们跟随Alan D. Thompson在回顾这神奇的一年,并由他来告诉我们我们这一年中给他最深刻印象的工作是什么。

文章标题《Integrated AI: The sky is infinite》源自于作者在2022年年中对AI发展的一次报道中的一句话:

"天空比我们想象的更大,在大规模语言模型的发展历程中,我们见证了AI的快速扩展,一切变得更加美好。
2022年下半年,请你睁大眼睛,人类将经历人工智能的革命,天空的浩瀚将被展现出来。"

现在回看过去,事实证明Alan D. Thompson的预期是正确的。直到2022年下半年,大规模语言模型呈现出爆炸式增长。不仅在任务的表现上有了巨大的飞跃,还有许多令人眼目一新的工作出现,同时大规模语言模型的商业化落地也在以惊人的速度前进。

Best of 2022

回顾2022,那些令人印象深刻的AI突破_第2张图片

在这篇博客文章的开头,作者列举了他心目中2022年最优秀的五项研究工作。这些工作代表了当年在AI领域取得的最大进展,并且展示了AI的潜力和持久的影响力。作者对这五项工作的选择是基于他个人的经验和观察,并不一定代表全面的研究界共识。

  1. 具有插入文本能力的text-davinci-003

  2. Pathways的第一个作品PaLM

  3. ai作图的Midjourney v4

  4. 规模最大的文生图模型Parti

  5. 人工智能聊天软件艾默生。

AI模型带来的商业价值

2022年下半年,数十家公司在短短几个月内实现了数十亿美元的估值,这在商业上是一个巨大的成功。

回顾2022,那些令人印象深刻的AI突破_第3张图片

除了我们熟知的OpenAI、DeepMind、HuggingFace等,还有被Spotify收购的Sonantic等公司也值得关注。数字背后,显然还有更多的投资者和更广的商业应用场景。

例如,DeepMind以Chinchilla预训练语言模型为基础创造Dramatron,这一模型被用来协助共同创作剧场或电影剧本。由Dramatron生成的剧本已被改编成戏剧,并在2022年8月在北美最大的艺穗节上由真人表演。这表明,"AI写剧本"从幻想变成了现实,并且大规模语言模型已经走向了更为广阔的应用舞台。

文生图模型的商业化应用

文本转图像模型的商业化速度非常快。全球最大的玩具制造商之一美泰(芭比娃娃之父)已在DALLE-2的协助下发布了风火轮系列。通过将文本转图像模型生成的设计应用到公司的概念中。美泰的产品设计总监解释说,使用文本转图像模型可以提高创意的质量和丰富度,并且可以从模型中得到之前从未想到过的组合。

回顾2022,那些令人印象深刻的AI突破_第4张图片

在2022年11月,德国啤酒制造商Brauquadrat10使用最近发布的Midjourney v4为他们的酸啤酒系列制作包装。他们只提供了几个简单的提示——"覆盆子,蓝绿色背景,飞溅,多汁",但最终得到的设计令人惊讶。Midjourney v4的能力使得Brauquadrat10能够在短时间内得到高质量的包装设计,并且这种方法对他们的商业成功产生了重要的贡献。

同月,Stability.ai宣布,其最大的开源文本转图像模型Stable Diffusion已获得超过20万软件开发人员的许可。这表明文本转图像技术在软件开发领域的应用正在迅速扩展。

此外,Adobe也正在将文本转图像模型嵌入到当前的应用软件中,包括Photoshop和AutoCAD,并计划在2023年发布正式版本。例如,在Photoshop中圈定的区域块中输入文本,就可以生成对应描述的图块,展示了文本转图像技术在实际应用中的能力。

回顾2022,那些令人印象深刻的AI突破_第5张图片

一幅图胜过千言万语

在过去的两年中,虽然预训练语言模型已经取得了惊人的成就,但是它们并不像视觉图片和视频那样直观。文本转图像模型很好地“可视化”了人工智能的力量,它们能在几秒内生成出来的图像让人惊叹。

下面的表格列出了这一年出现的文本转图像模型,每一个模型都代表了数百万或数十亿个文本图像对,以及数十亿美元的潜在收益:

回顾2022,那些令人印象深刻的AI突破_第6张图片

开源征途携手前进

在过去的一年中,AI模型的开源工作也在不断发展。

俄罗斯的谷歌公司Yandex发布了一个100B参数的模型,能够同时分析英语和俄语。中国向全球开放了GLM-130B模型和WeLM模型。

在美国,亚马逊承诺开放他们最新的Alexa 20B模型。Meta也向公众开放了GAL 120B模型,但因为被恶意的行为故意输入辱骂性的提示,而被迫将界面隐藏。

AI进入企业化应用

大规模语言模型逐渐渗透在企业级的应用中,例如英语到SQL语句的转换器。以下是一些已经公开商用GPT-3的企业:

回顾2022,那些令人印象深刻的AI突破_第7张图片

硬件上的探索

AI已经证明其能够优化流程和效率,甚至产生未知的协同效应。谷歌利用AI设计了TPU芯片,而NVIDIA在H100 Hopper芯片上也有所借鉴。使用AI帮助设计GPUs,NVIDIA的实验结果表明AI不仅能学习设计电路,而且设计更精细且效率更高。

回顾2022,那些令人印象深刻的AI突破_第8张图片

关于数据的爆炸消息

在2022年3月,DeepMind的Jordan Hoffmann和其他研究人员发表了一篇关于Chinchilla的文章,在文章中,他们指出人们原来一直在使用约9%的数据量来训练模型,这个发现震惊了AI界。

回顾2022,那些令人印象深刻的AI突破_第9张图片

我行我素,岂管他哉

“The dogs bark, and the caravan moves on”
虽然狗吠声音不止,但是商队一直前进。

在当前的AI发展中,虽然有许多批评的声音,但是科学家们并没有停止前进的脚步。现在的情况就像洪流无法阻挡,伦理争论就像石头在流动的水中,无法阻挡技术前进的步伐。在过去的历史中,没有任何争论能够阻挡技术的发展。

AI领域的发展不仅仅是技术的前进,还包含着巨大的道德责任。我们目前还有数以亿计的人正在遭受疾病和贫困的困扰,因此解决这些问题比起解决伦理和政策上的质疑更为重要。

模型智商的进化

大规模语言模型在测试任务中的表现优于人类,如谷歌4月发布的PaLM和随后的Minerva等。这些模型在最新的基准测试中表现出色,甚至在从未训练过的数学问题中也表现出惊人的能力。例如,使用谷歌的Minerva模型在波兰国家数学测试中也取得了惊奇的表现:

回顾2022,那些令人印象深刻的AI突破_第10张图片

在选定的问题子集中,谷歌的Pathways30的表现惊人,其在测试任务中的表现优于人类:

  1. 在2022年5月的波兰国家数学考试中,Minerva 540B的成绩比学生平均分高出14%。

  2. 在2019年英国国家数学考试中,Minerva 540B的成绩比学生平均分高出79%左右。

  3. PaLM 540B和其他模型在SuperGLUE测试上的表现集皆超过了人类。

  4. Flan-PaLM 540B在MMLU基准上实现了平均人类性能的两倍。

回顾2022,那些令人印象深刻的AI突破_第11张图片

大规模语言模型的成长已经超过人类智力的进化速度。

即将到来的2023

在这里作者列举了他在2023最期待的工作:

1. DeepMind Gato2

Gato是一个多模态、多任务、多具身的通才智能体,它的出现是一个未预见的创新。DeepMind的首席执行官Demis Hassabis透露,公司正在为AGI培养下一代通用智能体。

2. Google Pathways扩展

Pathways的模型家族的扩展速度是非常惊人的,正在扩展以覆盖更多的语言。Jeff Dean表示未来将支持1000种最终用的语言,为全球数十亿边缘的国度的人带来更大的包容性。pathways的扩展是一项多年的计划。已经取得了有意义的进展,前路已经清晰可见。

3. OpenAI GPT-4

GPT-3的后续研究预计将极大地影响人工智能领域的发展。

4. Text-to-video模型

在22年下半年我们看到了一些文本转视频的模型,期待更高分辨率和帧率的模型出现。

征途的中点

在2022年初,OpenAI的首席科学家预测:

“在未来,很明显,科学的唯一目的是建立AGI”。

而我们现在在某种意义上正处于这个未来之路的中点。

在过去的几个月中,我们看到了数十亿美元的投资、十几个新的文本转图像模型的出现,以及AI领域的快速发展。虽然AI正在蓬勃发展,但是我们的社会并没有从其带来的优化中受益,我们还有很多可以被AI优化的问题:

  1. 手动驾驶

按照数据的显示,在每24秒就有一个人在驾驶中死亡,而每秒钟又会有两人严重受伤。

  1. 无用教育

当前的教育模式浪费了大量的时间,大概在11000个小时(以及额外的课下时间,几千个小时的学习市场),仅仅是用来学习如何记住已发生的事实、解决问题和创造事物。

  1. 笼子里一样的职场

大多数成年人几乎清醒的时间都在为工作效力,然而他们的生产力和效率达不到当前AI的50%,也达不到未来AGI的1%。

  1. 不劳而获

CEO与同公司最低工资员工之间的薪酬的差距是670:1,这意味着CEO平均每获得1万美元的薪酬,就能获得670万美元的薪酬。

  1. 摄入与身体之间的关系

用 AI 来分析身体健康问题可能有助于解决全球 32% 的死亡是由心脏病引起的问题,相较于当前大多数基于人为、研究和推测的饮食模式,这是一种更具有效率的做法。

  1. 黑盒的人际关系。

大多数成年人在处理人际关系时没有受过科学训练,其中有一半以上的人在经历心理健康问题。

而AI明明已经准备好为这些问题提供一个有益的解决方案

总结

2022年是AI的一年,Alan D. Thompson总结了其中的亮点。这一年标志着AI全面爆发,我们看到了AI在许多领域的快速发展和令人惊叹的进展。随着更多人关注和从事AI领域,我们期待在2023年看到更多的新模型。

过去一年的工作表明,我们可能已经看到了通用人工智能(AGI)的辉煌前景。AGI一直是AI领域的指导性愿景,而现在的模型似乎已经具备了推理能力、想象能力和记忆能力等,但从真正的AGI到通过AI看世界的新方式,前路的天空也是无限的。

与此同时2022年也是背负更多希望的一年,我们能够更清晰地看到AI背后的潜力是无限的,可是其对人类世界改变的速度着实有些缓慢。我们坚定地相信AI的愿景是改善地球上每一个人的生活,期待着在未来看到AI在真实应用中的更多落地,使AI在帮助人类的愿景下飞翔得更高。

回顾2022,那些令人印象深刻的AI突破_第12张图片

卖萌屋作者:付奶茶

新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!

作品推荐

1.在斯坦福,做 Manning 的 phd 要有多强?

2.史上最大多模态图文数据集发布!

3.MSRA-万字综述 直击多模态文档理解

4.ICLR’22 最佳脑洞奖提名:《GPT 如何进行布朗运动?》

5.大模型时代,我们真的不再需要分词了吗

6.Batch size 没必要设为2的次方!?

回顾2022,那些令人印象深刻的AI突破_第13张图片后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 6978c3b35e55ca3bf3e6382598a4b2de.png

[1]https://lifearchitect.ai/the-sky-is-infinite/

你可能感兴趣的:(回顾2022,那些令人印象深刻的AI突破)