新智元报道
编辑:David 拉燕
你是否曾经觉得你已经受够了你目前的工作,想要换个方向?如果你有,你绝对不是一个人。然而,除了参加大辞典,还有一些不太激进的方法,比如吴恩达的方法。
吴恩达是当今人工智能领域最杰出的人物之一。
他是Landing·AI和DeepLearning.AI的创始人,Coursera的联合主席和联合创始人、斯坦福大学兼职教授。此前还曾担任百度首席科学家和谷歌大脑项目的创始人之一。
不过据他自己讲,他目前的重点已经转移,从数字世界转移到了现实世界,正所谓「从比特到事物」。
2017年,吴恩达创立了Landing AI,这是一家致力于促进人工智能在制造业中的应用的创业公司。
我们采访了吴恩达,讨论了他所说的人工智能的以数据为中心的方法",以及它与他在Landing AI的工作和当今人工智能的大背景之间的关系。
从数字化到落地
吴恩达表示,他的动机是面向行业的。他认为制造业是 「对每个人的生活有巨大影响的伟大行业之一,但对我们许多人来说是如此不可见。」
许多国家,包括美国在内,都对制造业的衰落感到悲哀。吴恩达希望 「采用已经改变互联网企业的AI技术,利用它来帮助在制造业工作的人。」
这是一个不断增长的趋势。根据2021年的一项调查,制造业中65%的领导者正在努力试点AI。预计在未来五年内将达到57.2%的复合年增长率。
虽然AI正在越来越多地应用于制造业,但这个过程比吴恩达想象的要难得多。他坦言,当Landing AI开始时,主要专注于咨询工作。
但在参与了许多客户项目后,吴恩达和Landing AI开发了一个新的工具包和游戏手册,让AI在制造业和工业自动化领域发挥作用。
Landing Lens致力于使制造业和工业自动化领域的客户能够快速、轻松地建立和部署视觉检测系统。吴恩达不得不调整他在消费者软件方面的工作,以针对制造业的人工智能。
例如,人工智能驱动的计算机视觉可以帮助制造商完成识别生产线上的缺陷等任务。但这不是一件容易的事,他解释说。
「在消费者软件中,你可以建立一个单一的AI系统,为一亿或十亿用户提供服务,并以这种方式真正获得大量的价值,但在制造业中,每个工厂制造的东西都不一样。所以每个制造厂都需要一个定制的AI系统,根据他们自己的数据进行训练。」
吴恩达说,AI领域的许多公司面临的挑战是,如何帮助1万家制造厂建立1万个客户系统。
以数据为中心的方法认为,AI已经达到了数据比模型更重要的地步。如果将AI视为一个有移动部件的系统,那么就应该保持模型的相对固定,专注于高质量的数据来微调模型,而不是继续推动模型的边际改进。
有这种想法的人并不多。在斯坦福大学领导Hazy研究小组的Chris Ré是另一个以数据为中心的方法的倡导者。当然,如前所述,数据的重要性并不新鲜。有成熟的数学、算法和系统技术来处理数据,这些技术已经发展了几十年。
然而,如何在现代AI模型和方法的基础上建立并重新审视这些技术,才是新的要求。
就在几年前,我们还没有长寿的AI系统,也没有目前这种规模的性能强大的深度模型。吴恩达指出,自从他在2021年3月开始谈论以数据为中心的AI以来,他得到的反应让他想起了大约15年前他和其他人开始讨论深度学习的时候的场景。
吴恩达说「今天人们的反应是:“我一直都知道这个,没有什么新东西”,到'这不可能成功'。"但也有一些人说'对,我一直觉得这个行业需要这个东西,这是一个伟大的方向'。」
「数据为中心」的AI与基础模型
假如说,以数据为核心的人工智能是正确的方向,那么该如何在现实世界运作这一切呢?吴恩达指出,指望机构训练各自的定制AI模型是不现实的。
唯一一个走出这种困境的办法就是设计一种工具,让客户有能力设计自己的模型,收集数据,表达各自领域的知识。
吴恩达和Landing AI将通过Landing Lens实现这一点,赋予各领域专家通过数据标记的方式传达知识的能力。吴恩达指出,在生产领域,一般没有大量的数据来做参照。比方说,如果目标是识别出错的产品,那么一条还算不错的生产线就没那么多废品的图片来参照。
在生产领域,有时候全世界只有50张图片做参照。这对现有的AI来说根本不够。这也就是为什么现在关注的重点应该转向让专家通过收集数据来记录他们所拥有的知识。
吴恩达说,Landing AI的平台正在做这件事。该平台可以帮助用户找到最有用的案例,来构建最一致的标签,并且提高输入到算法里的图片和标签的质量。
这里的关键是「一致性」。吴恩达和他之前的一些人发现,专业知识并不能被单一专家定义。对一位专家来说有缺陷的东西可能会被另一位专家重视。这种现象并不是才有,但只有在不得不生成注释相同的数据集时才会浮出水面。
吴恩达表示,「这就是为什么我们需要好的工具和工作流程来让专家能快速达成一致。没有必要在已经打成共识的地方花时间。相反,我们的目标是关注专家们没有达成一致意见的部分,这样他们就可以通过讨论来解决存在缺陷的部分。事实证明,想让AI系统快速获得良好性能,达成整个数据的一致性至关重要。」
这种方法不仅很有意义,而且也有一些相似之处。吴恩达所描述的过程显然背离了当今 AI 经常采用的「投入更多数据」的方法,而是更多指向基于管理、元数据和语义协调的方法。
事实上,像Google前机器翻译主管David Talbot这样的人一直在传达这么一个思想:除了从数据中学习之外,应用各个领域内的知识对机器翻译也很有意义。在应用机器翻译和自然语言处理 (NLP) 的情况下,所说的领域内的知识就指的是语言学。
我们现在已经达到了一个新阶段,我们拥有所谓的NLP基础模型:比方说像GPT3这样的巨大模型。经过大量数据训练,人们可以使用这些模型针对特定的应用程序或领域进行微调。然而,这类NLP基础模型并没有真正上利用各领域的知识。
计算机视觉的基础模型能不能做到这一点呢?如果能的话,我们该如何实现,以及何时能实现?实现又将带来什么?根据吴恩达的说法,基础模型既是规模问题,也是传统问题。他认为这是可以实现的,因为有很多研究组正在尝试建立计算机视觉的基础模型。
吴恩达说,「这不是说,头一天它还不是基础模型,到第二天就是了。在NLP的案例中,我们看到了模型是在发展的,从Google的BERT模型、transformer模型、GPT2到GPT3。
这是一系列规模越来越大的模型,在越来越多的数据上进行训练,然后人们将其中一些新兴的模型称为基础模型。
吴恩达说,「我相信我们会在计算机视觉中看到类似的东西。很多人多年来一直在ImageNet上进行预训练,我认为趋势逐渐会是对越来越大的数据集进行预训练,越来越多地在未标记的数据集上进行预训练,并且越来越多地将会在视频上进行预训练。」
AI的下一个10年
作为一名计算机视觉的内部人士,吴恩达非常清楚人工智能正在取得的稳步进展。他认为,在未来的某个时候,媒体和公众将宣布,计算机视觉模型属于基础模型。然而,能否准确预测何时会应验则是另一回事。
对于拥有大量数据的应用程序,例如NLP,输入系统的领域知识量随着时间的推移而不断下降。吴恩达解释说,在深度学习(包括计算机视觉和 NLP)的早期,人们通常会训练一个小型的深度学习模型,然后将其与更传统的各领域知识库的方法结合起来,这是因为深度学习的效果不佳。
但随着模型的规模越来越大,数据越来越多,注入的各领域的知识也越来越少。根据吴恩达的说法,人们倾向于认为大量数据有是一种学习算法。这就是为什么机器翻译最终证明了学习方法的端到端的纯度可以表现得不错。但这仅仅适用于需要学习大量数据的问题。
当拥有的是相对较小的数据集时,领域知识确实变得很重要。吴恩达认为人工智能系统提供了两种知识来源——数据和人类经验。当我们拥有大量数据时,人工智能将更多地依赖数据,而不是人类知识。
然而,在数据匮乏的领域,比如在制造业,我们只能依赖人类知识。技术上的方法就是构建工具,让专家得以表达他们的知识。
这似乎指向了诸如鲁棒人工智能、混合人工智能或神经符号人工智能之类的方法,以及用于表达领域知识的知识图谱等技术。然而,虽然吴恩达知道这些技术,并觉得它们很有趣,但 Landing AI并没有与它们合作。
吴恩达还发现所谓的多模态AI或结合不同形式的输入(例如文本和图像)是有发展前景的。在过去十年里,关注的重点是建设和完善单一模态的算法。现在人工智能社区变得更庞大了,并且已经取得了进展,那么追求这个方向就是有意义的。
虽然吴恩达是最早使用GPU进行机器学习的人之一,但如今的他却不太关注硬件方面了。虽然拥有一个蓬勃发展的人工智能芯片生态系统是一件好事,包括英伟达、AMD 和英特尔等老牌企业以及拥有新颖架构的新贵,但这并不是终点。
在过去的十年里,人工智能的大部分焦点都集中在大数据上——也就是说,让我们利用巨大的数据集训练规模更大的神经网络。这是吴恩达本人帮助推广的。
但是,虽然在大模型和大数据方面存在进展,但吴恩达表示,他认为如今AI的发展重点应该转向小数据和以数据为中心的AI。
吴恩达说,「十年前,我低估了发展深度学习所需的工作量,我认为今天很多人都低估了发展以数据为核心的AI所需的工作量、创新、创造力和工具。但是,我们未来几年在这方面将会取得进展,我认为它将支持更多的人工智能应用,我对此感到非常兴奋。」
参考资料:
https://venturebeat.com/2022/03/21/andrew-ng-predicts-the-next-10-years-in-ai/
推荐阅读
Vision Transformer in CV
工业界和学术界最大区别是什么?
凭什么 31x31 大小卷积核的耗时可以和 9x9 卷积差不多
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
Swin Transformer迎来30亿参数的v2.0,我们应该拥抱视觉大模型吗?