数据标注的未来:吴恩达“未来十年AI会以数据为中心”

    标注猿的第59篇原创    

   一个用数据视角看AI世界的标注猿   

最近看到了一篇报道是IEEE Spectrum对吴恩达采访的报道,真是收获颇丰,也解决了之前针对AI基础数据处理发展方向的一些疑惑。所以专门一篇文章分享给大家我的收获。

还记得在之前的几篇文章中,我提到了三个我非常关心的问题。

  • 一个是在低价中标环境下的数据标注溢价从何谈起?中提到的数据价值的问题,得到的结论是AI不缺数据,缺的是高价值数据。

  • 另一个是在一个“Scale AI”,让整个国内数据标注行业都酸了!中提到的数据生产一定是标注化流程化的数据工程,需要用工程学的思路解决。

  • 最后一个是在【标注小课堂】数据标注的价值不是数据标注中对于数据标注价值的讨论。

以上三个问题也是我一直在思考的问题。在吴老师的这次采访中都得到了很好的答案。

吴恩达是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。如果说做数据标注一定要知道两个AI大牛的话,吴老师一定是其中之一。而另一位就是李飞飞老师了。

在本次采访中表达了一个很核心的观点:过去十年,人工智能最大的转变是深度学习,而接下来的十年,我认为会转向以数据为中心。并为此发起了“以数据为中心的AI”运动。

并分别从3个方面进行了讨论:

  • 基础数据模型

  • 从大数据转移到高质量数据

  • 数据工程

一.基础数模型

吴老师对基础模型给出了他定义:指规模非常大,并在大数据上训练的模型,使用的时候可以为特定的应用进行微调。但同时有给出了基础模型会遇到的一些问题。

  1. 在某些场景下,大数据并不适用,“小数据”才是更好的解决方案。

  2. 如何确保合理、公平、无偏?

  3. 存在可扩展性难题

吴老师给出的观点是:大数据与大模型作为深度学习引擎已经成功运行了15年,它仍然具有活力。话虽如此,但在某些场景下,我们也看到,大数据并不适用,“小数据”才是更好的解决方案。

而吴老师在这里面也提到了一个很关键的一点:过去十年,深度学习的成功更多的发生在面向消费的公司,这些公司特点是拥有庞大的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。

二.从大数据转移到高质量数据

在基础数据模型阶段,更多的是采用大数据与大模型作为深度学习引擎。这在我们从16年到目前经历的6年时间里,从数据标注从业者的角度也很明显能体会到的一点是我们数据处理的规模都非常大,覆盖面也非常广。即使是一家公司的需求,所覆盖的维度也非常多。

但是除了上面提到的面向消费级的公司外,会有一个明显的感觉,就是目前的客户过于集中了,那么就会有一个问题,是标注的需求还没有被释放?还是目前的解决方案只适合部分头部客户呢?

这部分想到了我在低价中标环境下的数据标注溢价从何谈起?中举例的辽宁高速的一个语音机器人的需求案例,有兴趣的小伙伴可以回顾一下。

这个部分吴老师给出了观点:过去十年,人们一直在遵循“下载数据集,改进代码”这一范式,多亏了这种范式,深度学习获得了巨大的成功。但对许多应用程序来说,代码—神经网络架构,已经基本解决,不会成为大的难点。因此保持神经网络架构固定,寻找改进数据的方法,才会更有效率。目前必须将重点“从大数据转移到高质量数据”

三.数据工程

这部分吴老师是非常重视的,大体从三个方面介绍了具体的想法,极具学习参考的价值。

  • “以数据为中心的AI”是一个系统的学科,并且会是一场运动。

  • 如何利用工具对数据中的单个子集进行工程化处理

  • 数据合成

个人认为数据标注的数据工程分两大部分一个是基于管理流程的工程化,一个是基于所处理数据的工程化。而吴老师这里面着重说的是数据的工程化。通过对数据工程化的处理来降低处理过程中人力财力的消耗。

这部分吴老师给出的观点:我对那些可以处理很大数据集的工具感兴趣。即使在标记很嘈杂的情况下,这些工具也能快速有效地将你的注意力吸引到数据的单个子集上,或者快速将你的注意力引向100个分组中的一个组中,在那里收集更多数据会更有帮助。收集更多的数据往往是有帮助的,但如果所有工作都要收集大量数据,可能会非常昂贵。

在数据处理过程中,即便是大数据集的处理,也可以通过数据工程的方法快速挖掘到高价值数据集才是更重要的。要针对特定的场景收集高价值数据,当然高价值数据却是相对的且有针对性的场景的,例如:吴老师举的例子,我有次发现,当背景中有汽车噪音时,有一个语音识别系统的表现会很差。了解了这一点,我就可以在汽车噪音的背景下收集更多的数据。而不是所有的工作都要收集更多的数据,那样处理起来会非常昂贵且费时。

吴老师在采访中也表示:“以数据为中心的AI”赋予我们的强大工具之一是:对数据的单个子集进行工程化的能力。想象一下,一个经过训练的机器学习系统在大部分数据集上的表现还不错,却只在数据的一个子集上产生了偏差。这时候,如果要为了提高该子集的性能,而改变整个神经网络架构,这是相当困难的。但是,如果能仅对数据的一个子集进行设计,那么就可以更有针对性的解决这个问题。

吴老师分享了Landing AI的工作方式,为制造商做视觉检查时,我们经常使用训练模型,RetinaNet,而预训练只是其中的一小部分。其中更难的问题是提供工具,使制造商能够挑选并以相同的方式标记出正确的用于微调的图像集。这是一个非常实际的问题,无论是在视觉、NLP,还是语音领域,甚至连标记人员也不愿意手动标记。在使用大数据时,如果数据参差不齐,常见的处理方式是获取大量的数据,然后用算法进行平均处理。但是,如果能够开发出一些工具标记数据的不同之处,并提供非常具有针对性的方法改善数据的一致性,这将是一个获得高性能系统的更有效的方法。

在最后部分,吴老师谈到了使用合成数据的解决方案,并表示:合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上,Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途,不仅仅表现在预处理中增加学习算法数据集。我希望看到更多的工具,让开发者使用合成数据生成成为机器学习迭代开发闭环中的一部分。

数据合成的使用场景中,目前在数据标注中的确也使用。合成的数据主要是针对算法在训练模型的过程中,发现在某一方面的表现特别差,从而针对其特定的场景或问题生成更多的数据。

而数据合成也分为人工合成数据和机器算法合成数据。对于人工合成数据我们在采集标注过程中经常遇到的就是对文本和音频的特定场景定向的采集或生成数据。例如:文本扩写、语音对话模拟等。而机器算法数据合成部分,记得有一次参加腾讯自动驾驶公开课上,介绍的自动驾驶训练腾讯也基于腾讯游戏的基础技术做了城市仿真模拟用于自动驾驶。但是这部分数据的最终的有效性还值得商榷。

以上就是看了吴老师这次访谈的一些收获。对于行业来说个人认为面向消费的人工智能大规模基础数据处理需求一定会放缓,这个是毋庸置疑的了,这个放缓是单个场景的数据总量需求放缓,多场景的数据类型会增加。那么如何用数据工程的思路去解决大数据中单个子集数据价值分析以及数据使用安全的问题,并构建可用的系统工具,为用户提供工具来设计数据和表达他们的领域知识,从而使他们能够构建自己的模型就尤为重要了。

而对于从业者来说,过去十年,人工智能最大的转变是深度学习,而接下来的十年,我会转向以数据为中心。随着神经网络架构的成熟,对于许多实际应用来说,瓶颈将会存在于“如何获取、开发所需要的数据”。以数据为中心的AI在社区拥有巨大的能量和潜力,需要更多的人来从事人工智能训练师的工作而非数据标注员。

相关文章阅读:

  1. 低价中标环境下的数据标注溢价从何谈起?

  2. 一个“Scale AI”,让整个国内数据标注行业都酸了!

  3. 【标注小课堂】数据标注的价值不是数据标注

下一篇文章预告:

《自动驾驶采标系列八:复杂场景语义理解-多目标追踪》

-----------------------完---------------------

公众号:AI数据标注猿

知乎:AI数据标注猿

CSDN:AI数据标注猿

微信号:

-----------------------完---------------------

 

你可能感兴趣的:(数据标注,数据标注,人工智能)