由于所从事行业的原因,几年来一直关注AI项目的落地和发展。这两年AI项目可谓热到烫手,可是到行业应用中就会发现离理想还太远。除了较为成熟的人脸识别、语音交互外几乎都无法实用。从去年开始就听到许多业内人士在喊AI寒冬即将来临,这或许并非杞人忧天。这是方向问题?技术问题?还是什么更深层的本质问题呢?
一、AI的三次浪潮
这一次的AI浪潮可以说是历史上的第三次。第一次是在五六十年代的时候随着人工神经网络数学模型的提出,大火了一把。那时主要是两层神经元组成的神经网络,不过69年的时候被数学证明,其本质上还是一个线性模型,只能用于线性分类,连最简单的异或XOR问题都解决不了。于是就沉寂了。到了80年代神经网络之父Hinton提出了多层的神经网络以及可训练的BackPropagation算法,解决了非线性分类和学习的问题,于是第二次浪潮来临。可惜好景不长,90年代被证明BP算法存在梯度消失问题,造成无法对前层进行有效学习,深层网络基本没有什么效果。我读研读博的时候,基本已经没有人用神经网络模型了,各种浅层的机器学习模型比如SVM等效果都比神经网络强。不得不说Hinton实在是大牛,数十年如一日的钻研,2006年终于提出了解决深层网络训练中梯度消失问题的方案:Deep Belief Net;2011年又提出ReLU激活函数解决神经网络中传统的sigmoid函数造成的梯度消失问题,并在各种机器学习比赛中完败对手取得惊人成绩,证明了深度学习的潜力。随后Hinton及一批神经网络大牛加入谷歌,让谷歌自此引领了第三次AI浪潮。
不过以深度学习为主的AI,仍然是用复杂模型实现对数据的拟合。如果不是大数据时代的来临,基于GPU并行运算设备的出现,使得计算机的运算能力得到跨越式的提升,基于复杂神经网络的深度学习算法是不可能在人工智能领域大放异彩的。
这一次的AI浪潮,让人们觉得仿佛只要给与更多的数据,深度学习的人工智能就能解决一切问题。狂热之下已经很少有人去冷静思考,在没有大量数据的应用中怎么办?对大量数据的超复杂模型拟合,真的就是在模拟人类的学习方式吗?
二、人类智能与人工智能的区别
许多人都在担心人工智能未来会超越人类智能,在各行各业的工作中都将替代人类。这样的言论遍布各种媒体,很显然有误导普通大众的趋势。至少从目前的技术方向来说,人工智能跟人类智能根本不是一回事。计算机的优势在数据存储和处理能力,那本来就不是人类大脑的特长。人类如果要和机器比数据计算能力,不要说跟最先进的AI比,就是跟20元一台的计算器比,也是望尘莫及。
人工智能其实还不能称之为严格意义上的“智能”。在科研领域一直还是比较谦虚的定义为“机器学习”(machine learning),而且从主流技术方向来说,一直是Data Driven的Statistical Modeling,也就是基于数据统计的数学建模。记得我的博士导师,剑桥大学的Steven Young教授(语音识别领域的鼻祖级人物)对机器学习曾有过一句契入本质的评价:机器学习就是用seen data to predict unseen。所以要想机器学习的效果好,就必须加大训练数据量(seen data),让其能最大限度的覆盖测试数据(unseen data)。近年流行的深度学习算法,只是让复杂的神经网络模型能更好的拟合大量的训练数据。随着这些算法的公布甚至开源,未来大数据智能的竞争已经不是技术上的竞争,而是数据上的竞争。
然而人类的智能从来都不是基于大数据的学习。拿图像识别来说,我们教小孩认识猫,只要给他几张猫的图片就可以了,并不需要去学习成千上万张图片。而且人类的学习是在日常生活中不断递进积累的。比如当小孩看到狗的时候,你要告诉他这不是猫而是狗,他就会去修正猫的概念同时建立狗的概念。人类的大脑并不具备大数据处理能力,人类的智能一直都是小样本学习和递进式学习。什么时候人类的智能从举一反三(小样本学习)变成了大数据统计?
2017年在我国政府把人工智能提升到国家战略层面的时候,主要提到的还是基于深度学习的大数据智能;而大洋彼岸的美国国防部(DARPA)却把目标放在了小样本学习(few-shot learning, 甚至zero-shot learning)上。而国际上,在深度学习之后,小样本学习正在形成新的热点。这很让人深思。一个国家战略层次的规划,出错的代价难以想象,更何况这个规划还局限了技术路线,还指定了有限的几家公司限制了市场的竞争。就拿我承担的国家十三五重点研发课题来说,我们定的方向是不限语言方言的语音检索,当时采用的技术路线就是小样本建模加递进式学习,这在国际上都是领先的,在国内做的人更是凤毛麟角。可是因为不是大数据深度学习,就被许多人质疑,项目差点没立下来。而随着研发的开展和跟一线应用部门的交流,发现这个路线才是真正能帮助用户解决实际问题的。所以不管技术吹得多高大上,关键还是要能解决实际问题,否则迟早会被市场抛弃。AI寒冬也不是第一次了。
三、大数据智能在实际应用中遇到的问题
2018年许多行业都上马了基于大数据深度学习的AI项目,一年下来发现很多项目都遇到了落地问题,实用效果并不理想。这里面最主要的有两方面原因:一是数据问题;二是应用场景问题。
先说数据问题,在许多行业其实并不具备大数据环境,或者有大量数据,但是没有真正能用于训练学习的大量标注样本。比如说无人驾驶,各种突发情况的数据样本就不足;比如说金融行业,数据分布有长尾效应,也很难拿到足够的训练样本;再比如说小语种或者方言的语音识别,基本上就没有人工标注过的数据。这种例子比比皆是,让基于大数据学习的技术很难落地实用,而小样本学习技术却正好可以针对这种实际问题。比如我们用小样本学习技术,在云南某单位的实战中,通过几个语音样本,就在几百个小时的地方方言中检索出来关键的语音线索,帮助相关部门发现了两名在逃涉毒人员。
AI项目落地还有一个很关键的应用场景问题。拿语音交互来说,现在的语音识别技术算是比较成熟了。我亲自测试过国内最顶尖AI公司做的语音转文字系统,一边说一边马上出文字,确实可以达到95%以上的准确率。可是到了实际应用中,比如电话语音或者录音的转写, 80%的准确率都很难达到。我这说的还是标准语音,如果是方言口音或者噪音环境,往往有60%的准确率就不错了。这种测试效果和实际应用的差距是什么原因造成的呢?除了口音、噪音以及语言领域差异这些客观因素的影响,其实这里面还隐藏了一个应用场景的秘密,就是交互方式。一般你去测试语音转写的时候,潜意识里面就会让自己用一种计算机能识别得好的说话方式来输入语音,这叫合作式交互。就跟人们对话交流一样,如果对方听不清,你就会放慢语速或者说话大声一些。而如果要转写人们平时随意说话的录音,这种就属于非合作式交互,效果自然差很多。这也就是为什么现在用户体验比较好的语音识别应用或者产品,大多都是合作式交互场景。
AI技术成熟到可以实际应用的产品,确实还有很长的路要走,不要企图跨越式发展,只有真正从实际需求出发,一步一步解决实际问题才是最靠谱的。