中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高、规模最大的人工智能大会。之前在北京举办过两届,第三届由阿里巴巴集团&蚂蚁金服主办,去做报告的都是中国人工智能大会的大咖:香港科技大学计算机主任杨强,以前是华为诺亚方舟实验室的首届主任;蚂蚁金服副总裁、首席数据科学家漆远,以前是普度大学的终身教授,还有中国科学院、工程院的院士以及一些国外的牛人,来头不小。
有意思的是,就在大会举办前两天,国家刚发布了新一代人工智能的发展规划通知,把人工智能拉升到了国家战略的高度。具体请见http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm
大会嘉宾报告主要内容
想了一下,虽然说是参会感想,但是还是要简单写一点会议内容的,因为内容比较多,我就选几个有意思的简单阐述一下。
《L3的挑战与量产》李德毅 —— 中国工程院院士、中国人工智能学会理事长
李老师的报告是自动驾驶领域的,报告标题的L3(L代表Level)很抓眼,其实自动驾驶的“自动”是有等级的,数字越高越自动,从辅助人工驾驶(L1)转型到部分自动驾驶(L2)、再到机器自驾驶(L3),而L3是自动等级的一个分水岭,以为着真正意义上的“自动”,现在的特斯拉等自动驾驶都还是L2的,也就是说,人的注意力是不能完全离开的,当汽车无法进行自动决策而报警的时候,人需要及时介入。据说年底奥迪要出一款L3等级的自动驾驶汽车,不得不说中国制造还有很长的路要走。
李老师的主要工作是把解决L3的问题抽象成解决“人”的问题,构建一个“驾驶脑”把驾驶员的认知用机器学习替代,拥有更记忆、决策和行为能力的认知体,它的设计框架可以看图1。李老师也表达了要在所有情况下都能够把自动驾驶做到L3的程度是比较困难的,目前只能考虑在特定的场景下做,才有可能完成中国L3自动驾驶汽车的量产。
所以目前各个领域都是一样,要实际大规模工业应用,必须限制一个垂直的领域或者狭窄的范围,这个在做AI产品设计或者业务规划的时候是有指导意义的。
图1 “驾驶脑”的架构
深度学习的迁移模型——杨强,香港科技大学计算机与工程系主任
迁移学习已经不是一个新的概念了,它描述在领域1的知识如何在相似的领域2里发挥价值,人类很擅长做迁移学习,比如学会了起自行车,那么很容易可以学会骑摩托车。
迁移学习被认为是人工智能的下一个热点,因为理论上它可以解决训练数据规模不足的问题,只不过现在在工业界还不够成熟。然而,在工业届中,我们却很容易找到训练数据量级不足的案例,比如在蚂蚁金服,我们试图去构建一个预测模型去自动的检测线上系统的发生故障的可能性,构建一个分类器是最容易想到的,但是由于蚂蚁金服系统本身就较健壮,历史的故障数据两只手的手指头就数的过来了,这样,故障训练样本就是及其匮乏的,如果能从其他角度获取标注数据,再迁移到故障样本上去,岂不美哉。
杨老师主要结合深度学习各层网络向量从多层次特征学习的迁移角度去讲的,大致的思路是在源领域构建一个深度神经网络,然后在目标领域定义一个类似的网络,定义源、目标领域的距离,从参数层面传递知识给目标网络,在大额消费金融的困境、跨领域舆情分析、互联网汽车分类问题等多个实际应用案例中多方面地展示了迁移学习的深度模型所带来的优点,感兴趣的同学可以参考PPT:http://download.csdn.net/meeting/speech_preview/456
《金融智能的发展与应用》——漆远,蚂蚁金服副总裁、首席数据科学家
漆老师的报告主要是讲AI和蚂蚁金服的金融场景结合的时候遇到的问题以及解决问题背后的技术,Structure2Vec在蚂蚁的应用场景中大放异彩,在风控的垃圾账户识别和微贷的花呗反套现识别中都将性能提升数倍。Structure2Vec是将图模型和深度学习结合起来的一类算法,这类算法应该在工业界使用的不多,因为漆老师以前在普度大学就是做图模型出身的,怎么结合最近比较火的深度学习也是轻车熟路,所以在蚂蚁先用了起来。
在智能客服这个业务场景,重点解决问答的问题,采用LSTM+DSSM更好的结合用户行为轨迹时间序列信息和用户文本输入,将机器人满意度做的超过了人工。
强化学习也在蚂蚁金服得到了比较好的落地,在花呗智能签约中,采用强化学习,基于实时事件场景人群定向(事件+人群+渠道)多目标(点击+签约)优化融合与在线决策给用户展示的页面,采用流式强化学习框架在线更新模型,将点击率提升171%、签约率提升149%。
在介绍了对外开放的算法平台水晶球之后,就图像识别在蚂蚁金服的应用做了介绍,以“定损宝”为例,介绍了去反光、图象角度矫正、目标分割,多图融合等技术,大大减少了人工定损的工作量。
我的感受
深度学习的确带来了很大的变化,但谈不上革命
很多人从感官上接触AI,是从AlphaGo开始的,那时深度学习就进一步被推上浪尖,围棋的下法真的是千变万化,解空间极其复杂,在这样一个情况下深度学习都可以打败人类,那还有什么不可以?
其实事实真不是那样的,围棋虽然解空间复杂,但是他是一个明确定义(Well defined)的问题:围棋的棋盘是固定的,下棋的方式是固定的,结果好坏的衡量是无歧义的。这些因素导致了这个问题是一个边界明确的问题。图像识别、语音识别就是边界明确的问题,所以这两个任务结合深度学习效果甚至超越了人类。但是在自然语言处理,深度学习却发挥不出威力,以语法分析这个NLP的子任务来说,深度学习的提升还不到1%,因为自然语言处理是非明确定义(Not Well defined)的问题。
所以回到平时的工作中来,我们应该对深度学习趋之若鹜吗?答案很显然,用什么技术还是要取决于什么场景,精华在于用对了什么,而不是用了什么。深度学习的确带来了很大的变化,但谈不上革命(真正的革命可能是在Neural Science或者交叉领域吧 J)。
标注问题在工业界是一个大问题[c1]
在工业界中,标注问题很多场景中都体现了出来,这次大会提到的迁移学习、强化学习、还有GAN等都可以一定程度上的解决标注带来的问题,在未来如何利用好工业界大量的未标注数据是从算法的角度来看可能会引起质的变化的措施,但是这个过程是学术、工业不断碰撞循环上升的过程,会比较缓慢。
人工智能真的热起来了,但是我们要保持冷静
人工智能真的热起来了,很多人对人工智能的期望也是高了起来,很多问题都期望能借助人工智能帮助解决,但是正如大会致辞嘉宾谭铁牛(中国科学院院士、中国人工智能学会副理事长)所说,我们要保持冷静,虽然目前有一些成功的商业产品,但是人工智能目前仍然处于初期,未来在一定范围内有所为,但也不可泡沫般的吹嘘,要保持冷静、脚踏实地,能用AI解决的才用。
作者:周杨
原文链接:技术琐话