8月26日至27日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会发起主办、中科院自动化研究所与CSDN共同承办的2016中国人工智能大会(CCAI 2016)在北京辽宁大厦盛大召开,这也是本年度国内人工智能领域规模最大、规格最高的学术和技术盛会,对于我国人工智能领域的研究及应用发展有着极大的推进作用。大会由CSDN网站进行专题直播,并由百度开放云提供独家视频直播技术支持。
本次大会除了邀请8位全球顶级人工智能专家详细解读当前人工智能领域的热门/前沿研究,还设置了4大专题论坛,邀请近30位学术界和产业界的专家共同探讨人工智能的技术趋势与实践经验。在8月26日下午的“人工智能驱动的人机交互论坛”上,云知声创始人&CEO黄伟、微软亚洲研究院首席研究员周明、地平线机器人技术创始人&CEO余凯、百度深度学习实验室主任林元庆、旷视科技首席科学家孙剑和商汤科技CEO徐立等6位来自不同领域的嘉宾,就当前视觉计算、语音识别、语义分析等技术在深度神经网络推动下的最新进展,以及这些进展在聊天机器人等不同人机交互场景下的应用,进行了深度讨论和分享。
本论坛由360首席科学家&人工智能研究院院长颜水成和腾讯科技微信模式识别中心技术总监陈波共同主持。他们首先表示,大家都希望通过人工智能技术实现更自然的人机交互,包括图像分析、手势识别、语音识别、语义理解等技术,有可能部署在云端,也有可能在本地。但他们通过与一个机器人现场语音交互的演示,说明很多的交互体验还不够完美,并引出了人机交互相关的三个论题:
云知声创始人&CEO黄伟认为,人工智能正在为人机交互带来巨大的推动作用,也是没有触摸屏没有键盘的IoT时代的人机交互的基础技术。目前,人工智能是从感知智能向认知智能发展。所谓感知智能,就是利用图象识别、语音识别或者其他识别技术,把物理信号转化成数字信号,基于这些数字信号进行规划、决策、分析、判断、推理。例如,自动驾驶其实就是把感知和认知结合在一起,通过激光雷达等各种传感器捕捉信号到数字世界,再通过算法根据车况路况做规划决策。
智能家居、机器人流行的IoT时代,人机交互方式目前有很多种,比如手势识别、图像识别、体感识别等,都是未来人机交互发展的方向,但因为语音才是最自然的交互方式,所以在物联网时代,智能语音仍然是最重要的人机交互手段。基于智能语音的自然交互核心技术,首先能够完成语音识别,其次是以语境为基础的语音理解,直至高自然度语言生成。
黄伟解释说,满足人和设备之间自然交互的技术,应该是一种计算的人机交互框架,不光有字面的含义,还有物理语境,因为不同的时间、地点、场所说的同样的文字代表含义是不一样的,结合上下文、人类的物理世界,构建出一个语境为中心的交互形态,才能实现真正的像人和人的自然对话。此外,还需要有个性化、一致化、情感化的考虑。
黄伟还表示,感知、认知都还有很长的路要走,人工智能需要解决商业化的问题落地。他认为,软硬一体化的云解决方案是一个思路,哪怕没有很好地解决认知的问题,自然语音技术能够为产品创造新的价值。不过,语音识别通过芯片的方式植入到IoT设备,需要解决很多技术问题,例如远距离的多次声波反射和衰减,低功耗、低成本,高温、高湿环境的稳定性等。
微软亚洲研究院(MSRA)首席研究员周明也是微软小冰的核心技术研发者之一,他就对话机器人(Bots)的关键技术展开。聊天机器人的结构,包括问话理解、回复(答案或聊天)、根据上下文保证用户个性化信息以及语言风格一致性,最重要的是闲聊、信息问答、完成任务三个层面的引擎。
从应用角度来说,微软小冰目前有三个探索方向:
周明最后介绍了聊天机器人的挑战:
地平线机器人技术(Horizon Robotics)创始人&CEO余凯表示,现在流行的互联网的本质是连接人和世界,而现在,信息、商品、服务都会和人连接,而任何世界的连接目前都是通过机器即计算机实现的,而人和机器是通过交互来实现,机器是通过索引来认识和分析这个世界,因此,交互和索引是互联网的核心。追求人和机器到极致状态的自然交互,代表是苹果公司,它最先把语音Siri用到手机上面,启发整个语音产业;用机器索引现实世界的信息,整个产业里最成功的是Google。
目前人机交互趋势,从键盘到鼠标到触摸到语音到手势,未来可能出现脑机,是从无序到有序,从数据到语义,从线下到线上,从PC到智能手机到智能设备,机器将变成Robot,因为装上了传感器、算法、芯片、处理器、操作系统,在未来就变得无处不在,把人的世界拉得更近,Robot的大脑将会得到更迅速的发展,这需要计算架构的改变,这也是Google、Intel等很多公司都在做的事情。
余凯还表示,一些所谓人脸识别第一名的测试结果,都是基于静态数据的,实际场景中的情况远比测试数据要复杂,都是动态多变且噪声很多的。他认为,现在的人脸识别技术可以用于要求不是太高的场景,比如公司打卡的人脸验证;而能够识别我到底是谁这种开放的问题更难。人脸验证和声纹识别结合,会提升整体的安全等级。
百度深度学习实验室(IDL)主任林元庆表示,人机交互的应用都离不开深度学习或者是语音识别等人工智能核心技术的突破。IDL希望将人工智能核心技术能做到统治级别,通过深度学习技术,不仅要做好图像识别基本技术(图像搜索、OCR、人脸识别),还要实现细粒度图像识别(如菜品识别)、视频分析、AR、医学图像分析等方面的突破。他认为,很多关键技术的决战期将是接下来的1-3年,如果没有数据,再追也追不上,因此真正要把这些AI的技术build。
林元庆还以人脸识别为例子说明人和机器应当如何比较。他表示,我们希望人工智能算法的识别率比人更好,应该是和人在正常情况下的能力范围比较,比如说我们今天拍几十张照片,然后能够通过分析,在可控的范围内比较人的识别的能力和机器的识别能力。他认为我们应该做一些这样的实验,在这种情况下,看我们的算法是不是真的那么好,比如能否从时间跨度很大的照片当中把某人给识别出来。
旷视科技首席科学家孙剑表示,目前,人工智能的发展正在从感知智能向认知智能发展,而视觉是感知智能的一个重要方面,而作为一家专门从事视觉智能的公司,旷视科技的核心技术是深度学习平台MegBrain,旷视科技从数据管理到训练到标识到产品开发,全都在上面进行。旷视科技关注视觉理解的三个重要问题就是分类(人脸识别)、物体检测和语义分割,核心方法是深度神经网络,神经网络模型目前已经从4年前的AlexNet发展到152层的ResNet,图像分类进展、人脸识别的进展、人脸识别的实际应用已经超越人眼。
孙剑认为,无监督对抗学习和语义分割将是视觉智能未来发展的关键。他还表示,人工智能要走远,作为一个公司有三个方面——技术、商业和数据,要有热情、洞察和耐心。
商汤科技CEO徐立认为,深度学习学的是对于认知的表达,是一种生产工具的提升,比如可以代替人工做图像处理。他分享了商汤科技的一个案例:对抗活体检测的攻击,比如用一些3D的模式把照片抠两个眼睛,用一张卡片挡住眼睛,家装自己做一些动作的模式,研究员会写出一些模型,把这些攻击挡在外面,不断用更深奥的算法生成不同的模型去挡住下一波攻击,类似对抗学习模型,两者互相较量迭代过程中,攻击变的越来越真实。
对于深度学习的实际应用,徐立表示,人脸识别确实在有些场景下会有一些问题;不仅如此,深度学习也会有问题——它难以真正找到所谓的错误,就是在整个数据当中拿到了大量的数据,知道它什么时候出问题,比如人脸识别,到底什么时候会把这两个人认错。徐立认为,深度学习技术的实际应用,必须要不停的得到强的反馈,收集各种问题,真正地把什么情况下出问题的数据打通,这样才能真正的推到实用。
**本文为对话实录,未经嘉宾本人确认。CCAI 2016更多精彩信息,请关注CSDN独家直播专题。