从1956年被认为是全球人工智能研究起点的学术会议,到2016年,AIphaGo与世界顶级围棋高手李世石的人机世纪对战,掀起了人工智能浪潮的新高潮。人工智能似乎离我们越来越近,并在许多方面服务人类。但必须承认的是,人工智能要通过自然语言处理与人类自如交流还是一个“终极挑战”。如何应对这些挑战,以及当下的人机交互实践,今天这篇文章由香侬科技创始人兼CEO李纪为老师为大家详细解答。

AI+对话,可知可解_第1张图片

人工智能的终极难题之一:人机对话

人机对话,是人工智能领域的一个子方向,通俗的讲就是让人可以通过人类的语言(即自然语言)与计算机进行交互。作为人工智能的终极难题之一,一个完整的人机对话系统涉及到的技术极为广泛,例如计算机科学中的语音技术,自然语言处理,机器学习,规划与推理,知识工程,甚至语言学和认知科学中的许多理论在人机对话中都有所应用。当下,我们都使用过小度或者siri,给大家最直观的感受就是很弱智,我们想要解决的问题就是如何让对话系统变得不弱智。

在现实生活中,对话就是我们平时的聊天,内容会依据环境、心情、目的、年龄等不断变化,我们的愿景是希望机器可以像人一样聊天的人工智能。但人工智能从上世纪50年代萌芽,由图灵测试的猜到如今的siri,发展到今天,机器依然不能处理复杂对话。如美国的一个真人秀演员在节目里调戏siri,跟siri聊天,想让大家看siri有多智能、多聪明。当他让siri写一个节目,siri会发现一个问题,当问siri稍微复杂点的问题时,它不懂就会搜索,会问什么意思,要搜点什么。从这个例子中看出,整个对话缺少整个事件或者聊天的人,siri并不知道它是谁、后面包含是什么特质,也不知道要做什么。因此,siri目前是比较弱智的,它出现的这些错误究其背后是算法框架的错误。对话系统里,有匹配说话的触发词,会触发数据库规定的某些场景,这些场景最重要的是要明白这句话的目的是什么,最后由分类器把说的话连起来,再根据上下文触发后面的对话。

人工智能的人工:对话系统

对话系统被认为是整个人工智能的人工,它涉及到两个部分,理解和生成。这两个涵盖了自然语音处理的所有任务。目前这两个任务都没有很彻底的被解决掉。基于此,对话系统整个处理方式把整个框架分成两个模块,也是理解和生成。当然除了这几点还有很多其他的方面,如跟人聊天,每个人都有自己的语义,有自己的说话方式;另一方面,为了能让谈话持续下去,应是交互性的让人家愿意聊,互相在气氛中找到自己想要谈话的欲望。

历史上过去50年间,自从图灵测试被提出后,如何解决这个问题。美国开发了Eliza,它是人工智能里面非常重要,且出现在上个世纪60年代,人工智能刚刚兴起的时间。它是在逻辑、专家系统知识系统背景下提出的对话模型,这个对话模型引起了很大震动,它想去模拟作为心理医生,要跟有抑郁的人做辅助治疗,这个提出也通过图灵测试。这样的系统,在那个时代给我们带来很大的冲击,后来这个系统被真正的心理指导人去用,一直持续40年的时间。直到上个世纪末,依然有人认为我在跟Eliza聊天。

AI+对话,可知可解_第2张图片

从产品的角度看出Eliza没有用非常复杂的算法但是解决了痛点,说明不复杂的算法也能解决现实问题。这个图代表了现有的包括小度的框架系统。第一步ASR,语句进来先把声波变成字。下面涉及到两个框架,一个是NLP,理解这句话是什么,下面一个模块就是基于理解的这句话,去产生一句话,到最后输出。 其中对于理解语义并产出,是从系统里的语料库里去挑选,如果目标语句不在语料库里,需要自己生成的时候,催生出机器翻译。

机器翻译是经典传统的自然语言处理任务,有很长的历史,基本在人工智能出现之后就有这个任务,同样解决办法也是跟人工智能流派相关。在六七十年代,人们尝试解决机器翻译。在90年代发明了IBM model,这是第一次在早年把统计机器模型引到自然语音处理里,通过大量的平行语料,不需要字典就能学出词和词的对应关系。这个模型用了大概20年,直到2014年底才被神经网络模型彻底取代。

目前,人机对话仍在高速发展,小度、siri等智能机器人的发展,表明人工智能开始从科学家的实验室“飞入寻常百姓家”。每个人,都是此次媒介变革和科技创新的见证者。同时也是中国人工智能和机器人研究能力的飞跃。

提问环节

提问:想请问有没有研究过结合的。
李纪为:只是基于不同的进来的信息,进来的是一个图象,用CN把图象编码,机器翻译是基于我前面一句话,你要翻译,机器对话系统是基于上下文,本质上基本没有区别。

提问:如果基于原本图片有的标签,得到的结果是比较单一的,我们考虑使用深层对话网络,深层对话网络结果有随机性,应该是可以产生对图片的描述。
李纪为:并没有广泛的应用是有原因的,语言是不连续的。

提问:看到两篇文章,我觉得对这方面的研究不是很多。这个方向是不是可以进一步研究。
李纪为:是一个好的方向,我会认为自然语言,应该是一个大的发展方向,这个东西所有人都会认为应该用。

李纪为,香侬科技创始人兼CEO,百度奖学金获得者。著名青年 AI 学者,主要研究领域为自然语言处理、深度学习、机器学习。斯坦福大学计算机专业历史上第一位仅用三年时间就获得博士的人。在近日由剑桥大学研究员 Marek Rei 发布的一项统计中,李纪为博在最近三年世界所有人工智能研究者中,以第一作者发表的顶级会议文章数量高居第一位。