chatbot的原理是什么?
人机对话通常是靠背后的数据库 & 文本检索支撑,然而数据库覆盖不到海量人类对话怎么办?还有几个解决思路:
- 语言模型,可以把它看作各种语言规则的叠加,能够覆盖大约20%的问题,但准确度很差。
- 生成式对话,模仿翻译模型进行的逐字映射,在用于训练的样本集内生成效果很好,样本集外准确度不高。
- 万金油回复,走完所有流程依然得不到一个好的回复,就抛出万能随机语。这种情况下的准确度往往比前两者还高出些许。
检索部分利用的是相似度算法,顾名思义,相似度即是比对输入的一句话与库中现存文本的相似程度,并取出答案;实现相似度计算,又需要借助切词、句法分析、实体抽取等等。
那么输入和输出之间叠加了如此多复杂的环节,是不是意味着我们就可以得到一个体验比较好的chatbot了?
答案是NO。
在深度学习技术广泛运用于视觉领域、声音领域的今天,文本处理依然存在着难以逾越的技术鸿沟;在处理庞杂的非结构化文本上,机器学习带来的提升往往不如人工编辑答案来的直接。
而前期对文本数据进行预处理的环节也带来了巨大损耗,包括文本的清洗、抽取等,更何况现在用户数据保密性越来越受到重视,获取高质量的自然对话数据由技术问题转变成了商务合作问题。
这说明什么?
以目前的技术水平,实现chatbot还是要借助自然对话的语料积累。一个以chatbot作为核心技术创业的公司,必须深谙市场与产品化的哲学,否则很快就会丧失生存空间。
而SNS类公司具备文本积累的天然优势,例如新浪微博。机器学习算法又不存在门槛。聊天机器人 —— 披着光鲜的AI外衣,实际上做的大部分是脏活累活,虽然可以形成有效的迭代周期,但无法短平快地进行产品定位调整。
短板必须依托技术跃迁才有可能带来突破。能做出卓越贡献的通常是MIT,GOOGLE这类研发实力雄厚的机构或公司,能力集成公司只有默默地等待开源代码。
没有一点好消息吗?
这些年来市场对chatbot产品依然保持着旺盛的需求,一个会摔倒会卖蠢的虚拟猫就轻易让用户投入上千句对话,那么加入其它能力(功能、问答,甚至人脸识别、语音合成等)之后呢,用户黏性会提升吗?
可以,但效果不明显。而且前提是你的机器人对白显得没有那么无聊。打个比方,一个“不无聊”的示例:
用户:你好
BOT:找我干嘛?
一个“无聊”的示例:
用户:你好
BOT:你也好
想让用户无休止地和机器人聊下去,单纯保证准确度是不够的。这其中包含两个要素:
准确度是底线。不能总是答非所问,这取决于数据库的数量与QA关联度;
有趣的对白。人工编辑答案聊起来反而缺乏激情,即使它准确度足够高。自然产生的对话往往那么不经意,试想正在撩妹的你和正在撩机器人的你,你会对哪个更上心,你会对一个机器人刻意幽默吗?
就算一定程度上解决了上述这两个难题,chatbot还存在一个致命缺陷:
前言不搭后语,逻辑不通 —— 没有上下文。一个典型的例子:
用户:你在干嘛?
BOT:我在陪女朋友逛街
用户:你有女朋友?
BOT:怎么可能,我是女的
对于一些逻辑严密的用户,遇到这种对话会直接放弃。好在我们的用户并不都是这样的,如果他们愿意,还是会尝试顺着对话继续往下聊。
有时候,聪明的PM们也会故意制造问题,让用户赢得心理优势,从而提升CPS —— 平均交互轮次:比如故意输掉成语接龙、用户输入讲笑话的指令时,故意不讲等等,这些小心机也会起到一些效果,但都无法解决根本问题。
此外,分类问题也很棘手。当用户输入一个query时,他到底是想要闲聊呢,还是在认真地提问?机器人很难通过分类将“你爸爸是做什么工作的?”正确地归类到聊天,而不是知识性问答。我们所指的知识性问答,通常是“人为什么会呼吸”、“天为什么是蓝的”这类具有普遍正确性的问题。
看起来,chatbot的未来似乎很渺茫
2015年是人工智能的一次浪潮,站在2017年年初的时间点上来看,浪潮正在衰退。在通用域进行浅尝辄止后随之放弃,转作垂直场景的,如智能家居、车载系统的大有人在。而siri、echo这类产品凭借出色的烧钱能力,即使短期内无法商业化,也可以依托强大的平台迭代下去。
创业公司用一整年的时间调整策略,摸索的结果是又回到了解决方案提供商的角色。这个意识来得有点晚 —— 市场需求才是决定产品形态的最终导向,而不是愿景。
现实是,chatbot若想独立产品化,面对的风险非常高。
虽然市场存在大量这样的需求:无论是实体机器人生产商还是创建了虚拟角色的公司,都想尝试赋予机器人一枚真正的“灵魂”。实际上让机器显得富有“生命力”可以不单靠言语交流来体现,还有故意摔倒、跟着音乐挥舞手臂、摇头晃脑等等,但让机器人开口说话依然是最强烈的诉求(商家们多么想迎合大众对于科幻的期待)。
产品化的思路
chatbot作为一种人机交互方式,围绕着其他品类的产品运作了起来。收集对话数据、挖掘用户需求,逐渐形成支撑产品体验的各种要素 —— 甚至一个好的IP形象,都会让用户多花几倍时间在与虚拟机器人闲聊上。
微软小冰很早就这么做了:通过塑造蛮不讲理的少女形象,以及宣传中的情感慰藉能力,笼络了大批闲聊用户。
但是问题来了,小冰是有套路的,用户很快会熟悉她的对话套路,然后离开。
为了留住用户,同时(还是)为了收集数据,小冰从14年起就开始保持每周迭代两个功能的频率,支撑至今。在支持中小开发者、微信运营者的层面,小冰的服务也尽量地贴心:可以分析微信公众号的文章,做到“智能推荐”(尽管显得还不是非常智能)、识别朋友圈截图从而辅助官方账号运营等等...
围绕chatbot核心,小冰团队利用一些现有的、成熟的AI能力,来体现少女小冰的“智能”,看起来似乎卓有成效,但是小冰也没摆脱那个缺陷:“套路”不是人为加上去的,而是天然存在的 —— 数据库永远覆盖不到人类的全部对话,在40%的最常见的聊天内容背后,是无穷无尽的长尾问题...
在认清这个基本现状后,小冰团队也不再强调“IQ”的重要性,转而频繁提及“EQ”了。说是扬长避短,倒更像是应对技术天花板的营销手段。
GOOGLE的做法则是做一款社交软件,把chatbot“嵌入”进去。用户在与人交流的间隙,ELLO就会打岔进来,或者依据用户发给对方的照片推荐相关回复,如评论一朵花、一个旅游目的地等。再解决一些叫外卖、查天气的基本服务,一个具备完整闭环的AI对话产品也就这样被塑造出来了。
新意总是层出不穷的,但像alphago那样叫座容易,像“正经”产品那样获利就难了。
结语
一个会开口讲话、看似能理解你意思的机器人也远没有想象中那么神秘。问题就在于规划宏伟蓝图和迎合市场打造“爆品”之间,似乎总存在一些难以调和。创业公司如何应对,全看其背后的价值观了。
至少,对于人机对话领域的产品经理而言,也许跟一群像模像样的geek共事才是最大的收获:)