《如何评测语音技能的智能程度》是5篇系列文字,来自一位创业者,也是DuerOS开发者的投稿,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第5篇,也是最后一篇。
这是一份前面四篇评测维度介绍文章的总结,同时也是一份清单使用说明书。
“结构清晰,主次分明”,用解构的方式去理解一款产品,这才是人工智能从业者思考的专业化表现。
评测语音技能的智能程度有4大维度:
如何评测语音技能的智能程度(1)——意图理解
如何评测语音技能的智能程度(2)——服务提供
如何评测语音技能的智能程度(3)——交互流畅
如何评测语音技能的智能程度(4)——人格特质
对于这四大维度,什么是重点呢? 面向需求进行自定义。
权重高低的定义有两个考量维度,一个是行业需求,另一个是硬件载体。行业需求包括出行、旅游、餐饮、教育、医疗、金融、电商、客服等;硬件载体包括智能音箱、智能手表、车机、智能耳机、机器人等等。
智能语音技能,往往都会解决某个行业领域的特定业务需求,也往往都存在于一个或多个硬件载体上,与人类进行交互行为。大维度自定义权重,同理,每个维度上的指标也基于需求自定义。
例如:某语音技能的定位是用来听歌的,“意图理解“中的模块做得非常好,但是由于版权原因,很多歌曲无法播放,这个技能的用户体验就会非常糟糕,因为满足不了用户听歌的需求。
如果该语音技能是线下生活服务,比如订外卖或者是电影票,这类往往不具备版权垄断特质,但由于业务流程的复杂,有太多叠加查询条件,自然对“意图理解“就会有很高的权重要求。
如果某个玩具/手办具备语音交互功能,用户非常在意玩具/手办的语音交互是否匹配角色气质,故而对这类用户而言,“人格特质“就要要求高权重。
这份清单花了笔者太多的时间,仍然有太多的问题值得讨论:
为什么是4个维度,而不是5个或者是3个?
基于什么依据设置每个维度的重点和加分项?
各维度是否穷尽了“智能化”评测的角度?
每个指标的用词的和定义是否精准无歧义且易于理解?
每个维度的指标是不是平行、独立关系?
每个维度的指标是不是做到了穷举?
特别是在保留哪些指标,合并哪些指标之间,笔者做了很多的取舍和权衡。语音识别表现,这个指标,与其说是遗漏,不如说是笔者的选择。目前最好的ASR识别率是97%,且这已经是非常成熟的技术。ASR和TTS是基础服务,在未来就像AI领域水电煤一样,就跟选百度云还是阿里云一样,花钱买服务就能搞定,差距不会太大,故而不值得纳入评测范畴。
因此,这类语音识别的基础表现,就直接归到【交互流畅】维度“服务稳定性”指标上了。
ASR这项技术未来差距很可能会被抹平,而如果做到了方言转普通话然后转文本那就是另外一个话题了,方言转普通话和任何一种语言转普通话是同一个逻辑。那笔者可能会归纳到【意图理解】维度上。
笔者力求全面,但并非每一个都需要用到,可以基于自己的需求,自由添加、删除和修改分类。例如:如果是一个智能耳机或者语义翻译棒,那么“反馈样式丰富性”上,就不必要纳入评测范围了。
但选择本身就是一个难题,这件事情非常地考验我们的认知。举个例子:苹果手机前面几代产品,玻璃屏幕特别不耐摔,这在诺基亚的评测维度里面,是无法上市销售的。后来的故事,我们都知道了,这个故事各位细品。
指标的量化标准并不是一个难题。拿测试集去验证,最终统计各个指标的表现,然后再横向比较竞品就好。
商业化服务比得是相对指标,而不是绝对指标,即不需要考满分,只要在某个方向上,领先与其他竞品一段距离就好,然后就可以宣称,这是当前市面上“某某指标”表现最好的产品。
除去调研和评测其他智能语音技能,这份清单的还可以用于服务的产品定位,以及作为清单来评价语音技能服务表现。
语音技能服务在立项的时候,要哪些不要哪些,有多大的边界和范围,是一个思考题。开始的无屏音箱都在抄亚马逊的Echo,后面为什么又出现了有屏音箱呢?这个就是智能语音产品的定位和选择。
从商业逻辑上来看,缺陷明显的产品无法存活于市场,没有长项的产品也注定平庸。企业也没法把所有的资源平均分配,那样的东西注定平庸,唯有极致才可以生存。
语音技能服务的上限就是自己的卖点,这样才能够从竞争之中脱颖而出。
例如,再烂的智能手机也要搭配一颗摄像头,且摄像头的性能表现不能低于某个标准,如果这个太烂的话,注定无法存活。前面苹果手机的屏幕其实也抗震,不是一摔就碎的东西,这种就是下限保障。
语音技能服务的下限要做到什么程度,这个就是及格线,存活于市场的前提。
在保证了及格线达到平均线标准之后,应当把更多的资源堆到某个维度上。大家比拼的是在资源有限的前提下,基于定位做产品交付。
战略的第一步就是放弃,敢放弃什么,拼的是认知。
综上所述——
基于定位来选择重要的维度和指标,做权重优先级排序。
基于选择的指标,使其数值可衡量,做量化标准。
基于公司资源保障产品下限,基于人才提升上限。
掌握使用说明书,这份清单的价值也就到位了。
人的理性是有限的,在遇到环境影响而情绪波动的时候,结果往往不可控。如《清单革命》中所说的那样,以原则清单行事则更加可控,减少纠结犹豫,提升效率。
笔者在设计评测指标的时候,往往是朝着最理想的人工智能去做比对的,它能帮助我们在各个维度上去逼近超级人工智能,打造令人尖叫的产品。
谢谢各位看到这里,希望这份业务清单能够帮助到大家。
【关联阅读】
一篇文章深入理解VUI和GUI的优劣对比
面向NLP的AI产品方法论——寻找语音交互的业务场景
面向NLP的AI产品方法论——如何设计多轮语音技能
面向NLP的AI产品方法论——如何做好“多轮对话管理”
如何从零开始搭建数据分析后台 | 饭大官人
面向NLP的AI产品方法论——如何通过数据分析迭代优化
如何评测语音技能的智能程度(1)——意图理解
如何评测语音技能的智能程度(2)——服务提供
如何评测语音技能的智能程度(3)——交互流畅
如何评测语音技能的智能程度(4)——人格特质
——DuerOS 相关——
https://dueros.baidu.com/dbp
多模态交互之DPL 2.0
聊聊“全双工”
DuerOS的零编程技能实现
揭秘“语音交互”背后的AI硬核黑科技!
《智能语音时代》的读书笔记
再看语音交互设计
语音交互设计的一点认知
百度AI开发者大会之DuerOS 回顾
AI开发者大会中的公开课解读——DuerOS技能开发与CFC编程
AI开发者大会中的公开课解读——如何在DuerOS技能中实现用户支付购买
DPL 来了——百度2019AI开发者大会DuerOS公开课解读之三
故事工厂在DuerOS技能开发中的应用——百度2019AI开发者大会DuerOS公开课解读之四
企业赋能 AI 服务生活
DuerOS 走进初夏的成都
放心用吧!浅谈DuerOS的安全性
智能音箱场景下的性能优化
在校大学生能成为DuerOS 的独立开发者吗?
生动化你的表达——DuerOS中的SSML应用
用JavaScript打造AI应用-从Nodejs SDK 看DuerOS的技能开发
从Java SDK看DuerOS的技能开发
面向接口/协议?看DuerOS的技能开发
感知自然语言理解(NLU)
感知人工智能操作系统