【智能之心】智能音箱与语音交互

1.国内也有一些智能音箱产品,性能最好仍是Amazon Echo(鼻祖,2014年发布,销量千万,研发力量超过千人)和Google Home。

2.智能音箱需要生态链打磨,功夫决定体验,不能忽视任何细节。精心打磨一个生态链产品,除了需要考虑多方面的细节,还需要集中自家的优势资源。

3.智能音箱是语音智能助手的家庭入口,远远超出了音箱定义的范畴,这是硬件?软件?还是平台?很难界定,智能音箱涉及了语音交互的完整生态链。

4.国内很多厂商都自认为投入巨大,但是没有被用户认可。相比Amazon Echo来说,还有点小巫见大巫了,Echo广告做进超级碗。

5.公司之间竞争,不在于投入20%实现的80%,而在于投入80%才换来的20%(PS,人的竞争也是如此)。

6.使用简单、外观漂亮才是用户购买的主要动力。

8.语音交互是继键盘、鼠标和触摸屏之后的主流交互方式,现场感和即时性是关键因素。语音交互压根不是搞深度学习就能解决,需要对声学和智能都有深刻理解和长期积累。

9.语音智能的语法和语感学术界都还没有清晰思路,需要长久的研究突破,不仅限当前火热的机器学习和大数据,要考虑物理世界的概念和模型,最起码也要明白婴儿学习语言的过程。从这个思路来看,现在人工智能距离实现真正智能语音交互还差十万八千里。

10.Google的WaveNet引起语音合成领域的震动,这是一个新的思路。在此之前,语音合成已经很长时间没有任何实质性的进步,无非就是参数化和拼接式两种方法。

11.人机对话的现场感(沉浸感),从指标上来分析,其中一个重要参数就是机器的平均响应速度(国内的峰值指标),Echo刚开始是5秒,后来压到1.5秒,再后来就是1秒以内。

12.人类语言交流即时性,技术上称为单工或者双工模式,单工的时候对话者的语言是“互斥”的,不会出现声音的重叠和打断。以Siri和Echo为主人机语音交互就是单工模式。单工模式无法提供面对面交流时的畅快感和现场感,缺少部分对话体验。双工模式实际上是希望改变这一点,但是目前来看与人类还是有不少差距的,这些都是需要技术去克服的难点。

你可能感兴趣的:(【智能之心】智能音箱与语音交互)