科大讯飞SDK接口介绍

1 .概述

科大讯飞SDK接口介绍_第1张图片
萌萌哒皮卡丘
  • 如今,机器人崛起,而语音正是机器人的一个必要的技能,想想如果一个机器人听不懂人说的话,那它只能是机器,而不能冠以“人”之名。
  • 科大讯飞,想必是现在最火的一家公司之一吧,其拥有好几年的技术经验的积累,观望以前,技术的不成熟:神经网络算法的不成熟,硬件上的瓶颈,等等,这些,都让从前的科大讯飞吃尽了苦头。但是,现在却不同了,随着硬件上关键的突破,软件上的突破,机器学习,语音分析的成熟,再加上这些年来的技术积累以及数据的沉淀,科大讯飞也就迎来了她的春天。

2 .语音听写

语音听写
  • 语音听写,主要是将连续的语音快速识别为文字的过程。这是一个非常有用的接口,它让机器人实现了听懂人的话。而,更加人性化的是,开发者可以针对某一个应用,根据特定场景下的用词,按照格式上传一些高频的词语,让科大的分析引擎通过机器学习,从而对这些词语有着更高的识别率。
  • 而且,科大官方也提出了几个听写的模型,通俗理解就是一些场景,针对这些场景,某些词语的识别率更高。

3.命令词识别

科大讯飞SDK接口介绍_第2张图片
命令词识别
  • 在线命令词识别的语法文件根据作用范围不同,又分为应用级在线语法文件和终端级在线语法文件。
  • 应用级在线语法文件,即语法文件绑定 Appid。应用级在线语法文件需在讯飞开放平台页面进行设置,一旦设置成功,不同设备上的同一应用将默认启用此在线语法。具备统一管理语法,语法更新无需更新客户端 App 的优点。
  • 终端级在线语法文件,则是语法文件绑定某一终端,通过 App 先本地构建语法文件,再上传该语法文件获取相应的ID即 Grammar ID, 然后在使用识别功能前指定 Grammar ID 以启用该语法文件。
  • 在线命令词识别默认启用应用级在线语法文件。如果又指定了终端级语法文件的 Grammar ID,那么两种类型的语法文件同时生效,无优先级顺序,最终识别结果按照结果置信度降序返回。

命令词,诸如:芝麻开灯,芝麻关灯等等,然后去做一个识别。
而这个接口可以集成为在线也可以为本地。


4.语音合成

语音合成
  • 与语音听写相反,合成是将文字信息转化为可听的声音信息,让机器像人一样开口说话。
  • 语音合成能配置很多东西:如,发音人(男童?女孩?大妈?大叔?),语言(英语,中文)等等。
  • 同样,这个接口可以集成为在线也可以为本地。

5.语义理解

科大讯飞SDK接口介绍_第3张图片
语义理解
  • 如果说,语音听写接口是一名翻译者,那么语义理解就是一名交流者。翻译者只是纯粹的翻译,而不加个人的感情,而交流者,却是专心的理解你的话,恰到好处地回答你的问题,解答您的困扰。
  • 语义理解就是这个样子,开发者通过构建自己的语义库(其实就是一问一答), 能让机器人开始理解人类。
  • 此接口支持文本的语义理解和语音的语义理解。但是不支持离线。

6.语音评测

语音评测
  • 语音评测是通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的软件系统。
  • 同过设置,可以设置为评测英文,中文。

7.声纹识别

声纹识别
  • 声纹识别(Voiceprint Recognize),是一项根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需要电话和麦克风即可,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式。

8.其他

  • 人脸识别,楼主没使用过,楼主倒是用过Face++的,还挺可以的,收费版应该更好。
  • 语音唤醒,收费级别的接口,没用过。

你可能感兴趣的:(科大讯飞SDK接口介绍)