能够不联网,或者在初始化过程中仅链接一次网络实现离线资源的调用,翻译准确率,功能集成难易程度,自定义词库功能
// 0 -> 倾向大写数字 1 -> 倾向阿拉伯数字
mIat.setParameter("nunum","1");
支持语音自训练,训练自己的语音集
百度短语音识别(含唤醒)要求安静的环境,真人的正常语速的日常用语,并且不能多个人同时发音。
以下场景讲会导致识别或者唤醒效果变差,错误,甚至没有结果:
音频里有技术专业名称或者用语 (技术专业名称请到自训练平台改善)
4. 音频里是某个专业领域的对话,非日常用语。比如专业会议,动画片等
5. 百度识别和合成sdk相互独立,没有类似“相互抵消“的功能。 建议先收集一定数量的真实环境测试集,按照测试集评估及反馈。
腾讯语音识别
安卓SDK语音识别仅提供在线语音识别
语音转文本(也称为“语音识别”)可将音频流听录为应用程序、工具或设备可以使用或显示的文本。 结合语言理解 (LUIS) 使用语音转文本可以从听录的语音中派生用户意向,以及处理语音命令。 使用语音翻译通过单个调用将语音输入翻译为另一种语言。 有关详细信息,请参阅语音转文本基础知识。
可在以下平台上使用语音识别 (SR)、短语列表、意向、翻译和本地容器:
文本转语音(也称为“语音合成”)将文本转换为类似人类语言的合成语音。 输入文本是字符串文字或使用语音合成标记语言 (SSML)。 有关标准语音或神经语音的详细信息,请参阅文本转语音语言和语音支持。
可在以下平台上使用文本转语音 (TTS):
语音助理使用语音 SDK,让你可为你的应用程序和体验创建自然的、类似于人类的对话界面。 语音 SDK 提供快速、可靠的交互,其中包括单一连接上的语音转文本、文本转语音和对话数据。 你的实现可以使用 Bot Framework 的 Direct Line Speech 通道或集成的“自定义命令”服务来完成任务。 此外,语音助理可以使用在“自定义语音”门户中创建的自定义语音来添加独特的语音输出体验。
以下平台上提供了“语音助理”支持:
语音 SDK 支持关键字识别的概念。 “关键字识别”是在语音中识别关键字的操作,后跟一个在听到该关键字时执行的操作。 例如,“你好,Cortana”会激活 Cortana 助理。
“关键字识别”在以下平台上可用:
对话听录实现了实时(和异步)语音识别、说话人识别,并可以将句子归属到每个扬声器(也称为 分割聚类)。 它非常适合用于听录能够区分说话人的面对面会谈场景。
对话听录 在以下平台上可用:
C#(Framework 和 .NET Core)/Windows 和 UWP 和 Linux
Java/Windows 和 Linux 和 Android(语音设备 SDK)
多设备对话
借助多设备对话,可在一个对话中连接多个设备或客户端以发送基于语音或文本的消息,并轻松支持听录和翻译。
多设备对话 在以下平台上可用:
C#(Framework 和 .NET Core)/Windows
自定义/代理场景
语音 SDK 可用于“呼叫中心听录”场景,其中会生成电话服务数据。
呼叫中心听录是语音转文本的一个常见应用场景,用于听录可能来自各种系统(例如交互式语音应答 (IVR))的大量电话服务数据。 语音服务的最新语音识别模型非常擅长听录这些电话数据,即使是人类也难以识别的数据。
呼叫中心听录 通过批量语音服务(经由其 REST API)提供,可以在任何情况下使用。
一些语音 SDK 编程语言支持编解码器压缩的音频输入流。 有关详细信息,请参阅使用压缩的音频输入格式 。
可在以下平台上使用编解码器压缩的音频输入:
使用批量听录能够以异步方式对大量的数据进行语音转文本听录。 只能通过 REST API 使用批量听录。 除了将语音音频转换为文本,批量语音转文本还允许进行分割聚类和情感分析。
语音服务在语音转文本、文本转语音和语音翻译方面提供了强大的功能和默认模型。 有时,你可能希望提高基线性能,以便更好地处理你的独特用例。 语音服务有各种各样的无代码自定义工具,这些工具使上述事项变得简单,并使你能够使用基于你自己的数据的自定义模型获得竞争优势。 这些模型将仅供你和你的组织使用。
使用语音转文本在独特的环境中进行识别和听录时,可以创建并训练自定义的声学、语言和发音模型,以解决环境干扰或行业特定的词汇的问题。 可通过自定义语音识别门户来创建和管理无代码自定义语音识别模型。 自定义语音识别模型在发布后可以由语音 SDK 使用。
自定义文本转语音(也称为“自定义语音”)是一组在线工具,用于为你的品牌创建可识别的独一无二的语音。 可通过“自定义语音”门户来创建和管理无代码“自定义语音”模型。 “自定义语音”模型在发布后可以由语音 SDK 使用。
国内版本缺少语音助手,关键字识别等