服务器抓不到mrcp协议,mrcp与一句话识别

MRCP

MRCP:媒体资源控制协议,是一种计算机网络应用层通讯协议,用于语音服务器向客户端提供各种语音服务(如:语音识别,语音合成,录音服务等)。

MRCP请求方式:类似于HTTP,MRCP使用请求-响应模式,响应可以是简单的确认请求,或者回复关于处理的信息。例如语音识别:MRCP客户端向服务端请求发送一些音频数据,服务端可以响应识别结果。

MRCP并未定义音频数据的传输,数据传输必须依赖其他的协议,比如RTP、FTP来进行。因此MRCP传输可以是流式或者非流式传输。

一句话识别

一句话识别:实时短语音识别,可用于语音输入法、智能客服等领域。可支持流式 和 非流式返回方式。

流式:用户一边说话,一边返回识别结果

非流式:用户整句话说完后返回识别结果

讯飞的语音识别

讯飞的语音识别的场景一般分为2种,如下:

听写:一分钟以内,短语音转文字,实时返回结果,对效率要求高。如:语音对话,语音输入法

转写:五小时以内,长语音转文字,可以非实时,对效率要求不高,准确率要求比听写高。如:客服对话录音转文字

支持格式:

听写:采样率为8kHz或16kHz,位长16bit,单声道的wav、pcm

转写:单声道、多声道的wav、flac、opus、m4a、mp3

针对上述两种场景,背后的识别引擎的处理算法也有差异,具体分为两种引起:

听写:流式引擎——websocket接口,实时解码,来一部分解码一部分,一边接收一边响应

转写:非流式引擎——HTTP接口,接收到整个音频再进行解码,最后再响应

AI平台现有的语音识别方式

AI平台语音识别引擎现采用讯飞的“转写”非流式引擎,但是在调用引擎之前,先把语音文件进行切割处理,分成多个小文件,再将一个个的小文件通过引擎识别,最后将识别结果合并起来,使得看上去类似于流式引擎。

你可能感兴趣的:(服务器抓不到mrcp协议)