语音识别入门01-基本概念

1 基本概念

音频采样率(sample rate)

  • 音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。
  • 语音合成服务只支持合成16000Hz和8000Hz两种采样率,其中8000Hz一般在客服场景的电话业务中使用。
  • 语音识别服务只支持识别16000Hz和8000Hz两种采样率音频,其中8000Hz一般在客户场景的电话业务中使用。
  • 调用语音服务时,需要设置采样率。语音数据与采样率参数要保持一致,否则识别/合成效果会出问题。如果数据采样率高于16000Hz,可以降采用至16000Hz再发送给识别服务。如果语音数据采样率时8000Hz,请勿将采样率升至16000Hz,应该选择采样率8000Hz模型进行识别。

音频采样位数(sample size)

  • 采样值(位深),即采样样本幅度量化,用来衡量声音波动变化的数字,可以说是声卡的分辨率。数值越大,分辨率越高。目前语音识别中常用的采样位数为16bits小端序,及每次采样的音频信息用2字节保存。
  • 每个采样数据记录的时振幅,采样精度取决于采样位数的大小:
  • 1字节(8bit)记录256个数,也就是将振幅划分为256个等级。
  • 2字节(16bit)记录65536个数。

语音编码(format)

语音数据存储和传输的方式,语音编码与文件格式不同,如常见的wav文件格式,会在其头部定义语音数据的编码,其中音频数据通常采用PCM或其他编码。 在调用语音服务之前应对确认自己语音数据的编码格式是被服务支持的。

声道(channel)

声音在录制时在不同空间位置采集的相互独立的音频信号,所以声道数也就是声音录制时的音源数量。常见的音频数据为单声道或双声道(立体声)。 除录音文件识别以外的识别服务只支持单声道(mono)语音数据,如果数据是双声道,需要先转换为单声道。

语音识别结果

  • 非流式API识别结果一次性返回。
  • 流式API识别结果,在识别过程中会持续返回文字(中间识别结果),通过中间结果可以实现连续上屏效果。
    举例一段语音,识别结果最终是“你好标贝科技”,中间结果可能返回多次。
你

你好

你好标贝

你好标贝科技

参考

  • 标贝科技-开发者文档

你可能感兴趣的:(语音识别)