语音音频文件识别

目前市面上语音识别有两种方式,分别是实时流式语音识别和音频文件识别。下面重点介绍音频文件识别:

1、音频文件识别的定义:

音频文件识别是指将声波录制成音频文件,用这个音频文件去识别转换成文字的过程。

2、音频文件识别连接的方式:

目前音频文件识别连接的方式为http连接;

3、音频文件识别支持的音频文件格式:

在语音音频文件识别中,目前市面长能够支持识别的音频文件格式受几个参数的影响:

①音频文件格式:pcm,wav,ogg_speex,ogg_opus,mp3,opus;

②采样位宽:16bits;或者 sample bytes: 2 Bytes;

③声道:单声道,或者channel: 1;

④采样率:16,或者 sample rate: 16000;

备注:1Byte=8bit

语音音频文件识别_第1张图片

4、音频文件识别中查看音频格式的工具:

①开发使用音频文件转换工具FFmpeg,目前市场上的音频格式复杂多样,但是系统支持的音频只有上边的几种,因此就涉及到音频格式转换的问题,常用的音频文件转换的工具有FFmpeg,国外软件,开源的,能够将不同格式、不同采样率、不同比特率、不同声道的音频转换成系统能够支持的格式,再去识别。FFmpeg最主要的优势是开源,可以基于源代码做转换,能够使用代码将音频文件转换成系统能够识别的格式,对于系统集成有很大的便捷性;

②自己使用音频文件转换工具“格式工厂”,格式工厂能够将音频文件直接转换成所需要的格式,同时在转换过程中,能够查看原始音频文件的格式,能够查看音频文件的比特率、采样位宽、声道等参数信息;但是局限性在于本软件为可视化的页面形式,没有提供开源代码,因此不具备系统集成性;

③自己使用音频文件转换工具“audacity”:国外软件,能够分析音频的质量、清晰度等问题。

语音音频文件识别_第2张图片

④eSpeak工具,在测试语音产品方面,能够将文字转换成标准wav格式的音频文件,能够排出人为干扰,方便使用。

语音音频文件识别_第3张图片

5、通用手机、pad、录音笔录制音频文件格式说明:

①华为手机自带“录音机”录制的音频文件格式为16k采样率,16比特率,单声道、wav格式,为标准格式,因此一般情况下不需要转换格式。

语音音频文件识别_第4张图片

②华为手机录制的电话录音格式:amr格式,单声道、16k采样率、14比特率,为非标准音频,因此需要转换格式。

语音音频文件识别_第5张图片

③苹果手机(vivo手机)录制的音频文件格式:m4a格式,双声道、48k采样率

语音音频文件识别_第6张图片

④常用录音笔录制的音频文件格式:2声道、采样率44.1k;

语音音频文件识别_第7张图片

你可能感兴趣的:(语音产品)