语音识别之ASRT开源项目(一)

     紧接上一期“语音识别之开发环境搭建(二)”,在接下来的几期,我们先从开源项目ASRT_SpeechRecognition讲解起,包括怎么训练模型、通过工具自制样本集和模型测试等,以此让大家对语音识别有一个基本的认识。之后我们再深入讲解其原理及相关代码,以便为后续针对自己的需求修改代码,设计行业语音样本等做好准备。

一、ASRT_SpeechRecognition简介

1、gitee地址:ASRT_SpeechRecognition: A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统

2、ASRT是一个基于深度学习的中文语音识别系统,采用卷积采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。具体可查阅其博客https://www.ailemon.net/

3、代码结构如下图:

语音识别之ASRT开源项目(一)_第1张图片

4、使用git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git

命令下载代码,或者可下载后拷贝到虚拟机中。

语音识别之ASRT开源项目(一)_第2张图片

注:git命令不可用,可通过yum install git进行安装

二、模型训练

1、安装项目依赖

1)通过sudo pip3 install --upgrade pip升级pip

语音识别之ASRT开源项目(一)_第3张图片

2)为了节省学习成本,这里我们没有使用GPU,所以不使用tensorflow-gpu,而使用tensorflow。打开requirements.txt,删掉tensorflow-gpu==2.5.3。然后使用pip3 install tensorflow独立安装tensorflow

语音识别之ASRT开源项目(一)_第4张图片

3)使用pip3 install -r requirements.txt安装依赖

语音识别之ASRT开源项目(一)_第5张图片

2、由于使用CPU来训练模型,所以需按如下修改代码。打开train_speech_model.py将os.environ["CUDA_VISIBLE_DEVICES"]值改为-1

语音识别之ASRT开源项目(一)_第6张图片

3、准备训练模型所需的数据集

1)使用python3 download_default_datalist.py下载默认数据集的拼音标签文件,并对下载好的拼音标签文件进行修改,留下小部分数据。测试所用的标签文件数据获取方式详见第三大点。

语音识别之ASRT开源项目(一)_第7张图片

2)由于数据集太大,无法使用虚拟机这种低配的环境无法进行训练,所以我们对数据集进行裁剪,只留一小部分THCHS30数据集,具体数据获取方式详见文末第三大点。如下修改asrt_config.json,只留下THCHS30

语音识别之ASRT开源项目(一)_第8张图片

3)在根目录下新建data文件夹,并在data文件夹中新建speech_data,然后将语音训练数据集拷到speech_data文件夹下

语音识别之ASRT开源项目(一)_第9张图片

4、模型训练

1)新建存放生成模型的文件夹save_models

语音识别之ASRT开源项目(一)_第10张图片

2)python3 train_speech_model.py训练模型

语音识别之ASRT开源项目(一)_第11张图片

语音识别之ASRT开源项目(一)_第12张图片

3)查看生成的模型文件

语音识别之ASRT开源项目(一)_第13张图片

三、测试的样本数据获取地址

https://download.csdn.net/download/cangyudiyi/85775166

    以上就是本期的全部内容啦,下期我们将结合本期训练生成的模型来进行测试,并将介绍ASRT_SpeechRecognition的语音识别的客户端程序和后端服务。See you next time! Enjoy!

各位乡亲父老,扫码关注一下公众号,再走呗。

语音识别之ASRT开源项目(一)_第14张图片

你可能感兴趣的:(语音识别,语音识别,python,人工智能)