最近在做自己的毕业设计,打算做的是基于tensorflow利用CNN算法进行识别。于是查找资料之后,就做了花朵识别分类程序,在github上找到了一个可以用的程序,于是copy下来,自己进行改动来实现自己想要的功能。然后在指导老师的建议下,增加了语音识别指定的图片这个模块。在增加这个模块的过程中,遇到了很多问题,所以特此记录下来,方便日后查看改进,也希望能够给看到此文章的同学一些帮助。
github链接: [https://github.com/bayhax/FlowerRecognize]
我所用的编程环境: win7+spyder3.6+tensorflow1.13.1+百度AipSpeech
目前有很多语音处理模块,比如 PyPI中
apiai
google-cloud-speech
pocketsphinx
SpeechRecognition
waston-developer-cloud
完全可以自行去百度或者Google,或者去官网看文档,都是很不错的选择。
由于我使用的是SpeechRecognition,所以就记录一些它的使用过程。
安装
pip install SpeechRecognition
如果有在线网络下载慢等问题可以去官网下载whl文件,进入whl文件目录进行安装
官网链接[https://pypi.org/project/SpeechRecognition/#files]
安装完之后再python交互界面测试一下
import speech_recognition as sr
sr.__version__
显示出版本信息之后就证明安装成功了。
使用
下面是我使用的时候的一段代码
import speech_recognition as sr
import logging
logging.basicConfig(level=logging.DEBUG)
while True:
#speech_recognition的核心是识别器类
r = sr.Recognizer()
#麦克风
mic = sr.Microphone()
logging.info('录音中')
with mic as source:
#去噪声
r.adjust_for_ambient_noise(source)
audio = r.listen(source)
logging.info('录音结束,识别中.....')
test = r.recognize_google(audio,language='cmn-Hans-CN',show_all=True)
#print(test[0])
#这里注意这个recognize_google返回的test,如果是空文件,返回的是一个列表
#如果不是空文件,返回的是一个包含列表的字典
if isinstance(test,list):
print("空")
else:
print(test['alternative'][0]['transcript'])
print(type(test['alternative'][0]['transcript']))
#print(type(test))
logging.info('end')
文字转语音模块也有很多,比如Google,百度,讯飞等等,我个人使用的是百度的AipSpeech,所以说说它的使用方法,也蛮方便的。
安装
pip install AipSpeech
然后去百度AI开放平台,点击控制台,创建自己的应用,获取自己的ID,KEY等。
使用
# -*- coding: utf-8 -*-
#百度AI平台提供的语音库文件,playsound播放音频
from aip import AipSpeech
import shutil
#百度AI平台的ID秘钥等,APPID AK SK """
APP_ID = '你自己的ID'
API_KEY = '你自己的KEY'
SECRET_KEY = '你自己的秘钥'
#定义自己的初始化AipSpeech对象
myspeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
num = 0
#要转换的文字信息
result = myspeech.synthesis('二营长,把老子的意大利炮拿来', 'zh', 1, {
'spd':3,'pit':9,'vol': 6,'per':4
})
#如果识别正确,则返回语音的二进文件写入自己定义的audio文件中,错误则返回dict
#这里注意一下,with open打开写入文件用相对路劲有时候会出错,用绝对路径会相对好一些。
if not isinstance(result, dict):
with open(r'.\test\audio'+str(num)+'.mp3', 'wb') as f:
f.write(result)
#复制文件
shutil.copy(r'.\test\audio'+str(num)+'.mp3', r'.\testcopy\audio'+str(num)+'.mp3')
播放音频文件可以用pygame,mp3play,playsound等等,我用的是playsound,但是我的渣渣电脑可能有问题,也有可能是我什么地方做错了,我用哪种播放方式都无法关闭播放的文件,导致我无法删除或者重新写入文件,所以只好复制音频文件,播放副本,每次生成新的名字的音频文件。然后运行完再手动删除副本文件。如果是某一种格式的音频无法播放或者有问题,可以试着用ffmpeg将文件转换格式。同理去它的官网下载轮子或者pip安装适合自己的版本都是可以的。当然ffmpeg需要pydub。安装pydub等这些python的库,用pip,conda或者下载whl文件,都是还算好解决的。下面给大家一段mp3格式转到wav格式的代码。其他转换同理。
from pydub import AudioSegment
#要转换的文件的路径
filepath=".\\test\\audio0.mp3"
def trans_mp3_to_wav(filepath):
song = AudioSegment.from_mp3(filepath)
print("转换....")
#转换完的文件存储路径及格式
song.export(".\\testcopy\\test.wav", format="wav")
if __name__ == "__main__":
trans_mp3_to_wav(filepath)
在github上查看playsound的文件,发现好像没有关闭音频的方式
下面是playsound的python文件
def winCommand(*command):
buf = c_buffer(255)
command = ' '.join(command).encode(getfilesystemencoding())
errorCode = int(windll.winmm.mciSendStringA(command, buf, 254, 0))
if errorCode:
errorBuffer = c_buffer(255)
windll.winmm.mciGetErrorStringA(errorCode, errorBuffer, 254)
exceptionMessage = ('\n Error ' + str(errorCode) + ' for command:'
'\n ' + command.decode() +
'\n ' + errorBuffer.value.decode())
raise PlaysoundException(exceptionMessage)
return buf.value
alias = 'playsound_' + str(random())
winCommand('open "' + sound + '" alias', alias)
winCommand('set', alias, 'time format milliseconds')
durationInMS = winCommand('status', alias, 'length')
winCommand('play', alias, 'from 0 to', durationInMS.decode())
if block:
sleep(float(durationInMS) / 1000.0)
回到正题
安装
pip install playsound
使用
from playsound import playsound
playsound("你自己的音频文件的路径")
增加这个语音识别模块的这几天,当明明感觉程序没问题却就是报错,然后模块用起来不尽人意的时候,还是着实让人烦恼的,不过最后还是初成模型,实现了自己想要的功能还是不错滴,期待日后找出不能关闭音频文件的原因,然后改进。完整的花朵分类的程序(三个功能:选择本地图片进行识别,拍照识别,语音识别),见文章的最前面github链接。