2018.7月的最后一天

开始做导师的布置的任务了,不过感觉有点懵。。加油,说不定一个月之后还要去实习呢。多准备准备。

这个任务目前不知道具体要怎么做,大致是用深度学习或者是卷积神经网络来训练自然人声与机器合成声音的征,最后能区分两种声音。导师的意思是老问题新方法也可以发文章。

我的大致思路是这样的:

首先要先提取特征,依然打算先用mfcc这个用烂了的特征。目前有机器合成语音库,之前在百度语音识别调用API生成的语音。提取出两种声音的mfcc特征之后。

再怎么训练??这步要怎么做?

cnn不是更适合二维的图像,一维的语音特征要怎么做?

方法一:1×n维好像也可以.。将一个维度的音频向量处理成了一个音频特征矩阵,与人脸识别face-recognition项目的网络结构类似。

方法二:或者把特征生成图像,然后放入cnn训练。但生成特征图像需要很多语音。

或许试试就知道了。

emm

快动手吧。

 

你可能感兴趣的:(2018.7月的最后一天)