声纹识别中深度学习实践应用之一-------------------------------------------------------------------------------特征提取方面

                 声纹识别,也就是说话人识别,利用计算机识别说话人的身份ID,相当于说话人的身份证一样的标识。通过建立声纹识别系统模型,通过数据训练,更新参数计算,最后确立一个比较不错的模型。但是语音数据的标签如果纯靠人工的话是非常的吃力的,建议在市场上找一些比较不错的公司的声纹识别系统,进行智能标签,然后再人工校对出错标签。说话人在空气生理综合特征,比如说口腔、肺、鼻腔等大小和构造的差异性,空气的气流速度,说话人的生活习惯,个人成长环境,感冒咳嗽等外在身体状态,都会使得说话人说出话产生的语音信号中所包含的特征参数会不一致,都是通过相关规则或者数学理论建立模型,但是这其中的参数还没有一个统一的规定。现如今虽然深度学习可以挖掘说话人更深层次的特征,行业届瓶颈期,专业人才的稀少,语音的不稳定因素太多,我们无法正确的使用最标准的有效特征参数。

 

             现如今,我们深度学习的发展,势必比以前更能推动声纹识别技术的进步。声纹识别技术的关键是特征提取和模式匹配。所以首先介绍一下特征提取。

特征提取一般选取MFCC、Fbank、语谱图之后,就会产生低层的特征向量,特征向量的维数一般是根据自己模型确定。然后把低层特征向量映射输入到神经网络里面进行训练,神经网络最后选择深度学习里面的时序建模类网络,毕竟语音信号是时序信号,更贴切建模。最后为了特征的更准确,可以在损失函数设计上做些改进!

 

 

后续模式匹配方面应用深度学习的!

 

你可能感兴趣的:(深度学习声纹识别,机器学习,深度学习)