检信ALLEMOTION语音情感识别关键技术介绍

           通过利用面向LSTM-CTC 时序深度学习语音情感识别模型 ,以及联结主义时间分类(Connectionist temporal classification, CTC)方法自动对齐能力将情感标签对齐到语音中的情感帧上;以及利用训练集和测试集工具达到识别7种情感特征 (高兴、悲伤、中性、生气、惊奇、害怕、恐惧) ,检信ALLEMOTION语音情感识别比传统的语音情感识别精度提高了 1.8%—2.3%的精度(不同维度提高的精度有所不同)。检信ALLEMOTION语音情感识别关键技术介绍_第1张图片

 

 (a)  (b)目标情感在不同训练时四类情感的网络输出

(c) 原始语音信号

关键参数

  1. 系统的识别时延低于250ms。因为在线语音情感识别,如果时延过高不但影响用户体验,而且对后续的语音情感识别请求的处理时间就更加长,发生堵塞。时延低是系统最重要的要求,要求系统对每个语音情感识别的请求处理时间低于250ms。
  2. 能够处理大规模并发任务请求。检信ALLEMOTION语音情感识别具有并发任务处理能力。如果对语音情感识别任务的处理是串行的,则依然满足不了大规模的应用。
  3. 利用采集针对性的语料进行模型训练,并在引擎模块中语音情感特征提取前加入语音降噪处理步骤,提高了情感识别率。原始语音信号从频谱图上可以看到语音数据中含有一些不规则信号的噪声。下图是经过降噪之后的语音信号变得有规律,可以发现降噪效果还是明显的。经过降噪之后重新训练,明显提高模型的效果,说明经过降噪的语音有效降低环境噪声和设备底噪对语音情感识别的影响。检信ALLEMOTION语音情感识别关键技术介绍_第2张图片

 

                

  1. 采用群体决策优化神经网络方法

检信ALLEMOTION采用群体决策的方法将训练集按照不同的组合条件,并选出每次交叉验证在测试集上识别效果最好的模型组成一个神经网络群,当进行识别时,神经网络群中的每个模型分别对当前样本进行判断给出情感标签,最后使用投票的方式给出最终识别结果。

  1. 语音情感识别精度达到达到82%
  2. 检信ALLEMOTION语音情感识别工作稳定性达到99.5% ,运行可靠且有能力处理大规模并发任务。

你可能感兴趣的:(人工智能,心理分析,语音心理分析,语音识别,深度学习,人工智能)