一、技术方案名称及相关信息
名称:一种语音质检方法
技术联系人:张云斌
单位及部门:
手机:16619779473
办公电话:__
E-MAIL:_ _
二、背景技术图文解说及术语解释
语音质检通常用于检测销售或客服人员是否规范用语、是否服务到位,以提升客户满意度、实现客户有价值信息挖掘和提取。传统的语音质检通常由专门的质检人员进行人工质检,而由于往往场景的语音数据的庞大,以及传统的人工质检效率低下,传统语音质检难以实现语音数据全检。现阶段出现了许多基于深度学习的基于语义和基于语音特征的方法,来协助语音质检。基于语义的语音质检方法完全依赖于第三方的语音识别转写结果,对于一些特定场景往往语音识别效果很不理想,进而导致基于语义的语音质检方法不理想;而基于语音特征的方法,对于带口音的特殊场景,效果也会大打折扣,最终导致无法保证查全率。
三、本技术方案解决的问题
本发明的主要目的在于提出一种语音质检方法,解决现有技术中的基于语义的语音质检方法调用第三方语音转换工具分析语义,由于转写误差导致的语音质检结果误差的问题;以及现有技术中的基于语音特征的语音质检方法将质检项转换为语音进行模板匹配,无法适应口音导致的质检结果误差问题。
四、本技术方案图文解说
将待质检语音使用第三方语音识别引擎进行语音转文本,判断待质检关键词是否存在于转写文本中,如果关键词存在于文本中,输出质检得分且得分为1;如果不存在,则采用模糊匹配技术,计算关键词与转写文本相似度,获取质检得分,并将质检得分归一化到0和1之间。
文本质检得分 |
质检得分为1.0 |
|
计算关键词和转写文本的相似度 |
|
得分归一化0和1之间 |
|
否 |
是 |
关键词 存在否 |
关键词检索 |
|
待质检关键词 |
|
语音转文本 |
|
待质检语音 |
|
|
语音质检得分 |
|
语音特征和关键词特征的相似度计算 |
|
得分归一化0和1之间 |
|
mfcc特征提取 |
|
待质检关键词 |
|
文本转语音 |
|
待质检语音 |
|
将质检关键词使用第三方语音合成引擎进行文本转语音,对待质检语音和合成的关键词语音提取语音特征,使用相似度计算技术,计算语音特征和关键词特征相似度,并将相似度得分归一化到0和1之间。
对文本质检得分进行判断,如果文本质检得分大于等于0.6,则认为文本质检具有高置信度,文本质检得分和语音质检得分按照比例叠加的时候需要降低语音质检得分的比例;如果文本质检得分小于0.6,则认为文本质检为低置信度,文本质检得分和语音质检得分按照比例叠加的时候需要提升语音质检得分的比例。最终质检得分归一化到0和1之间。
得分归一化0和1之间 |
|
>0.6 |
|
文本质检得分 |
|
按1:0.2占比合并文本和语音得分 |
|
按1:0.6占比合并文本和语音得分 |
|
语音质检得分 |
最终质检得分 |
|
五、本技术方案的亮点及效果
本案实现了以语义质检为主线,并将语义质检和语音质检进行了融合,合理利用二者独立的优势,提升质检对口音和特殊场景的鲁棒性。
六、可能的替代方案
本案将mfcc特征提取替换为无监督预训练wav2vec模型特征提取进行语音特征相似度计算。
七、其他
A.mfcc特征:又叫做梅尔倒谱系数特征,因为其独特的基于倒谱(ceptral)的提取方式,是目前最常用也是最有效的的语音特征之一;
B.语音转文本:是指自动语音识别技术(Automatic Speech Recognition),一种将人的语音转换为文本的技术。
C.文本转语音:是指将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
一、技术方案名称及相关信息
名称:一种基于传统图像处理和深度学习结合的误欠品智能检测系统
技术联系人:高世奇
单位及部门:
手机:16619932058
办公电话: 16619932058
E-MAIL:[email protected]
二、背景技术图文解说及术语解释
误欠品质检项目主要应用于车辆地板螺母、螺孔、小件等零部件的检测,主要解决错、漏装的问题。传统的视觉质检由专门的人工质检人员负责,而生产车辆频率高,量产大,就会造成质检人员视觉疲劳,容易出现漏检问题,对车辆的质量无法完全保证。因此本部门开发了一版误欠品目标检测系统,此系统弊端: 每个项目都需要标注大量生产图片,并且训练模型存在过拟合情况,开发周期长,性能不高,不能复用到新的误欠品项目。
三、本技术方案解决的问题
本方案主要目的在于缩短项目周期,打造项目标准化和产品化,提升性能,解决了误欠品项目算法模型不可复用、性能低的问题。本方案只需要训练一套稳定模型,若有新项目需求,直接通过添加配置的方式,就可以实现项目快速稳定上线。项目误报率和召回率都可以满足业务需求。
四、本技术方案图文解说
本方案整体流程图:
针对“误欠品项目算法模型不可复用、性能低”的问题,本方案提出以下技术手段:
1.mask掩膜
用掩膜对图像上背景区域作屏蔽,使其不参加处理计算,排除因光照、噪声等背景干扰项。实验证明,掩膜对图像矫正效果显著。
实现方式:用预先制作的感兴趣区掩膜与待处理图像相乘,得到感兴趣区图像,感兴趣区内图像值保持不变,而区外图像值都为0。
2.图像矫正
通过比较两张图片像素灰度值的变化确定关键点,描述子描述了特征点周围的像素变化趋势,如果两个特征点具有相同的描述子,认为是同一个特征点。通过迭代筛选验证得出四个关键点对生成变换矩阵进行图片矫正。
3.特征提取
采用深度学习网络,骨架选用resnet,同时使用metric_fc,依赖imagenet大数据预训练模型,在此基础上fine-tune,图片可以通过卷积网络模型计算出512维度特征向量。
4.特征比对
通过计算两个512维度特征向量的余弦距离,和提前维护的阈值做对比。大于阈值认为正确,反之异常。
五、本技术方案的亮点及效果
本案实现了误欠品项目算法需要3-5天的周期效果;算法召回率达到99%,误报率98%。落地项目识别到了小件错漏装情况,暴露了焊装生产过程中的焊接问题。
六、可能的替代方案
本方案图像矫正是传统图像处理方式实现,可以转为深度学习方式实现;
七、其他
metric_fc: 度量学习(Metric Learning)也就是常说的相似度学习。距离测度学习的目的即为了衡量样本之间的相近程度,而这也正是模式识别的核心问题之一。
余弦距离: 余弦距离(Cosine Distance)也可以叫余弦相似度。 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。
fine-tune:微调。模型不需要重新训练,在原有参数上进行微小改动。