壹鸽科技说话人实时性别检测技术

壹鸽科技已经开发了一种低复杂度(纯时域计算)、强抗噪的可固化在发送语音数据端侧(如语音端点检测VAD模块)上的实时说话人性别检测技术,并在四种语料上进行了测试。

测试结果如下:

1)基于AISHELL-1数据集进行测试

男声文件:8448

查准率:0.949362293 

查全率:0.916717473

女声文件:11460 

查准率:0.941186601 

查全率:0.964610361


2)基于aidatatang_200zh数据集进行测试

男声文件:113830 

查准率:0.952785797 

查全率:0.95279695

女声文件:123823 

查准率:0.948431774 

查全率:0.956799199


3)基于Mozilla Common Voice zh-TW数据集进行测试

男声文件:15247 

查准率:0.930821332 

查全率:0.934261765

女声文件:14192 

查准率:0.92927141 

查全率:0.925590607


4)基于实际电话信道语音数据集进行测试

男声文件:1500 

查准率:0.926002766 

查全率:0.892666667

女声文件:1500 

查准率:0.896329684 

查全率:0.928619079


机器对说话者的性别属性进行分析,可以通过收到的音频数据判定发音人的性别(男,女,中性),建议检测音频中发音人连续发音时间持续1.5秒左右,音频太短会影响识别效果。应用场景:客户画像分析:对于电话客服接到的客户音频信息,可以进行声音特征分析,便于构造用户画像。PS:高复杂度版本说话人性别检测效果更佳声学识别。


壹鸽科技说话人实时性别检测技术_第1张图片

你可能感兴趣的:(壹鸽科技说话人实时性别检测技术)