开集文本无关的说话人识别旨在利用语音技术来检测某一语音是否来自系统中的已注册人员,并确定是来自其中的哪一名说话人。该任务也可以称之为多目标说话人检测。该任务需要解决两个子问题:1)测试语音是否来自已注册的说话人,2)如果是,那么是其中的哪一个人。相应的解决方法包含两个步骤:闭集鉴别与检测。该文章总结了现阶段该任务的 3 类方法和最新的相关数据集 MCE 2018。结果表明:1)随着已注册数量的增加,Top-1 性能下降的程度高于 Top-K 性能下降的程度;2)系统容易出现过拟合训练集与验证集的现象;3)基于 i-vector 的系统能够通过嵌入增强/补偿方法改善 40 % 左右的性能。
在打击犯罪过程的语音侦听和电话欺诈行为检测的场景中,需要利用语音技术来检测某一语音是否来自系统中的已注册人员,并确定是来自其中的哪一名说话人。当语音内容不受约束时,该任务被称之为开集文本无关的说话人识别(Open-set Text-independent Speaker Identification, OSTI-SI)或者多目标说话人检测(Multi-target Speaker Detection)。目前,这类问题还未开展大量的研究工作。
OSTI-SI 需要解决两个子问题:1)测试语音是否来自已注册的说话人,2)如果是,那么是其中的哪一个人。第 1 个子问题可以视为一个二分类问题,即测试语音是否来自系统已注册的说话人,但是,优于已注册的说话人来自不同的人员,彼此之间的语音是不会共享共同特征的,这使得该二分类问题的决策边界难以构建。第 2 个子问题可以视为一种闭集的说话人鉴别,分类的类别数是系统已注册的人员数,多分类问题在多类别(超过3000)的情况下难以实现较高的分类准确度,再加上测试语音与注册语音之间存在不匹配的情况,例如背景噪声、方言、说话人情绪和说话风格,这些差异会严重降低系统的识别率。
OSTI-SI 解决方法的流程如下图所示:
OSTI-SI 评价指标包含 3 种:误分类(或者 miss)、错误拒绝(或者 miss)和错误接受(或者 false alarm),其中误分类和错误拒绝可以视为 miss 错误。
其中, θ \theta θ 表示判定是否来自已注册说话人的阈值, C x C_x Cx 表示语音 x x x 来自的说话人, y ∗ y^* y∗ 表示最大的评分, h ∗ h^* h∗ 表示期望的说话人, K K K 表示已注册说话人的数量。
这里主要描述三类方法:通用背景模型(UBM)系统、i-vector 系统和i-vector 神经网络补偿方法。
UBM 系统
i-vector 系统
i-vector 神经网络补偿
模型:输入 ↦ \mapsto ↦ GMM-UBM ↦ \mapsto ↦ i-vector ↦ \mapsto ↦ DNN ↦ \mapsto ↦ PLDA
DNN:神经网络用作学习说话人变化和说话人嵌入,i-vector 之后的神经网络通常采用浅层结构
PLDA:PLDA ↦ \mapsto ↦ M-Norm 得分计算,其中 M-Norm 计算方法如下:
y i ′ = s c o r e M ( C i , x ) = s c o r e ( C i , x ) − μ M ( i ) σ M ( i ) , i = 1 , 2 , ⋯ , S y_i'=score_M(C_i,x)=\frac{score(C_i,x)-\mu_M(i)}{\sigma_M(i)}, i=1,2,\cdots,S yi′=scoreM(Ci,x)=σM(i)score(Ci,x)−μM(i),i=1,2,⋯,S
μ M ( i ) = 1 ∥ I ∥ ∑ x ∈ { C 1 , ⋯ , C S } s c o r e ( C i , x ) \mu_M(i)=\frac{1}{\|I\|}\sum_{x\in\{C_1,\cdots,C_S\}}score(C_i,x) μM(i)=∥I∥1x∈{C1,⋯,CS}∑score(Ci,x)
σ M ( i ) = 1 ∥ I ∥ ∑ x ∈ { C 1 , ⋯ , C S } ( s c o r e ( C i , x ) − μ M ( i ) ) 2 \sigma_M(i)=\sqrt{\frac{1}{\|I\|}\sum_{x\in\{C_1,\cdots,C_S\}}(score(C_i,x)-\mu_M(i))^2} σM(i)=∥I∥1x∈{C1,⋯,CS}∑(score(Ci,x)−μM(i))2
其中 ∥ I ∥ \|I\| ∥I∥ 表示目标说话人群的总语音数。
MCE 2018 数据集是多目标说话人检测与识别挑战评估使用的数据集,适用于描述开集文本无关的说话人识别。该数据包含 26,017 个说话人,其中 3,631 已注册人数,共 18,155 条语音,22,386 未注册人,共 48,338 条语音。该数据集被划分为 3 个不重叠的数据集,统计结果如表 1 所示。
数据集 | 子集 | 说话人数量 | 每人的语音数 | 语音总数 |
---|---|---|---|---|
训练集 | 已注册 | 3,631 | 3 | 10,893 |
未注册 | 5,000 | >=4 | 30,952 | |
验证集 | 已注册 | 3,631 | 1 | 3,631 |
未注册 | 5,000 | 1 | 5,000 | |
测试集 | 已注册 | 3,631 | 1 | 3,631 |
未注册 | 12,386 | 1 | 12,386 |
基于 MCE 2018 挑战的评测结果,有以下结论:
基于 MCE 2018 的结果,还有很多值得考虑:
[1] Malegaonkar A, Ariyaeeinia A. Performance Evaluation in Open-Set Speaker Identification. European Workshop on Biometrics and Identity Management. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011: 106–112.
[2] Shon S, Dehak N, Reynolds D, et al. MCE 2018: The 1st multi-target speaker detection and identification challenge evaluation[J]. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, 2019, 2019-Septe(Mce 2018): 356–360.
[3] Karadaghi R, Hertlein H, Ariyaeeinia A. Effectiveness in open-set speaker identification. 2014 International Carnahan Conference on Security Technology (ICCST). IEEE, 2014: 1–6.
[4] Chakraborty S, Parekh R. An improved approach to open set text-independent speaker identification (OSTI-SI). Proceedings - 2017 3rd IEEE International Conference on Research in Computational Intelligence and Communication Networks, ICRCICN 2017, 2017, 2017-December: 51–56.
[5] Gunson N, Marshall D, Jack M. Effective speaker spotting for Watch-list detection of fraudsters in telephone banking. IET Biometrics, 2015.
[6] Prakash V, Hansen J H L. In-set/out-of-set speaker recognition under sparse enrollment. IEEE Transactions on Audio, Speech and Language Processing, 2007.
[7] Singer E, Reynolds D. Analysis of Multitarget Detection for Speaker and Language Recognition. ODYSSEY The Speaker and Language Recognition Workshop. 2004.
作者信息:
CSDN:https://blog.csdn.net/i_love_home?viewmode=contents
Github:https://github.com/mechanicalsea
2019级同济大学博士研究生 王瑞 [email protected]
研究方向:说话人识别、说话人分离