说话人识别中的损失函数

损失函数

  • 损失函数 L ( y i , y ^ i ) L(y_i,\hat{y}_i) L(yi,y^i)用来描述神经网络的输出 y ^ i \hat{y}_i y^i和基本事实(Ground Truth,GT) y i y_i yi的差异
  • 对于回归问题,常用均方误差(Mean Square Error,MSE)损失函数
    L ( y i , y ^ i ) = ∥ y i − y ^ i ∥ 2 2 L(y_i,\hat{y}_i)=\left \| y_i-\hat{y}_i \right \|_2^2 L(yi,y^i)=yiy^i22
  • 神经网络的训练过程就是寻找一组参数 θ \theta θ,使得神经网络在一个batch的训练上,损失函数的和最小
    θ = arg ⁡ min ⁡ θ ∑ i = 1 N L ( y i , y ^ i ) \theta=\arg\min_{\theta}\sum_{i=1}^{N}L(y_i,\hat{y}_i) θ=argθmini=1NL(yi,y^i)
  • 对于说话人识别,通常有两种类型的损失函数
    • 将说话人识别看作一个多说话人分类问题,即模拟说话人辨认问题
    • 将说话人识别看作一个二值决策问题,即模拟说话人验证问题

多说话人分类

  • 在该问题中,假设不同的说话人属于不同的类
  • 训练时
    • 每个说话人都有一个全局唯一标签
    • 每个话语(Utterance)都有一个说话人标签
  • 运行时
    • 需要识别在训练集中未出现过的说话人,因此无法使用训练数据的标签作为输出
  • 得到嵌入码之后,需要经过一个MLP(该MLP的激活函数是Softmax),得到该嵌入码属于训练数据中哪一个说话人的概率分布
    说话人识别中的损失函数_第1张图片

Cross Entropy Loss

  • 得到概率分布后,使用交叉熵(Cross Entropy,CE)损失函数,计算预测的概率分布,与真实的概率分布之间的差距,假设概率分布的向量维度为K
    H ( p , q ) = − ∑ i = 1 K p i ⋅ ln ⁡ q i H(p,q)=-\sum_{i=1}^{K}p_i\cdot\ln q_i H(p,q)=i=1Kpilnqi
    其中,
    • p p p是真实的概率分布,采用独热向量(One-hot Vector),即只有真实说话人对应的值为1,其他的值都为0
    • q q q是预测的概率分布,经过Softmax激活函数之后,最大值接近1,所有值求和等于1
    • 由于 p p p为独热向量,所以损失函数简化为 H ( p , q ) = − ln ⁡ q j H(p,q)=-\ln q_j H(p,q)=lnqj q j q_j qj指预测的概率分布中,真实说话人对应的概率
    • H ( p , q ) H(p,q) H(p,q)的值越小,代表两个分布越接近
  • 训练时:在训练数据上,最小化 H ( p , q ) H(p,q) H(p,q)来优化参数
  • 运行时:直接使用嵌入码,用于说话人识别(可用余弦相似度、欧氏距离等)
  • 这种方法的缺点
    • 用于计算概率分布的MLP,其参数会随着训练数据说话人数量线性增加
    • 例如嵌入码的维度是1280,训练数据有1000人,那么MLP的参数矩阵 W S o f t m a x ∈ R 1000 × 1280 W_{Softmax} \in R^{1000 \times 1280} WSoftmaxR1000×1280,光是MLP的参数量就达到了128万
    • 训练集中,部分说话人的数据量较少,这意味着 W S o f t m a x W_{Softmax} WSoftmax中,有部分参数极少发挥作用,但是前向传播时每次都需要计算整个矩阵,这导致训练过程中,花费了大量的资源用于优化几乎没有用的参数
    • W S o f t m a x W_{Softmax} WSoftmax只在训练时发挥作用,与运行时的相似度计算不完全一致,这会导致网络难以泛化到训练集中未出现过的说话人

Angular Softmax

  • 为了改善训练和运行时,目标不匹配的问题,Softmax有一个变种,叫做Angular Softmax,思路如下:
    1. W S o f t m a x W_{Softmax} WSoftmax中的每个行向量 w r w_r wr都限制为单位长度的向量,设嵌入码为 e e e,那么 w r ⋅ e = ∣ ∣ e ∣ ∣ cos ⁡ θ i w_r \cdot e=||e|| \cos \theta_i wre=∣∣e∣∣cosθi
    2. W S o f t m a x ⋅ e W_{Softmax} \cdot e WSoftmaxe的运算结果,就是 e e e的范数,乘以一个余弦值,此时的优化过程,会与运行时的相似度计算更加一致
  • 注意,关于Softmax的计算,如果幂的值很大,取指数会导致溢出(即便是Python也要考虑这个问题),此时需要令输入向量中的每一个值,都减去向量中的最大值,然后再进行标准的Softmax运算,这不影响运算结果,但是保证了数值计算的稳定,原因如下
    y i = e x p ( x i − x m a x ) ∑ j = i K e x p ( x j − x m a x ) = e x p ( x i ) / e x p ( x m a x ) ∑ j = i K [ e x p ( x j ) / e x p ( x m a x ) ] = e x p ( x i ) ∑ j = i K e x p ( x j ) \begin{aligned} y_i&=\frac{exp(x_i-x_{max})}{\sum_{j=i}^{K}exp(x_j-x_{max})} \\ &=\frac{exp(x_i)/exp(x_{max})}{\sum_{j=i}^{K}[exp(x_j)/exp(x_{max})]} \\ &=\frac{exp(x_i)}{\sum_{j=i}^{K}exp(x_j)} \\ \end{aligned} yi=j=iKexp(xjxmax)exp(xixmax)=j=iK[exp(xj)/exp(xmax)]exp(xi)/exp(xmax)=j=iKexp(xj)exp(xi)

二值决策

  • 针对多说话人分类方法,训练和运行时,目标不匹配的问题,研究人员提出二值决策方法
  • 给定两个话语,网络对这两个话语进行二值决策:
    • 0,表示两个话语来自不同的说话人
    • 1,表示两个话语来自同一个说话人
  • 损失函数必须基于,由至少两个话语组成的样本,来定义

Pairwise Loss

  • 假设有两个输入 x i x_i xi x j x_j xj,它们都进入同一个网络,得到两个嵌入码,两个嵌入码的余弦相似度是 s i j s_{ij} sij,假设GT表示为:
    y i j = { 0 , 若 x i 和 x j 来自不同的说话人 1 , 若 x i 和 x j 来自同一个说话人 y_{ij}= \left\{\begin{matrix} 0,若x_i和x_j来自不同的说话人\\ 1,若x_i和x_j来自同一个说话人 \end{matrix}\right. yij={0,xixj来自不同的说话人1,xixj来自同一个说话人
  • 对应的损失函数为 L ( s i j , y i j ) L(s_{ij},y_{ij}) L(sij,yij)
  • 可以将这个问题视为二分类问题,使用二元交叉熵(Binary Cross Entropy,BCE)损失函数
    L B C E ( s , y ) = − y ln ⁡ s − ( 1 − y ) ln ⁡ ( 1 − s ) L_{BCE}(s,y)=-y\ln s- (1-y)\ln (1-s) LBCE(s,y)=ylns(1y)ln(1s)
  • 由于要对余弦相似度取对数,而余弦相似度可能为负数,所需需要将 s s s变换为正数,常见做法:
    s ′ = σ ( w s + b ) = 1 1 + e x p ( − ( w s + b ) ) s'=\sigma (ws+b)=\frac{1}{1+exp(-(ws+b))} s=σ(ws+b)=1+exp((ws+b))1
    其中, w w w b b b都是可学习参数, w > 0 w>0 w>0 σ ( ⋅ ) \sigma(\cdot) σ()是Sigmoid函数。从而,损失函数变为 L B C E ( s ′ , y ) L_{BCE}(s',y) LBCE(s,y),这就是基于样本对的损失函数Pairwise Loss
  • 缺点:由于网络参数随训练过程变化,所以难以平衡正样本和负样本在训练过程中的数量平衡

Triplet Loss

  • 针对Pairwise Loss的缺点,研究人员提出了基于三元组的损失函数Triplet Loss
  • 先思考:在设计损失函数时,我们希望给网络的监督信息的效果是什么?
    • 对于同一个说话人的嵌入码,我们希望这两个嵌入码在嵌入码空间中越接近越好
    • 对于不同的说话人的嵌入码,我们希望这两个嵌入码在嵌入码空间中越远离越好
  • 针对上述思考,Triplet Loss需要挑选三个话语:
    1. 锚样本(Anchor) x a x^a xa
    2. 正样本(Positive) x p x^p xp,和锚样本来自同一个说话人
    3. 负样本(Negative) x n x^n xn,和锚样本来自不同的说话人
  • 那么,这三个话语的嵌入码,经过参数更新后效果如下图所示:
    说话人识别中的损失函数_第2张图片
  • 数学形式
    L = [ ∥ f ( x a ) − f ( x p ) ∥ 2 2 − ∥ f ( x a ) − f ( x n ) ∥ 2 2 + α ] + L=[\left \| f(x^a)-f(x^p) \right \|_2^2-\left \| f(x^a)-f(x^n) \right \|_2^2 +\alpha]_+ L=[f(xa)f(xp)22f(xa)f(xn)22+α]+
    其中,
    • f ( x ) f(x) f(x)表示 x x x的嵌入码
    • α ≥ 0 \alpha \ge 0 α0,是预先定义的超参数,表示正样本,相对于负样本,更靠近锚样本的距离
    • [ x ] + [x]_+ [x]+表示函数 m a x ( x , 0 ) max(x,0) max(x,0)
    • ∥ ∥ 2 2 \left \| \right \|_2^2 22表示欧氏距离的平方
  • 上述形式的Triplet Loss常用于人脸识别,对于说话人识别,会将欧氏距离改为余弦相似度:
    L = [ cos ⁡ ( f ( x a ) , f ( x n ) ) − cos ⁡ ( f ( x a ) , f ( x p ) ) + α ] + L=[\cos (f(x^a),f(x^n)) - \cos (f(x^a),f(x^p)) +\alpha]_+ L=[cos(f(xa),f(xn))cos(f(xa),f(xp))+α]+
    说话人识别中的损失函数_第3张图片
  • 注意,由于欧氏距离是越小越靠近,而余弦相似度是越大越靠近,所以对比上一个式子,正样本对之间的距离,和负样本对之间的距离,要交换位置
  • 关键点
    • 正样本对和负样本对的选择,对于训练的效率非常关键
    • 需要挖掘困难样本,至少使 [ x ] + [x]_+ [x]+是正数,否则不会有梯度信息
    • 由于网络参数随训练过程变化,所以难以提前找到困难样本
    • 困难样本挖掘的办法:
      • 离线挖掘:每训练一定的步数,根据当前的网络参数,计算训练集的嵌入码,根据此时的嵌入码选取困难样本
      • 在线挖掘:对每个batch,计算里面每个样本的嵌入码,构造一个最困难的样本

端到端的说话人识别系统

  • 对于端到端的定义,业界尚无明确定论,一般而言:
    • 第一个“端”,是指系统的输入,如音频数据
    • 第一个“端”,是指系统的输出,如预测结果
  • 端到端系统应满足下列条件:
    • 除了神经网络外,不再使用任何其他模型,不能有GMM、因子分析、PLDA等
    • 采用单一的一个神经网络进行推理
    • 采用一个损失函数进行参数优化
  • 端到端的损失函数,能够在训练时,完全模拟运行时的情况。说话人识别在运行时的特点:
    • 注册阶段,有多个注册话语,需要对这些话语提取嵌入码,然后聚合
    • 识别阶段,话语可能来自真实说话人或仿冒说话人,需要给出二值决策

端到端的损失函数

  • 在训练时,使用 N + 1 N+1 N+1个话语
    • 其中 N N N个话语来自真实说话人
    • 另外一个话语来自真实说话人或仿冒说话人
  • N + 1 N+1 N+1个话语,经过同一个神经网络,其中来自真实说话人的 N N N个话语的嵌入码,被聚合(通常是取平均),成为说话人模型
  • 另外一个嵌入码,与说话人模型计算余弦相似度
  • 余弦相似度经过变换成为正数,然后计算二元交叉熵损失
    s ′ = σ ( w s + b ) = 1 1 + e x p ( − ( w s + b ) ) L B C E ( s ′ , y ) = − y ln ⁡ s ′ − ( 1 − y ) ln ⁡ ( 1 − s ′ ) \begin{aligned} s'&=\sigma (ws+b)=\frac{1}{1+exp(-(ws+b))} \\ L_{BCE}(s',y)&=-y\ln s'- (1-y)\ln (1-s') \end{aligned} sLBCE(s,y)=σ(ws+b)=1+exp((ws+b))1=ylns(1y)ln(1s)
    说话人识别中的损失函数_第4张图片
  • 最后的损失函数计算过程,非常类似Pairwise Loss,只不过端到端系统的输入是 N + 1 N+1 N+1个话语,而不是两个话语
  • x-vector系统采用的是类似上述的端到端损失函数,不过将余弦相似度,替换成了另一种相似性度量:
    L ( e 1 , e 2 ) = e 1 T e 2 − e 1 T S e 1 − e 2 T S e 2 + b L(e_1,e_2)=e_1^Te_2-e_1^TSe_1-e_2^TSe_2+b L(e1,e2)=e1Te2e1TSe1e2TSe2+b
    其中,
    • 矩阵 S S S和标量 b b b都是可学习参数
    • 这是基于PLDA所衍生出来的一种相似性度量
  • 关键点
    • 关于 N N N的选定,可以按照运行时的情况来决定,如果不确定运行时会有几个注册话语,则取平均值或者中间值
    • 如何平衡正负样本比例?这是常见的问题,通常负样本数远远多于正样本数,常见的做法是:在负样本的损失函数上,乘以一个常数 K , 0 < K < 1 K,0K0<K<1

广义端到端损失函数(Generalized End-to-End Loss,GE2E)

  • 基本思想
    • 通过减少一个batch中的重复计算,使训练更加高效
    • 对于一个batch中的所有负样本而言,只关注最困难的那个样本,利用最大间隔原理(梦回SVM)
  • 接下来将视角放在一个batch的数据中:
    说话人识别中的损失函数_第5张图片
  • 上图中,每个圆圈是一个话语的嵌入码,不同的颜色表示该话语来自不同的说话人。可见上图中有三个说话人,每个说话人对应四个嵌入码
  • 用正三角形表示每个说话人的嵌入码的中心点(也叫质心,论文中叫Centroid)
  • 将嵌入码记为 e j i e_{ji} eji j j j表示说话人, i i i表示属于第 j j j个说话人的第 i i i个话语;某个说话人的嵌入码中心记为 c j c_j cj
  • 基本思想,具体而言:
    • 对于每一个 e j i e_{ji} eji而言,我们希望它与 c j c_j cj靠近,与其他的 c k 、 c k ′ c_k、c_{k'} ckck远离
    • 在一个batch内,对于一个 e j i e_{ji} eji而言,会出现多个其他说话人的中心点,如 c k 、 c k ′ c_k、c_{k'} ckck
    • 根据最大间隔原理,只关注距离该 e j i e_{ji} eji最接近的其他说话人的中心,从图中来看,则是只关注 c k c_k ck,不关注 c k ′ c_{k'} ck
    • 对神经网络而言, c k c_k ck是区分 e j i e_{ji} eji属于 c j c_j cj,最困难的一个其他说话人。也就是说,对于 e j i e_{ji} eji而言, c k c_k ck是支持说话人(Support Speaker)
  • 计算损失函数前的准备工作
    • 假设,一个batch的维度为 N × M N \times M N×M N N N表示该batch包含的说话人个数, M M M表示该batch中每个说话人的话语数
    • 该batch的数据,经过神经网络后,每个话语都向量化,得到嵌入码 e j i e_{ji} eji,从而:
      c j = 1 M ∑ i = 1 M e j i c_j=\frac{1}{M}\sum_{i=1}^{M}e_{ji} cj=M1i=1Meji
    • 对整个batch,计算相似度矩阵,维度为 N M × N NM \times N NM×N
      S j i , k = w ⋅ cos ⁡ ( e j i , c k ) + b S_{ji,k}=w\cdot \cos (e_{ji},c_k)+b Sji,k=wcos(eji,ck)+b
      其中,
      • w > 0 , w 、 b w>0,w、b w>0wb都是可学习参数
      • 相似度矩阵,表示batch中的每一个嵌入码 e j i e_{ji} eji,与batch内所有说话人的中心点 c k c_k ck,计算相似度,然后进行线性变换,因此维度是 N M × N NM \times N NM×N
  • 损失函数的定义:有两种方法实现最大间隔原理
  1. 基于对比的方法:对于每一个 e j i e_{ji} eji而言,损失函数为
    L ( e j i ) = 1 − σ ( S j i , j ) + max ⁡ 1 ≤ k ≤ N , k ≠ j σ ( S j i , k ) L(e_{ji})=1-\sigma(S_{ji,j})+\max_{1\le k \le N,k \ne j} \sigma(S_{ji,k}) L(eji)=1σ(Sji,j)+1kN,k=jmaxσ(Sji,k)
    其中,
    • 1 − σ ( S j i , j ) 1-\sigma(S_{ji,j}) 1σ(Sji,j)表示正样本对的余弦相似度越接近1越好
    • max ⁡ 1 ≤ k ≤ N , k ≠ j σ ( S j i , k ) \max_{1\le k \le N,k \ne j} \sigma(S_{ji,k}) max1kN,k=jσ(Sji,k)表示最困难负样本对的余弦相似度越小越好
    • 这种同时考虑正样本对和负样本对的思想,与Triplet Loss类似,不同之处在于:
      • 使用中心点,模拟运行时的说话人嵌入码
      • 负样本对的优化,只针对支持说话人
    • 缺点:使用了 max ⁡ ( ⋅ ) \max(\cdot) max(),这是不可导的函数
  2. 基于Softmax的方法,针对方法1的缺点,采用 max ⁡ ( ⋅ ) \max(\cdot) max()的可微分版本——Softmax来改进
    L ( e j i ) = − S j i , j + ln ⁡ ∑ k = 1 N exp ⁡ ( S j i , k ) = − ln ⁡ ( exp ⁡ ( S j i , j ) ) + ln ⁡ ∑ k = 1 N exp ⁡ ( S j i , k ) = ln ⁡ ∑ k = 1 N exp ⁡ ( S j i , k ) exp ⁡ ( S j i , j ) = − ln ⁡ exp ⁡ ( S j i , j ) ∑ k = 1 N exp ⁡ ( S j i , k ) \begin{aligned} L(e_{ji})&=-S_{ji,j}+\ln \sum_{k=1}^{N} \exp(S_{ji,k}) \\ &=-\ln(\exp(S_{ji,j}))+\ln \sum_{k=1}^{N} \exp(S_{ji,k}) \\ &=\ln \frac{\sum_{k=1}^{N} \exp(S_{ji,k})}{\exp(S_{ji,j})} \\ &=- \ln \frac{\exp(S_{ji,j})}{\sum_{k=1}^{N} \exp(S_{ji,k})} \end{aligned} L(eji)=Sji,j+lnk=1Nexp(Sji,k)=ln(exp(Sji,j))+lnk=1Nexp(Sji,k)=lnexp(Sji,j)k=1Nexp(Sji,k)=lnk=1Nexp(Sji,k)exp(Sji,j)
    这个损失函数,将每个嵌入码推到其对应说话人中心点附近,并将其拉离所有其他说话人中心点
  • 关键点
    • 神经网络在优化时,会收敛到一个平凡解(Trivial Solutions),类似于微分方程的特解,会导致所有嵌入码都变成相同的值
    • 为了避免平凡解,一个重要的技巧是:在计算 e j i e_{ji} eji的损失函数时,对于 c j c_j cj的计算,不要将 e j i e_{ji} eji本身加进去,新的 c j c_j cj表达式如下,式中的 ( − i ) (-i) (i)表示排除 i i i
      c j ( − i ) = 1 M − 1 ∑ m = 1 , m ≠ i M e j m c_j^{(-i)}=\frac{1}{M-1}\sum_{m=1,m \ne i}^{M}e_{jm} cj(i)=M11m=1,m=iMejm
  • 步骤总结
    • 对每一个batch,经过神经网络,得到嵌入码
    • 计算batch内每个说话人的中心点
    • 计算相似度矩阵
    • 根据相似度矩阵,计算每个嵌入码的损失函数,对batch内所有嵌入码的损失函数求和,得到一个batch的总损失
      说话人识别中的损失函数_第6张图片
  • 优点
    • 动态地挖掘困难样本,每次参数优化都有足够的监督信息
    • 训练时,神经网络前向推理次数,等于样本数,而不是排列组合数,比其他基于二值决策的损失函数更加高效

其他广义端到端损失函数

  • Dynamic-additive-margin Softmax(DAM-Softmax)
  • Angular Margin Centroid Loss(AMCL)

总结

损失函数 多说话人交叉熵 Pairwise Loss Triplet Loss End-to-End Loss Generalized End-to-End Loss
输入 单个话语 两个话语 三个话语 N + 1 N+1 N+1个话语 N × M N \times M N×M个话语
中心点使用 使用一个说话人的中心点 使用一个batch中所有说话人的中心点
实现方式 Softmax BCE 对比 BCE 对比或Softmax

你可能感兴趣的:(说话人识别,深度学习,python,音频,语音识别)