DEDSEC_Roger

说话人识别中的损失函数

 
  损失函数 
  损失函数 L ( y i , y ^ i ) L(y_i,\hat{y}_i) L(yi​,y^​i​)用来描述神经网络的输出 y ^ i \hat{y}_i y^​i​和基本事实（Ground Truth，GT） y i y_i yi​的差异
对于回归问题，常用均方误差（Mean Square Error，MSE）损失函数
  L ( y i , y ^ i ) = ∥ y i − y ^ i ∥ 2 2 L(y_i,\hat{y}_i)=\left \| y_i-\hat{y}_i \right \|_2^2 L(yi​,y^​i​)=∥yi​−y^​i​∥22​
神经网络的训练过程就是寻找一组参数 θ \theta θ，使得神经网络在一个batch的训练上，损失函数的和最小
  θ = arg ⁡ min ⁡ θ ∑ i = 1 N L ( y i , y ^ i ) \theta=\arg\min_{\theta}\sum_{i=1}^{N}L(y_i,\hat{y}_i) θ=argθmin​i=1∑N​L(yi​,y^​i​)
对于说话人识别，通常有两种类型的损失函数 
    将说话人识别看作一个多说话人分类问题，即模拟说话人辨认问题
将说话人识别看作一个二值决策问题，即模拟说话人验证问题
 
 
  多说话人分类 
  在该问题中，假设不同的说话人属于不同的类
训练时 
    每个说话人都有一个全局唯一标签
每个话语（Utterance）都有一个说话人标签
 
运行时 
    需要识别在训练集中未出现过的说话人，因此无法使用训练数据的标签作为输出
 
得到嵌入码之后，需要经过一个MLP（该MLP的激活函数是Softmax），得到该嵌入码属于训练数据中哪一个说话人的概率分布
 
 
  Cross Entropy Loss 
  得到概率分布后，使用交叉熵（Cross Entropy，CE）损失函数，计算预测的概率分布，与真实的概率分布之间的差距，假设概率分布的向量维度为K
  H ( p , q ) = − ∑ i = 1 K p i ⋅ ln ⁡ q i H(p,q)=-\sum_{i=1}^{K}p_i\cdot\ln q_i H(p,q)=−i=1∑K​pi​⋅lnqi​
 其中， 
     p p p是真实的概率分布，采用独热向量（One-hot Vector），即只有真实说话人对应的值为1，其他的值都为0
 q q q是预测的概率分布，经过Softmax激活函数之后，最大值接近1，所有值求和等于1
由于 p p p为独热向量，所以损失函数简化为 H ( p , q ) = − ln ⁡ q j H(p,q)=-\ln q_j H(p,q)=−lnqj​， q j q_j qj​指预测的概率分布中，真实说话人对应的概率
 H ( p , q ) H(p,q) H(p,q)的值越小，代表两个分布越接近
 
训练时：在训练数据上，最小化 H ( p , q ) H(p,q) H(p,q)来优化参数
运行时：直接使用嵌入码，用于说话人识别（可用余弦相似度、欧氏距离等）
这种方法的缺点 
    用于计算概率分布的MLP，其参数会随着训练数据说话人数量线性增加
例如嵌入码的维度是1280，训练数据有1000人，那么MLP的参数矩阵 W S o f t m a x ∈ R 1000 × 1280 W_{Softmax} \in R^{1000 \times 1280} WSoftmax​∈R1000×1280，光是MLP的参数量就达到了128万
训练集中，部分说话人的数据量较少，这意味着 W S o f t m a x W_{Softmax} WSoftmax​中，有部分参数极少发挥作用，但是前向传播时每次都需要计算整个矩阵，这导致训练过程中，花费了大量的资源用于优化几乎没有用的参数
 W S o f t m a x W_{Softmax} WSoftmax​只在训练时发挥作用，与运行时的相似度计算不完全一致，这会导致网络难以泛化到训练集中未出现过的说话人
 
 
  Angular Softmax 
  为了改善训练和运行时，目标不匹配的问题，Softmax有一个变种，叫做Angular Softmax，思路如下： 
    将 W S o f t m a x W_{Softmax} WSoftmax​中的每个行向量 w r w_r wr​都限制为单位长度的向量，设嵌入码为 e e e，那么 w r ⋅ e = ∣ ∣ e ∣ ∣ cos ⁡ θ i w_r \cdot e=||e|| \cos \theta_i wr​⋅e=∣∣e∣∣cosθi​
 W S o f t m a x ⋅ e W_{Softmax} \cdot e WSoftmax​⋅e的运算结果，就是 e e e的范数，乘以一个余弦值，此时的优化过程，会与运行时的相似度计算更加一致
 
注意，关于Softmax的计算，如果幂的值很大，取指数会导致溢出（即便是Python也要考虑这个问题），此时需要令输入向量中的每一个值，都减去向量中的最大值，然后再进行标准的Softmax运算，这不影响运算结果，但是保证了数值计算的稳定，原因如下
  y i = e x p ( x i − x m a x ) ∑ j = i K e x p ( x j − x m a x ) = e x p ( x i ) / e x p ( x m a x ) ∑ j = i K [ e x p ( x j ) / e x p ( x m a x ) ] = e x p ( x i ) ∑ j = i K e x p ( x j ) \begin{aligned} y_i&=\frac{exp(x_i-x_{max})}{\sum_{j=i}^{K}exp(x_j-x_{max})} \\ &=\frac{exp(x_i)/exp(x_{max})}{\sum_{j=i}^{K}[exp(x_j)/exp(x_{max})]} \\ &=\frac{exp(x_i)}{\sum_{j=i}^{K}exp(x_j)} \\ \end{aligned} yi​​=∑j=iK​exp(xj​−xmax​)exp(xi​−xmax​)​=∑j=iK​[exp(xj​)/exp(xmax​)]exp(xi​)/exp(xmax​)​=∑j=iK​exp(xj​)exp(xi​)​​
 
  二值决策 
  针对多说话人分类方法，训练和运行时，目标不匹配的问题，研究人员提出二值决策方法
给定两个话语，网络对这两个话语进行二值决策： 
    0，表示两个话语来自不同的说话人
1，表示两个话语来自同一个说话人
 
损失函数必须基于，由至少两个话语组成的样本，来定义
 
  Pairwise Loss 
  假设有两个输入 x i x_i xi​和 x j x_j xj​，它们都进入同一个网络，得到两个嵌入码，两个嵌入码的余弦相似度是 s i j s_{ij} sij​，假设GT表示为：
  y i j = { 0 , 若 x i 和 x j 来自不同的说话人 1 , 若 x i 和 x j 来自同一个说话人 y_{ij}= \left\{\begin{matrix} 0,若x_i和x_j来自不同的说话人\\ 1,若x_i和x_j来自同一个说话人 \end{matrix}\right. yij​={0,若xi​和xj​来自不同的说话人1,若xi​和xj​来自同一个说话人​
对应的损失函数为 L ( s i j , y i j ) L(s_{ij},y_{ij}) L(sij​,yij​)
可以将这个问题视为二分类问题，使用二元交叉熵（Binary Cross Entropy，BCE）损失函数
  L B C E ( s , y ) = − y ln ⁡ s − ( 1 − y ) ln ⁡ ( 1 − s ) L_{BCE}(s,y)=-y\ln s- (1-y)\ln (1-s) LBCE​(s,y)=−ylns−(1−y)ln(1−s)
由于要对余弦相似度取对数，而余弦相似度可能为负数，所需需要将 s s s变换为正数，常见做法：
  s ′ = σ ( w s + b ) = 1 1 + e x p ( − ( w s + b ) ) s'=\sigma (ws+b)=\frac{1}{1+exp(-(ws+b))} s′=σ(ws+b)=1+exp(−(ws+b))1​
 其中， w w w和 b b b都是可学习参数， w > 0 w>0 w>0， σ ( ⋅ ) \sigma(\cdot) σ(⋅)是Sigmoid函数。从而，损失函数变为 L B C E ( s ′ , y ) L_{BCE}(s',y) LBCE​(s′,y)，这就是基于样本对的损失函数Pairwise Loss
缺点：由于网络参数随训练过程变化，所以难以平衡正样本和负样本在训练过程中的数量平衡
 
  Triplet Loss 
  针对Pairwise Loss的缺点，研究人员提出了基于三元组的损失函数Triplet Loss
先思考：在设计损失函数时，我们希望给网络的监督信息的效果是什么？ 
    对于同一个说话人的嵌入码，我们希望这两个嵌入码在嵌入码空间中越接近越好
对于不同的说话人的嵌入码，我们希望这两个嵌入码在嵌入码空间中越远离越好
 
针对上述思考，Triplet Loss需要挑选三个话语： 
    锚样本（Anchor） x a x^a xa
正样本（Positive） x p x^p xp，和锚样本来自同一个说话人
负样本（Negative） x n x^n xn，和锚样本来自不同的说话人
 
那么，这三个话语的嵌入码，经过参数更新后效果如下图所示：
 
数学形式
  L = [ ∥ f ( x a ) − f ( x p ) ∥ 2 2 − ∥ f ( x a ) − f ( x n ) ∥ 2 2 + α ] + L=[\left \| f(x^a)-f(x^p) \right \|_2^2-\left \| f(x^a)-f(x^n) \right \|_2^2 +\alpha]_+ L=[∥f(xa)−f(xp)∥22​−∥f(xa)−f(xn)∥22​+α]+​
 其中， 
     f ( x ) f(x) f(x)表示 x x x的嵌入码
 α ≥ 0 \alpha \ge 0 α≥0，是预先定义的超参数，表示正样本，相对于负样本，更靠近锚样本的距离
 [ x ] + [x]_+ [x]+​表示函数 m a x ( x , 0 ) max(x,0) max(x,0)
 ∥ ∥ 2 2 \left \| \right \|_2^2 ∥∥22​表示欧氏距离的平方
 
上述形式的Triplet Loss常用于人脸识别，对于说话人识别，会将欧氏距离改为余弦相似度：
  L = [ cos ⁡ ( f ( x a ) , f ( x n ) ) − cos ⁡ ( f ( x a ) , f ( x p ) ) + α ] + L=[\cos (f(x^a),f(x^n)) - \cos (f(x^a),f(x^p)) +\alpha]_+ L=[cos(f(xa),f(xn))−cos(f(xa),f(xp))+α]+​
 
注意，由于欧氏距离是越小越靠近，而余弦相似度是越大越靠近，所以对比上一个式子，正样本对之间的距离，和负样本对之间的距离，要交换位置
关键点 
    正样本对和负样本对的选择，对于训练的效率非常关键
需要挖掘困难样本，至少使 [ x ] + [x]_+ [x]+​是正数，否则不会有梯度信息
由于网络参数随训练过程变化，所以难以提前找到困难样本
困难样本挖掘的办法： 
      离线挖掘：每训练一定的步数，根据当前的网络参数，计算训练集的嵌入码，根据此时的嵌入码选取困难样本
在线挖掘：对每个batch，计算里面每个样本的嵌入码，构造一个最困难的样本
 
 
 
  端到端的说话人识别系统 
  对于端到端的定义，业界尚无明确定论，一般而言： 
    第一个“端”，是指系统的输入，如音频数据
第一个“端”，是指系统的输出，如预测结果
 
端到端系统应满足下列条件： 
    除了神经网络外，不再使用任何其他模型，不能有GMM、因子分析、PLDA等
采用单一的一个神经网络进行推理
采用一个损失函数进行参数优化
 
端到端的损失函数，能够在训练时，完全模拟运行时的情况。说话人识别在运行时的特点： 
    注册阶段，有多个注册话语，需要对这些话语提取嵌入码，然后聚合
识别阶段，话语可能来自真实说话人或仿冒说话人，需要给出二值决策
 
 
  端到端的损失函数 
  在训练时，使用 N + 1 N+1 N+1个话语 
    其中 N N N个话语来自真实说话人
另外一个话语来自真实说话人或仿冒说话人
 
这 N + 1 N+1 N+1个话语，经过同一个神经网络，其中来自真实说话人的 N N N个话语的嵌入码，被聚合（通常是取平均），成为说话人模型
另外一个嵌入码，与说话人模型计算余弦相似度
余弦相似度经过变换成为正数，然后计算二元交叉熵损失
  s ′ = σ ( w s + b ) = 1 1 + e x p ( − ( w s + b ) ) L B C E ( s ′ , y ) = − y ln ⁡ s ′ − ( 1 − y ) ln ⁡ ( 1 − s ′ ) \begin{aligned} s'&=\sigma (ws+b)=\frac{1}{1+exp(-(ws+b))} \\ L_{BCE}(s',y)&=-y\ln s'- (1-y)\ln (1-s') \end{aligned} s′LBCE​(s′,y)​=σ(ws+b)=1+exp(−(ws+b))1​=−ylns′−(1−y)ln(1−s′)​
 
最后的损失函数计算过程，非常类似Pairwise Loss，只不过端到端系统的输入是 N + 1 N+1 N+1个话语，而不是两个话语
x-vector系统采用的是类似上述的端到端损失函数，不过将余弦相似度，替换成了另一种相似性度量：
  L ( e 1 , e 2 ) = e 1 T e 2 − e 1 T S e 1 − e 2 T S e 2 + b L(e_1,e_2)=e_1^Te_2-e_1^TSe_1-e_2^TSe_2+b L(e1​,e2​)=e1T​e2​−e1T​Se1​−e2T​Se2​+b
 其中， 
    矩阵 S S S和标量 b b b都是可学习参数
这是基于PLDA所衍生出来的一种相似性度量
 
关键点 
    关于 N N N的选定，可以按照运行时的情况来决定，如果不确定运行时会有几个注册话语，则取平均值或者中间值
如何平衡正负样本比例？这是常见的问题，通常负样本数远远多于正样本数，常见的做法是：在负样本的损失函数上，乘以一个常数 K ， 0 < K < 1 K，0K，0<K<1
 
 
  广义端到端损失函数（Generalized End-to-End Loss，GE2E） 
  基本思想 
    通过减少一个batch中的重复计算，使训练更加高效
对于一个batch中的所有负样本而言，只关注最困难的那个样本，利用最大间隔原理（梦回SVM）
 
接下来将视角放在一个batch的数据中：
 
上图中，每个圆圈是一个话语的嵌入码，不同的颜色表示该话语来自不同的说话人。可见上图中有三个说话人，每个说话人对应四个嵌入码
用正三角形表示每个说话人的嵌入码的中心点（也叫质心，论文中叫Centroid）
将嵌入码记为 e j i e_{ji} eji​， j j j表示说话人， i i i表示属于第 j j j个说话人的第 i i i个话语；某个说话人的嵌入码中心记为 c j c_j cj​
基本思想，具体而言： 
    对于每一个 e j i e_{ji} eji​而言，我们希望它与 c j c_j cj​靠近，与其他的 c k 、 c k ′ c_k、c_{k'} ck​、ck′​远离
在一个batch内，对于一个 e j i e_{ji} eji​而言，会出现多个其他说话人的中心点，如 c k 、 c k ′ c_k、c_{k'} ck​、ck′​
根据最大间隔原理，只关注距离该 e j i e_{ji} eji​最接近的其他说话人的中心，从图中来看，则是只关注 c k c_k ck​，不关注 c k ′ c_{k'} ck′​
对神经网络而言， c k c_k ck​是区分 e j i e_{ji} eji​属于 c j c_j cj​，最困难的一个其他说话人。也就是说，对于 e j i e_{ji} eji​而言， c k c_k ck​是支持说话人（Support Speaker）
 
计算损失函数前的准备工作 
    假设，一个batch的维度为 N × M N \times M N×M， N N N表示该batch包含的说话人个数， M M M表示该batch中每个说话人的话语数
该batch的数据，经过神经网络后，每个话语都向量化，得到嵌入码 e j i e_{ji} eji​，从而：
  c j = 1 M ∑ i = 1 M e j i c_j=\frac{1}{M}\sum_{i=1}^{M}e_{ji} cj​=M1​i=1∑M​eji​
对整个batch，计算相似度矩阵，维度为 N M × N NM \times N NM×N：
  S j i , k = w ⋅ cos ⁡ ( e j i , c k ) + b S_{ji,k}=w\cdot \cos (e_{ji},c_k)+b Sji,k​=w⋅cos(eji​,ck​)+b
 其中， 
       w > 0 ， w 、 b w>0，w、b w>0，w、b都是可学习参数
相似度矩阵，表示batch中的每一个嵌入码 e j i e_{ji} eji​，与batch内所有说话人的中心点 c k c_k ck​，计算相似度，然后进行线性变换，因此维度是 N M × N NM \times N NM×N
 
 
损失函数的定义：有两种方法实现最大间隔原理
 
  基于对比的方法：对于每一个 e j i e_{ji} eji​而言，损失函数为
  L ( e j i ) = 1 − σ ( S j i , j ) + max ⁡ 1 ≤ k ≤ N , k ≠ j σ ( S j i , k ) L(e_{ji})=1-\sigma(S_{ji,j})+\max_{1\le k \le N,k \ne j} \sigma(S_{ji,k}) L(eji​)=1−σ(Sji,j​)+1≤k≤N,k=jmax​σ(Sji,k​)
 其中， 
     1 − σ ( S j i , j ) 1-\sigma(S_{ji,j}) 1−σ(Sji,j​)表示正样本对的余弦相似度越接近1越好
 max ⁡ 1 ≤ k ≤ N , k ≠ j σ ( S j i , k ) \max_{1\le k \le N,k \ne j} \sigma(S_{ji,k}) max1≤k≤N,k=j​σ(Sji,k​)表示最困难负样本对的余弦相似度越小越好
这种同时考虑正样本对和负样本对的思想，与Triplet Loss类似，不同之处在于： 
      使用中心点，模拟运行时的说话人嵌入码
负样本对的优化，只针对支持说话人
 
缺点：使用了 max ⁡ ( ⋅ ) \max(\cdot) max(⋅)，这是不可导的函数
 
基于Softmax的方法，针对方法1的缺点，采用 max ⁡ ( ⋅ ) \max(\cdot) max(⋅)的可微分版本——Softmax来改进
  L ( e j i ) = − S j i , j + ln ⁡ ∑ k = 1 N exp ⁡ ( S j i , k ) = − ln ⁡ ( exp ⁡ ( S j i , j ) ) + ln ⁡ ∑ k = 1 N exp ⁡ ( S j i , k ) = ln ⁡ ∑ k = 1 N exp ⁡ ( S j i , k ) exp ⁡ ( S j i , j ) = − ln ⁡ exp ⁡ ( S j i , j ) ∑ k = 1 N exp ⁡ ( S j i , k ) \begin{aligned} L(e_{ji})&=-S_{ji,j}+\ln \sum_{k=1}^{N} \exp(S_{ji,k}) \\ &=-\ln(\exp(S_{ji,j}))+\ln \sum_{k=1}^{N} \exp(S_{ji,k}) \\ &=\ln \frac{\sum_{k=1}^{N} \exp(S_{ji,k})}{\exp(S_{ji,j})} \\ &=- \ln \frac{\exp(S_{ji,j})}{\sum_{k=1}^{N} \exp(S_{ji,k})} \end{aligned} L(eji​)​=−Sji,j​+lnk=1∑N​exp(Sji,k​)=−ln(exp(Sji,j​))+lnk=1∑N​exp(Sji,k​)=lnexp(Sji,j​)∑k=1N​exp(Sji,k​)​=−ln∑k=1N​exp(Sji,k​)exp(Sji,j​)​​
 这个损失函数，将每个嵌入码推到其对应说话人中心点附近，并将其拉离所有其他说话人中心点
 
  关键点 
    神经网络在优化时，会收敛到一个平凡解（Trivial Solutions），类似于微分方程的特解，会导致所有嵌入码都变成相同的值
为了避免平凡解，一个重要的技巧是：在计算 e j i e_{ji} eji​的损失函数时，对于 c j c_j cj​的计算，不要将 e j i e_{ji} eji​本身加进去，新的 c j c_j cj​表达式如下，式中的 ( − i ) (-i) (−i)表示排除 i i i
  c j ( − i ) = 1 M − 1 ∑ m = 1 , m ≠ i M e j m c_j^{(-i)}=\frac{1}{M-1}\sum_{m=1,m \ne i}^{M}e_{jm} cj(−i)​=M−11​m=1,m=i∑M​ejm​
 
步骤总结 
    对每一个batch，经过神经网络，得到嵌入码
计算batch内每个说话人的中心点
计算相似度矩阵
根据相似度矩阵，计算每个嵌入码的损失函数，对batch内所有嵌入码的损失函数求和，得到一个batch的总损失
 
 
优点 
    动态地挖掘困难样本，每次参数优化都有足够的监督信息
训练时，神经网络前向推理次数，等于样本数，而不是排列组合数，比其他基于二值决策的损失函数更加高效
 
 
  其他广义端到端损失函数 
  Dynamic-additive-margin Softmax（DAM-Softmax）
Angular Margin Centroid Loss（AMCL）
 
  总结 
   
    
     损失函数 
     多说话人交叉熵 
     Pairwise Loss 
     Triplet Loss 
     End-to-End Loss 
     Generalized End-to-End Loss 
    
 
    
     输入 
     单个话语 
     两个话语 
     三个话语 
      N + 1 N+1 N+1个话语 
      N × M N \times M N×M个话语 
    
 
     中心点使用 
     否 
     否 
     否 
     使用一个说话人的中心点 
     使用一个batch中所有说话人的中心点 
    
 
     实现方式 
     Softmax 
     BCE 
     对比 
     BCE 
     对比或Softmax 
    
 
   
 

损失函数	多说话人交叉熵	Pairwise Loss	Triplet Loss	End-to-End Loss	Generalized End-to-End Loss
输入	单个话语	两个话语	三个话语	$N + 1$ 个话语	$\times M$ 个话语
中心点使用	否	否	否	使用一个说话人的中心点	使用一个batch中所有说话人的中心点
实现方式	Softmax	BCE	对比	BCE	对比或Softmax

Python打卡训练营-Day41-简单CNN traMpo1ine cnn python 深度学习
@浙大疏锦行知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Dense(Output)这里相关的概念比较多，如果之前没有学习过复试班强化班中
__init__.py 是个啥，为什么深受大厂程序员偏爱？程序员CC_ Python入门学python Python零基础 python 人工智能开发语言
朋友们，今天我们来聊聊Python里一个低调却至关重要的文件——__init__.py。说实话，这玩意儿刚开始学Python时，很多人（包括当年的我）都是一脸懵：“这啥？删了会咋样？”有些人可能听说过它是“包的标志”，也有人觉得它“没啥大用，可以忽略”，更有甚者以为它“只是个装样子的文件”。今天，我们就来彻底搞清楚__init__.py到底是干啥的，以及它如何影响Python项目的结构和运行。️先
Github 2025-06-24Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-24统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10Swift项目1C++项目1yt-dlp:一个增强版的youtube-dl分支创建周期：1184天开发语言：Python协议类型：TheUnlicenseStar数量：64607个Fork数量：5309次关注人数：64607人贡献
Python接口测试之接口关键字封装测试老哥 python 软件测试自动化测试职场和发展测试用例接口测试测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快我们使用RF做UI自动化测试的时候，使用的是关键字驱动。同样，Python做接口自动化测试的时候，也可以使用关键字驱动。但是这里并不是叫关键字驱动，而是叫数据驱动。而接口测试的关键字是什么呢？我们数据驱动的载体是Excel，那么excel里存放的数据是接口测试用例数据，一个接口数据里有常量和变量。变量就是一些参数对应的值，而常量就是接口的
假如你从现在开始学习软件测试，需要多久才能学会呢？ AIZHINAN 学习
首先，不要去网上找那些零零碎碎的教程，很难学懂！你可以根据这个学习大纲定计划只要3-6个月就可以掌握软件测试，升职涨薪不在话下：1.基础阶段：先搞懂测试理论、用例设计，会用Jira写Bug；2.中级阶段：学SQL查数据、Linux看日志，Postman测接口，再用Selenium玩自动化；3.进阶阶段：搭Pytest框架、用JMeter压测，安全测试搞BurpSuite；4.扩展技能：Python
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
Python网安-zip文件暴力破解（仅供学习） Whoisshutiao python网安 python 开发语言网络安全
目录源码在这里需要的模块准备一个密码本和需要破解的ZIP文件一行一行地从密码文件中读取每个密码。核心部分注意，需要修改上段代码注释里的这段具有编码问题的代码：源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要的模块fromtqdmimporttqdmimportzipfileimportpyzipper准备一个密码本和需要破解的ZIP文
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
python 爬虫 selenium作用_详解python爬虫利器Selenium使用方法 weixin_39585974 python 爬虫 selenium作用
简介：用pyhon爬取动态页面时普通的urllib2无法实现，例如下面的京东首页，随着滚动条的下拉会加载新的内容，而urllib2就无法抓取这些内容，此时就需要今天的主角selenium。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。使用它爬取页面
矩阵（二维数组）局部极大/小值-python实现银河系渐入佳境编程指南算法 python 算法矩阵
题目来源：某为面试/算法第四版：Algs4-1.4.19矩阵的局部最小元素参考思路：传送CODE：importnumpyasnp'''deffindMin():arr=np.random.rand(10,10)index_arr=np.zeros((10,10))foriinrange(arr.shape[0]):forjinrange(arr.shape[1]):ifi>0andi0andj
Python网安-ftp服务暴力破解（仅供学习） Whoisshutiao python 网络安全开发语言
目录源码在这里需要导入的模块连接ftp，并设置密码本和线程核心代码设置线程源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要导入的模块importftplibfromthreadingimportThreadimportqueue连接ftp，并设置密码本和线程host="192.168.6.6"user="student"port=21
Python爬虫网安-request+示例 Whoisshutiao python爬虫网安 python 爬虫开发语言网络安全
目录get&post自定义请求头文件上传添加cookie获取网页使用cookiejarsessionssl证书校验超时身份认证（httpbasicAuth）代理配置get&post#！/usr/bin/envpythonimportrequests#get#r=requests.get('http://httpbin.org/get')#print(r.text)#添加参数的get请求data={
多个 Job 并发运行时共享配置文件导致上下文污染，固化 Jenkins Job 上下文要站在顶端 Jenkins jenkins servlet 运维
基于context.py固化JenkinsJob上下文的完整方案，适用于你当前的工作流（Python+JenkinsPipeline），解决：多个Job并发运行时共享配置文件导致上下文污染；读取环境变量或JSON文件时被其他Job修改的问题；后续阶段（如发送通知）读取错误上下文的问题；✅目标在每个JenkinsJob开始时，将关键变量一次性固化到内存中，并在整个Job生命周期内始终使用这些值。整体
数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Ubuntu基础（上传文件和部署Python） aaiier ubuntu linux 运维
首先打开[email protected]然后写yes，在输入密码然后就是输入ls/查看根目录ls/结果是ubuntu@x0-x-xx-xx:~$ls/binbootdevhomelib.usr-is-mergedlost+foundmntprocrunsbin.usr-is-mergedsrvtmpvarbin.usr-is-mergeddataetclibli
print(str(3+5))的结果是什么？为什么？ Lauren_Lu python
✅语句：print(str(3+5))✅执行顺序与含义：括号优先：先计算3+5+是加法运算符3+5是一个表达式，结果为整数8使用str()函数将结果转换为字符串str(8)返回字符串'8'使用print()打印这个字符串print('8')的输出就是：8✅为什么要运算？因为：Python遇到表达式3+5时，必须先计算出结果；str()需要一个值作为参数，而不是一个没计算的表达式；这是Python表
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
Flutter开发环境配置指南 harmonyos
环境相关问题flutter开发环境配置参考建议使用的开发工具版本flutter3.22.0-ohos版本python3.8-python3.11java17node18ohpm1.6+HamonyOSSDKapi11Xcode14.3断网环境flutterpubget执行失败解决方案：加上--offline参数，完整命令flutterpubget--offline。mac环境release版本的应
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
python编译Edge-tts： Edge tts Player 浩读语音朗读 edge-tts python 自然语言处理 edge 前端
Edge-TTS是Python库，通过微软AzureCognitiveServices转化文本为自然语音，Edge-TTS支持40多种语言和300种声音，提供优质的语音输出，这给学习外语的学生和老师很大的福利。下面，尝试着用python来编写一个简单的TTS转MP3。EdgeTTSfromtkinterimport*fromtkinterimportttkfromtkinter.filedialo
【Python】PyRoboPath：Python机器人路径规划的终极指南宅男很神经 python 开发语言
PyRoboPath：Python机器人路径规划的终极指南第1部分：PyRoboPath与路径规划基础第1章：PyRoboPath概览与核心理念1.1什么是PyRoboPath？PyRoboPath是一个先进的、开源的Python库，致力于为学术研究人员、行业工程师以及机器人爱好者提供一套完整、高效、易用且可扩展的机器人路径规划解决方案。它不仅仅是一个算法的集合，更是一个集成了机器人建模、环境表示
Edge-TTS的使用
Edge-TTS的使用Edge-TTS是一个的文本转语音（TTS）Python库。它利用了微软AzureCognitiveServices的强大功能，能够将文本信息转换成流畅自然的语音输出。这个库特别适合需要在应用程序中加入语音功能的开发者使用。edge-tts在github上已开源，有3的kstar！替代国内收费的TTS服务完全没问题。它支持40多种语言，300多种声音，效果很不错~github
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
联咏NT98567高度集成边缘IPC应用SoC规格特性 weixin_Todd_Wong2010 边缘计算人工智能计算机视觉 python c++神经网络
联咏NT98567MQG是一款高度集成的SoC，具有高图像质量、低比特率和低功耗的特点，适用于电池应用，目标是2Mp至5Mp/8Mp边缘IP摄像头应用。该SoC集成了双核ARMCortexA7CPU、新一代ISP、H.265/H.264视频压缩编解码器、视频处理引擎（VPE）用于双传感器拼接和鱼眼去畸变、高性能硬件DLA模块、图形引擎、显示控制器、以太网PHY、USB2.0主机/设备、音频编解码器
如何修改Python安装路径壹只小小码农 python 学习开发语言
在安装软件时，很多人都会发现默认的安装路径不是他们想要的，于是就想要修改安装路径。那么如何修改安装路径呢？本文将从多个角度为大家进行分析。一、在安装向导中更改一般情况下，我们在安装软件时会看到安装向导，其中会有一个“安装路径”选项，我们可以在这里手动更改安装路径。不同软件的安装向导可能略有不同，但是一般都会有这个选项。二、使用修改器有些软件虽然没有提供修改安装路径的选项，但是我们可以使用一些修改器
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

说话人识别中的损失函数

损失函数

多说话人分类

Cross Entropy Loss

Angular Softmax

二值决策

Pairwise Loss

Triplet Loss

端到端的说话人识别系统

端到端的损失函数

广义端到端损失函数（Generalized End-to-End Loss，GE2E）

其他广义端到端损失函数

总结

你可能感兴趣的:(说话人识别,深度学习,python,音频,语音识别)