DEDSEC_Roger

Softmax Loss、AAM-Softmax（ArcFace）、Sub-center ArcFace的PyTorch实现与代码解读

概述

说话人识别中的损失函数分为基于多类别分类的损失函数，和端到端的损失函数（也叫基于度量学习的损失函数），关于这些损失函数的理论部分，可参考说话人识别中的损失函数
本文主要关注这些损失函数的实现，此外，文章说话人识别中的损失函数中，没有详细介绍基于多类别分类的损失函数，因此本文会顺便补足这一点
本文持续更新

Softmax Loss

先看Softmax Loss，完整的叫法是Cross-entropy Loss with Softmax，主要由三部分组成
- Fully Connected：将当前样本的嵌入码（embedding），变换成长度为类别数的向量（通常称为Logit），公式如下
  $y = W x + b$
  其中
  - x是特征向量，长度为 $embed\text{-}dim$
  - W是权重矩阵，维度为 $[n\text{-}classes,embed\text{-}dim]$ ， $n\text{-}classes$ 为类别数
  - b是偏置向量，长度为 $n\text{-}classes$
  - Logit中的每一个值，对应W的每一行与x逐项相乘再相加，然后与b中的对应项再相加
- Softmax：将Logit变换成多类别概率分布Probability，不改变向量长度，公式如下（取 $N=n\text{-}classes-1$ ）
  $y_i=\frac{e^{x_i}}{\sum_{i=0}^{N}e^{x_i}}$
  - 本质上是max函数的软化版本，将不可导的max函数变得可导
  - 因此需要像max函数那样，具有最大值主导的特点，上图中
    $so f t ma x ([3, 1, - 3]) = [0.88, 0.12, 0]$
  - 又因为输出是多类别概率分布，因此Probability的每一项相加等于1
    $\sum_{i=0}^{N}y_i=1$
  - 但是当Logit的值都比较小时，比如： $[0, 1]$ ，最大值主导的效果不明显
    $so f t ma x ([0.1, 0.3, 0.5, 0.7, 0.9]) = [0.1289, 0.1574, 0.1922, 0.2348, 0.2868]$
- Cross-entropy（交叉熵）：将Ground Truth（基本事实）的One-hot Vector（记为 $P$ ）与Probability（记为 $Q$ ）计算相似度，输出是标量。交叉熵的值越小，Probability与One-hot Vector越相似，公式如下
  $L_{CE}(P,Q)=-\sum_{i=0}^{N} p_i \log(q_i)$
  - One-hot Vector的长度与Probability一致，即等于类别数 $N$ ，形式为 $[0, 0, ..., 1, ..., 0]$ ，即GT是哪个类，哪个类对应的下标就为1
  - 设One-hot Vector值为1的下标为 $j$ ，上式可简化为
    $L_{Softmax}(P,Q)=-\log(q_j)=-\log(\frac{e^{x_j}}{\sum_{i=0}^{N}e^{x_i}})$

在上述的过程中，如果用tensor.scatter_来实现One-hot Vector是比较难懂的，完整PyTorch代码如下

import torch
import torch.nn.functional as F
import torch.nn as nn

embed_dim = 5
num_class = 10
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

x = torch.tensor([0.1, 0.3, 0.5, 0.7, 0.9])
x.unsqueeze_(0)  # 模拟batch-size，就地在dim = 0插入维度，此时x的维度为[1,5]
x = x.expand(2, embed_dim)  # 直接堆叠x，使batch-size = 2，此时x的维度为[2,5]
x = x.float().to(device)

# label是长度为batch-size的向量，每个值是GT的下标，维度为[2]
label = torch.tensor([0, 5])
label = label.long().to(device)

weight = nn.Parameter(torch.FloatTensor(num_class, embed_dim)).to(device)
nn.init.xavier_uniform_(weight)  # 初始化权重矩阵
logit = F.linear(x, weight)  # 取消偏置向量

probability = F.softmax(logit, dim=1)  # 维度为[2,10]

# one_hot的数据类型与设备要和x相同，维度和Probability相同[2,10]
one_hot = x.new_zeros(probability.size())
# 根据label，就地得到one_hot，步骤如下
	# scatter_函数：Tensor.scatter_(dim, index, src, reduce=None)
	# 先把label的维度变为[2,1]，然后根据label的dim = 1(参数中的src)上的值
	# 作为one_hot的dim = 1(参数中的dim)上的下标，并将下标对应的值设置为1
	# 由于label的dim = 1上的值只有一个，所以是One-hot，如果label维度为[2,2]，则为Two-hot
	# 如果label维度为[2,k]，则为K-hot
one_hot.scatter_(1, label.view(-1, 1).long(), 1)
# 等价于
# one_hot = F.one_hot(label, num_class).float().to(device)
# 但是F.one_hot只能构造One-hot，Tensor.scatter_可以构造K-hot

# 对batch中每个样本计算loss，并求均值
loss = 0
for P, Q in zip(one_hot, probability):
    loss += torch.log((P * Q).sum())
loss /= -one_hot.size()[0]
# 等价于
# loss = F.cross_entropy(logit, label)

上述PyTorch代码要看懂，是之后魔改Softmax Loss的基础

AAM-Softmax（ArcFace）

AAM-Softmax（Additive Angular Margin Loss，也叫ArcFace）出自人脸识别，是说话人识别挑战VoxSRC近年冠军方案的基础损失函数，是基于Softmax Loss进行改进而来的。步骤如下
- 取消偏置向量，根据上文，Logit中的每一个值，对应W的每一行 $w_i$ 与x逐项相乘再相加，即 $y_i=w_ix$
- 把 $w_i$ 和 $x$ 都单位化
  $w'_i=\frac{w_i}{||w_i||},x'=\frac{x}{||x||}$
- 计算Logit，此时Logit中的每一个值如下，即 $w_i$ 和 $x$ 的夹角的余弦值，记为 $\theta_i$
  $y_i=w'_ix'=\frac{w_i}{||w_i||}\frac{x}{||x||}=\cos=\cos\theta_i$
- 权重矩阵W的每一行，本质上是神经网络学习到的每个说话人的中心向量（中心点），关于说话人的中心点，可参考说话人识别中的损失函数中的端到端损失函数。端到端的损失函数，直接利用每个batch中属于不同说话人的样本，计算对应说话人的中心点；而基于多类别分类的损失函数，则是通过学习，得到每个说话人的中心点
- 因此，将 $w_i$ 和 $x$ 单位化后，再计算Softmax Loss，可以视作是对当前样本嵌入码与每一个说话人中心点，计算余弦相似度向量，对余弦相似度向量进行Softmax Loss优化。根据上文，当Logit的值都比较小时，比如： $[0, 1]$ ，Softmax最大值主导的效果不明显，所以单位化后计算的Logit，需要进行伸缩（Scale），即 $y_i=s*y_i=s\cos\theta_i$ 。此时再计算Softmax Loss，如下
  $L=-\log(\frac{e^{s\cos\theta_j}}{\sum_{i=0}^{N}e^{s\cos\theta_i}})$
- 用此时的Softmax Loss，训练2维嵌入码，然后取8个类，对这8个类的大量样本，计算嵌入码，绘制到图上，如下面左图所示。发现这8个类类间是可分的，但是类内却没有聚合，我们希望这8个类能够像下面右图那样，不仅类间可分，而且类内聚合
- 首先要明确：两个向量的夹角范围为 $[0,\pi]$ ，夹角余弦值范围为 $[- 1, 1]$ ，并且单调递减，如下图所示
- 训练时，对嵌入码和GT说话人中心点的夹角，施加额外的惩罚，惩罚后，该夹角变大，从而余弦值变小，神经网络需要将余弦值重新变大，才能使该嵌入码正确分类。测试时，用嵌入码与不同的嵌入码直接计算相似度，此时没有惩罚，从而实现类间可分和类内聚合
- AAM-Softmax中，直接将GT夹角加上一个值 $m$ （通常称为margin），从而Logit中GT对应的值变为 $y_j=s\cos(\theta_j+m)$ ，Logit中其他的值不变，仍为 $s\cos\theta_i$ 。此时再计算Softmax Loss，如下
  $L=-\log(\frac{e^{s\cos(\theta_j+m)}}{e^{s\cos(\theta_j+m)}+\sum_{i=0,i\ne j}^{N}e^{s\cos\theta_i}})$

在上述的过程中，施加额外的惩罚这一步，有不同的情况需要讨论，先看forward函数

def forward(self, input, label):
	# input即上述的x，label与上述要求一致
	# 计算cos(theta)，F.normalize默认对dim = 1施加l2-norm
	cosine = F.linear(F.normalize(input), F.normalize(self.weight))
	
	# 计算sin(theta)
	sine = torch.sqrt(1.0 - torch.pow(cosine, 2))
	
	# cos(theta-m) = cos(theta)cos(m) - sin(theta)sin(m)
	phi = cosine * self.cos_m - sine * self.sin_m
	
	# easy_margin表示只将cos(theta) > 0的余弦值惩罚为cos(theta-m)
	# cos(theta) <= 0的余弦值仍为cos(theta)
	# 惩罚后的余弦值，范围为[-1, cos(m)]
	if self.easy_margin:
	  phi = torch.where(cosine > 0, phi, cosine)
	
	# 否则，对全区间施加惩罚，但不都是惩罚为cos(theta-m)
	# 取th = -cos(m)
	# 将cos(theta) > th的余弦值惩罚为cos(theta-m)
	# 将cos(theta) <= th的余弦值惩罚为cos(theta) + cos(m) - 1
	# 惩罚后的余弦值，范围为[cos(m) - 2, cos(m)]
	else:
	  ########
	  # 主流代码会将cos(theta) <= th的余弦值
	  # 惩罚为m*sin(m)，难以理解，在此不采用
	  # phi = torch.where(cosine > self.th, phi, cosine - self.mm)
	  phi = torch.where(cosine > self.th, phi, cosine - self.mmm)
	  ########
	
	# 构造One-hot Vector
	one_hot = input.new_zeros(cosine.size())
	one_hot.scatter_(1, label.view(-1, 1).long(), 1)
	
	# 只有GT对应的余弦值被惩罚，其他余弦值仍为cos(theta)
	output = (one_hot * phi) + ((1.0 - one_hot) * cosine)
	
	# 伸缩
	output *= self.scale
	
	# 返回的是logit
	return output

如果采用easy-margin，会导致GT余弦值较大的不连续
不采用easy-margin，GT余弦值能变得连续

最后是AAM-Softmax的完整PyTorch代码

class ArcMarginProduct(nn.Module):
    r"""Implement of large margin arc distance: :
        Args:
            in_features: size of each input sample
            out_features: size of each output sample
            scale: norm of input feature
            margin: margin
            cos(theta + margin)
        """

    def __init__(self,
                 in_features,
                 out_features,
                 scale=32.0,
                 margin=0.2,
                 easy_margin=False):
        super(ArcMarginProduct, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.scale = scale
        self.margin = margin
        self.weight = nn.Parameter(torch.FloatTensor(out_features,
                                                     in_features))
        nn.init.xavier_uniform_(self.weight)

        self.easy_margin = easy_margin
        self.cos_m = math.cos(margin)
        self.sin_m = math.sin(margin)
        self.th = math.cos(math.pi - margin)
        self.mm = math.sin(math.pi - margin) * margin
        self.mmm = 1.0 + math.cos(
            math.pi - margin)  # this can make the output more continuous
        ########
        self.m = self.margin
        ########
	
	# update函数可用于margin调度，类似学习率调度，只不过margin是越调度越大
    def update(self, margin=0.2):
        self.margin = margin
        self.cos_m = math.cos(margin)
        self.sin_m = math.sin(margin)
        self.th = math.cos(math.pi - margin)
        self.mm = math.sin(math.pi - margin) * margin
        self.m = self.margin
        self.mmm = 1.0 + math.cos(math.pi - margin)
        # self.weight = self.weight
        # self.scale = self.scale

    def forward(self, input, label):
        cosine = F.linear(F.normalize(input), F.normalize(self.weight))
        sine = torch.sqrt(1.0 - torch.pow(cosine, 2))
        phi = cosine * self.cos_m - sine * self.sin_m
        if self.easy_margin:
            phi = torch.where(cosine > 0, phi, cosine)
        else:
            ########
            # phi = torch.where(cosine > self.th, phi, cosine - self.mm)
            phi = torch.where(cosine > self.th, phi, cosine - self.mmm)
            ########

        one_hot = input.new_zeros(cosine.size())
        one_hot.scatter_(1, label.view(-1, 1).long(), 1)
        output = (one_hot * phi) + ((1.0 - one_hot) * cosine)
        output *= self.scale

        return output

    def extra_repr(self):
        return '''in_features={}, out_features={}, scale={},
                  margin={}, easy_margin={}'''.format(self.in_features,
                                                      self.out_features,
                                                      self.scale, self.margin,
                                                      self.easy_margin)

Sub-center ArcFace

数据集常常带有噪声，越是大的数据集，噪声越是多，常见的噪声有离群点（Outlier）噪声和标签翻转（Label-flip）噪声，关于数据噪声，可参考说话人识别的数据需求中“数据的正确性”这一节
大数据集的噪声清除是非常困难且昂贵的，神经网络需要能够在带有噪声（CASIA Face中噪声约有9.3%-13.0%）的数据集中，甚至是强噪声（MS1MV0中噪声约有47.1%-54.4%）的数据集中，进行训练
Sub-center ArcFace就是用于在带有噪声的大规模数据集训练中，要求类内聚合和类间可分（即严格性Strictness），同时不被数据集中的噪声过度影响（即鲁棒性Robustness），的损失函数，步骤如下
- 根据上文，权重矩阵W的每一行，本质上是神经网络学习到的每个说话人的中心点，但是在带有噪声的数据集中，这个学习到的中心点，可能不是非常准确
- 可以让神经网络学习每个说话人的 $K$ 个中心点，其中一个是正常样本（Easy clean）的中心点，称为主导中心点（Dominant Sub-center），其余是噪声（Hard or Noise）样本的中心点，称为非主导中心点（Non-dominant Sub-center）。如下图(b)所示，取 $K = 10$ ，则一共有10个圆圈，最大圆圈为主导中心点，其余圆圈为非主导中心点
- 由此，W的维度从 $[n\text{-}classes,embed\text{-}dim]$ 变成了 $[n\text{-}classes,embed\text{-}dim,K]$ ，将嵌入码和W的每个中心点，计算余弦相似度，会得到维度为 $[n\text{-}classes,K]$ 的相似度矩阵
- 对相似度矩阵的每一行进行池化，会得到长为 $n\text{-}classes$ 的向量，可以作为Logit，后续的步骤与ArcFace一致。Sub-center ArcFace的额外处理，集中在下图的蓝色虚线内
- 上述对相似度矩阵的池化操作，就是平衡损失函数的Strictness和Robustness的关键。我们知道，ArcFace是对Logit中嵌入码和GT中心点的夹角，加上margin，再取cos得到GT相似度，最后对Logit计算Softmax Loss
- 因此，要分析margin与池化的协同作用，需要先把相似度矩阵映射成夹角矩阵，再作分析，如下图所示
- 其中
  - $\min(inter)$ 表示对当前非GT的 $(N - 1) * K$ 个夹角进行最小值池化
  - $\max(inter)$ 表示对当前非GT的 $(N - 1) * K$ 个夹角进行最大值池化
  - $\min(intra)$ 表示对当前GT的 $K$ 个夹角进行最小值池化
  - $\max(intra)$ 表示对当前GT的 $K$ 个夹角进行最大值池化
  - (1) 表示，取嵌入码与距离最近的GT夹角，加上margin，再取cos得到GT相似度；取嵌入码与距离最近的非GT夹角，再取cos得到非GT相似度。此时对类内聚合的Strictness降低，从而对离群点噪声的Robustness提高；对类间可分的Strictness提高，从而对标签翻转噪声的Robustness一般
  - (2) 表示，取嵌入码与距离最近的GT夹角，加上margin，再取cos得到GT相似度；取嵌入码与距离最远的非GT夹角，再取cos得到非GT相似度。此时对类内聚合的Strictness降低，从而对离群点噪声的Robustness提高；对类间可分的Strictness降低，从而对标签翻转噪声的Robustness提高。但此时训练无法收敛，因为监督信息不够强，梯度方向不明确
  - (3) 表示，取嵌入码与距离最远的GT夹角，加上margin，再取cos得到GT相似度；取嵌入码与距离最近的非GT夹角，再取cos得到非GT相似度。此时对类内聚合的Strictness提高，从而无法学习出多个Sub-center，导致对噪声Robustness弱；对类间可分的Strictness提高。此时效果类似原始ArcFace
  - (4) 表示，取嵌入码与距离最远的GT夹角，加上margin，再取cos得到GT相似度；取嵌入码与距离最远的非GT夹角，再取cos得到非GT相似度。此时对类内聚合的Strictness提高，从而无法学习出多个Sub-center，导致对噪声Robustness弱；对类间可分的Strictness降低
- 综上，(1) 是较优的做法，但是较大的 $K$ （如 $K = 10$ ），会破坏类内聚合，因为正常样本中，许多困难样本被用于学习非主导中心点，因此常取 $K = 3$ 。为增强类内聚合，还可以在神经网络判别能力较强时，去除非主导中心点，只保留主导中心点，即 $K = 1$ ，同时去除与GT主导中心点夹角小于75度的样本（这些样本可视为噪声），再用剩下的样本进行训练
如何检验Sub-center ArcFace的效果呢？我们希望的效果是：简单和困难样本越靠近主导中心点越好，噪声样本越靠近非主导中心点越好。因此，要检验Sub-center ArcFace的效果，可以先用强噪声的大规模数据集训练Sub-center ArcFace，之后统计训练集中，更靠近主导中心点，与更靠近非主导中心点的样本，最后检查这些样本中，哪些是正常样本，哪些是噪声样本。如下图所示
从上图中可见，相比ArcFace（图c），Sub-center ArcFace靠近主导中心点（图a）的噪声样本从38%降低到12%，不过也有4%左右的正常样本，更靠近非主导中心点（图b）
绝大多数的靠近主导中心点的噪声样本，夹角都大于75度，这也是上述Sub-center ArcFace最后一个步骤中的增强类内聚合，按照75度来去除噪声样本的依据。采用增强类内聚合方法后，效果如图(d)所示

有了ArcFace的基础，Sub-center ArcFace的PyTorch实现就比较好理解了，下面是完整代码

class ArcMarginProduct_subcenter(nn.Module):
    r"""Implement of large margin arc distance with subcenter:
        Reference:
            Sub-center ArcFace: Boosting Face Recognition by
            Large-Scale Noisy Web Faces.
            https://ibug.doc.ic.ac.uk/media/uploads/documents/eccv_1445.pdf
        Args:
            in_features: size of each input sample
            out_features: size of each output sample
            scale: norm of input feature
            margin: margin
            cos(theta + margin)
            K: number of sub-centers
        """

    def __init__(self,
                 in_features,
                 out_features,
                 scale=32.0,
                 margin=0.2,
                 easy_margin=False,
                 K=3):
        super(ArcMarginProduct_subcenter, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.scale = scale
        self.margin = margin

        # subcenter
        self.K = K

        # initial classifier
        self.weight = nn.Parameter(
            torch.FloatTensor(self.K * out_features, in_features))
        nn.init.xavier_uniform_(self.weight)

        self.easy_margin = easy_margin
        self.cos_m = math.cos(margin)
        self.sin_m = math.sin(margin)
        self.th = math.cos(math.pi - margin)
        self.mm = math.sin(math.pi - margin) * margin
        self.mmm = 1.0 + math.cos(
            math.pi - margin)  # this can make the output more continuous
        ########
        self.m = self.margin
        ########

    def update(self, margin=0.2):
        self.margin = margin
        self.cos_m = math.cos(margin)
        self.sin_m = math.sin(margin)
        self.th = math.cos(math.pi - margin)
        self.mm = math.sin(math.pi - margin) * margin
        self.m = self.margin
        self.mmm = 1.0 + math.cos(math.pi - margin)

    def forward(self, input, label):
    	# 对cos(theta)的额外处理是与ArcFace的唯一区别
        cosine = F.linear(F.normalize(input),
                          F.normalize(self.weight))  # (batch, out_dim * k)
        cosine = torch.reshape(
            cosine, (-1, self.out_features, self.K))  # (batch, out_dim, k)
        # 取max是因为cos(theta)是相似度，与theta刚好成反比
        # 如果现在处理的是theta，则应取min，然后取cos
        cosine, _ = torch.max(cosine, 2)  # (batch, out_dim)

        sine = torch.sqrt(1.0 - torch.pow(cosine, 2))
        phi = cosine * self.cos_m - sine * self.sin_m

        if self.easy_margin:
            phi = torch.where(cosine > 0, phi, cosine)
        else:
            ########
            # phi = torch.where(cosine > self.th, phi, cosine - self.mm)
            phi = torch.where(cosine > self.th, phi, cosine - self.mmm)
            ########

        one_hot = input.new_zeros(cosine.size())
        one_hot.scatter_(1, label.view(-1, 1).long(), 1)

        output = (one_hot * phi) + ((1.0 - one_hot) * cosine)
        output *= self.scale
        
        return output

	def extra_repr(self):
		return 'in_features={}, out_features={}, scale={}, margin={}, ' \
		       'easy_margin={}, K={}'.format(
		          self.in_features, self.out_features, self.scale, self.margin,
		          self.easy_margin, self.K)

使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
C# 调用 VITS，推理模型将文字转wav音频调试 -数字人分支未来之窗软件服务 c#开发语言人工智能数字人
Microsoft.ML.OnnxRuntime.OnnxRuntimeException:[ErrorCode:InvalidArgument]Inputname:'input_name'isnotinthemetadata在Microsoft.ML.OnnxRuntime.InferenceSession.LookupInputMetadata(StringnodeName)位置D:\a\_w
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用AI识别语音和B站视频并通过GPT生成思维导图思维导图gpt-4
AI脑图除了对文本、网页链接和文件生成思维导图外，现在也支持了对语音和B站视频的内容识别，并自动生成思维导图。语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容，然后提炼内容关键信息、结构化梳理，并生成思维导图，同时也可以下载识别好的
使用AI识别语音和B站视频并通过GPT生成思维导图思维导图gpt-4
AI脑图除了对文本、网页链接和文件生成思维导图外，现在也支持了对语音和B站视频的内容识别，并自动生成思维导图。语音生成思维导图直接发送语音：对AI脑图公众号直接发送语音（如使用语音说厦门三天两夜的旅行攻略），AI脑图会自动识别语音内容然后根据内容要求生成思维导图上传语音文件：支持多种音频格式，上传完成后AI脑图会识别音频内容，然后提炼内容关键信息、结构化梳理，并生成思维导图，同时也可以下载识别好的
Python预训练模型实现俄语音频转文字啥都鼓捣的小yao 人工智能 python 音视频人工智能
Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调。使用此模型时，请确保您的语音输入以16kHz采样。我们只需要装好三个功能包，写好你的文件路径即可使用！importtorchimportlibrosafromtransformersimport
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
RK3568平台（音频篇）音频ALSA框架嵌入式_笔记瑞芯微音视频
一.ALSA框架简介ALSA表示先进linux声音架构（AdvancedLinuxSoundArchiecture），它由一系列的内核驱动、应用程序编程接口（API）以及支持linux下声音的应用程序组成、ALSA项目发起的原有是linux下的声卡驱动（OSS）没有获得积极的维护，而且落后于新的声卡技术。JaroslavKysela早先写了一个声卡驱动，并由此开始了ALSA项目，随后，更多的开发者
【视频】m3u8相关操作郭老二视频音视频
1、视频文件转m3u81.1常用命令1）默认只保留5个ts文件ffmpeg-iinput.mp4-start_number0-hls_time10-hls_list_size0-fhlsstream1.m3u82）去掉音频-an，保留全部ts文件ffmpeg-iinput.mp4-vfscale=640:480-an-start_number0-hls_time10-hls_list_size0-
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
PyTorch数据归一化处理：transforms 2401_87555420 pytorch 人工智能 python
##1.数据归一化处理：transforms.Normalize###1.1理解torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练）模型实现torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Pytorch中的torch.utils.data.Dataset 类小白的高手之路深度学习（DL）Pytorch实战深度学习 python pytorch
1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

Softmax Loss、AAM-Softmax（ArcFace）、Sub-center ArcFace的PyTorch实现与代码解读

概述

Softmax Loss

AAM-Softmax（ArcFace）

Sub-center ArcFace

你可能感兴趣的:(说话人识别,pytorch,深度学习,语音识别,音频)