CA727

一文读懂深度学习中的损失函数（Loss Function）：回归损失、二分类损失和多分类损失

文章目录

1 回归损失（Regression Loss）
- 1.1 均方误差（Mean Square Error，MSE）/ 二次损失（Quadratic loss） / L2损失（L2 Loss）
- 1.2 平均绝对误差（Mean Absolute Error，MAE） / L1损失（L1 Loss）
- 1.3 MSE vs. MAE （L2 loss vs. L1 loss）
- 1.4 Huber Loss / Smooth Mean Absolute Error
- 1.5 Log-Cosh Loss
- 1.6 分位数损失（Quantile Loss）
- 1.7 对比研究
2 二分类损失（Binary Classification Loss）
- 2.1 二元交叉熵损失（Binary Cross Entropy Loss）
- 2.2 铰链损失（Hinge Loss）
3 多分类损失（Multi-Class Classification Loss）
- 3.1 多分类交叉熵损失（Multi-Class Cross Entropy Loss）
- 3.2 KL散度（KL-Divergence）
参考

深度学习中的所有算法都依赖于最小化或最大化一个函数，我们称之为损失函数（loss function），或“目标函数”、“代价函数”。损失函数是衡量预测模型在预测预期结果方面做得有多好。求函数最小点最常用的方法是梯度下降法。损失函数就像起伏的山，梯度下降就像从山上滑下来到达最底部的点。

没有一个单一的损失函数可以完美适用于所有类型的数据。它取决于许多因素，包括异常值的存在、深度学习算法的选择、梯度下降的时间效率等等。本文的目的是了解不同的损失函数，以及它们的原理。

损失函数大致可分为两类：分类损失和回归损失，其中分类损失根据类别数量又可分为二分类损失和多分类损失。需要注意的是：回归函数预测数量，分类函数预测标签。

1 回归损失（Regression Loss）

1.1 均方误差（Mean Square Error，MSE）/ 二次损失（Quadratic loss） / L2损失（L2 Loss）

均方误差（MSE）是最常用的回归损失函数。MSE是目标变值和预测值之间距离的平方之和。

下图是MSE的函数图，真实目标值为100，预测值在-10000到10000之间。MSE损失（y轴）在预测（x轴）为100时达到最小值。范围是0到 $\infty$ 。

1.2 平均绝对误差（Mean Absolute Error，MAE） / L1损失（L1 Loss）

平均绝对误差（MAE）是另一个用于回归模型的损失函数。MAE是目标值和预测值之间的绝对差的总和。所以它测量的是一系列预测的平均误差大小，而不考虑它们的方向，范围也是0到 $\infty$ 。如果考虑方向，那将被称为平均偏差（Mean Bias Error，MBE），它是残差/误差的总和。

1.3 MSE vs. MAE （L2 loss vs. L1 loss）

简言之：使用平方误差MSE更容易收敛，但使用绝对误差MAE对异常值更稳健。接下来理解一下原因。

当我们训练一个模型时，我们的目标是找到使损失函数取最小值的点。当然，当预测值与真实值完全相等时，两个函数都达到最小值。下面是这两种损失的python代码，我们可以编写自己的函数，也可以使用sklearn的内置函数：

# true: Array of true target variable
# pred: Array of predictions
def mse(true, pred): 
    return np.sum((true - pred)**2)
    
 def mae(true, pred):
  return np.sum(np.abs(true - pred))
 
 # also available in sklearn
 from sklearn.metrics import mean_squared_error
 from sklearn.metrics import mean_absolute_error

让我们看看两种情况下的MAE和均方根误差（RMSE，它只是MSE的平方根，使MSE与MAE在相同的尺度上）的值。在第一种情况下，预测值接近真实值，且在所有样本之间误差的方差很小。在第二种情况下，观察到有一个异常值，误差很大。

由于MSE平方误差（y-y_predicted = e），当e>1时，误差（e）的值大大增加；如果数据中有一个离群值，e的值就会很高，e^2就会>>|e|。这将使有MSE损失的模型比有MAE损失的模型给离群点更多的权值。在第2种情况下，以RMSE为损失函数的模型将以其他常见示例为代价进行调整，以最大程度减少单个异常的情况，这会降低模型的整体性能。

如果训练数据被异常值破坏（例如，我们在训练环境中错误地接收到巨大的负/正值，而不是在测试环境中），MAE损失是有用的。

直观地说，我们可以这样想：如果我们只需要对所有试图使MSE最小化的观察结果给出一个预测，那么这个预测应该是所有目标值的平均值。但如果我们试图最小化MAE，这个预测将是所有观测值的中值。我们知道中值比均值对离群值更稳健，这使得MAE比MSE对离群值更稳健。

使用MAE损失的一个大问题是，它的梯度始终是相同的，这意味着即使损失很小，梯度也会很大，这对学习没有好处。为了解决这个问题，我们可以使用动态学习率，它会随着我们接近最小值而降低。在这种情况下，MSE表现得很好，即使在一个固定的学习速率下也会收敛。当损失值越大，MSE损失的梯度越大，当损失接近0时，MSE损失的梯度越小，使得训练结束时MSE损失的梯度更精确(见下图)。

决定使用哪个损失函数

如果异常值代表的异常对业务是重要的，应该被检测到，那么我们应该使用MSE。另一方面，如果我们认为离群值仅仅代表损坏的数据，那么我们应该选择MAE作为损失。

L1损失对异常值具有更强的鲁棒性，但其导数不连续，使得求解效率低下。L2损失对异常值是敏感的，但给出了一个更稳定和封闭形式的解决方案(通过设置其导数为0)。

两者的问题：可能存在这两种损失函数都不能给出理想预测的情况。例如，如果我们的数据中90%的观察值的真实目标值为150，其余10%的目标值在0~30之间。然后，一个以MAE作为损失的模型可以为所有观测值预测150，忽略10%的异常情况，因为它将尝试向中值靠拢。在同样的情况下，一个使用MSE的模型会在0到30的范围内给出许多预测，因为它会偏向于离群值。这两种结果在许多商业案例中都是不可取的。

在这种情况下该怎么办?一个简单的解决方法是转换目标变量。另一种方法是尝试不同的损失函数。这就是我们的第三个损失函数，Huber Loss背后的动机。

1.4 Huber Loss / Smooth Mean Absolute Error

与平方误差损失相比，Huber Loss对数据中的异常值不那么敏感。它在0处也是可微的。它基本上是绝对误差，当误差很小的时候就变成了二次值。误差有多小才能变成二次值取决于一个超参数 $\delta$ ，这个超参数是可以调整的。Huber损失在 $\delta$ ~ 0时接近MSE，在 $\delta$ ~ $\infty$ (大数值)时接近MAE。

delta的选择是至关重要的，因为它决定了你愿意将哪些内容视为异常值。大于delta的残差在L1中最小(L1对大的异常值不那么敏感)，而小于delta的残差在L2中适当最小。

为什么使用Huber Loss？

使用MAE训练神经网络的一个大问题是它的持续大梯度，这可能会导致在使用梯度下降训练结束时丢失最小值。对于MSE，当损失接近其最小值时，梯度减小，使其更加精确。

在这种情况下，Huber损失是非常有用的，因为它在减小梯度的最小值附近弯曲。它比MSE对离群值更稳健。因此，它结合了MSE和MAE的优良性能。然而，Huber损失的问题是我们可能需要训练超参数delta，这是一个迭代过程。

1.5 Log-Cosh Loss

Log-cosh是回归任务中使用的另一个比L2更平滑的函数。Log-cosh是预测误差的双曲余弦的对数。

**优点：**对于小的x, log(cosh(x))近似等于(x ** 2) / 2，对于大的x，近似等于abs(x) - log(2)。这意味着“logcosh”的工作方式与均方误差类似，但不会受到偶尔出现的严重错误预测的强烈影响。它具有Huber损失的所有优点，而且它在任何地方都是可微的，不像Huber损失。

为什么需要二阶导数？许多ML模型实现如XGBoost使用牛顿法来寻找最优值，这就是为什么需要二阶导数（Hessian）。对于像XGBoost这样的ML框架，两次可微函数更合适。

但是Log-cosh损失并不是完美的。对于非常大的偏离目标的预测是恒定的，它仍然受到梯度和Hessian问题的困扰，因此导致XGBoost缺少分割。

1.6 分位数损失（Quantile Loss）

在大多数现实世界的预测问题中，我们经常对我们预测中的不确定性感兴趣。了解预测的范围，而不是只了解点估计，可以显著改善许多业务问题的决策制定过程。

分位数损失函数在预测区间而不仅仅是预测点时是有用的。最小二乘回归的预测区间是基于残差(y-y_hat)在自变量值之间具有恒定方差的假设。我们不能相信违背这一假设的线性回归模型。我们也不能抛弃拟合线性回归模型作为基线的想法，说这种情况总是可以用非线性函数或基于树的模型更好地建模。这就是分位数损失和分位数回归发挥作用的地方，因为基于分位数损失的回归甚至为方差非常或非正态分布的残差提供了合理的预测区间。

让我们看一个工作示例，以更好地理解为什么基于分位数损失的回归在异方差数据中表现良好。

理解分位数损失函数

基于分位数的回归是在预测变量给定值的情况下估计响应变量的条件分位数。分位数损失实际上只是MAE的一个扩展(当分位数是50%时，它就是MAE)。

其思想是选择分位数值是基于我们想给正误差更多的值还是负误差更多的值。损失函数试图根据所选择的分位数( $\gamma$ )的值，对高估和低估给予不同的惩罚。例如，分位数损失函数( $\gamma = 0.25$ )对过高估计给予更多惩罚，并试图保持预测值略低于中值。

$\gamma$ 是必需的分位数，其值在0和1之间。

我们也可以使用这个损失函数来计算神经网络或基于树的模型的预测区间。下面是一个例子，Sklearn实现梯度增强树回归。

上图显示了sklearn库的GradientBoostingRegression中可用的分位数损失函数计算出的90%的预测区间。上界构造为 $\gamma= 0.95$ ，下界构造为 $\gamma = 0.05$ 。

1.7 对比研究

将所有的损失绘制在一张图上。

2 二分类损失（Binary Classification Loss）

这个名字很容易解释。二分类是指将一个对象分配到两个类中的一个。这种分类基于应用于输入特征向量的规则。例如，根据邮件的主题行将其分类为垃圾邮件或非垃圾邮件是二分类。

举个例子：我们希望根据平均半径、面积、周长等特征将肿瘤分类为恶性或良性。为了简化，我们只使用两个输入特征（ $X_1$ 和 $X_2$ ）进行分类，即最差区域和平均对称。目标值Y可以是0(恶性)或1(良性)。下面是数据的散点图：

2.1 二元交叉熵损失（Binary Cross Entropy Loss）

让我们从理解熵这个术语开始。通常，我们用熵来表示无序或不确定性，它是对概率分布为p(X)的随机变量X进行测量的：

负号是用来使总数量为正的。

一个概率分布的熵值越大，表明该分布的不确定性越大。同样，值越小，分布越确定。

这使得二元交叉熵适合作为损失函数来最小化它的值。对于输出概率p的分类模型，我们使用二元交叉熵损失。

元素属于1类(或正类)的概率= p那么，元素属于0类(或负类)的概率= 1 - p

那么，定义输出标签y(可以取0和1)和预测概率p的交叉熵损失为：

这也叫做对数损失。为了计算概率p，我们可以使用Sigmoid函数。这里，z是输入特征的函数：

Sigmoid函数的取值范围为[0,1]，适合计算概率。

下面为权重更新函数update_weight的代码。

def update_weights_BCE(m1, m2, b, X1, X2, Y, learning_rate):
    m1_deriv = 0
    m2_deriv = 0
    b_deriv = 0
    N = len(X1)
    for i in range(N):
        s = 1 / (1 / (1 + math.exp(-m1*X1[i] - m2*X2[i] - b)))
        
        # Calculate partial derivatives
        m1_deriv += -X1[i] * (s - Y[i])
        m2_deriv += -X2[i] * (s - Y[i])
        b_deriv += -(s - Y[i])

    # We subtract because the derivatives point in direction of steepest ascent
    m1 -= (m1_deriv / float(N)) * learning_rate
    m2 -= (m2_deriv / float(N)) * learning_rate
    b -= (b_deriv / float(N)) * learning_rate

    return m1, m2, b

使用不同的alpha值1000次迭代的权重更新规则，得到下图：

2.2 铰链损失（Hinge Loss）

铰链损耗主要与分类标签为-1和1的支持向量机(SVM)分类器一起使用。因此，请确保将数据集中的负类的标签从0更改为-1。

Hinge损失不仅会惩罚错误的预测，也会惩罚不确定的正确预测。

输入输出对(x, y)的Hinge损失为：

def update_weights_Hinge(m1, m2, b, X1, X2, Y, learning_rate):
    m1_deriv = 0
    m2_deriv = 0
    b_deriv = 0
    N = len(X1)
    for i in range(N):
        # Calculate partial derivatives
        if Y[i]*(m1*X1[i] + m2*X2[i] + b) <= 1:
          m1_deriv += -X1[i] * Y[i]
          m2_deriv += -X2[i] * Y[i]
          b_deriv += -Y[i]
        # else derivatives are zero

    # We subtract because the derivatives point in direction of steepest ascent
    m1 -= (m1_deriv / float(N)) * learning_rate
    m2 -= (m2_deriv / float(N)) * learning_rate
    b -= (b_deriv / float(N)) * learning_rate

    return m1, m2, b

在使用三个不同的alpha值运行更新函数2000次迭代后，得到了这张图：

Hinge损失简化了支持向量机的数学运算，同时使损失最大化(与对数损失相比)。当我们要做出实时决策而又不急于提高准确性时，可以使用它。

3 多分类损失（Multi-Class Classification Loss）

一个例子：电子邮件不仅仅被划分为垃圾邮件或非垃圾邮件(这已经不是90年代了!)他们被分为工作、家庭、社交、晋升等不同的类别。这是一个多分类问题。

我们将使用Iris数据集来理解剩下的两个损失函数。我们将使用2个特征 $X_1$ 即萼片长度和 $X_2$ 花瓣宽度来预测鸢尾花Setosa, Versicolor或Virginica的级别。

我们的任务是使用神经网络模型和Keras中的内置Adam优化器来实现分类器。这是因为随着参数数量的增加，数学和代码将变得难以理解。

下面是这些数据的散点图：

3.1 多分类交叉熵损失（Multi-Class Cross Entropy Loss）

多类交叉熵损失是二元交叉熵损失的推广。输入向量 $X_i$ 和对应的单编码目标向量 $Y_i$ 的损失为：

我们使用softmax函数来求概率 $p_{ij}$ ：

“Softmax是通过输出层之前的神经网络层实现的。Softmax层必须有与输出层相同数量的节点。”
“Softmax is implemented through a neural network layer just before the output layer. The Softmax layer must have the same number of nodes as the output layer.”

Google Developer’s Blog

最终，我们的输出是对给定输入具有最大概率的类。

我们使用输入层和输出层建立一个模型，并以不同的学习率训练它。在model.compile()语句中将损失参数指定为categorical_crossentropy。

# importing requirements
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import adam

# alpha = 0.001 as given in the lr parameter in adam() optimizer

# build the model
model_alpha1 = Sequential()
model_alpha1.add(Dense(50, input_dim=2, activation='relu'))
model_alpha1.add(Dense(3, activation='softmax'))

# compile the model
opt_alpha1 = adam(lr=0.001)
model_alpha1.compile(loss='categorical_crossentropy', optimizer=opt_alpha1, metrics=['accuracy'])

# fit the model
# dummy_Y is the one-hot encoded 
# history_alpha1 is used to score the validation and accuracy scores for plotting 
history_alpha1 = model_alpha1.fit(dataX, dummy_Y, validation_data=(dataX, dummy_Y), epochs=200, verbose=0)

下面是经过200个epoch训练后的成本和准确度的分别图：

3.2 KL散度（KL-Divergence）

Kullback-Liebler散度是一个概率分布与另一个分布差异的度量，KL散度为零表示分布是相同的。

注意散度函数是不对称的。这就是为什么KL散度不能用作距离度量的原因。

本文将描述使用KL散度作为损失函数的基本方法，而不涉及它的数学原理。由于KL散度是不对称的，我们可以用两种方法来做这件事：

第一种方法用于监督学习，第二种方法用于强化学习。KL散度在函数上类似于多类交叉熵，也称为P相对于Q的相对熵：

我们在compile()函数中指定kullback_leibler_divergence作为损失参数的值，就像前面处理多类交叉熵损失时所做的那样。

# importing requirements
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import adam

# alpha = 0.001 as given in the lr parameter in adam() optimizer

# build the model
model_alpha1 = Sequential()
model_alpha1.add(Dense(50, input_dim=2, activation='relu'))
model_alpha1.add(Dense(3, activation='softmax'))

# compile the model
opt_alpha1 = adam(lr=0.001)
model_alpha1.compile(loss='kullback_leibler_divergence', optimizer=opt_alpha1, metrics=['accuracy'])

# fit the model
# dummy_Y is the one-hot encoded 
# history_alpha1 is used to score the validation and accuracy scores for plotting 
history_alpha1 = model_alpha1.fit(dataX, dummy_Y, validation_data=(dataX, dummy_Y), epochs=200, verbose=0)

与多类分类相比，KL-散度更常用于近似复杂函数。我们在使用深度自动生成模型（如变分自动编码器（VAE））时经常遇到KL-散度。

参考

[1] https://heartbeat.fritz.ai/5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0
[2] https://medium.com/analytics-vidhya/a-detailed-guide-to-7-loss-functions-for-machine-learning-algorithms-26e11b6e700b

AI原生应用：多模态交互技术的5大核心应用场景解析 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AI-native ai
#AI原生应用：多模态交互技术的5大核心应用场景解析>关键词：多模态交互、AI原生应用、人机交互、深度学习、应用场景>摘要：本文将深入解析多模态交互技术的核心原理，通过智能家居、医疗诊断、自动驾驶、教育创新和虚拟助手五大应用场景，揭示AI如何像人类感官协同工作般理解世界。文章包含技术原理图解、真实案例代码和未来趋势预测。##背景介绍###目的和范围解析多模态交互技术在AI原生应用中的落地实践，涵盖
PyTorch 2.7深度技术解析：新一代深度学习框架的革命性演进智算菩萨深度学习 pytorch 人工智能
引言：站在AI基础设施变革的历史节点在2025年这个充满变革的年份，PyTorch团队于4月23日正式发布了2.7.0版本，随后在6月4日推出了2.7.1补丁版本，标志着这个深度学习领域最具影响力的框架再次迎来了重大突破。这不仅仅是一次常规的版本更新，而是一次面向未来计算架构和AI应用场景的全面重构。从底层硬件支持到上层API设计，从编译器优化到注意力机制革新，PyTorch2.7展现出了前所未有
Boltz-2：革命性生物分子模型，加速药物发现的新引擎花生糖@ AIGC学习资料库 Boltz-2 生物模型 AI
在药物研发领域，预测蛋白质与其他分子间的结合强度（BindingAffinity）始终是核心挑战之一。传统方法如自由能微扰法（FEP）虽然精确，但计算成本极高，难以大规模应用。如今，Boltz-2的诞生打破了这一瓶颈——这是首个开源的深度学习模型，其结合强度预测准确度接近FEP方法，却将速度提升了1000倍，成为药物早期筛选的“加速器”。项目简介Boltz-2是由jwohlwend团队开发的生物分
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu