iFlyAI

深度学习之损失函数

在开始学习之前推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

机器学习中的所有算法都依靠最小化或最大化函数，我们将其称为“目标函数”。被最小化的函数就被称为“损失函数”。损失函数也能衡量预测模型在预测期望结果方面的性能，如果预测值与实际结果偏离较远，损失函数会得到一个非常大的值。而在一些优化策略的辅助下，我们可以让模型“学会”逐步减少损失函数预测值的误差，从而找到其最小值点。这些优化策略中，最常用的是“梯度下降”。如果把损失函数比作连绵起伏的山峦，那么梯度下降就好比愚公一样尽力削低山脉，让山达到最低点。

损失函数，并非只有一种。根据不同的因素，包括是否存在异常值，所选机器学习算法，梯度下降的的时效，找到预测的置信度和导数的难易度，我们可以选择不同的损失函数。在深度学习之神经网络模型的基本工作原理这篇文章中，损失函数这部分的介绍主要从思路与公式设计的角度展开，对常用的损失函数公式类型进行了粗浅的介绍，本文是关于损失函数的专篇，将换个角度，从其在机器学习和深度学习领域的应用场景来进行分析与归纳。总而言之，没有一个适合所有机器学习算法的损失函数。针对特定问题选择损失函数涉及到许多因素，比如所选机器学习算法的类型、是否易于计算导数以及数据集中异常值所占比例。

1|0损失函数的划分

从学习任务的类型出发，可以从广义上将损失函数分为两大类——回归损失和分类损失。在回归问题处理的则是连续值的预测问题，例如给定房屋面积、房间数量以及房间大小，预测房屋价格。而在分类任务中，我们要从类别值有限的数据集中预测输出，比如给定一个手写数字图像的大数据集，将其分为0∼90∼9中的一个。

符号约定

y：真实值 y^：预测值 n：样本量

2|0回归损失

2|1L2损失

MSE=∑ni=1(yi−yi^)2n

最常见的损失函数，名字也有很多：均方误差（Mean Square Error，MSE）/ 平方损失（Quadratic Loss）。顾名思义，L2损失度量的是预测值和实际观测值间差的平方的均值。它只考虑误差的平均大小，不考虑其方向。但由于经过平方，与真实值偏离较多的预测值会比偏离较少的预测值受到更为严重的惩罚。再加上MSE的数学特性很好，这使得计算梯度变得更容易。

下图是均方误差函数图，其中目标真值为100，预测值范围在-10000到10000之间。均方误差损失（Y轴）在预测值（X轴）= 100处达到最小值。范围为[0, \infty)$。

2|2L1损失

MAE=∑ni=1|yi−yi^|n

L1损失又名平均绝对误差，英文全称Mean Absolute Error。L1损失度量的是预测值和实际观测值之间绝对差之和的平均值。和L2损失一样，这种度量方法也是在不考虑方向的情况下衡量一组预测值的平均误差大小，范围在[0,∞)[0,∞)。但L2的不同之处的是，L1损失需要像线性规划这样更复杂的工具来计算梯度。此外，MAE对异常值更加稳健，因为它不使用平方。

2|3L1 vs. L2

通常来说，使用平方误差更容易解决问题，但使用绝对误差对于异常值更鲁棒。

不管我们什么时候训练机器学习模型，我们的目标都是想找到一个点将损失函数最小化。当然，当预测值正好等于真值时，这两个函数都会达到最小值。

我们来看看两种情况下MAE和均方根误差（RMSE，和MAE相同尺度下MSE的平方根）。在第一种情况下，预测值和真值非常接近，误差在众多观测值中变化很小。在第二种情况下，出现了一个异常观测值，误差就很高。

因为MSE是误差的平方值，那么误差e的值在e>1时会增加很多。如果我们的数据中有异常值，e的值会非常高，e2会远大于|e|。这会让存在MSE误差的模型比存在MAE误差的模型向异常值赋予更多的权重。在上面第2种情况中，存在RMSE误差的模型为了能将该单个异常值最小化会牺牲其它常见情况，这降低模型的整体性能。如果训练数据被异常值破坏的话（也就是我们在训练环境中错误地接收到巨大的不切实际的正/负值，但在测试环境中却没有），MAE会很有用。

试想：如果我们必须为所有的观测值赋予一个预测值，以最小化MSE，那么该预测值应当为所有目标值的平均值。但是如果我们想将MAE最小化，那么预测值应当为所有观测值的中间值。我们知道中间值比起平均值，对异常值有更好的鲁棒性，这样就会让MAE比MSE对异常值更加鲁棒。

但使用MAE损失（特别是对于神经网络来说）的一个大问题就是，其梯度始终一样，这意味着梯度即便是对于很小的损失值来说，也还会非常大。这对于机器学习可不是件好事。为了修正这一点，我们可以使用动态学习率，它会随着我们越来越接近最小值而逐渐变小。在这种情况下，MSE会表现得很好，即便学习率固定，也会收敛。MSE损失的梯度对于更大的损失值来说非常高，当损失值趋向于0时会逐渐降低，从而让它在模型训练收尾时更加准确（见下图）。

总结

如果异常值表示的反常现象对于业务非常重要，且应当被检测到，那么我们就应当使用MSE。另一方面，如果我们认为异常值仅表示损坏数据而已，那么我们应当选择MAE作为损失函数。
L1损失对异常值更鲁棒，但它的导数是不连续的，从而让它无法有效的求解。L2损失对异常值很敏感，但会求出更稳定和更接近的解（通过将导数设为0）。
这两者存在的问题：可能会出现两种损失函数都无法给出理想预测值的情况。例如，如果我们的数据中90%的观测值的目标真值为150，剩余10%的目标值在0-30之间。那么存在MAE损失的模型可能会预测全部观测值的目标值为150，而忽略了那10%的异常情况，因为它会试图趋向于中间值。在同一种情况下，使用MSE损失的模型会给出大量值范围在0到30之间的预测值，因为它会偏向于异常值。在很多业务情况中，这两种结果都不够理想。

2|4平均偏差误差（Mean Bias Error）

MBE=∑ni=1(yi−yi^)n

与其它损失函数相比，这个函数在机器学习领域没有那么常见。它与MAE相似，唯一的区别是这个函数没有用绝对值。用这个函数需要注意的一点是，正负误差可以互相抵消。尽管在实际应用中没那么准确，但它可以确定模型存在正偏差还是负偏差。

2|5Huber Loss

Lδ(y,y^)={12(y−y^)2δ|y−y^|−12δ2for|y−y^|≤δotherwise

又称Smooth Mean Absolute Error，中文名平滑平均绝对误差。相比平方误差损失，Huber损失对于数据中异常值的敏感性要差一些。在值为0时，它也是可微分的。它基本上是绝对值，在误差很小时会变为平方值。误差使其平方值的大小如何取决于一个超参数δδ，该参数可以调整。当δ∼0时，Huber损失会趋向于MAE；当δ∼∞（很大的数字），Huber损失会趋向于MSE。

δ的选择非常关键，因为它决定了你如何看待异常值。残差大于δ，就用L1（它对很大的异常值敏感性较差）最小化，而残差小于δ，就用L2“适当地”最小化。

为何使用Huber损失函数？

使用MAE用于训练神经网络的一个大问题就是，它的梯度始终很大，这会导致使用梯度下降训练模型时，在结束时遗漏最小值。对于MSE，梯度会随着损失值接近其最小值而逐渐减少，从而使其更准确。在这些情况下，Huber损失函数真的会非常有帮助，因为它围绕的最小值会减小梯度。而且相比MSE，它对异常值更具鲁棒性。因此，它同时具备MSE和MAE这两种损失函数的优点。不过，Huber损失函数也存在一个问题，我们可能需要训练超参数δδ，而且这个过程需要不断迭代。而Huber损失函数的良好表现得益于精心训练的超参数δ。

2|6Log cosh Loss

L(y,y^)=∑i=1nlog(cosh(yi^−yi))

Log-Cosh是应用于回归任务中的另一种损失函数，它比L2损失更平滑。Log-cosh是预测误差的双曲余弦的对数。

优点

对于较小的x值，log⁡(cosh(x))约等于x22；对于较大的xx值，则约等于abs(x)−log(2)。这意味着Log-cosh很大程度上工作原理和均方误差很像，但偶尔出现错得离谱的预测时对它影响又不是很大。它具备了Huber损失函数的所有优点，但不像Huber损失，它在所有地方都二次可微。

我们为何需要二阶导数？

很多机器学习模型，比如XGBoost，使用牛顿法来寻找最好结果，因此需要二阶导数（Hessian矩阵）。对于像XGBoost这样的机器学习框架，二次可微函数更为有利。

但Log-cosh也不是完美无缺。如果始终出现非常大的偏离目标的预测值时，它就会遭受梯度问题，因此会导致XGboost的节点不能充分分裂。

2|7Quantile Loss

Lγ(y,y^)=∑i=yi

在大多数现实预测问题中，我们常常很想知道我们的预测值的不确定性。对于很多业务问题而言，相对于知道某个预测点，了解预测值范围能够大幅优化决策过程。如果我们是想预测某个区间而非某个点，那么分位数损失（Quantile Loss）就会非常有用。

通常，最小二乘回归的预测区间基于假设：残差值y−y^y−y^在所有独立变量值上的变化保持一致，而违背此假设的回归模型是不可信的。当然我们也不能认为这种情况下用非线性函数或基于树的模型能更好地建模，把拟合线性模型作为基准的理念扔在一边就完了。这时，我们就可以用到Quantile损失和Quantile回归，因为基于Quantile损失的回归能够提供更明智的预测区间，即便是有非常量方差和非正常分布的误差，效果同样不错。

基于Quantile损失的回归能对异方差问题效果良好

Quantile回归 VS 普通最小二乘回归

上左右b/w X1和Y的线性关系，残差的方差为常量方差；上右为b/w X2和Y的线性关系，Y的方差增加2倍。下边两幅图中的橙色直线表示两种情况的OLS预估。我们无法得到取值的区间范围，这时候就需要分位数损失函数来提供。

理解 Quantile 损失函数

基于Quantile的回归模型目的是根据预测变量的特定值，预测反应变量的条件分位数。Quantile损失实际上就是MAE的延伸（当分位数为第50个百分位数时，它就是MAE）。其理念就是根据我们是否想增加正误差或负误差的分量选择合适的分位数值。损失函数会根据所选分位数（γ）的值，为估计过高或估计不足做出不同的处罚。例如，γ=0.25的Quantile损失函数会向估计过高做出更多的惩罚，将预测值保持在略微低于平均值的状态。γ就是所需的分位数，值范围在0和1之间。

我们也能用该损失函数计算神经网络或基于树的模型的预测区间。下面是用Sklearn实现梯度渐进回归树模型的示例

上图展示了用Sklearn和Quantile损失函数计算出的梯度渐进回归树中90%的预测区间。以γ=0.95构建上界，以γ=0.05构建下界。

2|8比较研究

在文章《Gradient Boosting Machines, a Tutorial》中，很好的比较了这几种损失函数。为了展示以上所有损失函数的属性，文章作者模拟了一个取样于sinc(x)函数的数据集，以及两个人工模拟噪声数据集：高斯噪声分量ϵ∼N(0,σ2)，以及脉冲噪声分量ξ∼Bern(p)。作者添加了脉冲噪声项来说明鲁棒影响。下图是用不同损失函数拟合GBM回归模型的结果。

图中依次为（A）MSE损失函数（B）MAE损失函数（C）Huber损失函数（D）Quantile损失函数（E）原始sinc(x) 函数（F）拟合了MSE和MAE损失的平滑GBM（G）拟合了huber损失为δ={4,2,1}的平滑GBM（H）拟合了Quantile损失为α={0.5,0.1,0.9}的平滑GBM。

从以上模拟中我们可以观察到：

有MAE损失的模型预测值受脉冲噪声的影响较小，而有MSE损失的模型预测值由于噪声数据导致的偏差，则出现轻微偏差。
有Huber损失的模型预测值对于所选超参数的值敏感度较小。
Quantile损失在对应置信度水平上做出了很好的预测。

最后把以上所有损失函数绘制在一张图中：

3|0分类损失

逻辑回归是最常见的分类模型，具有如下形式：

p(x;w,b)=σ(wTx+b)=11+e−wTx+b

其中 p(x;w,b)表示预测类别为1的概率，记θ=(b,w)。

对于二分类问题，$y \in \{−1,+1\}，损失函数常表示为关于yf(x)的单调递减形式。如下图

其中yf(x)被称为margin，其作用类似于回归问题中的残差y−y^。此处，f(x)即y^。

二分类问题中的分类规则通常为

sign(f(x))={+1if yf(x)≥0−1if yf(x)<0

可以看到如果yf(x)≥0y，则样本分类正确，yf(x)<0则分类错误，而相应的分类决策边界即为f(x)=0。所以最小化损失函数也可以看作是最大化margin的过程，任何合格的分类损失函数都应该对margin<0的样本施以较大的惩罚。

3|10-1损失 (Zero-one loss)

L(y,f(x))={0ifyf(x)≥01ifyf(x)<0

0-1损失对每个错分类点都施以相同的惩罚，这样那些“错的离谱“ (即margin→−∞)的点并不会收到大的关注，这在直觉上不是很合适。另外0-1损失不连续、非凸，优化困难，因而常使用其他的代理损失函数进行优化。

3|2Logistic Loss

L(y,f(x))=log(1+e−yf(x))L(y,f(x))=log⁡(1+e−yf(x))

logistic Loss为Logistic Regression中使用的损失函数，下面做一下简单证明：

Logistic Regression中使用了Sigmoid函数表示预测概率：

g(f(x))=P(y=1|x)=11+e−f(x)

而

P(y=−1|x)=1−P(y=1|x)=1−11+e−f(x)=11+ef(x)=g(−f(x))

因此利用y∈{−1,+1}，可写为P(y|x)=11+e−yf′(x)。此为一个概率模型，利用极大似然的思想：

max(∏i=1mP(yi|xi))=max(∏i=1m11+e−yif(xi))

两边取对数，又因为是求损失函数，则将极大转为极小：

max(∑i=1mlogP(yi|xi))=−min(∑i=1mlog(11+e−yif(xi)))=min(∑i=1mlog(1+e−yif(xi)))

这样就得到了logistic loss。

如果定义t=y+12∈{0,1}，则极大似然法可写为：

∏i=1m(P(ti=1|xi))ti((1−P(ti=1|x))1−ti

取对数，并转为极小得：

∑i=1m{−tilogP(ti=1|xi)−(1−ti)log(1−P(ti=1|xi))}

上式被称为交叉熵损失（Cross entropy loss），可以看到在二分类问题中logistic loss和交叉熵损失是等价的，二者区别只是标签y的定义不同。

【以上证明是在概率函数确定为Sigmoid的基础上所做的推导，对于更普遍的直接用概率pp表示而进行的推导，详见下一节交叉熵损失。】

3|3交叉熵损失（Cross Entropy Loss）

Cross Entropy Loss=−(yilog(yi^)+(1−yi)log(1−yi^))Cross Entropy Loss=−(yilog⁡(yi^)+(1−yi)log⁡(1−yi^))

先介绍一个概念——KL距离，是Kullback-Leibler散度（Kullback-Leibler Divergence）的简称，也叫做相对熵（Relative Entropy）。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)对应的每个事件，若用概率分布Q(x)编码时，平均每个基本事件（符号）编码长度增加了多少比特。我们用D(P||Q)表示KL距离，计算公式如下：

D(P||Q)=∑x∈XP(x)logP(x)Q(x)=−∑x∈XP(x)logQ(x)−H(P)

其中PP称为真实分布，Q称为拟合分布，H(P)是PP的熵，为常数。因此−∑x∈XP(x)logQ(x)度量了P和Q两个分布之间的距离，叫作交叉熵损失。

【有关熵的相关知识在信息，信息量与信息熵这篇有专门的介绍，这里就不展开详谈了。】

在二分类问题中，数据的真实分布为(y,1−y)，预测分布为(P(x;θ),1−P(x;θ))，因此交叉熵损失为

−(yilogP(x;θ)+(1−yi)log(1−P(x;θ)))。

注意，当实际标签为 1(y(i)=1) 时，函数的后半部分消失，而当实际标签是为 0(y(i=0)) 时，函数的前半部分消失。简言之，我们只是把对真实值类别的实际预测概率的对数相乘。还有重要的一点是，交叉熵损失会重重惩罚那些置信度高但是错误的预测值。

负对数似然损失（Negative Log Likelihood）

上一节推导证明了交叉熵损失在某些条件下等价于负对数似然损失。

从极大似然的角度出发，我们希望极大化如下似然函数：

l(θ)=log∏i=1nPyi(xi;θ)=∑i=1nlogPyi(xi;θ)

其中Pk(x;θ)=P(y=k|x;θ)。当y=1时，Pk(x;θ)=P(x;θ)；当y=0时，Pk(x;θ)=1−P(x;θ)。于是，

logPY(x;θ)=ylogP(x;θ)+(1−y)log(1−P(x;θ))

最大化上式等价于极小化下式

∑i=1m{−tilogP(ti=1|xi)−(1−ti)log(1−P(ti=1|xi))}

该式被称为负对数似然损失，与上一节的推导结果一模一样。

交叉熵与Softmax

Softmax分类器使用的即为交叉熵损失函数，Binary Cross Entropy Loss为二分类交叉熵损失，Categorical Crossentropy为多分类交叉熵损失，当使用多分类交叉熵损失函数时，标签应该为多分类模式，即使用one-hot编码的向量。

实际上，Softmax是由Logistic Regression模型（用于二分类）推广得到的多项Logistic Regression模型（用于多分类）。具体可以参考李航大神的《统计学方法》第六章，这里给一个大致的过程：

逻辑回归的P(Y=y|x)表达式如下

P(Y=y|x)={hθ(x)=g(f(x))=11+exp{−f(x)}1−hθ(x)=1−g(f(x))=11+exp{f(x)}y=1y=0

将它代入上式，通过推导可以得到logistic的损失函数表达式，如下

L(y,P(Y=y|x))={log(1+exp{−f(x)})y=1log(1+exp{f(x)})y=0

逻辑回归最后得到的式子如下

J(θ)=−1m[∑i=1my(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]

篇幅有限，有关交叉熵损失函数与softmax更多的理论与实践内容推荐飞鱼Talk的这篇：损失函数 - 交叉熵损失函数

3|4Hinge Loss

L(y)=max(1−yy^)

Hinge loss，中文名铰链损失，也被翻译为“合页损失“”。在机器学习中常用于"最大间隔（maximum-margin）"的分类任务中，如支持向量机SVM。尽管不可微，但它是一个凸函数，因此可以轻而易举地使用机器学习领域中常用的凸优化器。

数学表达式中的y^y^是预测输出，通常都是软结果（即输出不是0，1这种，可能是0.87），y表示正确的类别。

如果y^y<1，则损失为：1−y^y
如果y^y≥1，则损失为：0

Hinge loss使得hatyy>1的样本损失皆为0，由此带来了稀疏解，使得SVM仅通过少量的支持向量就能确定最终超平面。

其函数图像如下，与0-1损失对比：

优化

以支持向量机为例，其模型为：y^=w⋅x，如果用Hinge损失，其求导结果如下：

∂L∂wi={−y⋅xi0ify^y<1otherwise

变种

实际应用中，一方面很多时候我们的y的值域并不是[−1,1]，比如我们可能更希望yy更接近于一个概率，即其值域最好是[0,1]。另一方面，很多时候我们希望训练的是两个样本之间的相似关系，而非样本的整体分类，所以很多时候我们会用下面的公式：

l(y,y′)=max(0,m−y+y′)其中，yy是正样本的得分，y′是负样本的得分，m是margin（自己选一个数）。

即我们希望正样本分数越高越好，负样本分数越低越好，但二者得分之差最多到mm就足够了，差距增大并不会有任何奖励。

比如，我们想训练词向量，我们希望经常同时出现的词，他们的向量内积越大越好；不经常同时出现的词，他们的向量内积越小越好。则我们的Hinge loss function可以是：

l(w,w+,w−)=max(0,1−wT⋅w+ +wT⋅w−)

其中，w是当前正在处理的词， w+是w在文中前3个词和后3个词中的某一个词， w−是随机选的一个词。

3|5Exponential Loss

L(y,f(x))=e−yf(x)

学过Adaboost算法的人都知道，它是前向分步加法算法的特例，是一个加和模型，其损失函数就是指数损失（Exponential Loss）。在Adaboost中，经过mm次迭代之后，可以得到fm(x)fm(x)：fm(x)=fm−1(x)+αmGm(x)

Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数αα和GG：

argminα,G=∑i=1Nexp[−yi(fm−1(xi)+αG(xi))]

对比指数损失函数可以看出，Adaboost的目标式子就是指数损失，在给定n个样本的情况下，Adaboost的损失函数为：

L(y,f(x))=1n∑i=1nexp[−yif(xi)]

然而其和squared loss一样，对异常点敏感，不够robust。

忽略模型的具体形式，在指数损失下，我们的优化目标为

minf(x)ExEY|x(e−Yf(x))

最优解为（公式5）

f∗(x)=argminf(x)ExEY|x(e−Yf(x))=12logPr(Y=1|x)Pr(Y=−1|x)

f∗(x)估计的是对数几率的一半。当Pr(Y=1|x)>Pr(Y=−1)时， f∗(x)的符号为正，反之为负。于是sign(f∗(x))作为预测值可达贝叶斯最优。这说明了指数函数作为损失函数的合理性。当f(x)为线性函数时，这就是Logistic Regression。

可以看到，损失函数决定了模型的最优值是什么，模型的形式决定了在哪个函数空间去逼近这个最优值。

从上式得到，

P(x)=Pr(Y=1|x)=11+e−2f(x)

令Y′=(Y+1)/2∈{0,1}，那么负对数似然损失为

l(Y,P(x))=−Y′logP(x)−(1−Y′)log(1−P(x))=log(1+e−2Yf(x))(1)(2)

其最优解（公式7）为

f(x)=12logP(y=1|x)P(y=−1|x)

因此，在期望意义下，指数损失和负对数似然损失对应了相同的解公式5和7。

但对于样本损失来说，负对数似然损失有更好的鲁棒性。举个例子就好理解了，估计正态分布的均值，平均数（ L2损失的最优值）和中位数（ L1损失的最优值）都是无偏估计，但中位数对于异常值的波动性更小。因为L2对偏离较远的点惩罚较重（平方），L1对偏离较远的点惩罚较轻（线性）。同样的，指数损失对于向左偏离较远的Yf(x)Yf(x)惩罚也太重了（指数），负对数似然是线性惩罚。

3|6Focal Loss

LFL(y)={−α(1−y′)γlogy′−(1−alpha)y′γlog(1−y′)y=1y=0

Focal Loss来自ICCV2017 RBG和Kaiming大神的新作《Focal Loss for Dense Object Detection》。论文详解推荐这篇Focal loss论文详解，介于篇幅，这里只做简单介绍。

Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，也可理解为一种困难样本挖掘。它是在交叉熵损失函数基础上进行的修改，首先回顾二分类交叉熵损失：

LCE=−ylogy′−(1−y)log(1−y′)={−logy′−log(1−y′)y=1y=0

y′y′是经过激活函数的输出，所以在0-1之间。可见普通的交叉熵对于正样本而言，输出概率越大损失越小。对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。那么Focal loss是怎么改进的呢？

LFL={−(1−y′)γlogy′−y′γlog(1−y′)y=1y=0

首先在原有的基础上加了一个因子，其中γ>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。

例如γ为2，对于正类样本而言，预测结果为0.95肯定是简单样本，所以(1−0.95)的γ次方就会很小，这时损失函数值就变得更小。而预测概率为0.3的样本其损失相对很大。对于负类样本而言同样，预测0.1的结果应当远比预测0.7的样本损失值要小得多。对于预测概率为0.5时，损失只减少了0.25倍，所以更加关注于这种难以区分的样本。这样减少了简单样本的影响，大量预测概率很小的样本叠加起来后的效应才可能比较有效。

此外，加入平衡因子α，用来平衡正负样本本身的比例不均：文中α取0.25，即正样本要比负样本占比小，这是因为负例易分。

LFL={−α(1−y′)γlogy′−(1−α)y′γlog(1−y′)y=1y=0

只添加αα虽然可以平衡正负样本的重要性，但是无法解决简单与困难样本的问题。

γ调节简单样本权重降低的速率，当γ为0时即为交叉熵损失函数，当γ增加时，调整因子的影响也在增加。实验发现γ为2是最优。

总结

作者认为one-stage和two-stage的表现差异主要原因是大量前景背景类别不平衡导致。作者设计了一个简单密集型网络RetinaNet来训练在保证速度的同时达到了精度最优。在双阶段算法中，在候选框阶段，通过得分和nms筛选过滤掉了大量的负样本，然后在分类回归阶段又固定了正负样本比例，或者通过OHEM在线困难挖掘使得前景和背景相对平衡。而one-stage阶段需要产生约100k的候选位置，虽然有类似的采样，但是训练仍然被大量负样本所主导。

3|7补充解答

为什么平方损失函数不适用分类问题？

直观上，对特定的分类问题，平方差的损失有上限(所有标签都错，损失值是一个有效值)，但交叉熵则可以用整个非负域来反映优化程度的程度。

从本质上看，平方差的意义和交叉熵的意义不一样。概率理解上，平方损失函数意味着模型的输出是以预测值为均值的高斯分布，损失函数是在这个预测分布下真实值的似然度，Softmax损失意味着真实标签的似然度。

分类问题中的标签，是没有连续的概念的。one-hot作为标签的一种表达方式，每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。

还有个原因应该是Softmax带来的梯度消失吧。预测值离标签越远，有可能的梯度越小。李龙说的non-convex问题，应该是一种体现形式。

能不能设计一个分类模型，当使用平方损失时，损失函数关于参数是凸函数？

一个简单而不成熟的想法是，把这个问题当成回归问题，f(x)=wT+b。当f(x)>0时，预测值为1。当f(x)<0时，预测值为−1。损失函数是凸函数，如下图：

但这个平方损失+线性模型可以说是非常糟糕了，鲁棒性特别差！如果一个点碰巧标记错了又离最优的boundary特别远，很可能导致友军全军覆没。

增强鲁棒性的一个直接的想法是，对模型进行截断或者对损失函数进行截断。

对模型截断：

f(x;w,b)=⎧⎩⎨1−1wTx+bifwTx+b>1ifwTx+b<−1else

对损失函数截断：

loss(y;f(x))=⎧⎩⎨1−1loss(y;f(x))ifloss(y;f(x))>1ifloss(y;f(x))<−1else

线性模型+截断平方损失

截断线性模型+平方损失

随着深度学习推动了一系列非凸优化算法的研究和应用，在工程中大家并不太关心损失函数，或者说损失函数的选择比较少，而是将重心放在如何去设计模型的结构。神经网络中有一个例子展现了优雅的损失函数是如何发挥作用的，那就是孪生网络中的Contrastive Loss。

（整理自网络）

参考资料：

https://nbviewer.jupyter.org/github/groverpr/Machine-Learning/blob/master/notebooks/05_Loss_Functions.ipynb

https://www.jiqizhixin.com/articles/091202

https://zhuanlan.zhihu.com/p/39239829

https://zhuanlan.zhihu.com/p/35708936

https://zhuanlan.zhihu.com/p/74073096

https://www.zhihu.com/question/319865092

https://blog.csdn.net/zhangjunp3/article/details/80467350

https://www.cnblogs.com/massquantity/p/8964029.html

https://www.pianshen.com/article/3162136463/

https://www.cnblogs.com/king-lps/p/9497836.html

更多精彩内容请访问FlyAI-AI竞赛服务平台；为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台；每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

挑战者，都在FlyAI！！！

你可能感兴趣的:(人工智能竞赛,深度学习,人工智能,算法,大数据,python,神经网络,机器学习)

C++枚举算法详解卫青~护驾！算法数据结构 c++青少年编程枚举算法
一、枚举算法核心思想枚举算法是一种通过遍历所有可能情况来解决问题的暴力搜索方法，其核心特点是：全面性：不遗漏任何可能性简单性：逻辑直接易实现低效性：时间复杂度通常较高（O(n^k)）适用场景：问题规模有限且可穷举的情况（如数值范围小、维度低）二、经典案例：福尔摩斯密码破解问题描述ABCDE×?=EDCBA其中A,E,?∈[1,9]，B,C,D∈[0,9]所有字符互不相同算法实现（6层嵌套循环）fo
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
python常用的第三方库下载方法 ZJ_star_1220 pycharm ide python
方法一：在windows系统中使用pip命令下载打开dos窗口输入命令“pipinstallselenium“后按回车键，看到successfully既安装成功。其他常用的命令：【pipinstallselenium==4.4.3】安装指定版本的库/包【pipinstallselenium】安装最新版本的库/包【pipshowselenium】查看库/包的安装路径、版本号【pipuninstall
解读Layout Method of Met Mast Based on Macro Zoning and Micro Quantitative Siting in a Wind Farm 赵孝正风资源与微观选址 paper
目录1.风电场气象塔布局方法流程图（简略）内容细化2.风电场气象塔布局方法详细流程图（详细）核心算法和公式详解2.2解读流程（深入浅出）第一阶段：把大风电场分成几个小区域1.看看风在哪里吹得不一样️2.看看风机的位置分布️3.测量风机之间有多"像"4.用智能方法分区第二阶段：在每个区域内找到最好的位置放测量杆5.画格子找可能的位置6.用电脑模拟风的吹动7.筛选出好位置8.找出最最好的位置9.检验我
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
python 开放的通讯系统高保密性张小秦命令模式算法 python
优点1.点对点（P2P）加密通信：•采用点对点通信模式，消息直接在客户端之间传输，无需通过中央服务器。•提高隐私性，避免中央服务器成为单点故障或攻击目标。•降低通信延迟，消息传输更高效。2.强大的加密机制：•使用AES（高级加密标准）对消息进行加密，确保通信内容的安全性。•每个会话生成唯一的加密密钥，确保密钥的安全性。•使用AES的EAX模式，支持加密和消息认证，防止消息被篡改。3.临时数据存储：
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
Python的pywt库的安装赵孝正 Python标准库使用 #python和pip安装 python 数据库开发语言
目录pywt库的全称是PyWavelets，https://pywavelets.readthedocs.io/en/latest/。安装pywt库：pipinstallPyWavelets而不是VS2017中默认的pipinstallpywt，真是坑啊。>>>importpywt>>>x=[3,7,1,1,-2,5,4,6]>>>cA,cD=pywt.dwt(x,‘db2′)>>>printcA
Python漂浮爱心代码 Want595 趣味编程 python 开发语言
目录系列文章前言小海龟漂浮爱心完整代码尾声系列文章序号直达链接表白系列1Python无法拒绝的表白界面（完整代码）_python玫瑰花雨编程-CSDN博客2Python满屏飘字表白代码（完整代码）_抖音同款满屏飘字表白代码(python版)-CSDN博客3Python无限弹窗满屏表白代码（完整代码）_python弹窗满屏幕-CSDN博客4Python李峋同款跳动的爱心（完整代码）_python绘制
VSCode 2025最新后端开发必备插件汇总（必备插件合集，Python、Java、Go等语言） Code_流苏实用软件与高效工具 vscode python java 后端开发必备插件合集
前言:作为微软推出的轻量级跨平台编辑器，VSCode凭借智能代码补全、远程开发、Git集成等核心功能，已成为后端开发者首选工具。其强大的插件生态更是覆盖了主流后端语言支持、代码质量优化、性能分析等全场景需求。名人说：博观而约取，厚积而薄发。——苏轼《稼说送张琥》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、语言支持类插件二、代码质量和格式化工具三、数据库工具四、AP
2025年Python后端开发指南：从基础到云原生实践 ctrl_cv工程师￥云原生 django flask pycharm
在2025年，Python后端开发已全面进入云原生与智能化时代。开发者不仅需要掌握传统后端技术栈，还需融合容器化、AI辅助编程等新兴技术。本文基于行业最新趋势与最佳实践，系统梳理Python后端开发的核心要点与进阶方向，涵盖开发环境、架构设计、性能优化等关键领域。一、开发环境与工具链1.环境配置标准化Python版本：推荐Python3.12+，支持模式匹配（PatternMatching）和更优
shell脚本重启python脚本 mzgong python
#!/bin/bashwhiletrue#循环检测脚本是否停止doprocnum=$(ps-ef|grep"run.py"|grep-vgrep|wc-l)#记录正在运行run.py的数量echo"ps-efgrepreturn:"${procnum}#信息输出if[[${procnum}==0]];then#如果run.py正在运行数量等于0，脚本中断，需要重启filename=$(date+%
DeepSeek面试——分词算法 mzgong 人工智能算法
DeepSeek-V3分词算法一、核心算法：字节级BPE（Byte-levelBPE，BBPE）DeepSeek-V3采用字节级BPE（BBPE）作为核心分词算法，这是对传统BPE（BytePairEncoding）算法的改进版本。其核心原理是将文本分解为字节（Byte）序列，通过统计高频相邻字节对的共现频率进行逐层合并，最终形成128K扩展词表。二、BBPE的核心优势1.多语言统一处理能力跨语言
使用Python的 multiprocessing 模块实现多进程并行计算（上完整代码）小码小李开发语言 python 数据库
使用Python的multiprocessing模块实现多进程并行计算的较为详细复杂的示例代码，用于计算一个较大范围内数字的平方，并将结果汇总。以下是一个更具体、复杂且详尽的多进程并行计算代码示例，用于分析多个大型文本文件中单词出现的频率：importmultiprocessingimporttimeimportrefromcollectionsimportCounter#函数用于读取单个文件内容
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
You are using pip version 10.0.1, however version 20.0.2 is available.的解决方案柒柒钏小知识点 python
在安装第三方库时出现以下提示：Youareusingpipversion10.0.1,howeverversion20.0.2isavailable.输入：python-mpipinstall--upgradepip结果：还是提示上述错误输入：python-mpipinstall--Upip结果：如下所示，更新完成之后继续安装第三库即可。
【Python】全局解释器锁（Global Interpreter Lock，GIL）彬彬侠 Python基础全局解释器锁 GIL CPython 多进程 C 扩展 python
全局解释器锁（GlobalInterpreterLock，简称GIL）是CPython（Python的标准实现）中的一个机制，它确保同一时刻只有一个线程在执行Python字节码。GIL的主要作用是保护Python内部的数据结构，避免多线程访问共享数据时发生竞争条件，导致数据损坏。GIL的工作原理在Python的多线程环境中，GIL会限制多个线程同时执行Python字节码。尽管操作系统可以调度多个线
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
C++调用Python程序方法超级大反派@_@ C++c++python 开发语言
前言：在之前做的一个项目中，要使用一段Python的代码。一般来讲可以将Python代码中的功能在C++项目中重构，但是如果Python项目太大，或者这部分是别人写的，自己不清楚整个项目的逻辑，这样重构起来就比较麻烦。这里给出了另外一种实现方法，即利用Python的API使得C++项目可以直接启动Python程序，快速在PC端验证代码功能。急性子可直接看：2.2C++调用python有参有返回值函
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
西电计科保研无望无实习无竞赛无科研，该考研还是直接就业？程序员yt 考研
今天给大家分享的是一位粉丝的提问，西电计科保研无望无实习无竞赛无科研，该考研还是直接就业？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：您好，请问西电计科学生，保研无望，无实习无竞赛无科研无技术栈，是准备考研呢，还是准备就业，本科均分80，感觉准备考研就没有后路了。Yt回答：作为一个西电计科，计算机科班生，保研无望，无实习无竞赛无科研无技术也没
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
vscode中调试Python和C++的混合代码 destiny44123 vscode python c++
文章目录使用流程参考一些差异使用流程参考ExampledebuggingmixedPythonC++inVSCode一些差异这里假设的项目是通过python调用c++的相应共享库(so)文件。首先，新建文件夹.vscode，在其中添加文件配置launch.json.示例如下：{"version":"0.2.0","configurations":[{"name":"(gdb)附加","type":
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。