zyw2002

目标检测中回归损失函数（L1Loss,L2Loss,Smooth L1Loss,IOU,GIOU,DIOU,CIOU,EIOU,αIOU ,SIOU)

文章目录

L-norm Loss 系列
- L1 Loss
- L2 Loss
- Smooth L1 Loss
IOU系列
- IOU （2016）
- GIOU （2019）
- DIOU （2020）
- CIOU （2020）
- EIOU （2022）
- αIOU (2021)
- SIOU （2022）
- WIOU（2023）
代码实现

L-norm Loss 系列

L1 Loss

别称
L1范数损失、最小绝对误差（LAD）、平均绝对值误差（MAE）
计算公式
$\operatorname{loss}(x, y)=\frac{1}{n} \sum_{i=1}^n\left|y_i-f\left(x_i\right)\right|$
其中 $y_i$ 是真实值， $f(x_i)$ 是预测值，n是样本点个数
导数
$\frac{\mathrm{d} L_1(x)}{\mathrm{d} x}= \begin{cases}1 & \text { if } x \geq 0 \\ -1 & \text { otherwise }\end{cases}$
特性
优点：无论对于什么样的输入值，都有着稳定的梯度，不会导致梯度爆炸问题，具有较为稳健性的解
缺点：在中心点是折点，不能求导，梯度下降时要是恰好学习到w=0就没法接着进行了
$L_1$ 损失函数对 x 的导数为常数，训练后期，x 很小时，如果学习率不变，损失函数会在稳定值附近波动，很难收敛到更高的精度。

L2 Loss

公式
$2=\sum_{i=1}^n\left(y_i-f\left(x_i\right)\right)^2$
导数
$\frac{\mathrm{d} L_2(x)}{\mathrm{d} x}=2 x$
特性
L2 loss由于是平方增长，因此学习快。L2损失函数对 x 的导数为2x，当 x 很大的时候，导数也很大，使L2损失在总loss 中占据主导位置，进而导致，训练初期不稳定。

Smooth L1 Loss

《Fast R-CNN》论文中首次提出Smooth L1 Loss

公式
$\operatorname{smooth}_{L_1}(x)= \begin{cases}0.5 x^2 & \text { if }|x|<1 \\ |x|-0.5 & \text { otherwise }\end{cases}$
其中 $x=y_i-f(x_i)$
导数
$\frac{\mathrm{d} \operatorname{smooth}_{L_1}}{\mathrm{~d} x}= \begin{cases}x & \text { if }|x|<1 \\ \pm 1 & \text { otherwis }\end{cases}$
特性
分析一下，当预测值f(xi)和真实值yi差别较小的时候（绝对值差小于1），其实使用的是L2 loss；差别大的时候，使用的是L1 loss的平移。因此，Smooth L1 loss其实是L1 loss 和L2 loss的结合，同时拥有两者的部分优点：
真实值和预测值差别较小时（绝对值差小于1），梯度也会比较小（损失函数比普通L1 loss在此处更圆滑）
真实值和预测值差别较大时，梯度值足够小（普通L2 loss在这种位置梯度值就很大，容易梯度爆炸）

IOU系列

IOU （2016）

论文地址：《UnitBox: An Advanced Object Detection Network》

提出背景
三种Loss用于计算目标检测的Bounding Box Loss时，独立的求出4个点的Loss，然后进行相加得到最终的Bounding Box Loss，这种做法的假设是4个点是相互独立的，实际是有一定相关性的
IoU (Intersection over Union)的计算
IOU的计算是用预测框(A)和真实框(B)的交集除以二者的并集，其公式为：
$U=\frac{A \cap B}{A \cup B}$
IoU的值越高也说明A框与B框重合程度越高，代表模型预测越准确。反之，IoU越低模型性能越差。
IOU Loss
$L_{IoU}=-ln(IoU)$
当IoU趋近为1时（两个框重叠程度很高），Loss趋近于0。IoU越小(两个框的重叠程度变低)，Loss越大。当IoU为0时（两个框不存在重叠），梯度消失。
IOU的特性
优点：
（1）IoU具有尺度不变性
（2）结果非负，且范围是(0, 1)
缺点：
（1）如果两个目标没有重叠，IoU将会为０,并且不会反应两个目标之间的距离，在这种无重叠目标的情况下，如果IoU用作于损失函数，梯度为０，无法优化。
（2）IoU无法精确的反映两者的重合度大小。如下图所示，三种情况IoU都相等，但看得出来他们的重合度是不一样的，左边的图回归的效果最好，右边的最差。

GIOU （2019）

论文地址：《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》

提出背景
为了解决Iou的作为损失函数的缺点，提出了GIoU，在IoU后面增加了一项，计算两个框的最小外接矩形，用于表征两个框的距离，从而解决了两个目标没有交集时梯度为零的问题。
GIOU的计算
其中A表示真实框，B表示预测框，C表示两个框的最小外接矩形的面积。
$U-\frac{C-(A \cup B)}{C}$
当IoU=0时（A和B没有交集）：
$U=-1+\frac{A \cup B}{C}$
当A和B两个框离得越远，GIOU越接近-1；当两框重合时，GIOU=1。所以GIOU的取值为(-1,1]。
GIOU Loss
$L_{G I o U}=1-G I o U$
当 $A, B$ 两框不相交时， $\cup B$ 不变，最大化 $G I o U$ 就是最小化C, 这样会促进两个框不断靠近。
GIoU的特性
优点：
（1）当IoU=0时，仍然可以很好的表示两个框的距离。
（2）GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度
缺点：
（1）当两个框属于包含关系时，GIoU会退化成IoU，无法区分其相对位置关系，如下图：

（2）由于GIoU仍然严重依赖IoU，因此在两个垂直方向，误差很大，很难收敛。两个框在相同距离的情况下，水平垂直方向时，此部分面积最小，对loss的贡献也就越小，从而导致在垂直水平方向上回归效果较差。
如下图，三种情况下GIoU的值一样，GIoU将很难区分这种情况。

DIOU （2020）

论文地址：《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

提出背景

针对上述GIoU的两个问题，将GIoU中最小外接框来最大化重叠面积的惩罚项修改成最小化两个BBox中心点的标准化距离从而加速损失的收敛过程，这就诞生了DIoU。
DIoU要比GIou更加符合目标框回归的机制，将目标与预测之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，不会像IoU和GIoU一样出现训练过程中发散等问题。

DIOU的计算
其中 $b, b^{g t}$ 分别代表了预测框和真实框的中心点，且 $\rho$ 代表的是计算两个中心点间的欧式距离。
c 代表的是能够同时包含预测框和真实框的最小外接矩形的对角线长度。
$U-\frac{\rho^2\left(b, b^{g t}\right)}{c^2}$
DIOU Loss
$L_{D I o U}=1-D I o U$
DIOU的特性
优点：
（1）DIoU loss可以直接最小化两个目标框的距离，因此比GIoU loss收敛快得多。
（2）对于包含两个框在水平方向和垂直方向上这种情况，DIoU损失可以使回归非常快。
（3）DIoU还可以替换普通的IoU评价策略，应用于NMS中，使得NMS得到的结果更加合理和有效。
缺点：
虽然DIOU能够直接最小化预测框和真实框的中心点距离加速收敛，但是Bounding box的回归还有一个重要的因素纵横比暂未考虑。如下图，三个红框的面积相同，但是长宽比不一样，红框与绿框中心点重合，这时三种情况的DIoU相同，证明DIoU不能很好的区分这种情况。

CIOU （2020）

论文地址：《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》

提出背景
CIoU与DIoU出自同一篇论文，CIoU大多数用于训练。DIoU的作者考虑到，在两个框中心点重合时，c与d的值都不变。所以此时需要引入框的宽高比
CLoU的计算
$U-\left(\frac{\rho^2\left(b, b^{g t}\right)}{c^2}+\alpha v\right)$
其中 $\alpha$ 是权重函数， $\mathrm{v}$ 用来度量宽高比的一致性:
$\begin{gathered} \alpha=\frac{v}{(1-I o U)+v} \\ v=\frac{4}{\pi^2}\left(\arctan \frac{w_{g t}}{h_{g t}}-\arctan \left(\frac{w}{h}\right)\right)^2 \end{gathered}$
从 $v$ 可以看出， CIOU 中存在两个问题:
a. 使用的是预测框和目标框的宽高比，那当预测框的宽高满足 $\left\{\left(w^{\mathrm{p}}=k w^{\mathrm{gt}}, h^{\mathrm{p}}=k h^{\mathrm{gt}}\right) \mid k \in \mathbb{R}^{+}\right\}$ 时，CloU 中此项的惩罚便失去了作用。
b. 根据下面 $w^{\mathrm{p}}, h^{\mathrm{p}}$ 的梯度公式，
$\frac{\partial v}{\partial w^{\mathrm{p}}}=\frac{8}{\pi^2}\left(\arctan \frac{w^{\mathrm{gt}}}{h^{\mathrm{gt}}}-\arctan \frac{w^{\mathrm{p}}}{h^{\mathrm{p}}}\right) \cdot \frac{h^{\mathrm{p}}}{\left(w^{\mathrm{p}}\right)^2+\left(h^{\mathrm{p}}\right)^2}$
$\frac{\partial v}{\partial h^{\mathrm{p}}}=-\frac{8}{\pi^2}\left(\arctan \frac{w^{\mathrm{gt}}}{h^{\mathrm{gt}}}-\arctan \frac{w^{\mathrm{p}}}{h^{\mathrm{p}}}\right) \cdot \frac{w^{\mathrm{p}}}{\left(w^{\mathrm{p}}\right)^2+\left(h^{\mathrm{p}}\right)^2}$
可以得出， $\frac{\partial v}{\partial w^{\mathrm{p}}}=-\frac{h}{w} \frac{\partial v}{\partial h^{\mathrm{p}}}$ 两者的关系成反比。也就是说，训练时 $w^{\mathrm{p}}, h^{\mathrm{p}}$ 中任意一者增大时，另一者必然减小。
CIoU Loss
$L_{C I o U}=1-I o U+\frac{\rho^2\left(b, b^{g t}\right)}{c^2}+a v$
CIoU的特性
优点：考虑了框的纵横比，可以解决DIoU的问题。
缺点：通过CIoU公式中的v反映的纵横比的差异，而不是宽高分别与其置信度的真实差异，所以有时会阻碍模型有效的优化相似性。

EIOU （2022）

论文地址：《Focal and Efficient IOU Loss for Accurate Bounding Box Regression》

EIOU的提出背景
CIoU不能真实的反映宽高分别与其置信度的真实差异，
且损失函数忽略了正负样本不平衡的问题，即大量与目标框重叠面积较小的预测框在最终的 bbox 优化中占用了绝大部分的贡献。
为了解决CIoU的问题，有学者在CIOU的基础上将纵横比拆开，提出了EIOU Loss，并且加入Focal聚焦优质的预测框，与CIoU相似的，EIoU是损失函数的解决方案，只用于训练。
EIOU LOSS
EIOU的惩罚项是在CIOU的惩罚项基础上将纵横比的影响因子拆开分别计算目标框和预测框的长和宽，该损失函数包含三个部分：重叠损失，中心距离损失，宽高损失，前两部分延续CIoU中的方法，但是宽高损失直接使目标框与预测框的宽度和高度之差最小，使得收敛速度更快。惩罚项公式如下：
$\begin{gathered} L_{E I o U}=L_{I o U}+L_{d i c}+L_{a s p} \\ =1-I o u+\frac{\rho^2\left(b, b^{g t}\right)}{\left(c_w\right)^2+\left(c_h\right)^2}+\frac{\rho^2\left(w, w^{g t}\right)}{\left(c_w\right)^2}+\frac{\rho^2\left(h, h^{g t}\right)}{\left(c_h\right)^2} \end{gathered}$
其中 $b^{gt}$ 和 $b^p$ 分别表示预测框和目标框中心点的坐标。 $d(b^p,b^{gt})$ 表示二者的欧式距离。 $c_w$ 和 $c_h$ 是覆盖两个Box的最小外接框的宽度和高度。
FOCAL EIoU LOSS

GIOU 通过预测框和目标框的差集/最小外界矩形来作为惩罚项，一方面在预测框在目标框内部或目标框在预测框内部时，都无法处理比值相同的情况；另一方面，也导致 GIOU 存在先减小差集面积再优化 IoU 值的可能性。
CIOU 存在的问题是上面提到的预测框宽高比成反比，两者不能同时增大或缩小。如上图第二行，iter=50 中预测框的宽高都大于目标框，但是在 iter=150 中，预测框的高变小，但是宽却变大。
上面提到第二个动机，目标检测模型中预测框往往数量较大，其中与目标框 IOU 值较低的低质量样本占绝大多数。低质量样本在训练时容易造成损失值波动的情况。作者认为高低质量样本分布不均是影响模型收敛的一个重要因素。作者提到，一个优秀的损失函数应该具有下面几个性质：
当回归的 error 是 0 的时候，此时的梯度也应当是 0，因为我们这时不再需要对参数进行调整；
在错误率小的地方，梯度的值也应当小，反之在错误率大的地方，梯度也应当大，因为这时候我们需要对错误率小的情况进行微调，而错误率大的地方进行大刀阔斧的调整；
应该有一个参数可以抑制低质量样本对损失值的影响；
梯度值的范围应该在一定的范围内，例如 (0,1]，避免造成梯度的剧烈波动。
借助 Focal Loss 的思想，作者提出了 Focal L1 Loss，具体过程大致为：作者通过设计出一个合适的梯度函数，并根据它的性质求出相关参数的关系，通过求积分得出最终的损失函数。具体推导见论文中。作者设计的 Focal L1 Loss 的梯度函数如下,
$\frac{\partial \mathcal{L}_f}{\partial x}= \begin{cases}-\alpha x \ln (\beta x) & , 01 ; \frac{1}{e} \leq \beta \leq 1\end{cases}$
最终得出的 Focal L1 Loss 损失函数公式为:
$\mathcal{L}_f(x)= \begin{cases}-\frac{\alpha x^2(2 \ln (\beta x)-1)}{4} & , 01 ; \frac{1}{e} \leq \beta \leq 1\end{cases}$
$L_{\text {Focal-EIou }}=I o U^\gamma L_{E I o U}$
其中，为了保证函数连续，令 $\mathcal{L}_f(1)$ 求得 $C=\frac{2 \alpha \ln \beta+\alpha}{4}$ .

上图是 FocalL1 Loss 损失函数曲线 (a) 和其梯度曲线图 (b)。从 (b) 中可以看出，FocalL1 Loss 可以通过控制 $\beta$ 的大小来控制损失值超过 1 之后的梯度大小，如当 $\beta=1.0$ ，损失值大于 1 时，梯度值恒为 0 。而且，梯度曲线呈现出上凸趋势。当损失值过大或过小时，产生的梯度值均较小。当低质量样本产生损失值较大时，此时梯度值较小，以此来抑制低质量样本的贡献。
下图与上图类似，(a)是作者期望得到的损失函数梯度曲线；(b) 是 $\alpha=1, \beta$ 取不同值得到的损失函数图。

从以上两幅图中可以看出（论文中也有实验证明)，当 $\beta$ 越大时，低质量样本的梯度越小，即当损失值越大时，其产生梯度值越小，这里作者认为低质量样本会产生较大的梯度。与此相反，高质量样本的梯度越大。实验发现当 $\beta=0.8$ 时效果最好。
在具体使用中，FocalL1 Loss 通过计算预测框和目标框 $(x, y, w, h)$ 的位移偏差之和，来计算回归损失，如下式:
$\mathcal{L}_{\mathrm{loc}}=\sum_{i \in\{x, y, w, h\}} \mathcal{L}_f\left(\left|B_i^{\mathrm{p}}-B_i^{\mathrm{gt}}\right|\right)$
与 FocalL1 Loss 类似，作者还提出了 Focal-EloU Loss，如下:
$\mathcal{L}_{\text {Focal E-IoU }}=\mathrm{IoU}^\gamma \mathcal{L}_{\mathrm{EIoU}}$
Focal-EloU Loss 提出的原因是，作者在实验中发现当 $\mathcal{L}_{\mathrm{EIoU}}$ 接近零时，它的值非常小。同时， $\frac{\partial \mathcal{L}_f}{\partial \mathcal{L}_{\mathrm{EIoU}}}$ 也非常小。当两者相乘后，会得到更小的梯度值，这会使 $\mathcal{L}_{\mathrm{EIoU}}$ 较小的高质量样本的贡献大大降低。为了解决这个问题，作者通过 loU 值对 $\mathcal{L}_{\mathrm{EIoU}}$ 实现了权值的重置。以此来提高 $\mathcal{L}_{\mathrm{EIoU}}$ 较小的高质量样本的贡献。
同样是，通过实验发现较大的 $\gamma$ 值对于困难样本 (低质量样本)，即 IOU 较小的样本抑制效果较大，可能会延缓收敛速度、影响最终精度。当 $\gamma=0.5$ 获得最好的效果。

EIOU的特性
优点：
1）将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值，加速了收敛提高了回归精度。
2）引入了Focal Loss优化了边界框回归任务中的样本不平衡问题，即减少与目标框重叠较少的大量锚框对BBox 回归的优化贡献，使回归过程专注于高质量锚框。

αIOU (2021)

论文地址：《Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression》

αIOU 的提出背景
针对之前一系列IoU形式多且繁杂，αIOU 提出了一个对 IoU loss 的统一形式，通过 power transformation 来生成 IoU 和其对应惩罚项的统一形式，来动态调整不同 IoU 目标的 loss 和 gradient。
αIOU的计算
Box-Cox 变换：方差稳定变换，可以改变变量的分布，使得方差不再依赖于均值
当原始数据非正态分布，或者原始数据左偏、右偏时，需要对原始数据做一定的变换，经常会使用 Box-Cox 变换。
$\mathrm{y}(\lambda)=\left\{\begin{array}{l} \frac{y^\lambda-1}{\lambda}, \lambda \neq 0 \\ \ln y, \lambda=0 \end{array}\right.$

首先，在 loU loss $L_{I o U}=1-I o U$ 上使用 Box-Cox 变换，得到 $\alpha$ -loU:
$L_{\alpha-I o U}=\frac{\left(1-I o U^\alpha\right)}{\alpha}, \alpha>0$
对 $\alpha$ 的分析如下，可以得到很多形式:

当 $\alpha \rightarrow 0, \quad \lim _{\alpha \rightarrow 0} L_{\alpha-I o U}=-\log (I o U)=L_{\log (I o U)}$
当 $\alpha=1$ 时， $L_{1-I o U}=1-I o U=L_{I o U}$
当 $\alpha=2$ 时， $L_{2-I o U}=\frac{1}{2}\left(1-I o U^2\right)=\frac{1}{2} L_{I o U^2}$

对 $\alpha$ -loU 简化得到:
$\mathcal{L}_{\alpha-\mathrm{IoU}}=\left\{\begin{array}{l} -\log (I o U), \quad \alpha \rightarrow 0 \\ 1-I o U^\alpha, \quad \alpha \nrightarrow 0 . \end{array}\right.$
由于很多 loU-based 方法都是 $\alpha \nrightarrow 0$ 的，所以更多研究 $\alpha \nrightarrow 0$ 的情况，并且引入了一个惩罚项:
$\mathcal{L}_{\alpha-\mathrm{IoU}}=1-I o U^{\alpha_1}+\mathcal{P}^{\alpha_2}\left(B, B^{g t}\right)$

$\alpha_1>0, \alpha_2>0, P$ 是㤠罚项
作者后面证明了 $\alpha_2$ 对结果影响不大, 所以就让 $\alpha_1=\alpha_2$
有了上面的形式后，作者对不同的 loU-based 方法做了如下形式的统一，其实这些 loU-based loss 都可以看做是 $\alpha=1$ 时的特例:
$\ ( B ∪ B g t ) ∣ ∣ C ∣ ⟹ L α − G I o U = 1 − I o U α + ( ∣ C \ ( B ∪ B g t ) ∣ ∣ C ∣ ) α L D I o U = 1 − I o U + ρ 2 ( b , b g t ) c 2 ⟹ L α − D I o U = 1 − I o U α + ρ 2 α ( b , b g t ) c 2 α L C I o U = 1 − I o U + ρ 2 ( b , b g t ) c 2 + β v ⟹ L α − C l o U = 1 − I o U α + ρ 2 α ( b , b g t ) c 2 α + ( β v ) α , \begin{aligned} \mathcal{L}_{\mathrm{IoU}}=1-I o U & \Longrightarrow \mathcal{L}_{\alpha-\mathrm{IoU}}=1-I o U^\alpha \\ \mathcal{L}_{\mathrm{GIoU}}=1-I o U+\frac{\left|C \backslash\left(B \cup B^{g t}\right)\right|}{|C|} & \Longrightarrow \mathcal{L}_{\alpha-\mathrm{GIoU}}=1-I o U^\alpha+\left(\frac{\left|C \backslash\left(B \cup B^{g t}\right)\right|}{|C|}\right)^\alpha \\ \mathcal{L}_{\mathrm{DIoU}}=1-I o U+\frac{\rho^2\left(\boldsymbol{b}, \boldsymbol{b}^{g t}\right)}{c^2} & \Longrightarrow \mathcal{L}_{\alpha-\mathrm{DIoU}}=1-I o U^\alpha+\frac{\rho^{2 \alpha}\left(\boldsymbol{b}, \boldsymbol{b}^{g t}\right)}{c^{2 \alpha}} \\ \mathcal{L}_{\mathrm{CIoU}}=1-I o U+\frac{\rho^2\left(\boldsymbol{b}, \boldsymbol{b}^{g t}\right)}{c^2}+\beta v & \Longrightarrow \mathcal{L}_{\alpha-\mathrm{CloU}}=1-I o U^\alpha+\frac{\rho^{2 \alpha}\left(\boldsymbol{b}, \boldsymbol{b}^{g t}\right)}{c^{2 \alpha}}+(\beta v)^\alpha, \end{aligned}$

SIOU （2022）

论文地址：《SIoU Loss: More Powerful Learning for Bounding Box Regression Zhora Gevorgyan》

SIoU的提出背景
之前的IOU没有考虑到真实框与预测框框之间的方向，导致收敛速度较慢，对此SIoU引入真实框和预测框之间的向量角度，重新定义相关损失函数
SIoU的计算
(1) 角度损失(Angle cost)，定义如下:
$\Lambda=1-2 * \sin ^2\left(\arcsin \left(\frac{\mathrm{c}_{\mathrm{h}}}{\sigma}\right)-\frac{\pi}{4}\right)=\cos \left(2 *\left(\arcsin \left(\frac{\mathrm{c}_{\mathrm{h}}}{\sigma}\right)-\frac{\pi}{4}\right)\right)$
其中 $c_h$ 为真实框和预测框中心点的高度差， $\sigma$ 为真实框和预测框中心点的距离，事实上 $\arcsin \left(\frac{\mathrm{ch}}{\sigma}\right)$ 等于角度 $\alpha$
$\sigma=\sqrt{\left(b_{c_x}^{g t}-b_{c_x}\right)^2+\left(b_{c_y}^{g t}-b_{c y}\right)^2}$
$c_h=\max \left(b_{c_y}^{g t}, b_{c y}\right)-\min \left(b_{c_y}^{g t}, b_{c_y}\right)$
$\left(b_{c x}^{g t}, b_{c y}^{g t}\right)$ 为真实框中心坐标 $\left(b_{c_x}, b_{c_y}\right)$ 为预测框中心坐标，可以注意到当 $\alpha$ 为 $\frac{\pi}{2}$ 或 0 时，角度损失为 0 ，在训练过程中若 $\alpha<\frac{\pi}{4}$ ，则最小化 $\alpha$ ，否则最小化 $\beta$

(2)距离损失(Distance cost)，定义如下：
$\Delta=\sum_{t=x, y}\left(1-\mathrm{e}^{-\gamma \rho_t}\right)=2-\mathrm{e}^{-\gamma \rho_{\mathrm{x}}}-\mathrm{e}^{-\gamma \rho_{\mathrm{y}}}$
其中:
$\rho_{\mathrm{x}}=\left(\frac{b_{c_{\mathrm{x}}}^{g t}-b_{c_{\mathrm{x}}}}{c_w}\right)^2, \quad \rho_{\mathrm{y}}=\left(\frac{b_{\mathrm{b}_{\mathrm{y}}}^{\mathrm{gt}}-b_{c_{\mathrm{y}}}}{c_{\mathrm{h}}}\right)^2 \quad \gamma=2-\Lambda$
注意: 这里的 $\left(c_{\mathrm{w}}, \mathrm{c}_{\mathrm{h}}\right)$ 为真实框和预测框最小外接矩形的宽和高

（3）形状损失(Shape cost)，定义如下：
$\Omega=\sum_{\mathrm{t}=\mathrm{w}, \mathrm{h}}\left(1-\mathrm{e}^{-\mathrm{wt}}\right)^\theta=\left(1-\mathrm{e}^{-\mathrm{ww}}\right)^\theta+\left(1-\mathrm{e}^{-\mathrm{wh}}\right)^\theta$
其中:
$w_w=\frac{\left|\mathrm{w}-\mathrm{w}^{\mathrm{gt}}\right|}{\max \left(\mathrm{w}, \mathrm{w}^{\mathrm{gt}}\right)}, \quad \mathrm{w}_{\mathrm{h}}=\frac{\left|\mathrm{h}-\mathrm{h}^{\mathrm{gt}}\right|}{\max \left(\mathrm{h}, \mathrm{h}^{\mathrm{gt}}\right)}$
$(w, h)$ 和 $\left(w^{\mathrm{gt}}, h^{\mathrm{gt}}\right)$ 分别为预测框和真实框的宽和高， $\theta$ 控制对形状损失的关注程度，为了避免过于关注形状损失而降低对预测框的移动，作者使用遗传算法计算出 $\theta$ 接近 4 ，因此作者定于 $\theta$ 参数范围为 $[2$ , 6]
SIoU Loss
$\operatorname{Loss}_{\mathrm{SIoU}}=1-\mathrm{IoU}+\frac{\Delta+\Omega}{2}$

WIOU（2023）

论文地址：《Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism》

Focal EIoU v1被提出来解决质量较好和质量较差的样本间的BBR平衡问题，但由于其静态聚焦机制（FM），非单调FM的潜力没有被充分利用，基于这一思想，作者提出了一种基于IoU的损失，该损失具有动态非单调FM，名为Wise IoU（WIoU）。

主要贡献总结如下：

提出了BBR的基于注意力的损失WIoU v1，它在仿真实验中实现了比最先进的SIoU更低的回归误差。
设计了具有单调FM的WIoU v2和具有动态非单调FM的WIoU v3。利用动态非单调FM的明智的梯度增益分配策略，WIoU v3获得了优越的性能。
对低质量的样本的影响进行了一系列详细的研究，证明了动态非单调调频的有效性和效率。

由于训练数据不可避免地包含低质量示例，几何因素（如距离和纵横比）将加重对低质量示例的惩罚，从而降低模型的泛化性能。当anchor box与目标box很好地重合时，一个好的损失函数应该会削弱几何因素的惩罚，而较少的训练干预将使模型获得更好的泛化能力。

WIOU的定义
$\begin{aligned} & \mathcal{L}_{W I o U v 1}=\mathcal{R}_{W I o U} \mathcal{L}_{I o U} \\ & \mathcal{R}_{W I o U}=\exp \left(\frac{\left(x-x_{g t}\right)^2+\left(y-y_{g t}\right)^2}{\left(W_g^2+H_g^2\right)^*}\right) \end{aligned}$
其中 $W_g$ ， $H_g$ 表示最小包围框的宽和高。为了防止 $R_{wiou}$ 产生阻碍收敛的梯度， $W_g$ 和 $H_g$ 从计算图中分离出来（上标*表示此操作）。因为它有效地消除了阻碍收敛的因素，所以没有引入新的度量，例如纵横比。
1、 $R_{wiou}∈[1,e)$ ,这将显著放大普通质量anchor box的LIoU。
2、 $L_{iou}$ ∈[0,1]，这将显著降低高质量anchor box的 $R_{wiou}$ ，并在anchor box与目标框重合时，重点关注中心点之间的距离。

代码实现

代码参考：https://blog.csdn.net/athrunsunny/article/details/128862478

import math
import torch
 
 
def bbox_iou(box1,
             box2,
             xywh=True,
             GIoU=False,
             DIoU=False,
             CIoU=False,
             SIoU=False,
             EIoU=False,
             WIoU=False,
             Focal=False,
             alpha=1,
             gamma=0.5,
             scale=False,
             monotonous=False,
             eps=1e-7):
    """
    计算bboxes iou
    Args:
        box1: predict bboxes
        box2: target bboxes
        xywh: 将bboxes转换为xyxy的形式
        GIoU: 为True时计算GIoU LOSS (yolov5自带)
        DIoU: 为True时计算DIoU LOSS (yolov5自带)
        CIoU: 为True时计算CIoU LOSS (yolov5自带，默认使用)
        SIoU: 为True时计算SIoU LOSS (新增)
        EIoU: 为True时计算EIoU LOSS (新增)
        WIoU: 为True时计算WIoU LOSS (新增)
        Focal: 为True时，可结合其他的XIoU生成对应的IoU变体，如CIoU=True，Focal=True时为Focal-CIoU
        alpha: AlphaIoU中的alpha参数，默认为1，为1时则为普通的IoU，如果想采用AlphaIoU，论文alpha默认值为3，此时设置CIoU=True则为AlphaCIoU
        gamma: Focal_XIoU中的gamma参数，默认为0.5
        scale: scale为True时，WIoU会乘以一个系数
        monotonous: 3个输入分别代表WIoU的3个版本，None: origin v1, True: monotonic FM v2, False: non-monotonic FM v3
        eps: 防止除0
    Returns:
        iou
    """
    # Returns Intersection over Union (IoU) of box1(1,4) to box2(n,4)
 
    # Get the coordinates of bounding boxes
    if xywh:  # transform from xywh to xyxy
        (x1, y1, w1, h1), (x2, y2, w2, h2) = box1.chunk(4, -1), box2.chunk(4, -1)
        w1_, h1_, w2_, h2_ = w1 / 2, h1 / 2, w2 / 2, h2 / 2
        b1_x1, b1_x2, b1_y1, b1_y2 = x1 - w1_, x1 + w1_, y1 - h1_, y1 + h1_
        b2_x1, b2_x2, b2_y1, b2_y2 = x2 - w2_, x2 + w2_, y2 - h2_, y2 + h2_
    else:  # x1, y1, x2, y2 = box1
        b1_x1, b1_y1, b1_x2, b1_y2 = box1.chunk(4, -1)
        b2_x1, b2_y1, b2_x2, b2_y2 = box2.chunk(4, -1)
        w1, h1 = b1_x2 - b1_x1, (b1_y2 - b1_y1).clamp(eps)
        w2, h2 = b2_x2 - b2_x1, (b2_y2 - b2_y1).clamp(eps)
 
    # Intersection area
    inter = (b1_x2.minimum(b2_x2) - b1_x1.maximum(b2_x1)).clamp(0) * \
            (b1_y2.minimum(b2_y2) - b1_y1.maximum(b2_y1)).clamp(0)
 
    # Union Area
    union = w1 * h1 + w2 * h2 - inter + eps
    if scale:
        wise_scale = WIoU_Scale(1 - (inter / union), monotonous=monotonous)
 
    # IoU
    # iou = inter / union # ori iou
    iou = torch.pow(inter / (union + eps), alpha)  # alpha iou
    if CIoU or DIoU or GIoU or EIoU or SIoU or WIoU:
        cw = b1_x2.maximum(b2_x2) - b1_x1.minimum(b2_x1)  # convex (smallest enclosing box) width
        ch = b1_y2.maximum(b2_y2) - b1_y1.minimum(b2_y1)  # convex height
        if CIoU or DIoU or EIoU or SIoU or WIoU:  # Distance or Complete IoU https://arxiv.org/abs/1911.08287v1
            c2 = (cw ** 2 + ch ** 2) ** alpha + eps  # convex diagonal squared
            rho2 = (((b2_x1 + b2_x2 - b1_x1 - b1_x2) ** 2 + (
                        b2_y1 + b2_y2 - b1_y1 - b1_y2) ** 2) / 4) ** alpha  # center dist ** 2
            if CIoU:  # https://github.com/Zzh-tju/DIoU-SSD-pytorch/blob/master/utils/box/box_utils.py#L47
                v = (4 / math.pi ** 2) * (torch.atan(w2 / h2) - torch.atan(w1 / h1)).pow(2)
                with torch.no_grad():
                    alpha_ciou = v / (v - iou + (1 + eps))
                if Focal:
                    return iou - (rho2 / c2 + torch.pow(v * alpha_ciou + eps, alpha)), torch.pow(inter / (union + eps),
                                                                                                 gamma)  # Focal_CIoU
                return iou - (rho2 / c2 + torch.pow(v * alpha_ciou + eps, alpha))  # CIoU
            elif EIoU:
                rho_w2 = ((b2_x2 - b2_x1) - (b1_x2 - b1_x1)) ** 2
                rho_h2 = ((b2_y2 - b2_y1) - (b1_y2 - b1_y1)) ** 2
                cw2 = torch.pow(cw ** 2 + eps, alpha)
                ch2 = torch.pow(ch ** 2 + eps, alpha)
                if Focal:
                    return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2), torch.pow(inter / (union + eps), gamma)  # Focal_EIou
                return iou - (rho2 / c2 + rho_w2 / cw2 + rho_h2 / ch2)  # EIou
            elif SIoU:
                # SIoU Loss https://arxiv.org/pdf/2205.12740.pdf
                s_cw, s_ch = (b2_x1 + b2_x2 - b1_x1 - b1_x2) * 0.5 + eps, (b2_y1 + b2_y2 - b1_y1 - b1_y2) * 0.5 + eps
                sigma = torch.pow(s_cw ** 2 + s_ch ** 2, 0.5)
                sin_alpha_1, sin_alpha_2 = torch.abs(s_cw) / sigma, torch.abs(s_ch) / sigma
                threshold = pow(2, 0.5) / 2
                sin_alpha = torch.where(sin_alpha_1 > threshold, sin_alpha_2, sin_alpha_1)
                angle_cost = torch.cos(torch.arcsin(sin_alpha) * 2 - math.pi / 2)
                rho_x, rho_y = (s_cw / cw) ** 2, (s_ch / ch) ** 2
                gamma = angle_cost - 2
                distance_cost = 2 - torch.exp(gamma * rho_x) - torch.exp(gamma * rho_y)
                omiga_w, omiga_h = torch.abs(w1 - w2) / torch.max(w1, w2), torch.abs(h1 - h2) / torch.max(h1, h2)
                shape_cost = torch.pow(1 - torch.exp(-1 * omiga_w), 4) + torch.pow(1 - torch.exp(-1 * omiga_h), 4)
                if Focal:
                    return iou - torch.pow(0.5 * (distance_cost + shape_cost) + eps, alpha), torch.pow(
                        inter / (union + eps), gamma)  # Focal_SIou
                return iou - torch.pow(0.5 * (distance_cost + shape_cost) + eps, alpha)  # SIou
            elif WIoU:
                if scale:
                    return getattr(WIoU_Scale, '_scaled_loss')(wise_scale), (1 - iou) * torch.exp((rho2 / c2)), iou  # WIoU v3 https://arxiv.org/abs/2301.10051
                return iou, torch.exp((rho2 / c2))  # WIoU v1
            if Focal:
                return iou - rho2 / c2, torch.pow(inter / (union + eps), gamma)  # Focal_DIoU
            return iou - rho2 / c2  # DIoU
        c_area = cw * ch + eps  # convex area
        if Focal:
            return iou - torch.pow((c_area - union) / c_area + eps, alpha), torch.pow(inter / (union + eps), gamma)  # Focal_GIoU https://arxiv.org/pdf/1902.09630.pdf
        return iou - torch.pow((c_area - union) / c_area + eps, alpha)  # GIoU https://arxiv.org/pdf/1902.09630.pdf
    if Focal:
        return iou, torch.pow(inter / (union + eps), gamma)  # Focal_IoU
    return iou  # IoU
 
 
class WIoU_Scale:
    """
    monotonous: {
            None: origin v1
            True: monotonic FM v2
            False: non-monotonic FM v3
        }
        momentum: The momentum of running mean
    """
    iou_mean = 1.
    _momentum = 1 - pow(0.5, exp=1 / 7000)
    _is_train = True
 
    def __init__(self, iou, monotonous=False):
        self.iou = iou
        self.monotonous = monotonous
        self._update(self)
 
    @classmethod
    def _update(cls, self):
        if cls._is_train: cls.iou_mean = (1 - cls._momentum) * cls.iou_mean + \
                                         cls._momentum * self.iou.detach().mean().item()
 
    @classmethod
    def _scaled_loss(cls, self, gamma=1.9, delta=3):
        if isinstance(self.monotonous, bool):
            if self.monotonous:
                return (self.iou.detach() / self.iou_mean).sqrt()
            else:
                beta = self.iou.detach() / self.iou_mean
                alpha = delta * torch.pow(gamma, beta - delta)
                return beta / alpha
        return 1

你可能感兴趣的:(深度学习基础,目标检测,回归,深度学习,IoU)

linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
平面设计矢量绘图软件 CorelDRAW 2019简体中文特别版 Win/Mac
CorelDraw2019回归Mac并进入网络经过近20年的努力，Corel再次吸引Mac用户加入到CorelDrawGraphicsSuite2019大家庭。Corel在2001年不可避免放弃了其Mac版CorelDraw产品。18年后今天推出其最新的Windows更新CorelDrawGraphicsSuite2019，并首次亮相进入网络应用世界。这次的不同之处在于Mac版本不是一个温暖的Wi
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
YOLOv10 全面升级解析：关键改进点一文掌握要努力啊啊啊计算机视觉 YOLO 目标跟踪人工智能目标检测深度学习
✅YOLOv10改进点详解一、前言YOLOv10是由Ultralytics团队在2024年提出的新一代目标检测模型，在保持高精度的同时进一步优化了部署效率和推理速度。它的核心改进包括：改进方向内容✅非解耦头轻量化设计消除非必要分支，减少冗余计算✅Anchor-Free模式默认启用，无需手动设置anchor✅TAL+DFLLoss提升边界框回归质量✅多任务统一接口detect/segment/pos
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
国米夏窗豪赌：奥纳纳回归+锋线强援剑指双线复兴花开半谢笔记
国际米兰在刚刚结束的世俱杯1/8决赛中0-2完败于弗鲁米嫩塞，冲击冠军梦想戛然而止。这场失利不仅暴露了球队的临场状态问题，更揭示了阵容的关键短板。门将位置成为焦点，高龄的索默本场表现挣扎，赛后评分仅5.9分。球迷虽认为失利非他一人之责，但其状态下滑已是不争事实。夏窗换血势在必行。一个令人瞩目的潜在选项浮出水面——回购旧将奥纳纳。媒体消息显示，曼联正积极追求维拉门神大马丁，有意出售奥纳纳腾出薪资空间
leetcode(力扣) 594. 最长和谐子序列 (伪滑动窗口法）（哈希表法）深度不学习！！个人笔记交流学习 leetcode python
题目链接：https://leetcode-cn.com/problems/longest-harmonious-subsequence/题目分析：题目中说可以通过删除一些元素或不删除元素、且不改变其余元素的顺序而得到。说到不改变其他元素的顺序，但是答案最终返回的是数组的长度，并且可以删除或者不删除其中的一些元素，那么就可以无视顺序进行操作。法一（伪滑动窗口）：首先对数组进行排序。设置两个指针维护
YOLOv11性能评估全解析：从理论到实战的指标指南芯作者 D2:YOLO YOLO 计算机视觉
深入剖析目标检测核心指标，掌握模型优化的关键密码为什么需要性能评估指标？在目标检测领域，YOLO系列模型以其卓越的速度-精度平衡成为行业标杆。当我们训练或使用YOLOv11模型时，一个核心问题始终存在：如何量化模型的性能？性能评估指标正是回答这个问题的关键工具，它们不仅衡量模型效果，更是模型优化迭代的导航灯。本文将系统解析YOLOv11的七大核心评估指标，结合理论公式、可视化解释和实战代码，带您深
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-metrics.py 红色的山茶花 YOLO 笔记深度学习
metrics.pyultralytics\utils\metrics.py目录metrics.py1.所需的库和模块2.defbbox_ioa(box1:np.ndarray,box2:np.ndarray,iou:bool=False,eps:float=1e-7)->np.ndarray:3.defbox_iou(box1:torch.Tensor,box2:torch.Tensor,eps
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
链表中插入新的节点李解49 freeRTOS从0到1 链表数据结构单片机
/*节点结构体定义*/structxLIST_ITEM{TickType_txItemValue;/*辅助值，用于帮助节点做顺序排列*/structxLIST_ITEM*pxNext;/*指向链表下一个节点*/structxLIST_ITEM*pxPrevious;/*指向链表前一个节点*/void*pvOwner;/*指向拥有该节点的内核对象，通常是TCB*/void*pvContainer;/
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
D-FINE模型详解及代码复现清风AI 目标跟踪人工智能计算机视觉深度学习机器学习 python 神经网络
研究背景在实时目标检测领域的快速发展背景下，D-FINE作为一项突破性的方法应运而生。它超越了现有模型如YOLOv10、YOLO11及RT-DETRv1/v2/v3，重新定义了边界框回归任务，显著提升了实时目标检测的性能上限。D-FINE通过创新的细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)机制，为目标检测领域带来了新的突破，为未来的研究奠定了基础。创新优势D-FINE模型在创新方
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
深度解析基于贝叶斯的垃圾邮件分类大千AI助手人工智能 Python #OTHER 分类数据挖掘人工智能机器学习算法贝叶斯 Bayes
贝叶斯垃圾邮件分类的核心逻辑是基于贝叶斯定理，利用邮件中的特征（通常是单词）来计算该邮件属于“垃圾邮件”或“非垃圾邮件”的概率，并根据概率大小进行分类。它是一种朴素贝叶斯分类器，因其假设特征（单词）之间相互独立而得名（虽然这在现实中不完全成立，但效果通常很好）。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
ICPC/CCPC 2024 超闻逸事游记 c++
2024.8.252024.8.252024.8.25组队由我SUNCHAOYI和两位大佬oahgnail,Erusel组成。【说句闲话，由于组队有点匆忙，我和Erusel愣是花了一下午从新生群中的强省一个个人肉搜索找到的队友。】好了，队名还是要乱搞的，于是就有了：中文队名：仚屳屲冚(xiaˉnxiaˉnwaˉkaˇn)英文队名：Supercalifragilisticexpialidocious
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><