呆呆的猫

感知算法论文（八）：Generalized Intersection over Union：A Metric and A Loss for Bounding Box Regression（2019）

文章目录

摘要
引言
2. 相关工作
3. Generalized Intersection over Union

3.1 GIoU as Loss for Bounding Box Regression

4. 实验

4.1 YOLO v3
4.2 Faster R-CNN and Mask R-CNN

5. 结论

摘要

Intersection over Union（IoU）是目标检测领域应用最多的度量方式。

优化b-box的参数的回归过程所使用的损失函数和最大化度量值之间存在一定的鸿沟

二维轴心对齐的b-box情况，IoU可以直接作为回归损失

但是，IoU无法优化不重叠的b-box情况

本文通过引入一个更一般化的度量方式来作为新的loss和新的度量

本文通过将提出的 $g e n e r a l i z e d I o U (G I o U)$ 和已有的 SOTA 算法合并，来测试效果。

引言

b-box 回归是 2D/3D 计算机视觉问题的基础，目标定位、多目标检测、目标追踪和实例分割等都依赖于精准的b-box回归。

目前，在提升应用层面性能的方式是使用更好的backbone[15,13]，或用更好的方式来提取局部特征[6]。忽略了使用 $l_1$ 或 $l_2$ 回归来代替基于 IoU 的回归损失的方式，

IoU 类似于 Jaccard 系数，用于度量两个任意形状的相似程度

IoU 将目标的形状属性（如b-box的宽度、高度和位置等）编码到 region 属性中，然后计算一个基于其面积的标准化度量。

该属性使得 IoU 对目标的尺度具有稳定性

最小化一般的 loss 和提升其 IoU 值没有很强的联系，假设二维情况的例子如图1(a)，其中预测的b-box是黑色框，真实的b-box是绿色框，用（左上，右下） $x_1,y_1,x_2,y_2)$ 来表示。为了简化，假设两个b-box的一个corner的距离是固定的（左下），因此，如果预测的第二个角位于以绿色框的第二个角为中心的半径固定的圆上（灰色虚线圆圈），则任何预测的b-box和真实b-box的 $l_2$ 距离将相同。但 IoU 值不同（图1(a)）。图1(b)也一样。

由此可知，这些度量方式的局部最优并不是 IoU 的局部最优，此外， $l_n$ 距离对尺度变化不具有稳定性。一些具有相同重复率但不同尺度的b-box，将会有不同的度量结果。

本文将会研究两个坐标来对齐的矩形的 IoU，该方法具有直观可解释性，与目前一般的观点相反，IoU 可以反向传播，也就是说可以直接将 IoU 作为目标函数来优化。

将优化度量方式和优化损失函数进行对比，最优的方式是使用度量方式本身来进行优化。

但是 IoU 可以作为度量方式，也可以作为损失：如果两个目标没有重叠， IoU 值将为0，无法反映两个形状的距离，如果两个目标无重叠且使用 IoU 作为损失函数，则 IoU 的值为0，梯度为0，无法优化。

本文中，我们将通过扩展到无重叠的情况，来解决 IoU 的缺点。

假设满足以下要求：

与一般的 IoU 定义相同，将形状属性编码为区域属性
保持 IoU 的形状不变性
保证在目标重叠情况下，与 IoU 相关性较强

我们将这个更一般化的 IoU 称为 GIoU，作为衡量两个任意形状的度量，同样地，我们对两个对齐矩形的 GIoU 获得了解析解，允许其可作为损失函数使用。

将 GIoU loss 集成到优异的目标检测算法中，可以提升检测效果。

本文主要贡献如下：

提出了一种更 generalized 的 IoU，并作为衡量两个任意形状的度量方式
为 GIoU 提供了解析解
将 GIoU 和目前流行的目标检测算法集成起来，获得了效果的提升。

2. 相关工作

目标检测准确性度量：

IoU 是目标检测中常用的评估指标，用于确定预测结果中真正例和假正例，使用IoU 作为衡量标准时，需要确定一个阈值。例如在 PASCAL VOC 中，一般使用 mAP，其计算基于固定的 IoU 阈值，如0.5。

任意的 IoU 阈值并不能完全反应某种方法的定位效果，所有高于阈值的框都被认定为同样的质量，为了降低阈值对抑制结果的影响性， MS COCO 数据集将多种 IoU 阈值取得的平均结果也就是 average mAP 作为衡量准则。

Bounding box representations and losses：

2维目标检测中，一个很重要的步骤是学习b-box 的参数，目前已经出现了一些不同的 b-box representations 和 losses 。

YOLO v1 [19] 中提出对有轻微形变的边界框参数直接进行回归的方法，来预测b-box大小的平方根，来弥补尺度敏感性。

[5] 中的 R-CNN 使用选择性搜索方法来预测b-box的位置和偏移量来参数化b-box。为了减轻尺度敏感性，用log域来表示b-box的尺寸和偏移，之后使用 $l_2$ 规范化目标函数，如 MSE loss，来作为优化目标。

[7] 中的 Fast R-CNN 使用 $l_1$ loss 来保证学习过程对异常值更加鲁棒。

[22] 中提出使用一系列的 anchor boxes，之后回归得到预测 b-box 的尺寸和偏移量。但这很难训练，由于正例和负例类别不平衡，为了解决该问题，作者后续提出了focal loss[13] ，该 loss 和本文的落脚点一致。

很多流行的目标检测方法都是使用上述的 b-box 表示方法和损失函数，已经取得了很好的效果。下面将介绍GIoU。

使用近似或代替函数来优化 IoU：

语义分割任务中，一般使用近似的或者代替的函数来优化 IoU。

近期的目标检测任务中，很多方法直接或间接合并 IoU，来更好的执行b-box 回归。但是这些方法在非重叠情况下优化 IoU 时，要么只能得到近似最优，要么会无法得到最优。

本文通过引入 Generalized IoU 来解决 IoU 的缺陷，直接将 GIoU 作为优化目标来训练目标检测问题。

3. Generalized Intersection over Union

IoU 用于对比两个任意形状 A 和 B 的相似度：

$IoU=\frac{|A \bigcap B|}{|A \bigcup B|}$

该两个特征在 2D/3D计算机视觉任务中用的很多，如下所示：

IoU 作为距离来讲（ $L_{IoU}=1-IoU$ ），是一个数学上的衡量标准，也就是说 $L_{IoU}$ 满足非负性、同一性、对称性和三角不等性。
IoU 对尺度不敏感，意味着两个任意形状的 A 和 B 对其空间尺度不敏感。

IoU 的缺点：

如果 $|A\bigcap B|=0$ ，则 $I o U (A, B) = 0$ 。在此情况下， IoU 并不能反映两个形状的距离。
IoU 无法精确反映两者重合度大小，如下所示，三种情况 IoU 都相等，但其重合度是不同的，左图最好，右图最差。

为了解决 IoU 的缺点，本文提出了 GIoU，对两个任意凸面形状的 A 和 B，首先寻找凸面形状 C（包含A 和 B）。如需要对比两个特殊几何形状，那么 C 也是同样的类型的几何形状。如A 和 B 是两个椭圆，C 则是两者交集，也是一个椭圆。之后计算 C 的面积和整个A 和 B 包含的面积的比例。

GIoU 是先计算两个框的最小闭包区域面积，再计算IoU，再计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU，如下所示：

GIoU 也是一个距离度量， $L_{GIoU}=1-GIoU$ ，具有所有的属性，包括非负性、同一性、对称性和三角不等性。
类似于 IoU，GIoU 对尺度不敏感
GIoU 永远是 IoU 的下界， $G I o U (A, B) \leq I o U (A, B)$ ，且当 A 和 B 有较强的形状相似性时，该下界更收敛，也就是 $lim_{A\to B} GIoU(A, B) =IoU(A, B)$ 。
与IoU只关注重叠区域不同，GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。
$I o U (A, B) < = 1$ ，而 $- 1 < = G I o U (A, B) < = 1$ ，具有对称性。

i) 类似于 IoU，1表示两个形状重合的很完美，也就是 $\bigcap B| =|A \bigcup B|$ 时，GIoU=IoU=1。

ii) 当两个形状的重复ratio $|A\bigcup B|$ 和 $∣ C ∣$ 的面积接近于0时，GIoU 的值接近-1。也就是 $lim_{\frac{|A\bigcup B|}{|C|} \to 0} GIoU (A, B)=-1$

总之，该一般性保留了 IoU 的主要特征，同时避免了其缺点，因此，GIoU 可以在2D/3D 计算机视觉任务中适当地代替 IoU 来衡量距离。

本文主要研究2D 的目标检测，可以简单的获得 GIoU 的解析解，故可以将其作为距离度量和损失度量。

3.1 GIoU as Loss for Bounding Box Regression

IoU 没有解析解，无法直接作为损失函数来优化，

2D 目标检测是对比两个坐标对齐的的任意形状的距离，GIoU 可以直接得到其解析解，该情况下，重叠部分和最小的闭包目标都是矩形形状，可以看出，它们顶点的坐标仅仅是被比较的两个边界框中的一个的坐标，这可以通过使用min和max函数比较每个顶点的坐标来实现。要检查两个边框是否重叠，还必须检查一个条件。因此，我们有一个解析的解来计算IoU和GIoU。

因为背景是 min，max 和逐块的线性函数，如Relu 和 feasible，Alg2 中展示了，每个模型都有很好的表现。因此，IoU 或 GIoU 都可以被作为损失函数，如 $L_{IoU}$ 或 $L_{GIoU}$ ，来优化目标检测的网络。

分别计算 gt 和 predict box 的面积
计算交集面积
计算最小闭包面积
计算 IoU 和 GIoU
根据公式得到 loss

此情况下，我们直接优化距离来作为损失，该损失是最优的形式，然而，对于不重叠的情况， IoU 的梯度为0，这会影响训练过程和收敛速度，包括无重叠情况。

另外，使用 property 3（下界的那个关系），可以发现 GIoU 和 IoU 有着很强的关联，尤其是在 IoU 的值较大的时候，我们在图2 中呈现了这种关系，使用10k 个随机样本。

图2中，我们观察到在重复率较低情况下，如 IoU <=0.2，GIoU<=0.2，GIoU有能力比 IoU 获得更多的变化，结尾处，GIoU 可能比 IoU 的梯度更加陡峭，所以将 GIoU 作为 loss 比使用 IoU 更好。

Loss Stability：

本文研究了如果存在极端的情况，会否使得 loss 不稳定或不明确，如何确定输出值。

假设gt box $B^g$ 是一个矩形区域，其面积大于0，那么 $A^g>0$ 。

Alg.2(1) 和 Alg.2(4) 分别确定了预测区域 $A^p$ 和重叠区域 $L$ 都是非负的，即 $A^p>=0, L>=0$ 。所以对所有的预测值 $B^p=(x_1^p, x_2^p, y_1^p, y_2^p) \in R^4$ ，都有 union $u > 0$ 。

这就保证了对于所有的预测输出， IoU 的分母不会为0，此外，对任何值 $B^p=(x_1^p, x_2^p, y_1^p, y_2^p) \in R^4$ ，union 都大于交集面积，也就是 $u > = L$ 。因此， $L_{IoU}$ 总是有上下界的，也就是 $0<=L_{IoU}<=1$ 。

为了验证 $L_{IoU}$ 的稳定性，额外的一项 $\frac{A^c-u}{A^c}$ 应该被预定义为一个确定的值。

所有预测的值的最小闭包 $B^c$ 不会比 $B^g$ 还小，所以 $\frac{A^c-u}{A^c}$ 的分母总是一个正的非零值，因为 $A^c>=A^g$ ，且 $A^g>=0$ 。

此外，所有预测得到的最小闭包不会小于 union，也就是 $A^c>=u$ 。故 GIoU 的额外一项是正的且有界的，因此， $0<=L_{GIoU}<=2$ 。

当 IoU=0 时， $L_{GIoU}$ 的特点：

对于 GIoU loss，我们有 $L_{GIoU}=1-GIoU=1+\frac{A^c-u}{A^c}-IoU$ ，当 $B^g$ 和 $B^p$ 没有重叠时， $L = 0$ ， $I o U = 0$ ，GIoU loss 简化为 $L_{GIoU}=1-GIoU=1+\frac{A^c-u}{A^c}=2-\frac{u}{A^c}$ 。

该情况下，为了最小化 $L_{GIoU}$ ，需要最大化 $\frac{u}{A^c}$ ，该项被规范化到0~1之间，也就是 $0<=\frac{u}{A^c}<=1$ 。当最小闭包 $A^c$ 最小的时候，该值最大，且 $u=A^g+A^p$ ，更精确的说，也就是预测的b-box $A^p$ 是最大的。

为了实现该目标，预测的 b-box $B^p$ 的最高点，应该移动到一个方向，来促进 $B^g$ 和 $B^p$ 的重叠，保证 IoU 不等于0。

4. 实验

通过将本文提出的GIoU loss 和已有的 Faster R-CNN 、Mask R-CNN 和 YOLOv3等网络的结合，来探究本文网络的的效果。

我们将其原有的 loss 使用 $L_{GIoU}$ 来替换，也就是替换 Faster/ Mask R-CNN 中的 $l_1$ 损失，替换 YOLO v3中的 MSE 损失，同时对比了最终结果。

数据集：

PASCAL VOC[4] 和 MS COCO[14]。

PASCAL VOC 2007： Pascal Visual Object Classes（VOC）基准是分类任务、分割任务和目标检测任务的应用很广泛的数据集。包括 9963 个图像，训练和测试各占一半，20个预定义的类别都有b-box 标注。

MS COCO： 包括多于 200000 个图像，用于训练，验证和测试的数据集多于 500000 个标注好的实例，共80个类。

实验细节介绍：

使用不同 IoU 阈值所得到的类间的 mAP 来衡量真阳性和假阳性。主要使用 AP 来衡量该基准数据集的性能，之后将不同 IoU 阈值情况下所获得的 mAP 的均值来作为衡量标准，包括 IoU ={0.5,0.55,…,0.95}等。

此外，使用 GIoU 来修正评估结果，来确定其真阳性和假阳性。因此，我们使用 mAP 的均值来作为衡量AP 的一个值，当阈值为0.75时，表中表示为 AP75。

4.1 YOLO v3

训练过程：

此处使用原始的 Darknet 实现的 YOLO v3，对于基准结果（使用 MSE loss 训练的），我们使用 Darknet-608 作为backbone网络，并且使用基准参数。

为了分别训练基于 IoU 和 GIoU 的 YOLO v3，我们直接利用 IoU 和 GIoU 来代替 MSE 。

考虑到分类需要额外的 MSE loss ，且由于我们使用有界的距离损失来代替无界的距离损失，我们需要调整新的b-box回归来解决分类损失。我们使用了一个非常小的变化来调整回归 loss 来应对 MSE 分类损失。

1）PASCAL VOC 2007：

遵循原始网络的训练过程，我们在训练集和验证集上使用每种 loss 来训练网络，迭代次数大于50K，如表1所示。

对比标准 IoU 和新的 GIoU 的效果，从表中可知，使用 $L_{GIoU}$ 作为回归损失时比使用 MSE 作为回归损失的效果好。

2）MS COCO 数据集：

遵循原始网络训练方法，使用所有的训练集和 88% 的验证集来进行约502k次的训练，之后，我们使用剩余的 12% 的验证集得到的结果如表2所示。

同样在 MS COCO 2018 数据集中也进行了实验，结果见表3.

图3（a）中展示了使用 $L_{GIoU}$ 时， YOLO v3的定位准确性有所提高。

由于目前对正则化参数进行了简单的调优，平衡了边界框损失和分类损失，但与基准结果相比，分类得分可能不是最优，如图3（b）。

由于基于 AP 的性能度量受到分类误差的影响较大，我们认为通过寻找正则化参数可以进一步改善结果。

4.2 Faster R-CNN and Mask R-CNN

训练过程：

对于基准过程（使用 $l_1$ -smooth），本文使用 RestNet-50 作为 Faster R-CNN 和 Mask RCNN 的 backbone，参数都使用默认参数。

分别使用 GIoU 和 IoU 对两个分割网络进行训练，也就是利用 $ L_{IoU}$ 和 $L_{GIoU}$ loss 代替 $l_1$ -smooth loss 进行训练，如 Alg.2 所示。

类似于 YOLO v3，我们对新的回归损失进行了最小的调整，使之与分类和分割损失等其他损失相对应，我们只是简单地将所有实验的 L_{IoU}$ 和 $L_{GIoU}$ 乘以10。

PASCAL VOC 2007：

由于该数据集中没有实例mask的标记，所以无法在该数据集上测试 Mask R-CNN 的效果，因此仅仅对 Faster R-CNN 进行测试，见表4。

使用 $L_{GIoU}$ loss 比使用 $l_1$ -smooth loss 的效果更好，此外，将 $L_{IoU}$ loss 合并到回归损失中后，可以对 Faster R-CNN 的基准性能略有提高，但比使用 $L_{GIoU}$ loss 带来的提升略差，如图4，IoU 的阈值从 0.5~0.95。

MS COCO：

在 MS COCO 2018 训练集上训练了 Faster R-CNN 和 Mask R-CNN，迭代次数为95k，验证集上的结果分别见表5和表7。

在 MS COCO 2018 challenge 测试的结果见表6和8。

$L_{GIoU}$ 作为 loss 的检测效果优于 $l_1$ -smooth，然而其提升的数量低于之前的实验，其原因有很多：

首先，Faster R-CNN [22] 和 Mask R-CNN [6] 的anchor box 比 YOLO v3 的更加密集，导致 GIoU 相对于 IoU 的优势场景不太常见，如不重叠的边界框。
其次，在 PASCAL VOC 上对b-box 的正则化参数进行了简单的调优，在 MS 上得到了次优的结果。

5. 结论

本文提出了GIoU 作为新的度量方式，来衡量两个任意形状的距离，能够克服 IoU 的缺点。

同样，我们对两个坐标对齐的矩形的 GIoU 提出了解析解，GIoU 作为距离度量，其导数可以计算出来，故 GIoU 可以被作为 b-box 的回归损失。

通过将该损失应用于目前先进的目标检测方法中，对其性能都有了一定的提升，如在 PASCAL VOC 和 MS COCO 等数据集上都有效果的提升。

由于最优损失函数就是该度量标准本身，所以 GIoU 损失可以作为最优 b-box 回归损失。

未来，我们可以研究在两个可旋转的矩形的 GIoU，可以用于3D 目标检测框架。

物联网全景解析：核心技术、多元应用与未来趋势
物联网（IoT）作为新一代信息技术的核心载体，正通过“万物互联”重塑人类生产生活方式。以下从核心技术、应用场景、未来趋势三个维度展开全景解析。一、核心技术：构建物联网的四大支柱传感器技术：数据采集的“神经末梢”功能：将物理世界（温度、湿度、压力等）和生物世界（心率、血压）的信号转化为数字信号，是物联网感知层的基础。创新方向：微型化：MEMS传感器体积缩小至毫米级，可嵌入可穿戴设备；智能化：集成滤波
物联网技术的核心组件与发展趋势（截至2025年） boyedu 物联网域名 arm开发区块链物联网
一、物联网技术的核心组件物联网（IoT）技术体系由感知层、网络层、平台层、应用层和安全层构成，各层技术协同工作，实现物理世界与数字世界的深度融合。1.感知层：数据采集与交互传感器技术：类型：包括环境传感器（温度、湿度、光照）、运动传感器（加速度计、陀螺仪）、生物识别传感器（指纹、面部识别）、RFID标签等。功能：实时采集物理世界数据，是物联网的“感官”。案例：ST公司的SL-SNMTS011601
9款免费毕业论文工具推荐：AI写作神器助你高效完成论文
在完成毕业论文的过程中，学生群体往往会遭遇时间紧张、内容创作受阻等多重挑战。而随着科技进步，各类AI写作工具陆续涌现，这些工具能够有效提升写作效率、优化论文质量。接下来将为大家详细介绍9款免费的毕业论文辅助工具，借助这些AI写作利器，助力你更高效地完成论文撰写。图灵论文AI写作助手——专注于论文领域的神级工具工具链接:图灵论文AI写作助手快速初稿生成：用户仅需输入论文标题，平台即可在30分钟内生成
【论文复现】利用生成式AI进行选股和分配权重代码能跑就行管它可读性人工智能 chatgpt
2023年8月，OleksandrRomanko等发表题为《ChatGPT-basedInvestmentPortfolioSelection》（基于ChatGPT进行投资组合选择）的论文。论文探讨了生成式AI模型（如ChatGPT）在投资组合选择中的应用潜力。由于生成式AI模型可能产生幻觉，因此需要谨慎验证和验证其输出。本文采用另一种方法，利用ChatGPT从S&P500市场指数中获取潜在有吸引
【附源码】基于flask框架求职招聘网站 (python+mysql+论文)
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：随着互联网技术的飞速发展，网络求职招聘已经成为了现代人才市场的一大趋势。传统的求职招聘方式逐渐被线上平台所取代，这主要得益于网络平台的便捷性、实时性和广泛性。然而，现有的求职招聘网站虽然数量众多，但质量参差不齐，用户体验也各不相同。一些求职者和招聘者在面对海量信息时，往往会感到无所适从，
2025最新盘点：9款高效韦恩图工具推荐 Designseek满血版人工智能图论
在数据分析、逻辑推理以及众多学术研究领域，韦恩图都扮演着极为关键的角色。它以直观的圆形或椭圆形重叠区域，清晰地展现出不同集合之间的关系，无论是集合间的交集、并集还是补集，都能一目了然地呈现出来。无论是学生在学习数学、逻辑学课程时梳理知识点，还是专业人士在进行市场调研、项目规划时分析数据，亦或是科研人员在撰写论文、展示研究成果时阐述理论框架，一款好用的韦恩图绘制工具都显得至关重要。今天，就让我为大家
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【资源分享】外文文献检索网站 Bosenya12 资源文献检索
外文文献检索网站Sci-Hub网址链接：https://www.sci-hub.st/Sci-hub是一个可以无限搜索、查阅和下载大量优质论文的数据库。其优点在于可以免费下载论文文献。ScienceDirect网址链接：http://www.sciencedirect.com/ScienceDirect是一个拥有2500多本期刊以及近20000篇文章的科学数据库，里面的文献可以免费检索阅读。Pro
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
【AI论文】FineWeb2：一个管道，规模适配所有语言——使预训练数据处理适应每一种语言东临碣石82 人工智能深度学习机器学习
摘要：预训练最先进的大型语言模型（LLMs）需要大量干净且多样的文本数据。尽管近期在开放开发大型高质量英文预训练数据集方面取得了显著进展，但训练性能出色的多语言大型语言模型仍面临挑战，这很大程度上是因为难以针对大量语言定制过滤和去重流程。在本研究中，我们基于FineWeb引入了一种全新的预训练数据集整理流程，该流程可自动适配任意语言。我们通过一组涵盖九种不同语言的实验，对流程设计进行了广泛消融研究
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
ZLibrary镜像网址，Z-Library入口网站及最新官网（2025更新）
Z-Library是一家电子图书馆，被誉为全球最大的科学图书和学术文献免费资源之一。它创办于2009年，截至2025年3月1日，已收录超过2300万本图书和8483万篇学术文章。从各种知名文学著作，理工学科，人文艺术、到学术论文等应有尽有！支持PDF、epub、mobi等多种格式图书资源下载绝对是你找书的不二选择。现在找到一个网友弄的zlibrary入口汇总网站，有官方入口，也有最新镜像入口，客户
Apple Sensor-Fusion 架构全解析：多模态语义图像感知系统设计与实战路径观熵影像技术全景图谱：架构调优与实战架构影像 Camera
AppleSensor-Fusion架构全解析：多模态语义图像感知系统设计与实战路径关键词：AppleA系列、SensorFusion、语义图像感知、IMU+Camera协同、图像识别、ARKit、视觉惯性融合、多模态协同计算、CoreMotion、ISP语义路径摘要：Apple自A13及其后续SoC架构中，持续深化Sensor-Fusion与图像语义感知的协同设计，构建出以ISP、NPU、IMU
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
主流 3D 感知技术对比-iTOF、dTOF、结构光、激光雷达 moonsims 数码相机
主流3D感知技术对比-iTOF、dTOF、结构光、激光雷达四类主流3D感知技术对比表对比维度iToF相机dToF相机固态LiDAR+可见光融合结构光相机测距原理连续调制光→相位差计算激光脉冲→飞行时间测距激光扫描点云+图像纹理融合投射编码光图案+视差三角测量代表设备IntelD435i,AzureKinectSTVL53L5CX,SonyIMX611L3CAM,RoboSenseM1+RGBRea
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
2024年11月架构设计师论文真题回顾，附参考解答、解析及所涉知识点（一）一几文架构系统架构系统架构设计师软考高级 IT考证
软考高级系统架构设计师考试包含三个科目：信息系统综合知识、案例分析和系统架构设计论文。考试形式为机考。本文主要回顾2024年下半年(2024-11-10)系统架构设计师考试下午论文的题目，同时附带参考解答、解析和所涉知识点。综合知识2024年11月架构设计师综合知识真题回顾，附参考答案、解析及所涉知识点（一）2024年11月架构设计师综合知识真题回顾，附参考答案、解析及所涉知识点（二）2024年1
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
动手实践OpenHands系列学习笔记5：代理系统架构概述
笔记5：代理系统架构概述一、引言AI代理系统是一种能够自主执行任务的智能软件架构，OpenHands作为AI驱动的软件开发代理平台，拥有完整的代理系统架构设计。本笔记将探讨AI代理架构的基本原理，并通过分析OpenHands核心架构，实现一个简化版的代理框架。二、AI代理架构设计原则2.1AI代理系统的核心组件感知模块(Perception):接收和处理外部输入认知模块(Cognition):分析
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等十小大超分辨率重建（理论+实战科研+应用）超分辨率重建人工智能图像处理深度学习计算机视觉图像超分 pytorch
文章目录专栏简介专栏亮点适配人群相关说明关于答疑环境配置超分理解实现流程文章目录基础知识三个常用的SR框架数据集相关可解释性（论文中的可视化说明）图像超分（ImageSuper-Resolution）经典超分（ClassicalSR）任意尺度超分（Arbitrary-ScaleSR）高效/轻量化超分（Efficient/LightweightSR，ESR）盲超分/真实世界图像超分辨率（Blind/
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
系统架构设计师论文分享-论软件架构复用
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该项目为国内纱线工厂提供SAAS服务，旨在提升纱线工厂的数字化和智能化水平。我在该项目中担任架构设计师，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了软件架构复用的实现过程。软件架构复用可以有效降低成本，提高开发速度和质量属性，架构复用方法的步骤分为三个过程：可复用资产的获取、架构复用的管理、架构复用的使
系统架构设计师论文分享-论软件体系结构的演化
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该系统为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的数字化和智能化水平，我在该项目中担任架构设计师，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了软件体系结构的演化。系统上线后，为了满足新需求和适应新场景，就必须修改原有软件架构。在软件架构演化过程中遵循以下原则：演化适应新技术、有利于重构和重用、影响
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl