Clark-dj

【论文阅读】KLD模型

旋转目标检测方法解读（KLD, NeurIPS2021）

旋转目标检测方法解读（KLD, NeurIPS2021） - 知乎

Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Diverge

通过Kullback-Leibler Divergence学习旋转目标检测的高精度包围盒

摘要

1 介绍

2 背景

2.1 相关的工作

2.2 损耗设计归纳思维:从特殊视界到一般旋转检测

2.3 损耗设计的演绎思维:从一般旋转到特殊视界检测

3 提出的方法

4 实验

4.1 数据集和实施细节

4.2 消融研究和进一步比较

5 结论

简单小结

摘要

现有的旋转目标探测器大多继承了水平探测范式，后者已经发展成为一个成熟的领域。然而，由于现有的回归损耗设计的限制，这些探测器很难在高精度检测中表现突出，特别是对于大纵横比的物体。本文从水平检测是旋转目标检测的特殊情况出发，针对旋转与水平检测的关系，将旋转回归损失的设计从归纳范式改为演绎方法。结果表明，在旋转回归损失中，耦合参数的调制是一个关键的挑战，因为在动态联合优化过程中，估计的参数会以一种自适应和协同的方式相互影响。具体来说，我们首先将旋转的包围盒转换成二维高斯分布，然后计算高斯分布之间的Kullback-Leibler Divergence (KLD)作为回归损失。通过对各参数梯度的分析，表明KLD(及其导数)可以根据物体的特性动态地调整参数梯度。它将根据长宽比调整角度参数的重要性(梯度权重)。这种机制对于高精度检测是至关重要的，因为对于大纵横比的物体，微小的角度误差会导致严重的精度下降。更重要的是，我们已经证明了KLD是尺度不变的。我们进一步证明，KLD损耗可以退化为水平检测的普通范数损耗。在7个数据集上使用不同的检测器进行了实验，结果表明该方法具有一致性的优势，代码可通过http://github.com/yangxue0827/RotationDetection获取。

1 介绍

旋转目标检测作为航空图像、场景文本等视觉分析的基本组成部分，近年来发展迅速[1,2,3,4,5,6]，受益于成熟的水平检测方法[7,8,9,10,11]。具体来说，许多工作[12,13,14,15]从归纳的角度建立在先前建立的水平盒检测管道上，如图1(a)所示。然而，由于当前回归损失的限制，这些检测器往往不能很好地应对具有挑战性的场景，如物体长径比大、场景密集等，在高精度检测方面存在明显不足。

(a)以往的方法遵循从特殊水平到一般旋转检测的归纳范式。

(b)我们提出的方法采用一般旋转到特殊水平探测的演绎方法。

图1:以往方法[1,12,13,14,15]与本文方法的水平检测(特殊情况)和旋转检测(一般情况)的方法路线图差异。

在本文中，我们后退一步，并旨在开发一个统一的回归框架(从演绎的角度)旋转检测及其特殊情况:水平检测。事实上，我们的新框架具有一种相干特性，在特殊情况(水平检测)下，它可以退化为当前常用的回归损失(如ln-范数ln-norm)，如图1(b)所示。

在设计高精度旋转检测的旋转回归损失时，一个重要的观察结果是，不同的参数对不同类型的物体的重要性是不同的。例如，角度参数(θ)和中心点参数(x, y)分别对大长宽比物体和小物体很重要。换句话说，推测回归损失在学习过程中应该是自调制的，需要更多的动态优化策略。

受上述思想的启发，我们首先将旋转的包围盒b (x, y, h, w， θ)转换为二维高斯分布n(µ，Σ)。作为一个标准的距离度量，我们使用Kullback-Leibler Divergence (KLD)[16]来计算预测边界盒与地面真实之间的分布距离作为回归损失。我们将KLD与光滑L1损耗[7]和另一种距离度量高斯Wasserstein distance (GWD)[5,17]进行了比较，发现KLD具有更完整的参数优化机制。特别地，通过分析学习过程中参数的梯度，我们证明了一个参数的优化会受到其他参数(如梯度权值)的影响。这意味着该模型将在给定检测对象的特定配置下自适应调整优化策略，从而在高精度检测中获得优异的性能。此外，KLD被证明是尺度不变的，这是Smooth L1损耗和GWD不具备的重要性质。由于水平包围盒是旋转包围盒的一种特殊情况，我们证明了KLD也可以退化为现有水平检测管道中常用的ln-范数ln-norm损失。本文的亮点有四个方面:

1)与现有的在水平检测器上大量构建旋转检测器的主流做法不同，我们从零开始开发了新的旋转检测损失，并表明在水平检测退化情况下，它与现有的水平检测协议一致。

2)实现一个预测和地面真理之间的原则性更强的测量,而不是计算每个physically-meaningful参数相关的差异在不同的尺度和单位的边界框,我们创新性地将旋转检测的回归损耗转化为两个二维高斯分布的KLD,导致清晰一致的回归损失。

3)通过对KLD中各参数的梯度分析，我们进一步发现KLD的自调制优化机制大大促进了高精度检测的提高，这验证了我们损耗设计的优势。更重要的是，我们已经在理论上证明了(在附录中)KLD对于检测来说是尺度不变的，这对于旋转情况是至关重要的。

4)在七个公共数据集和两个流行的检测器上的大量实验结果表明了我们的方法的有效性，实现了新的最先进的旋转检测性能。

2 背景

首先对水平和旋转目标检测的相关工作进行了概述。然后，我们从两种方法总结了当前的旋转回归损失的设计范式，如图1所示:一是归纳，试图从特殊的、经典的水平检测管道发展出通用的旋转检测。另一种是演绎法，旨在设计一种以水平检测为特例的通用旋转检测管道。

2.1 相关的工作

水平对象检测。水平目标检测涵盖了大多数现有的检测文献，通常使用水平边界框来表示目标。主流的经典目标检测算法大致可以按照以下标准划分:双阶段[7,8,9,11]或单阶段[10,18,19]目标检测，无锚[20,21,22]或基于锚[8,9,10]目标检测，CNN[8,10,20]或基于transformer[23,24]目标检测。尽管管道可能不同，主流的回归损失通常使用流行的标准损失(如平滑L1损失)或基于iou的损失(如GIoU[25]和DIoU[26])。这些检测器也被广泛应用于其他场景，并取得了令人满意的性能。然而，水平探测器不能提供精确的方向和比例信息。

旋转物体检测。旋转检测的最新进展[3,4,12,14,27]主要是由采用旋转包围盒的水平目标检测器来表示多方向目标所驱动的。为了准确预测旋转包围盒，大多数旋转检测方法扩展水平检测中使用的ln-范数ln-norm[12,15,28,29,30]，或构造可微分的近似IoU损失[3,5,31]。我们试图从零开始，将旋转回归损失的设计从归纳范式改为演绎方法论，这实际上是对水平情况的推广。在下面，我们从归纳和演绎的方法来描述现有的工作。

2.2 损耗设计归纳思维:从特殊视界到一般旋转检测

回归损耗是目前大多数目标检测算法的重要组成部分。对于水平边界盒回归，模型[7,8,9,10,11]主要输出位置和大小四个项:

$t_{x}^{p}=\frac{x_{p}-x_{a}}{w_{a}}, t_{y}^{p}=\frac{y_{p}-y_{a}}{h_{a}}, t_{w}^{p}=\ln \left(\frac{w_{p}}{w_{a}}\right), t_{h}^{p}=\ln \left(\frac{h_{p}}{h_{a}}\right)$ (1)

来匹配四个目标的真实情况

$t_{x}^{t}=\frac{x_{t}-x_{a}}{w_{a}}, t_{y}^{t}=\frac{y_{t}-y_{a}}{h_{a}}, t_{w}^{t}=\ln \left(\frac{w_{t}}{w_{a}}\right), t_{h}^{t}=\ln \left(\frac{h_{t}}{h_{a}}\right)$ (2)

其中，y, h, w分别表示中心坐标、高度和宽度。V变量 $x_{t}, x_{a}, x_{p}$ 分别是地面真相箱，锚箱，和预测箱(类似于y, w, h)。

扩展以上水平情况，现有的旋转检测模型[1,12,13,14,15]也使用了回归损失，只是增加了一个额外的角度参数θ:

$t_{\theta}^{p}=f\left(\theta_{p}-\theta_{a}\right), t_{\theta}^{t}=f\left(\theta_{t}-\theta_{a}\right)$ (3)

其中f(·)用于处理角周期，如三角函数、模等。旋转检测的整体回归损失为:

$L_{\text {reg }}=l_{n} \text {-norm }\left(\Delta t_{x}, \Delta t_{y}, \Delta t_{w}, \Delta t_{h}, \Delta t_{\theta}\right)$ (4)

$\Delta t_{x}=t_{x}^{p}-t_{x}^{t}=\frac{\Delta x}{w_{a}}, \Delta t_{y}=t_{y}^{p}-t_{y}^{t}=\frac{\Delta y}{h_{a}}, \Delta t_{w}=t_{w}^{p}-t_{w}^{t}=\ln \left(w_{p} / w_{t}\right),$

$\Delta t_{h}=t_{h}^{p}-t_{h}^{t}=\ln \left(h_{p} / h_{t}\right), and \Delta t_{\theta}=t_{\theta}^{p}-t_{\theta}^{t}=\Delta \theta$

可以看出，参数是独立优化的，使得任何参数的欠拟合对损失(或检测精度)都很敏感。这种机制对高精度检测是致命的。以图2左侧为例，基于平滑L1损耗的检测结果往往显示中心点或角度的偏移。此外，不同类型的物体对这五个参数的敏感性也不同。例如，角度参数对于检测大纵横比的物体非常重要。这就要求在训练过程中为特定的单个对象样本选择一组合适的权重，这是非常重要的，甚至是不现实的。

图2:平滑L1损耗(左)、GWD(中)和KLD(右)的视觉对比。

2.3 损耗设计的演绎思维:从一般旋转到特殊视界检测

为了打破原有的归纳设计范式，我们采用演绎范式来构造更精确的旋转回归损失。在这里，我们重新表述最近的工作[5]的主要思想，该工作将一个任意方向的包围盒 $\beta$ (x, y, h, w， θ)转换为一个二维高斯 $\mathcal{N}$ (µ，Σ)，如图3所示。然后计算两个高斯函数之间的距离作为最终损耗。具体来说，转换为:

$\boldsymbol{\mu}=(x, y)^{\top}$

$\boldsymbol{\Sigma}^{1 / 2}=\mathbf{R} \boldsymbol{\Lambda} \mathbf{R}^{\top}=\left(\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right)\left(\begin{array}{cc} \frac{w}{2} & 0 \\ 0 & \frac{h}{2} \end{array}\right)\left(\begin{array}{cc} \cos \theta & \sin \theta \\ -\sin \theta & \cos \theta \end{array}\right)$ $=\left(\begin{array}{cc} \frac{w}{2} \cos ^{2} \theta+\frac{h}{2} \sin ^{2} \theta & \frac{w-h}{2} \cos \theta \sin \theta \\ \frac{w-h}{2} \cos \theta \sin \theta & \frac{w}{2} \sin ^{2} \theta+\frac{h}{2} \cos ^{2} \theta \end{array}\right)$

其中 $\mathbf{R}$ 为旋转矩阵， $\Lambda$ 为特征值对角矩阵。

最近的工作[5]分析了 $\mathcal{N}$ (µ，Σ)的引入可以解决度量与损耗不一致、边界不连续和类方问题。在此基础上，进一步研究了如何利用新的参数空间设计高精度的检测回归损耗。我们的观点是，自调制机制与最终的高精度性能呈正相关。

高斯瓦瑟斯坦距离Gaussian Wasserstein Distance.。两个概率度量之间的瓦瑟斯坦距离[5,17] $\mathbf{X}_{p} \sim \mathcal{N}_{p}\left(\boldsymbol{\mu}_{p}, \boldsymbol{\Sigma}_{p}\right) \text { and } \mathbf{X}_{t} \sim \mathcal{N}_{t}\left(\boldsymbol{\mu}_{t}, \boldsymbol{\Sigma}_{t}\right)$ 表示为:

$\mathbf{D}_{w}\left(\mathcal{N}_{p}, \mathcal{N}_{t}\right)^{2}=\underbrace{\left\|\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right\|_{2}^{2}}_{\text {center distance }}+\underbrace{\operatorname{Tr}\left(\boldsymbol{\Sigma}_{p}+\boldsymbol{\Sigma}_{t}-2\left(\boldsymbol{\Sigma}_{p}^{1 / 2} \boldsymbol{\Sigma}_{t} \boldsymbol{\Sigma}_{p}^{1 / 2}\right)^{1 / 2}\right)}_{\text {coupling terms about } h_{p}, w_{p} \text { and } \theta_{p}}$ (6)

由式6可知，高斯瓦瑟斯坦距离(GWD)主要分为两部分:中心点(x, y)距离与围绕杆θ的耦合项之间的距离。因此，基于GWD的回归损耗可以看作是一种半耦合损耗。虽然由于部分参数之间的耦合，GWD可以大大提高高精度旋转检测的性能，但由于中心点的独立优化，使得检测结果略有偏移(见图2)。需要注意的是，GWD不是比例不变的，这不是检测友好性的。

当所有盒子都水平时(θ= 0◦)，则式6可进一步简化:

$\mathbf{D}_{w}^{h}\left(\mathcal{N}_{p}, \mathcal{N}_{t}\right)^{2}=\left\|\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right\|_{2}^{2}+\left\|\boldsymbol{\Sigma}_{p}^{1 / 2}-\boldsymbol{\Sigma}_{t}^{1 / 2}\right\|_{F}^{2}$ $=\left(x_{p}-x_{t}\right)^{2}+\left(y_{p}-y_{t}\right)^{2}+\left(\left(w_{p}-w_{t}\right)^{2}+\left(h_{p}-h_{t}\right)^{2}\right) / 4$ $=l_{2} \text { - } \operatorname{norm}(\Delta x, \Delta y, \Delta w / 2, \Delta h / 2)$ (7)

$\|\cdot\|_{F}$ 是Frobenius规范。虽然Eq. 7仍然可以作为水平检测的回归损失，但是Eq. 4和7并不是完全一致的。GWD方案虽然对演绎范式进行了初步的探索，但并不注重实现高精度检测和尺度不变性。下面，我们将基于Kullback-Leibler divergence (KLD)[16]提出我们的新方法。

3 提出的方法

为了探究更合适的回归损失，我们采用Kullback-Leibler Divergence (KLD)[16]。同样，两个二维高斯函数之间的KLD为:

$\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)=\underbrace{\frac{1}{2}\left(\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right)^{\top} \boldsymbol{\Sigma}_{t}^{-1}\left(\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right)}_{\text {term about } x_{p} \text { and } y_{p}}+\underbrace{\frac{1}{2} \operatorname{Tr}\left(\boldsymbol{\Sigma}_{t}^{-1} \boldsymbol{\Sigma}_{p}\right)+\frac{1}{2} \ln \frac{\left|\boldsymbol{\Sigma}_{t}\right|}{\left|\boldsymbol{\Sigma}_{p}\right|}}_{\text {coupling terms about } h_{p}, w_{p} \text { and } \theta_{p}}$ （8）

或者

$\mathbf{D}_{k l}\left(\mathcal{N}_{t} \| \mathcal{N}_{p}\right)=\underbrace{\frac{1}{2}\left(\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right)^{\top} \boldsymbol{\Sigma}_{p}^{-1}\left(\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right)+\frac{1}{2} \operatorname{Tr}\left(\boldsymbol{\Sigma}_{p}^{-1} \boldsymbol{\Sigma}_{t}\right)+\frac{1}{2} \ln \frac{\left|\boldsymbol{\Sigma}_{p}\right|}{\left|\boldsymbol{\Sigma}_{t}\right|}}_{\text {chain coupling of all parameters }}$ （9）

可以看出， $\mathbf{D}_{k l}\left(\mathcal{N}_{t} \| \mathcal{N}_{p}\right)$ 的每一项都是由部分参数耦合组成的，这使得所有参数形成了链式耦合关系。在基于KLD的检测器的优化过程中，各参数相互影响，共同优化，使得模型的优化机制是自调制的。相比之下， $\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)$ 和GWD都是半耦合的，但 $\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)$ 具有更好的中心点优化机制。

虽然KLD是不对称的，但通过分析各参数的梯度和实验结果，我们发现这两种形式的优化原则是相似的。以比较简单的 $\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)$ 为例，根据Eq. 5, Eq. 8中的每一项都可以表示为

$\left(\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right)^{\top} \boldsymbol{\Sigma}_{t}^{-1}\left(\boldsymbol{\mu}_{p}-\boldsymbol{\mu}_{t}\right)=\frac{4\left(\Delta x \cos \theta_{t}+\Delta y \sin \theta_{t}\right)^{2}}{w_{t}^{2}}+\frac{4\left(\Delta y \cos \theta_{t}-\Delta x \sin \theta_{t}\right)^{2}}{h_{t}^{2}}$ （10）

$\operatorname{Tr}\left(\boldsymbol{\Sigma}_{t}^{-1} \boldsymbol{\Sigma}_{p}\right)=\frac{h_{p}^{2}}{w_{t}^{2}} \sin ^{2} \Delta \theta+\frac{w_{p}^{2}}{h_{t}^{2}} \sin ^{2} \Delta \theta+\frac{h_{p}^{2}}{h_{t}^{2}} \cos ^{2} \Delta \theta+\frac{w_{p}^{2}}{w_{t}^{2}} \cos ^{2} \Delta \theta$ （11）

$\ln \frac{\left|\boldsymbol{\Sigma}_{t}\right|}{\left|\boldsymbol{\Sigma}_{p}\right|}=\ln \frac{h_{t}^{2}}{h_{p}^{2}}+\ln \frac{w_{t}^{2}}{w_{p}^{2}}$ （12）

$\Delta x=x_{p}-x_{t}, \Delta y=y_{p}-y_{t}, \Delta \theta=\theta_{p}-\theta_{t}$

高精度检测分析Analysis of high-precision detection。在不失一般性的前提下，设 $\theta_{t}$ = 0◦，则

$\frac{\partial \mathbf{D}_{k l}\left(\mu_{p}\right)}{\partial \mu_{p}}=\left(\frac{4}{w_{t}^{2}} \Delta x, \frac{4}{h_{t}^{2}} \Delta y\right)^{\top}$ （13）

$1 / w_{t}^{2}$ 和 $1 / h_{t}^{2}$ 将使模型根据尺度动态调整物体的最佳位置。例如，当对象规模较小或边缘过短时，模型就会更加关注相应方向偏移的优化。对于这类对象，在相应方向上的轻微偏差往往会导致IoU急剧下降。当θt不等于 0◦时，对象偏移的梯度(∆x和∆y)将根据θ t进行动态调整，以获得更好的优化。而GWD和L2范数中中心点的梯度是 $\frac{\partial \mathbf{D}_{w}\left(\mu_{p}\right)}{\partial \mu_{p}}=(2 \Delta x, 2 \Delta y)^{\top}$ 和 $\frac{\partial \mathbf{D}_{L_{2}}\left(\mu_{p}\right)}{\partial \mu_{p}}=\left(\frac{2}{w_{a}^{2}} \Delta x, \frac{2}{h_{a}^{2}} \Delta y\right)^{\top}$ 前者不能根据对象的长度和宽度来调整动态梯度，后者是基于锚的长度和宽度( $w_{a},h_{a}$ )来调整梯度而不是目标对象( $w_{t},h_{t}$ )，这对于那些使用水平锚进行旋转检测的检测器[3,13,15,27,28,32,33]几乎无效。更重要的是，它们与目标物体的角度无关。因此，基于GWD模型和Ln-norm模型的检测结果会有轻微偏差，而基于KLD模型的检测结果比较准确，如图2所示。

对于hp和wp,我们有

一方面，hp和wp的优化受到以下因素的影响：∆θ.

当∆θ= 0◦, ，这意味着目标高度或宽度越小，其匹配损失的惩罚越重。这是可取的，因为较小的高度或宽度需要更高的匹配精度。

另一方面，优化∆θ也受hp和wp的影响：

ht=wt时，这表明对象的纵横比越大，模型将更加关注角度的优化。这就是基于KLD的模型在高精度检测指标方面具有巨大优势的主要原因，因为对于大宽高比的对象，微小的角度误差会导致严重的精度下降。通过以上分析，我们发现当其中一个参数被优化时，其他参数将作为其权重来动态调整优化率。换言之，参数的优化不再是独立的，即优化一个参数也会促进其他参数的优化。这种良性循环的优化是KLD作为优秀旋转回归损失的关键。此外 $\mathbf{D}_{k l}\left(\mathcal{N}_{t} \| \mathcal{N}_{p}\right)$ 具有类似的特性，详情请参阅附录。

尺度不变性。（略，矩阵证明）关于满秩矩阵M, $|\mathbf{M}| \neq 0$ ，我们有 $\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)=\mathbf{D}_{k l}\left(\mathcal{N}_{p^{\prime}} \| \mathcal{N}_{t^{\prime}}\right)$ ，其中 $\mathbf{X}_{p^{\prime}}=\mathbf{M} \mathbf{X}_{p} \sim \mathcal{N}_{p}\left(\mathbf{M} \boldsymbol{\mu}_{p}, \mathbf{M} \boldsymbol{\Sigma}_{p} \mathbf{M}^{\top}\right), \mathbf{X}_{t^{\prime}}=\mathbf{M X}_{t} \sim \mathcal{N}_{t}\left(\mathbf{M} \boldsymbol{\mu}_{t}, \mathbf{M} \boldsymbol{\Sigma}_{t} \mathbf{M}^{\top}\right)$ 。因此，可以证明KLD的仿射不变性（包括M=kI时的尺度不变性，其中I单位矩阵）（见附录中的证明）。与Ln范数和GWD相比，KLD由于与检测度量的一致性，更适合代替不可微旋转IoU损失。

水平特例。（公式证明）对于水平检测，结合等式8到等式12，我们得到

式中，公式16的前两项与公式4非常相似，两项的除数部分x和y是主要区别 $\left(\frac{\Delta x}{w_{t}} \operatorname{VS} \frac{\Delta x}{w_{a}}\right)$

KLD的变体。我们还引入了KLD的一些变体[34,35]，以进一步验证不对称性对旋转检测的影响可以忽略。这些变体主要包括

旋转回归损失。探测器的整个训练过程如下：

i）预测偏移量 $\left(t_{x}^{p}, t_{y}^{p}, t_{w}^{p}, t_{h}^{p}, t_{\theta}^{p}\right)$ ；

ii）解码预测框；

iii）将预测框和目标地面真值转换为高斯分布；

iv）计算两个高斯分布的KLD。

因此，推断时间保持不变。我们将距离函数标准化为最终回归损失 $\mathcal{L}_{\text {reg }}:$ ：

式中，f（·）表示一个非线性函数，用于变换距离D以使损失更平滑、更具表现力。在本文中，我们主要使用两个非线性函数， $\operatorname{sqrt}(\mathbf{D}) \text { and } \ln (\mathbf{D}+1)$ 。超参数 $\tau$ 调制整个损耗。多任务损失为：

式中， $N_{\text {pos }}$ 和N表示正锚和所有锚的数量。bn表示第n个边界框，gtn表示第n目标地面真相。tn表示第n个对象的标签，pn是由sigmoid函数计算出的各种类别的概率分布。超参数λ1、λ2控制折衷，默认设置为{2,1}。分类损失被设置为focal loss 焦点损失[10]。

此部分感觉是从数学性质方面验证。

4 实验

4.1 数据集和实施细节

我们的实验是在各种数据集上进行的，包括三个大型航空图像公共数据集DOTA[36]、UCAS-AOD[37]、HRSC2016[38]以及场景文本数据集ICDAR2015[39]、MLT[40]和MSRA-TD500[41]。

DOTA 是航空图像中最大的面向对象检测数据集之一，发布了三个版本：DOTA-v1.0，DOTA-v1.5和DOTA-v2.0。DOTA-v1.0包含15个常见类别、2806个图像和188282个实例。DOTA-v1.0中训练集、验证集和测试集的比例分别为1/2、1/6和1/3。相反，DOTA-v1.5使用与DOTA-v1相同的图像。但也会注释非常小的实例（小于10像素）。此外，此版本中添加了一个新类别，共包含402089个实例。而DOTA-v2.0包含18个常见类别、11268个图像和1793658个实例。与DOTA-v1.5相比，它进一步包括新的类别。DOTA-v2.0中的11268个图像分为培训、验证、测试开发和测试挑战集。我们将图像划分为600×600子图像，重叠150像素，并将其缩放到800×800，这与文献[5,27]中的裁剪协议一致。

UCAS-AOD 包含约659×1280像素的1510幅航空图像，共有两类14596个实例。根据[30,36]，我们随机选择1110进行培训，400进行测试。HRSC2016包含两个场景的图像，包括海上船舶和近海船舶。训练、验证和测试集包括436、181和444幅图像。

ICDAR2015、MLT和MSRA-TD500通常用于定向场景文本检测和定位。ICDAR2015包括1000张培训图像和500张测试图像。ICDAR2017 MLT是一个多语言文本数据集，包括7200个培训图像、1800个验证图像和9000个测试图像。MSRA-TD500数据集由300个训练图像和200个测试图像组成。

我们使用Tensorflow[42]在一台带有Tesla V100和32G内存的服务器上实现了所提出的方法。除非另有规定，否则默认情况下，所有实验均由ResNet50[43]初始化。权重衰减和动量分别设置为0.0001和0.9。我们使用超过8个GPU的MomentumOptimizer，每个小批量总共有8个图像（每个GPU 1个图像）。

所有使用的数据集总共经过20个阶段的训练，学习率在12个阶段和16个阶段分别降低10倍。初始学习速率设置为5e-4。DOTA-v1.0、DOTA-v1.5，DOTA-v2.0、UCAS-AOD、HRSC2016、ICDAR2015、MLT和MSRA-TD500每个历元的图像迭代次数分别为54k、64k、80k、5k、10k、10k、10k、10k、10k和5k，如果使用数据增强（包括随机旋转、翻转和灰度化）或多尺度训练，则增加一倍。

论文错误吧？

4.2 消融研究和进一步比较

回归损失形式和超参数。（介绍实验分析略）

表1:HRSC2016损失形式和超参数的消融研究。

表2：基于KLD的不同回归损失形式的消融。基于 RetinaNet的探测器。

标准化的消融研究。如上所述，使用公式18是为了平滑其过快的增长趋势，并发挥正常化作用。这个额外的规范化问题是KLD是否真的在结果中起作用，还是仅仅在结果中产生噪声。为了进一步证明我们的方法确实有效，我们还对平滑的L1损失进行了归一化操作，以消除归一化引起的干扰。如表3所示，使用规范化后，性能显著下降。上述实验结果证明，KLD的有效性并非来自公式18。

表3：标准化的消融研究。基于RetinaNet 的探测器。

高精度检测实验。我们期望所设计的旋转回归损耗在高精度检测中显示出优势。表4显示了在不同数据集和不同检测器上使用平滑L1、GWD和KLD对三种不同回归损失的高精度检测结果的比较。对于包含大量宽高比船舶的HRSC2016数据集，与AP75上的平滑L1相比，基于GWD的RetinaNet具有11.89%的提高，KLD甚至获得了23.97%的增长。即使有更强的R3Det探测器，KLD和GWD仍然增加了33.96%和22.46%AP75，在AP50:95，为15.22%和9.89%。同样的实验结论也反映在另外两个场景文本数据集MASR-TF500和ICDAR2015中，即KLD>GWD>Smooth L1。一般来说，自调制优化机制对高精度检测有很大帮助。为了进行更直观的比较，我们直观地比较了这三种回归损失，如图2所示。由于平滑L1损耗和GWD中的中心点（x，y）参数是独立优化的，因此它们的预测结果略有偏移。相比之下，基于KLD的预测结果更接近对象边界，在密集场景中表现出较强的鲁棒性。类似地，基于GWD或KLD的模型比基于平滑L1的模型具有更精确的角度预测能力，因为它们的角度参数（θ）没有独立优化。

表4：不同回归损失下的高精度检测实验R、F和G分别表示随机旋转、翻转和灰显。
HRSC2016、MSRA-TD500和ICDAR2015的分辨率分别为500×500800×1000和800×1000。

更多数据集的消融研究。为了使结果更加可信，我们继续对其他五个数据集进行验证，如表5所示。在MLT、UCAS-AOD和DOTA-v1.0三个数据集上改进KLD仍然相当可观，分别增加了9.17%,1. 58%和5.55%。请注意，对于DOTA-v1.5和DOTA-v2.0，其中包含大量的小对象（小于10个像素），KLD已经获得了3.63%和3.53%的显著增益。

表5：其他数据集的更多消融实验。

对等方法的比较。表6比较了六种对等技术，包括DOTA-v1.0上的IoU平滑L1损耗[3]、调制损耗[44]、RIL[33]、CSL[4,46]、DCL[45]和GWD[5]。为了公平起见，这些方法都在相同的基线方法上实现，并且在相同的环境和超参数下进行训练和测试。我们详细说明了七个类别的准确性，包括大纵横比（如BR、SV、LV、SH、HA）和方形物体（如ST、RD），能够更好地反映我们方法的现实挑战和优势。RetinaNet和KLD的组合直接超过R3Det（AP50: 71.28%vs70.66%，7-AP50: 69.41%vs68.31%）。即使与R3Det相结合，KLD仍能进一步提高大纵横比目标（7-AP50为2.82%）和高精度检测（AP75为6.07%，AP50:95为3.65%）的性能。基于KLD的方法在几乎所有指标中表现最好。在更具挑战性的数据集（DOTA-v1.5和DOTA-v2.0）上仍然可以得出类似的结论，这些数据集包含更多数据和微小对象（小于10像素）。

表6:DOTA数据集上不同旋转检测器之间的精度比较。
†和‡分别表示大纵横比对象和方形对象。粗体和蓝色字体分别表示前两名的表现。
doc和dle表示OpenCV定义（θ∈[−90◦,0◦))和长边定义（θ∈[−90◦,90◦))是RBox的。

水平检测验证。如等式16所分析，KLD可退化为水平检测任务中常见的回归损失。表7比较了水平检测的回归损失平滑L1和IoU/GIoU与MS COCO[47]数据集上建议的回归损失KLD。结果表明，在更快的RCNN[8]、RetinaNet[10]和FCOS[20]上，我们的KLD并不比其他损失差，RetinaNet甚至有0.6%的改进。旋转检测的地面真值是最小外接矩形，这意味着地面真值能够很好地反映物体的真实尺度和方向信息。本文所描述的“水平特例”也满足上述要求，此时水平外切矩形等于最小外切矩形。虽然COCO的基本事实是一个水平长方体，但它不是最小外接矩形，这意味着它丢失了对象的方向信息和精确的比例信息。例如，倾斜放置在图像中的棒球棒，其水平外接矩形的高度和宽度并不表示对象本身的高度和宽度。这导致当KLD应用于COCO时，KLD根据纵横比动态调整角度梯度的优化机制毫无意义，从而影响最终性能的提高。一般来说，这是数据集注释本身的一个缺陷，而不是KLD不够好。事实上，用COCO来讨论θ=0◦是不合适的, 因为COCO丢弃了θ参数。此外，θ=0◦描述处于水平位置的实例，但并不意味着数据集的所有实例都处于水平位置。本文使用COCO讨论“水平特例”来表示，即使数据集有一定的标记缺陷，KLD也可以产生一定的效果。毕竟，很难观察旋转数据集上所有水平对象的性能改进。

5 结论

局限性。尽管有理论基础和有前景的实验证明，我们的方法有一个明显的局限性，不能直接应用于四边形检测[33,44]。

潜在的负面社会影响。我们的发现为高精度旋转检测提供了一个简单的回归损失。然而，我们的研究可能会应用到一些敏感领域，如遥感、航空和无人机。

结论。本文从现有的大量目标检测文献出发，从零开始设计了一种新的旋转检测回归损失算法，并将流行的水平检测作为其特例。具体地，我们计算旋转包围盒对应的高斯分布之间的KLD作为回归损失，我们发现在KLD损失指导的学习过程中，参数的梯度可以根据目标的特性动态调整，这是鲁棒目标检测所需要的特性，无论其旋转、大小和宽高比等。我们还证明了KLD具有尺度不变性，这对检测任务至关重要。有趣的是，我们已经证明，在水平检测任务中，KLD可以退化为目前常用的ln-范数ln-norm损失。在不同探测器和数据集上的大量实验结果表明了我们方法的有效性。

简单小结

之前：从水平检测归纳旋转检测。

现在：从旋转检测归纳水平检测。

具体改进：

将旋转的包围盒 $\beta$ (x, y, h, w， θ)转换成二维高斯分布 $\mathcal{N}$ (µ，Σ)

计算高斯分布之间的Kullback-Leibler Divergence (KLD)作为回归损失

优势：

本身性质：通过对各参数梯度的分析，表明KLD(及其导数)可以根据物体的特性动态地调整参数梯度。
（任务本身有这种需求：不同的参数对不同类型的物体的重要性是不同的（不同类型的物体对这五个参数的敏感性也不同。）。例如，角度参数(θ)和中心点参数(x, y)分别对大长宽比物体和小物体很重要。
重要性：这种机制对于高精度检测是至关重要的，因为对于大纵横比的物体，微小的角度误差会导致严重的精度下降。）

KLD是尺度不变的。

与其他损失函数的关系：

KLD损失可以退化为水平检测的普通范数损失。

平滑L1损失不足：基于平滑L1损失的检测结果往往显示中心点或角度的偏移。

GWD：部分耦合，中心点的独立优化：高斯瓦瑟斯坦距离(GWD)主要分为两部分:中心点(x, y)距离与围绕杆θ的耦合项之间的距离。因此，基于GWD的回归损失可以看作是一种半耦合损失。
优：部分参数之间的耦合-----》GWD可以大大提高高精度旋转检测的性能；
不足：由于中心点的独立优化-----》使得检测结果略有偏移(见图2)。
需要注意的是，GWD不是比例不变的，这不是检测友好性的。

KLD：
1） $\mathbf{D}_{k l}\left(\mathcal{N}_{t} \| \mathcal{N}_{p}\right)$ 每一项都是由部分参数耦合组成的，这使得所有参数形成了链式耦合关系。在基于KLD的检测器的优化过程中，各参数相互影响，共同优化，使得模型的优化机制是自调制的。
2）相比之下， $\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)$ 和GWD都是半耦合的，但 $\mathbf{D}_{k l}\left(\mathcal{N}_{p} \| \mathcal{N}_{t}\right)$ 具有更好的中心点优化机制。
3）KLD是不对称的，但通过分析各参数的梯度和实验结果，我们发现这两种形式的优化原则是相似的。
（论文通过公式分析了为什么GWD 和L2-norm会偏移，KLD不会偏移）

旋转回归损失。探测器的整个训练过程如下：

i）预测偏移量 $\left(t_{x}^{p}, t_{y}^{p}, t_{w}^{p}, t_{h}^{p}, t_{\theta}^{p}\right)$ ；

ii）解码预测框；

iii）将预测框和目标地面真值转换为高斯分布；

iv）计算两个高斯分布的KLD。

数学论证、消融实验很充分（理论本质+实验验证）

你可能感兴趣的:(旋转论文阅读,论文阅读,论文阅读)

精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
【证明】对极几何：本质矩阵内在性质 Powerful_QI slam 线性代数矩阵
--这是目录--1.本质矩阵内在性质表述2.预备知识2.1线性代数基础2.1.1奇异值与特征值的关系2.1.2矩阵加减单位阵后特征值的变化2.2引理：一个常用的矩阵变换3.证明1.本质矩阵内在性质表述本质矩阵(EssentialMatrix)EEE是一个3阶方阵，满足E=t∧RE=t^{\land}RE=t∧R其中RRR为旋转矩阵，ttt为平移量，t∧t^{\land}t∧运算定义如下（参考了
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
Open CASCADE+Qt：实现以鼠标为锚点缩放、平移、旋转铁心探索界 Open CASCADE+Qt 那些事 qt c++
简介本文实现在三维窗口中添加一个立方体，并实现以鼠标为锚点视图缩放、平移、旋转操作，效果见如下动图：添加立方体基于前面建立的三维窗口：OpenCASCADE+Qt：实现简单的显示窗口（下）在OCCWidget构造函数末尾，添加立方体，并将其添加到上下文中显示该立方体（绘制立方体不是本文重点）：OCCWidget::OCCWidget(QWidget*parent):QWidget{parent},
现代OpenGL+Qt：绘制可旋转、带光照效果的三维物体
现代OpenGL+Qt：绘制可旋转、带光照效果的三维物体去发现同类优质开源项目:https://gitcode.com/简介本仓库提供了一个使用现代OpenGL和Qt绘制三维物体的示例项目。在这个项目中，你可以通过鼠标控制三维物体的旋转和缩放，并观察到物体在光照效果下的显示效果。功能使用现代OpenGL进行图形渲染利用Qt的事件处理机制，实现鼠标控制物体的旋转和缩放实现简单的光照效果，包括漫射光的
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
【力扣】61. 旋转链表 Øᐛ leetcode 链表算法
61.旋转链表-力扣（LeetCode）首先确定旋转次数：旋转次数大于链表大小的都要进行求余处理；旋转次数等于链表大小的约等于没转，直接咋来咋return；旋转次数小于链表大小的才是正常情况。然后找到转完的、新链表的头结点。这一点参考寻找倒数第k个结点，很容易理解。最后就是连接旧链表头尾，断开新链表头尾。classSolution{public:ListNode*rotateRight(ListN
leetcode 61~70 学习经历文盲老顾算法 leetcode 学习链表
leetcode61~70学习经历61.旋转链表62.不同路径63.不同路径II64.最小路径和65.有效数字66.加一67.二进制求和68.文本左右对齐69.x的平方根70.爬楼梯小结61.旋转链表给你一个链表的头节点head，旋转链表，将链表每个节点向右移动k个位置。示例1：输入：head=[1,2,3,4,5],k=2输出：[4,5,1,2,3]示例2：输入：head=[0,1,2],k=4
Leetcode链表刷题之：61.旋转链表小小数据挖掘工程师面试题 LeetCode 编程练习链表 leetcode
题目描述：给定一个链表，旋转链表，将链表每个节点向右移动k个位置，其中k是非负数。示例1:输入:1->2->3->4->5->NULL,k=2输出:4->5->1->2->3->NULL解释:向右旋转1步:5->1->2->3->4->NULL向右旋转2步:4->5->1->2->3->NULL示例2:输入:0->1->2->NULL,k=4输出:2->0->1->NULL解释:向右旋转1步:2-
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
坐标变化其二前缀和 black_blank csp 算法开发语言 c++
202309-2试题名称：坐标变换（其二）时间限制：2.0s内存限制：512.0MB问题描述：问题描述对于平面直角坐标系上的坐标(,)，小P定义了如下两种操作：拉伸倍：横坐标变为，纵坐标变为；旋转：将坐标(,)绕坐标原点(0,0)逆时针旋转弧度（0≤后可使用三角函数cos()和sin()。Python：直接使用print(x)即可输出浮点数x；frommathimportcos,sin后可使用相应
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
如何懂固高卡以及滚筒轴+平移轴配合运动？ bug菌¹ 全栈Bug调优(实战版)嵌入式硬件 c#其他
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案关键要点：如何实现：详细说明：注意事项：文末福利，等你来拿！✨️WhoamI?问题描述大致情况：旋转轴接了一个变频器，固高给旋转轴脉冲会给到变频
万向节死锁公式推导微小冷机器人欧拉角旋转矩阵万向节万向节死锁旋转轴旋转
文章目录欧拉角的万向节死锁旋转轴欧拉角的万向节死锁如果把刚体的旋转沿着三个旋转轴进行拆分，那么可以变成三个旋转角的叠加，这三个旋转角就是欧拉角，分别对应旋转矩阵，为了书写方便，记Sθ=sin⁡θ,Cθ=cos⁡θS_\theta=\sin\theta,C_\theta=\cos\thetaSθ=sinθ,Cθ=cosθ，则三个旋转矩阵为Rx(θ)R_x(\theta)Rx(θ)Ry(θ)R_y(\
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
华为OD机试 2025B卷 - 书籍叠放 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 算法华为OD机试华为OD2025B卷华为机试2025B卷
书籍叠放华为OD机试真题目录:点击去查看2025B卷200分题型题目描述书籍的长、宽都是整数对应(l,w)。如果书A的长宽度都比B长宽大时，则允许将B排列放在A上面。现在有一组规格的书籍，书籍叠放时要求书籍不能做旋转，请计算最多能有多少个规格书籍能叠放在一起。输入描述输入：books=[[20,16],[15,11],[10,10],[9,10]]说明：总共4本书籍，第一本长度为20宽度为16；第
ShaderGraph节点解析(146):面朝向判断节点（Is Front Face Node）详解
目录一、前言二、节点基础2.1功能概述2.2端口详解2.3底层实现三、工作原理3.1面朝向定义3.2法线与面朝向的关系3.3与背面剔除的区别四、应用场景4.1双面材质差异化渲染场景：正面显示纹理，背面显示纯色或另一种纹理4.2背面发光效果场景：物体背面显示自发光，创造边缘光或轮廓效果4.3翻转动画场景：当物体旋转导致正面变为背面时，显示过渡效果（如透明度变化）4.4碰撞检测可视化场景：在碰撞检测中
Linux 磁盘管理、文件系统、VLM和配额：从基础到实战指南燕841 linux 运维服务器
在Linux系统运维中，磁盘管理是保障系统稳定运行的核心环节。无论是服务器扩容、新硬盘挂载，还是灵活调整存储空间，都离不开对磁盘分区、文件系统和逻辑卷的深入理解。本文将从磁盘基础讲起，逐步解析分区策略、文件系统创建、挂载管理及LVM逻辑卷技术，助你轻松驾驭Linux存储管理。一、磁盘基础：机械与固态计算机的存储核心是硬盘，从存储介质上可分为两类：机械硬盘（HDD）：依靠盘片旋转和磁头读写数据，内部
com本质论 pdf_如何使用PDF Arranger来对PDF文件进行编排和修改 weixin_39797780 com本质论 pdf creatprocess 操作文件 delphi fedora如何隐藏顶部状态栏 linux .bash_profile文件 linux c++编程 pdf
PDFArranger是一个十分简单的GUI应用程序，能够帮助您拆分或合并PDF文档，以及旋转，裁剪和重新编排页面。所有前面提到的任务都可以通过交互式和直观的图形界面轻松完成。Pdfarranger是pdfshuffler的fork以及pikepdf的前端。PDFArranger在许多流行的GNU/Linux操作系统和MicrosoftWindows上都能良好地运行。它是使用GTK+和Python
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本