小威威__

Object Detection: One-stage Detector DenseBox

继上一篇文章Object Detection : One-stage Detector YOLO，我们可以窥探到回归(regression)、端到端(end-to-end)思想在目标检测问题上的应用。下面开始单阶段目标检测器系列的第二篇，DenseBox。
YOLO -> DenseBox -> SSD -> YOLO v2 -> Retina -> YOLO v3 -> CornerNet -> CenterNet -> AlignDet

DenseBox: Unifying Landmark Localization with
End to End Object Detection
论文地址：1509.04874v3

1. 背景介绍

在卷积神经网络(CNN)兴起之前，大多模型是基于滑动窗口法(sliding-window based method)进行目标检测：首先提取图片不同尺寸(scales)，不同位置(locations)的手工特征(handcrafted features)；然后有些模型可能会做一些几何限制(geometric constraints)，比如人的头、手臂、躯干、腿；最后用分类器(classifier)对这些特征进行分类。CNN兴起之后，人们使用全卷积网络(FCN)近似(approximate)滑动窗口法，这种方法使得模型能够端到端(end-to-end)训练，而且从零学习参数和特征提取(scratch)的方式大大提升了目标检测器的性能。

如上图，将输入的16x16x3的图片经过多层卷积操作(convolution)，得到2x2x4的输出。整个过程相当于在原图上做14x14的窗口滑动，且步长为2，产生四个候选框(proposals), 输出的每个像素(pixel)对应于一个候选框。这就是全卷积网络近似滑动窗口法的过程描述。(ps：图中的FC不是全连接，依然是卷积操作）

不过，这样固定大小与步长的窗口是远远不够的 (可以了解一波overfeat)。对此YOLO就淘汰了滑动窗口法：它将原始图片分割成互不重合的网格单元(cell)，每个网格单元负责检测落入其中的目标，通过卷积产生的特征图的各元素对应于原图的每个网格单元，然后用特征图各元素的值去定位中心(center)落在对应网格单元内的目标。这也不失为一种优雅的解决方式。

与YOLO相似，DenseBox也是全卷积网络，但仍遵循滑动窗口的特性(sliding window fashion)。它致力于小目标(small objects)以及遮挡检测(occlusion)，比如人脸(human face)，远处的汽车(far-away car)。

虽然两阶段模型在精度上较单阶段检测器有更大的优势，但由于R-CNN两阶段模型产生区域提议(proposals)分辨率较低(low resolution)，同时缺乏上下文信息(context)，直接或间接影响了分类的性能。所以DenseBox朝着小目标突破也是有一定的前瞻性的。

所以作者的贡献在于：(1) 设计全卷积网络实现小目标及遮挡目标的高精度检测；(2) 使用多任务训练(multi-task)进一步提升检测性能，也就是添加了标识点定位(landmark localization)任务分支。

2. 模型介绍

由上图可以了解到DenseBox的检测流程：首先是输入多个尺寸的同一张图片，即图像金字塔(image pyramid); 然后经过卷积&池化操作，再进行上采样，融合浅层与深层的特征再进行卷积操作，将得到的结果转化为检测框，并对检测框进行非极大值抑制(non-maximum supression, NMS)，得到最终的结果。

2.1 模型的输入&输出

接下来定义一些符号。假如输入的图片大小为 $m * n * 3$ , 则模型的最终输出是 $\frac{m}{4}*\frac{m}{4}*5$ ，这意味着每4个像素点生成一个检测框，这样一来可以产生很密集的检测框，故命名为DenseBox。定义目标检测框的左上角(left top)和右下角(right bottom)为 $p_t = (x_t, y_t)$ , $p_b = (x_b, t_b)$ ，最终输出的每个像素点 $x_i, y_i)$ 描述了检测框的信息，用向量 $\hat{t_i} = \{\hat{s}, \hat{dx^t} = x_i - x_t, \hat{dy^t} = y_i-y_t, \hat{dx^b} = x_i - x_b, \hat{dy^b} = y_i - y_b\}_i$ 表示，其中 $\hat{s}$ 是检测框中包含目标的置信度(confidence score)， $\hat{dx^t}$ , $\hat{dy^t}$ , $\hat{dx^b}$ , $\hat{dy^b}$ 预测的检测框相对于输出特征图各个位置的距离(原文链接1)。所以可以根据最终模型的输出，将其转化为检测框信息(confidence, xmin, ymin, xmax, ymax)。转化后得到的检测框肯定有冗余情况，所以需要对置信度超过设定阈值的检测框做非极大值抑制进行筛选，以得到最终的检测结果。

原文链接1： $\hat{dx^t}$ , $\hat{dy^t}$ , $\hat{dx^b}$ , $\hat{dy^b}$ denote the distance between output pixel location with the boundary of target bounding box.

2.2 模型真值生成 (Ground Truth Generation)

DenseBox训练的输入并不是完整的图片，而是从原图中切割出来的包含人脸以及足够(sufficient)背景信息的图片块(patches)，这是因为引入全图会导致卷积操作在背景上消耗过多的计算资源。

对此，训练数据是做过处理的。为了使模型对任意输入有更好的预测，需要在测试时需要采用图像金字塔作为输入，以弥补这种训练方式带来的“后遗症”。(原文链接2)

原文链接2: The RPN is trained on multi-scale objects while the DenseBox presented in this paper is trained on one scale with jitter-augmentation, which means our method need to evaluate feature at multiple scale.

作者觉得它的训练方式与分割的思想有点相似(a segmentation-like way)，结合下图的可视化可能会更好理解一些。首先，将这些图片块缩放(resize)至240x240，人脸处于图片块的中间(center)，高度(height)大约是50像素(pixels)。由于下采样的比例(ratio)是4，所以真值的规模是 $60 * 60 * 5$ 。其中，第一个channel是置信度的真值，正样本区域(positive labeled region)是一个半径(radius)为 $r_c$ 的实心圆(filled circle)，该圆的半径与检测框的大小成比例，比例(scaling factor)为0.3，而圆心位于人脸检测框的中心，即圆内区域标注为正，圆外区域标注为负。这个实心圆的意义是：圆内像素的感受野(receptive field)包含一定大小、居中的目标。剩余的四通道则是检测框与输出各位置的距离，即五通道的像素点(5-channel pixel)代表一个检测框。
需要注意的是当多张人脸出现在一个图片块中时，与居中图片块的人脸(中心)相距一定范围(scale range)的其它人脸可以标注为正样本，该范围定义为0.8~1.25(与中心人脸检测框尺寸的倍数关系)，在范围外的其它人脸定义为负样本(原文链接2)。

原文链接3: Note that if multiple faces occur in one patch, we keep those faces as positive if they fall in a scale range(e.g. 0.8 to 1.25 in our setting) relative to the face in patch center. Other faces are treated as negative samples/

2.3 模型设计 (Model Design)

上图为DenseBox模型的简易设计。该模型一共有16个卷积层：前面的12个卷积层由ImageNet预训练的VGG-19进行初始化，主要进行特征提取；后面的4个卷积层使用xavier的初始化方式【补充1】，分为两组，一组用于分类，得到通道数为1的输出，将其作为分类的分数(class score map)，另外一组用于检测框的回归，得到通道数为4的输出，将其作为预测边框的相对位置(relative position of bounding boxes)。这两组的最后一层1x1卷积扮演着全连接层(fully connected layer)的角色。

补充1：
神经网络中激活值的方差是逐层递减的，这导致反向传播中的梯度也逐层递减。要解决梯度消失，就要避免激活值方差的衰减，最理想的情况是，每层的输出值(激活值)保持高斯分布。(ps：所以后来也就有了Batch Normalization)
一般初始化：均值为0，方差为1的高斯分布
Xavier初始化：一般初始化后乘以rescale系数 $1/\sqrt(n)$ ，n为输入参数的个数
Kaiming初始化：一般初始化后乘以rescale系数 $2/\sqrt(n)$
参考链接：一文搞懂深度网络初始化

从图中还可以观察到conv3_4与上采样后的conv4_4的特征融合(multi-level feature fusion)，上采样采取的是双线性插值。浅层特征(low-level feature)或者局部特征(local feature)能够提供具有判别力的外貌特征(discriminative appearance part)，而深层特征(high-level feature)或全局特征(global feature)或目标级特征(object-level feature)有更大的感受野，可以提供一些全局信息(global textures and context)。

2.4 多任务训练 (Multi-task Training)

DenseBox的简易设计有两个分支(sibling output branches)。第一个分支输出的是包含目标的置信度 $\hat{y}$ ，其对应的真值标签为 $y^*\in\{0,1\}$ ，所以分类的损失函数(classification loss)可以定义为：
$L_{cls}(\hat{y},y^*) = ||\hat{y}-y^*||^2$
作者在人脸以及车辆检测两个任务都采用了L2 损失，没有尝试铰链损失函数(hinge loss)【补充2】或交叉熵损失函数(cross entropy)。

补充2：
Hinge Loss是机器学习领域中的一种损失函数，可用于“最大间隔(max-margin)”分类，其最著名的应用是作为SVM的目标函数。
（1）在二分类的情况下，公式： $L (y) = m a x (0, 1 - t \cdot y)$ 。
其中，y是预测值(-1到1之间)，t为目标值(1或 -1)。其含义为，y的值在 -1到1之间即可，并不鼓励 |y|>1，即让某个样本能够正确分类就可以了，不鼓励分类器过度自信，当样本与分割线的距离超过1时并不会有任何奖励。目的在于使分类器更专注于整体的分类误差。
（2）在多分类的情况下，采用变式： $L (y, y^{'}) = m a x (0, m a r g i n - (y - y^{'}))$ 。
其中，y是正确预测的得分，y′是错误预测的得分，两者的差值可用来表示两种预测结果的相似关系，margin是一个由自己指定的安全系数。我们希望正确预测的得分高于错误预测的得分，且高出一个边界值 margin，换句话说，y越高越好，y′ 越低越好，(y–y′)越大越好，(y′–y)越小越好，但二者得分之差最多为margin就足够了，差距更大并不会有任何奖励。这样设计的目的在于，对单个样本正确分类只要有margin的把握就足够了，更大的把握则不必要，过分注重单个样本的分类效果反而有可能使整体的分类效果变坏。分类器应该更加专注于整体的分类误差。
参考链接：理解Hinge Loss

第二个分支输出的检测框回归系数偏移 $\hat{d} = (\hat{d_{tx}}, \hat{d_{ty}}, \hat{d_{bx}}, \hat{d_{by}})$ ，其对应的真值标签为 $d^* = (d^*_{tx}, d^*_{ty}, d^*_{bx}, d^*_{by})$ ，所以检测框回归损失函数定义为：
$L_{loc}(\hat{d}, d^*) = \sum{||\hat{d_i}-d^*_i||^2}_{i\in\{tz, ty, bz, by\}}$
(ps: 原论文这部分公式有点错误，我根据自己理解做了订正)

2.5 样本平衡 (Balance Sampling)

训练的过程中，如果在一个参数更新周期(mini-batch)中使用所有负样本(negative samples)，它们很有可能会主导(dominate)梯度使预测的结果产生偏离(bias prediction)。还有，对于一些处于临界区域的样本(lying in the margin of positive and negative region)，如果对这些样本进行惩罚(penalize)，也很有可能会导致检测器的性能下降。若能平衡正负样本比例，充分挖掘临界样本，一定程度上是可以提升检测器的性能表现。

对于临界样本，论文中并不考虑去挖掘它的价值，而是通过设定一个忽视灰域(Ignoring Gray Zone)，位于该区域的样本损失的权重(loss weight)应当设置为0。区域的标识实用 $f_{ign}$ 实现。对于输出空间中(output coordinate space)带有负标签的像素点，如果在以该像素点为圆心，半径为 $r_{near}=2$ 的区域内包含带有正标签的像素，则标记为需要忽视的负样本，记 $f_{ign} = 1$ 。

对于负样本中的难例(hard negative examples)，论文进行了充分的挖掘，这样做可以得到预测更为鲁棒，噪声更少(原文链接3)。论文使用的是在线(online)的难例挖掘：在前传阶段，对负样本的损失按照降序排列，取前1%作为难例(hard-negative)。在训练的过程中，作者保留了所有正样本，并保持正负样本比例为1:1，而且，负样本中，难例样本占到一半，剩余一半的从非难例样本中随机选出。为实现方便，对被选择的样本进行标识，记 $f_{sel}=1$ 。

原文链接4: After negative mining, the badly predicted samples are very likely to be selected, so that gradient descent learning on those samples leads more robust prediction with less noise.

作者对以上两种方式(忽视灰域、难例挖掘)进一步封装，使用Mask来决定确定损失权重是否为0:
$M(\hat{t_i}) = \begin{cases} 0& f_{ign}^i = 1 \text{ or } f_{sel}^i = 1\\ 1&\text{otherwise} \end{cases}$
结合该Mask，可以得到多任务损失函数(multi-task loss)：
$L_{det}(\theta) = \sum_i(M(\hat{t_i})L_{cls}(\hat{y_i}, {y_i}^*)+\lambda_{loc}[{y_i}^* > 0] M(\hat{t_i})L_{loc}(\hat{d_i}, {d_i}^*))$
其中， $\theta$ 是网络参数， ${y_i}^*]>0$ 是艾佛森括号函数(Iverson bracket function)， $\lambda_{loc}$ 是用于平衡分类与回归的损失，实验中设置为3。作者在实验中将 $d^*$ 通过除以标准目标高度(50/4)进行规范化(normalize)。

在训练的过程中，论文还用了其它骚操作(tricks)。论文中定义正样本图片块(positive patch)为包含一定尺度的居中目标，该图像块中负样本围绕着正样本。为了充分利用数据集中的负样本，论文采用了随机截取(random crop)的方式，从训练图片中随机截取图片块并缩放到于正样本图片块同样尺寸并加入到模型训练中。这两种类型的样本比例是1:1。不仅如此，作者对每一个输入的图像块做随机抖动(jitter)，即左右反转(left-right flip)，平移25像素点(transition shift of 25 pixels)，尺度变化(scale deformation from [0.8, 1.25])。

训练细节：作者采用小批量随机梯度下降(mini-batch SGD)训练，批量大小(batch size)设置为10。损失与输出梯度都需要除以参与贡献的像素点数量(原文链接4)。全局学习率(learning rate)从0.001开始，然后每隔10000次迭代以0.1倍的速度衰减。动量(momentum)设置为0.9，权重衰减因子(weight decay factor)设置为0.0005。

原文链接5: The loss and output gradients must be scaled by the number of contributing pixels, so that both loss and output gradients are comparable.

2.6 使用关键点定位改进模型 (Refine with Landmark Localization)

从上图可以清晰的看到，作者将关键点定位的引入用在了两个方面：(1) 加入了关键点定位新分支，使用多任务训练的方式优化模型；（2）融合分类任务的分数(classification score map)与关键点定位任务的输出 (landmark localization maps/ heatmaps)进行卷积挖掘(具体原因见原文链接5)，进一步改进检测结果。以上仅需通过简单的堆叠卷积层实现(原文链接6)。

原文链接6: An appropriate solution could be using high-level spatial model to learn the constraints of landmark confidence and bounding box score, to further increase the performance of detections.
原文链接7: In our implementation, we use convolutions with ReLU activation to approximate the spatial model.

如果有N个关键点，关键点定位分支就输出N个响应图(response map)，响应图上的每个像素 $x_i, y_i)$ 代表关键点在该位置的置信度。该任务的真值产生类似于检测任务：对于第i个实例第k个关键点 $l_i^k$ ，其真值对应到第k个响应图，正标签区域是一个半径 $r_l$ 为1的实心圆，圆心的感受野包含该关键点。该实心圆的半径要相对小，否则会影响准确率(accuracy)。该任务也采用了L2损失函数，同时采用了上文提到的难例挖掘以及忽视灰域。

加入关键点定位任务后，损失函数如下：
$L_{full}(\theta) = \lambda_{det}L_{det}(\theta)+\lambda_{lm}L_{lm}(\theta)+L_{rf}(\theta)$
其中， $L_{det}$ 为前文的损失函数， $L_{lm}$ 为关键点定位损失函数， $L_{rf}$ 为改进分支(refine branch)的损失函数， $\lambda_{det}$ 与 $\lambda_{lm}$ 用于平衡着三个任务的损失，在实验中分别赋值为1，0.5。

3. 实验部分

作者没有在主流的通用目标检测数据集上验证模型的性能，而是在MALF(Multi-Attribute Labelled Faces) 与 KITTI car detection 数据集上进行验证。

KITTI car detection的验证度量(evaluation metric)与通用目标检测任务不同，KITTI要求与真阳性(True Positive)有70%的交叠，而其它任务一般只要求50%。所以在非极大值抑制阈值设置上，KITTI任务设置为0.75，MALF上设置为0.5。

具体实验设计细节见原论文，这里就不再说了～

从实验可以看出，DenseBoxEnsemble > DenseBoxLandmark > DenseBoxNoLandmark，且DenseBoxEnsemble达到了SOTA(state-of-the-art)。DenseBoxEnsemble整合了10个来自不同batch的DenseBoxLandmark。

由上图结果发现，加入关键点标注任务在KITTI上与MALF相比并没有得到太大的性能增益，这可能是因为对于汽车的关键点标注不够，导致该分支的增益有限。

4. 总结

DenseBox在人脸与汽车的检测上取得了很好的性能，然而其最大的局限在于速度，尤其是输入图像金字塔这个操作非常耗时。作者称后续DenseBox2解决了这个问题，我找个时间再分享一下它们的后续工作！

JSON 对象
JSON对象概述JSON（JavaScriptObjectNotation）对象是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。JSON对象是JSON数据的一种基本结构，类似于JavaScript中的对象（Object）。在本文中，我们将详细介绍JSON对象的概念、语法、创建方法以及在实际应用中的使用。JSON对象的语法JSON对象使用大括号{}表示，其中包含一系列键值对。
ArrayList 与 LinkedList 的区别 BonnenuIt゛浅时光737 Java基础 java 面试
ArrayList与LinkedList的核心区别在Java中，ArrayList和LinkedList是两种常用的列表实现，它们在底层结构、性能特性和适用场景上有显著差异。以下从多个维度详细对比：1.底层数据结构对比项ArrayListLinkedList数据结构动态数组（Object[]）双向链表（每个节点包含前驱和后继指针）存储方式连续内存空间存储元素非连续内存，通过指针关联元素内存占用需预
instantiate 卡顿严重_Unity3D研究院之利用缓存池解决Instantiate慢的问题（七十三）... weixin_39992312 instantiate 卡顿严重
Unity3D做项目有三个地方处理不好游戏整体就会出现卡顿的问题。2.角色放技能的时候卡尤其是放群体攻击技能时，因为每个人身上都要产生一个技能特效。技能都是用粒子特效做的，虽然Unity中粒子特效也是一个GameObject.但是ParticleSystem这个组件太特殊了。Instantiate以后会自动的执行脚本的初始化工作，ParticleSystem组件肯定也是个脚本，虽然我们看不到它实现
instantiate 卡顿严重_利用缓存池解决Instantiate慢的问题 weixin_39958100 instantiate 卡顿严重
Unity3D做项目有三个地方处理不好游戏整体就会出现卡顿的问题。1.NGUI直接打开界面卡，建议看看这一篇文章http://www.xuanyusong.com/archives/2799(本文就不赘述了)2.角色放技能的时候卡尤其是放群体攻击技能时，因为每个人身上都要产生一个技能特效。技能都是用粒子特效做的，虽然Unity中粒子特效也是一个GameObject.但是ParticleSystem
AWS架构师咸鱼一条_o.0?! aws 云计算
AWS架构师部分定义S3（S3存储桶）EC2弹性计算云EBS弹性块存储SNAPSHOT快照AMI：EC2镜像ELB弹性负载均衡器EFSDATABASEDATAWAREHOUSEOLTPOLAPElastiCacheVPCRoute53部分定义UserGroup:用户组下的用户继承该用户组所有权限Policy：Jasonformat：类似文字描述，指定object的类型。给user和group提供权
重学前端006 --- 响应式网页设计 CSS 弹性盒子
文章目录盒模型一、盒模型的基本概念二、两种盒模型的对比举例三、总结Flexbox弹性盒子布局一、Flexbox的核心概念二、Flexbox的基本语法1.定义Flex容器2.Flex容器的主要属性3.Flex项目的主要属性三、Flexbox的常见布局示例四、FlexboxvsGrid布局五、总结imgobject-fitgapCSS::after伪元素详解1.基本概念2.基础语法3.关键注意事项以下
gpt面试题任小栗 #面试题 gpt vue.js 前端
vue面试题一、响应式系统相关❓1.Vue3的响应式系统是如何实现的？和Vue2有何本质区别？答案：Vue3使用Proxy实现响应式（位于@vue/reactivity模块），替代Vue2的Object.defineProperty。核心机制如下：使用targetMap:WeakMap存储依赖关系利用track()和trigger()方法实现依赖收集与派发更新effect()包装副作用函数，自动收
Python中win32com的用法详解：自动化办公与COM交互的利器 detayun Python python 自动化交互 win32
在Python自动化办公场景中，win32com模块凭借其与WindowsCOM（ComponentObjectModel）的深度集成能力，成为操控MicrosoftOffice、工业设备甚至第三方软件的核心工具。本文将通过实战案例、技术细节和避坑指南，系统解析这一模块的核心用法。一、核心功能与安装配置1.1模块定位与优势win32com是pywin32扩展包的核心组件，其核心价值在于：跨软件交互
Java String 正则表达式设计模式包装类 Object类自动拆箱额么么么么 java 正则表达式设计模式
其它API（ApplicationProgramingInterface）应用程序接口（功能）,我们java讲解最常用的一些功能。API作用：API表示的是功能,学习API可以快速进行编程开发。API设计初衷,设计者将复杂的业务逻辑,封装成方法,供调用者更好的使用。对于开发者而言,不需要关注功能的具体逻辑实现,只需要知道如何使用即可。Java提供了很多的包,有一些包需要导入，有一些不需要导入:1.
XML数据如何进行解析呢，方式有哪些？张起灵的小可爱啊
上回我们说到JSON解析的四种方式，那么这次我们来看看XML的四种解析方式。解析的四种方式DOM解析SAX解析JDOM解析DOM4J解析案例实操DOM解析DOM（DocumentObjectModel，文档对象模型），在应用程序中，基于DOM的XML分析器将一个XML文档转换成一个对象模型的集合（通常称为DOM树），应用程序正是通过对这个对象模型的操作，来实现对XML文档数据的操作。XML本身是以
JSON和JSONL、python操作 weixin_668 json python
JSONJSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，基于文本、易于读写，并支持多种数据结构。以下是常见的JSON格式及示例：1.简单对象（键值对）{"name":"Alice","age":25,"isStudent":true}2.嵌套对象{"person":{"name":"Bob","address":{"city":"NewYork","zipc
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
JavaScript基本语法（二）——数据类型 OmewSPG
常用数据类型#ECMAScript有6种简单的数据类型（原始类型）：Undefined，Null，Boolean，Number，String和Symbol（ES6新增Symbol类型的值，在此不会过多涉及）此外还有一种复杂的数据类型：Object在ECMAScript中无法定义自己的数据类型，所有值都必须采用以上七种数据类型之一来进行表示，好在ECMAScript数据类型比较灵活，一种数据类型可以
enq: HW - contention jnrjian oracle sql
Symptoms1.Thereisaperformanceslowdownwithalargenumberofwaitsfor'enqHW-contention'.2.ASHReportsshowsthewaitevent'enqHW-contention'whichincludesSQLwithLOBObjects.CauseTheHWenqueueisusedtomanagethealloca
【三维感知目标检测论文阅读】《Point RCNN: An Angle-Free Framework for Rotated Object Detection》
今天给大家带来的论文是2019年的《PointRCNN:AnAngle-FreeFrameworkforRotatedObjectDetection》。尽管这是一篇较早的纯点云检测论文，但我把它放在了最后来讲。因为在了解了各类主流方法后，再回过头来阅读它会有更深的理解。PointRCNN采用自底向上的方式直接从点云生成高质量的3D候选框，其对于旋转框的无角度（Angle-Free）处理方式，对于理
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
python sqlalchemy连接oracle_Python SQLalchemy 基础操作之数据库增删改查 weixin_39970994 python
ORM全称ObjectRelationalMapping,即对象关系映射。简单的说，ORM将数据库中的表与面向对象语言中的类建立了一种对应关系。这样，我们要操作数据库，数据库中的表或者表中的一条记录就可以直接通过操作类或者类实例来完成。SQLAlchemy是Python社区最知名的ORM工具之一，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型。SQLAlchemy优点：简洁易读：将数据
分页垃圾桶边的狗
一、paginator分页类1.创建对象格式：Paginator(,每页显示数据的条数)返回值：分页对象2.对象的属性count分页对象那个的个数num_pages页面总数page_range页码的列表3.方法page(num)返回page对象，如果给定的页码不存在，则抛出异常二、page对象page对象：Paginator类实例化返回对象调用page属性，返回page对象属性：1.object_
Mybatis学习之简介（一） PP东数据库 Java mybatis 学习 oracle
一、MyBatis特性MyBatis是一个半自动的ORM（ObjectRelationMapping）框架。（ORM，对象关系型映射，用于在面向对象编程语言和关系型数据库之间建立映射关系）。MyBatis虽然自动化程度相对较低但是灵活性相对较高。Mybatis简化了与数据库的连接过程，因为其内部封装了JDBC的链接过程，所以无需手动建立和管理连接，这使得开发者能够专注于业务逻辑的实现。Mybati
Django ORM系统
1.ORM基础概念1.1什么是ORM？ORM（ObjectRelationalMapping，对象关系映射）是一种编程技术，用于在面向对象编程语言中实现不同类型系统的数据转换。在Django中，ORM充当业务逻辑层和数据库层之间的桥梁。核心映射关系：类（Class）↔数据库表（Table）类实例（Instance）↔表记录（Row）类属性（Attribute）↔表字段（Field）1.2ORM的优
C# 代码（`Hashtable` 和 `SortedList`）张謹礧 c#哈希算法开发语言
一、Hashtable（哈希表）1.基本概念非泛型集合：存储键值对（object类型），通过哈希算法实现快速查找。线程安全：默认非线程安全，可通过Hashtable.Synchronized创建线程安全版本。键的唯一性：键必须唯一，且不可为null（值可为null）。2.创建与初始化//创建空的HashtableHashtablehashtable=newHashtable();//创建并初始化
人脸检测算法——SCRFD 海绵波波107 #计算机视觉算法计算机视觉
SCRFD算法核心解析1.算法定义与背景SCRFD（SampleandComputationRedistributionforEfficientFaceDetection）由JiaGuo等人于2021年在arXiv提出，是一种高效、高精度的人脸检测算法，其核心创新在于：双重重分配策略：样本重分配（SR）：动态增强关键训练阶段的样本数据。计算重分配（CR）：通过神经架构搜索（NAS）优化骨干网络（B
9.IEnumerable可枚举接口 C#例子 WPF例子军训猫猫头华丽文章 windows c#microsoft
privateasyncvoidButton_Click(objectsender,RoutedEventArgse){//调用时可以传入List、Array、HashSet等任何实现了IEnumerable的集合ListmyList=newList{"A","B"};ProcessItems(myList);string[]myArray={"X","Y"};ProcessItems(myArr
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
Java 常用 API 详解：掌握核心类库，提升开发效率大葱白菜 java合集开发语言 java 后端学习个人开发
作为一名Java开发工程师，你每天都在与各种Java标准库打交道。熟练掌握Java中的常用API是提高代码质量、提升开发效率的关键技能之一。本文将带你全面了解Java开发中最常用的API类和接口，包括：java.lang包中的核心类（如String,Object,Math,System）集合框架（Collection,List,Set,Map）多线程相关类（Thread,Runnable,Exec
借助AI学习开源代码git0.7之二核心概念和总结余很多之很多源码学习 git 学习
借助AI学习开源代码git0.7之二核心概念和总结核心概念：对象数据库(ObjectDatabase):内容寻址:所有数据都通过其内容的SHA1哈希值来唯一标识和存储。这意味着任何内容的更改都会导致其SHA1哈希值的变化，从而生成一个新的对象。不可变性:一旦对象被创建并存储，它就是不可变的。这种设计保证了数据的完整性和历史的可靠性。对象类型:Blob(二进制大对象):存储文件的实际内容。它是最基本
vue3+axios请求导出excel文件再希 excel vue.js javascript
在Vue3中使用axios请求导出Excel文件，可以发送一个GET或POST请求，并设置响应类型为blob或arraybuffer，然后使用newBlob()构造函数创建一个二进制文件，最后使用URL.createObjectURL()生成一个可以下载的链接。先看代码importaxiosfrom'axios';//导出Excel文件的函数exportfunctionexportExcel(){
List接口， ArrayList Vector LinkedList 柴... 韩顺平学习 list 数据结构
Collection接口的子接口子类Vector，ArrayList，LinkedList1.元素的添加顺序和取出顺序一致，且可重复2.每个元素都有其对应的顺序索引方法在index=1的位置插入一个对象，list.add(1,list2)获取指定index位置的元素，Objectget(intindex)返回obj在集合中首次出现的位置，intindexOf(Objectobj)返回最后出现的位置
【643】smack-dab in the middle 心际花园
MeaningAveryobviousobjectorplacedirectlyinthemiddleofsomethingelseDialogWhyareyoucoveringyourface?Igotanewzit.Whocares!It’ssmack-dabinthemiddleofmynose!notezitZitsarespotsonsomeone'sskin,especiallyayo
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb