未见鹿

深度学习目标检测论文1（YOLOv1论文的翻译）

前言

因为一些项目需要使用到yolov3，为了能深刻的理解yolov3算法，因而翻译了yolo系列论文。

You Only Look Once:Unified, Real-Time Object Detection

摘要

我们提出了一种新的目标检测算法:YOLO。先前通过重用分类器实现目标识别，而本文则把目标识别问题看作回归问题，直接解决目标是什么以及目标在哪里的问题。神经网络通过浏览整张图片，可以直接在识别中预测目标是什么并同时给出目标的位置。由于整个检测过程只有一个神经网络，因而可以通过端到端的方法直接优化识别性能。

这种结构的模型速度非常快。本文基础的YOLO模型可以每秒处理45张图片。一个结构上缩水版本的神经网络： fast yolo，则能够达到每秒处理155帧的惊人速度，同时其mAP检测精度也能够达到其他实时检测算法的两倍。与其他顶级的检测系统相比较，YOLO有较多的定位误差，不过在背景上检测到假阳性的目标次数却并不多。最后，YOLO能够学到目标抽象和泛化的特征，因而当把一张自然图片泛化到其他领域（如艺术）时，YOLO比其他的一些检测方法（包括DPM和R-CNN）更优秀。

1 介绍

人类只需要扫一眼图片立马就知道了图片中的物体是什么，它们在哪里以及它们在干什么。人类的视觉系统非常快而且非常准确，因而允许我们完成一些比较复杂的工作（比如自动驾驶）。快速准确的目标识别算法能够允许计算机不需要一些专用传感器而实现自动驾驶，能够确保辅助装置把实时的场景信息传递给人类使用者，同时也打开了实现通用快速响应的机器人操作系统的这种可能。

当前的目标检测算法重用分类器用于目标识别。当进行识别时，这些系统会给对象提供一个分类器，然后对图像不同位置和区域进行分类。像DPM系统，使用了滑动窗口法选择图像的不同位置和区域，然后提供给分类器进行目标识别。

当前大部分的方法如R-CNN，首先使用region proposal 生成可能存在目标的边界框区域，然后对这些精心挑选出来的区域进行分类，精修边界框以消除重复检测区域，并根据场景中的其它目标重新定位边界框。因而基于上述的这些复杂处理流程，目标识别起来特别的慢；而且因为每一个独立的环节都需要进行单独的训练，因而很难优化。

我们把目标识别问题视作一个回归问题，因而直接根据图片的像素预测出目标的bounding box坐标以及目标类别。基于本文的识别系统，我们只需要看一次图片就能解决目标是什么以及它们在哪里的问题。

YOLO的结构非常简单，如图1。一个单独的卷积神经网络即能够同时预测多个bounding boxes以及这些boxes的类别概率。YOLO以整张图片进行训练，所以能够直接优化检测的性能。这种统一的模型相比较传统的目标检测方法具有很多的优点。

Figure 1: The YOLO Detection System. Processing images with YOLO is simple and straightforward.

1.检测系统把输入图片reshape为448*448;

2.使用单独的一个卷积神经网络处理图片；

3.由模型的置信度对所得到的检测进行阈值处理；

       第一，YOLO非常的快。由于本文把目标识别视作回归问题，不需要很复杂的处理流程，所以速度比较快。在测试目标识别时，我们只需要给我们的神经网络一张图片即可。我们的基础神经网络在Tian X GPU 能够达到每秒处理45帧，而快速版本的可以每秒处理150帧。这意味着我们能够以低于25毫秒的延迟实时处理视频流。此外，YOLO的mean average precision大概是其他实时检测精度的两倍。关于我们的系统在网络摄像头上实时运行的演示，请参阅我们的项目网页：http://pjreddie.com/yolo/。
       第二, YOLO使用整张图片进行识别。不同于滑窗法或者是基于region proposal 技术，YOLO无论是在训练还是测试的时候看到的都是一整张照片，因而它隐式地编码了关于类的上下文信息以及它们的外观。 Fast R-CNN, 另外一种顶级的目标检测方法，有时会把背景块误判为目标就是因为它看不到较大的这种上下文关系。与Fast R-CNN相比较，YOLO的背景误检数量少了一半。
       第三，YOLO可以学到目标的抽象特征。当使用一般自然图像进行训练并在艺术作品上进行测试时，YOLO比其他的一些顶级目标检测方法比如DPM和R-CNN表现的更为优异。由于YOLO具有高度泛化能力，因此在应用于新领域或碰到意外的输入时出问题的可能性比较小。
       不过YOLO在精度上还是比一些顶级的目标检测系统还是差一点。尽管YOLO能够快速的识别图像中的物体，但是YOLO还需要努力改善目标的定位精度问题，特别是一些小目标。我们正在实验并努力找到速度和精度的平衡。此外，所有训练和测试程序都是开源的，各种经预训练的模型也都可以使用和下载。

2 统一检测

我们把目标识别之前所使用的各个独立部分统一为一个单独的神经网络。我们的神经网络以一整张图片作为特征预测所有的目标边界框及目标的类别。这意味着我们的网络全面地推理整张图像和图像中的所有目标。YOLO设计可实现端到端的训练和实时的速度，同时保持较高的平均精度。我们的识别系统把输入图片划分为S*S的网格. 如果某个对象的中心落入到某个网格内，那么这个网格就负责预测这个目标。

每个网格负责预测B个边界框以及它们的置信度分数。这些置信度分数反映了该模型对边界框是否包含目标的信心，以及模型预测边界框位置的准确程度。这里我们定义置信度为：

如果网格中没有物体，那么置信度为零。否则，我们希望置信度分数等于预测框与真实值之间联合部分的交集（IOU）。

每个边界框包含了5个预测值：x，y，w, h和置信度。(x，y)坐标表示边界框相对于网格单元边界框的中心。宽度和高度是相对于整张图像预测的。最后，置信度预测表示预测框与实际边界框之间的IOU。

每个网格还预测了C个条件概率Pr(Class|Object). 这些概率以包含目标的网格单元为条件。每一个网格只预测一组条件概率值，而不管有多少个边界框。

在测试的时候，使用条件概率分别乘以每个boxes的confidence，则得到了每个box在每个类别上的得分。

这些得分代表了每个类别出现在边界框中的概率，以及预测的边界框同目标对象的契合程度。

图2：模型。我们的模型把目标识别视作回归问题。它把输入图像分为 S ×S 方格，并且每个方格预测B个边界框，这些边界框的置信度，以及C个类别的概率。这些预测值被编码为S × S × (B ∗ 5 + C) 张量。

为了在PASCAL VOC上评估YOLO时，我们令S=7，B=2。PASCAL VOC有20个类别的对象，所以C=20。因此，我们最终的预测输出是一个 7 × 7 × 30 张量。

2.1 网络设计

我们使用卷积神经网络实现我们的模型，并且在PASCAL VOC数据集上进行评估。前面的卷积层提取图像中的特征，而全连接层则预测输出的概率和坐标。

我们神经网络的结构受到了GoogleNet的启发。本文的神经网络有24个卷积层以及2个全连接层，不过并没有使用GoogleNet的inception 模块，我们的神经网络仅仅在3×3的卷积层后面使用了 1×1 卷积层进行降维。。整个神经网络如图3所示。

图3: 结构. 我们的神经网络含有24个卷积层，2个全连接层。选择使用1 × 1的卷积层降低特征空间的维度。我们在ImageNet 上首先进行预训练，并令输入图片的分辨率为（224 × 224）；不过当进行识别时，再将恢复分辨率为448 × 448。

我们还训练了快速版本的YOLO，旨在推动快速目标检测的界限。快速YOLO使用具有较少卷积层（9层而不是24层）的神经网络，在这些层中使用较少的滤波器。除了网络规模之外，YOLO和快速YOLO的所有训练和测试参数都是相同的。
我们网络的最终输出是7×7×30的预测张量。

2.2 训练

我们在ImageNet 1000类竞赛数据集上对卷积层进行预训练。预训练时，我们使用图3中的前20个卷积层，接着是平均池化层和全连接层（评论：ImageNet是一个分类训练集，所以预训练的时候模型结构与识别的时候不相同）。我们对这个网络进行了大约一周的训练，并且在ImageNet 2012验证集上获得了单一裁剪图像88%的top-5准确率，与Caffe模型池中的GoogLeNet模型相当。我们使用Darknet框架进行所有的训练和推断。

然后我们转换模型来执行检测。Ren等人表明，预训练网络中增加卷积层和连接层可以提高性能[29]。按照他们的例子，我们添加了四个卷积层和两个全连接层，并且具有随机初始化的权重。检测通常需要细粒度的视觉信息，因此我们将网络的输入分辨率从224×224变为448×448。
我们的最后一层预测类概率和边界框坐标。我们通过图像宽度和高度来规范边界框的宽度和高度，使它们落在0和1之间。我们将边界框x和y坐标参数化为特定网格单元位置的偏移量，所以它们边界也在0和1之间。

我们在最后一层使用了线性激活函数，其他所有层则使用下面的leaky rectified linear 激活函数：

我们优化了模型输出中的平方和误差。我们使用平方和误差，因为它很容易进行优化，但是它并不完全符合我们最大化平均精度的目标。分类误差与定位误差的权重是一样的，这可能并不理想。另外，在每张图像中，许多网格单元不包含任何对象。这将这些单元格的“置信度”分数推向零，通常压倒了包含目标的单元格的梯度。这可能导致模型不稳定，从而导致训练早期发散。

为了纠正这些问题，我们提高了来自边界框坐标预测的损失，并减小了来自不包含目标边界框的置信度预测损失。我们使用两个参数λcoord和λnoobj来完成这个工作。我们设置λcoord=5和λnoobj=.5。

平方和误差把大边界框和小边界框的误差等同。而我们的代价函数应该反映出，大边界框小偏差的重要性不如小边界框小偏差的重要性。为了部分解决这个问题，我们直接预测边界框宽度和高度的平方根，而不是宽度和高度。。

YOLO每个网格单元预测多个边界框。在训练时，每个目标我们只需要一个边界框预测器来负责。我们指定一个预测器“负责”根据哪个预测与真实值之间具有当前最高的IOU来预测目标。这导致边界框预测器之间的专业化。每个预测器可以更好地预测特定大小，方向角，或目标的类别，从而改善整体召回率。

在训练的时候，我们优化如下的由多个部分构成的代价函数：

代表了第i个cell中存在物体；

代表了第j个bounding boxes对该次预测负责。

注意，如果目标存在于该网格单元中（前面讨论的条件类别概率），则损失函数仅惩罚分类错误。如果预测器“负责”实际边界框（即该网格单元中具有最高IOU的预测器），则它也仅惩罚边界框坐标错误。

我们对Pascal VOC 2007和2012的训练和验证数据集进行了大约135个迭代周期的网络训练。在Pascal VOC 2012上进行测试时，我们的训练包含了Pascal VOC 2007的测试数据。在整个训练过程中，我们使用了64的批大小，0.9的动量和0.0005的衰减（评论：注意训练参数）。

我们的学习率方案如下：对于第一个迭代周期，我们慢慢地将学习率从10−3提高到10−2。如果我们从高学习率开始，我们的模型往往会由于不稳定的梯度而发散。我们继续以10−2的学习率训练75个迭代周期，然后用10−3的学习率训练30个迭代周期，最后用10−4的学习率训练30个迭代周期。

为了避免过度拟合，我们使用丢弃和大量的数据增强。在第一个连接层之后，丢弃层使用=.5的比例，防止层之间的互相适应。对于数据增强，我们引入高达原始图像20%大小的随机缩放和转换。我们还在HSV色彩空间中使用高达1.5的因子来随机调整图像的曝光和饱和度。

2.3 前向传播

和训练时一样，在检测图像时则之需要神经网络进行一次计算。在Pascal VOC上，每张图像上网络预测98个边界框和每个框的类别概率。不像基于分类器的检测方法，由于YOLO只需运行一个网络进行计算，所以运行速度很快。
网格设计强化了边界框预测中的空间多样性。通常我们很清楚物体落入哪个网格中，并且模型为每个物体只预测一个边界框。因而，一些比较大的物体或者是在跨越多个网格边界的物体，可能会被多个网格都很好的检测出来。可以使用NMS（非极大值抑制）来解决这种多重检测的问题。虽然NMS对YOLO性能的影响不像对R-CNN、DPM性能影响那么大，但也能提升2-3%的mAP值。

2.4 YOLO的局限性

YOLO给与边界框施加了强制的空间约束，也就是一个网格预测两个边界框且只能预测一个类别。这种强制的空间约束限制了我们的模型检测周围物体的数量。因而我们的模型正在努力解决识别出一些成群出现小物体（比如成群飞行的鸟类）的问题。

由于我们的模型学习从数据中预测边界框，因此它很难泛化到新的、不常见的方向比或配置的目标。我们的模型也使用相对较粗糙的特征来预测边界框，因为我们的架构具有来自输入图像的多个下采样层。

最后，当我们训练一个近似检测性能的损失函数时，我们的损失函数会同样的对待小边界框与大边界框的误差。大边界框的小误差通常影响较小，但小边界框的小误差对IOU的影响要大得多。我们的主要错误来源是不正确的定位。

3 与其他检测系统对比

4 实验

4.1和其他实时系统对比

4.2. VOC 2007误差分析

4.3 Fast R-CNN和YOLO相结合

4.4 VOC 2012结果

4.5 抽象性艺术作品中的人物检测

5 实地场景的实时检测

6 结论

我们介绍了YOLO，一种统一的目标检测模型。我们的模型构建简单，可以直接在整张图像上进行训练。与基于分类器的方法不同，YOLO直接在对应检测性能的损失函数上训练，并且整个模型联合训练。

快速YOLO是文献中最快的通用目的的目标检测器，YOLO推动了实时目标检测的最新技术。YOLO还很好地泛化到新领域，使其成为依赖快速，强大的目标检测应用的理想选择。

补充：

《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
《Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision》论文阅读之DCMS 山水之间2018 无人驾驶 Paper Reading 大数据轨迹预测自动驾驶人工智能
目录摘要1简介2相关工作3.方法3.1结构3.2双重一致性约束3.3多伪目标监督3.4学习4实验4.1实验装置4.2实验结果4.3消融研究4.4泛化能力5限制6结论DCMS：具有双重一致性和多伪目标监督的运动预测香港科技大学暂无代码。摘要我们提出了一种具有双重一致性约束和多伪目标监督的运动预测新框架。运动预测任务通过结合过去的空间和时间信息来预测车辆的未来轨迹。DCMS的一个关键设计是提出双重一致
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
【论文阅读|cryoET】本周粗读汇总吃吃今天努力学习了吗冷冻电镜三维重建论文阅读
论文1：CryoDRGN-ET：深度重建生成网络以可视化细胞内动态生物分子Abstract虽然冷冻电子断层扫描可以以分子分辨率揭示结构，但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型，并且可以捕获成分和构象不同的状态。通过原位恢复肺炎支原体核糖体中
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation 进击的乔洋论文阅读语言模型人工智能计算机视觉
【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上（Inthisregard），针对WSSGG的研究主要利用图像标题（imagecaption）来获取非局部三元组，而主要关注将非局部三元组建立在图
Code Llama: Open Foundation Models for Code论文阅读 yang_daxia 大模型 llama codellama
整体介绍CodeLlama发布了3款模型，包括基础模型、Python专有模型和指令跟随模型，参数量分别为7B、13B、34B和70B。这些模型在长达16ktokens的序列上训练。都是基于Llama2。作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
VIT论文阅读： A Image is Worth 16x16 Words Undefined游侠论文阅读
简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor
【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation Bosenya12 模型窃取科研学习论文阅读知识蒸馏成员推理攻击黑盒
摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p