langb2014

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)

1、Abstract：

本文展示一种ConvNets框架，整合了classification, localization, detection。利用multi-scale和sliding window与ConvNets结合达到了很好的效果。本文介绍了一种通过积累predicted bounding boxes而不是通过限制predicted bounding boxes来detection和localization的方法。论文从最好的模型中提取特征，文章称为OverFeat。
2、Introduction：

卷积网络的主要优势是提供end-to-end解决的方案；劣势就是对于标签数据集很贪婪。

ImageNet数据集上的分类任务图片，物体大致分布在图片中心而且感兴趣的物体明显填充在图片中,这就导致分类任务很完美，定位和检测效果很差。感兴趣的物体常常在尺寸和位置（以滑窗的方式）上有变化。

解决这个问题三个ideas：

“The first idea in addressing this is to apply a ConvNet at multiple locations in the image, in a sliding window fashion, and over multiple scales.”

第一个想法就是不同位置，使用滑动窗，不同缩放比例上应用卷积网络。

“the second idea is to train the system to not only produce a distribution over categories for each window, but also to produce a prediction of the location and size of the bounding box containing the object relative to the window. ”

第二个想法就是训练一个卷积网络不仅产生类别分布，还产生一个位置的预测和bounding box的尺寸（包括相对于窗口的物体）；

“The third idea is to accumulate the evidence for each category at each location and size.”

第三个想法就是积累在每个位置和尺寸对应类别的置信度。

在多缩放尺度下以滑窗的方式利用卷积网络用了侦测和定位很早就有人提出了，一些学者直接训练卷积网络进行预测物体的相对于滑窗的位置或者物体的姿势。还有一些学者通过窗口中心像素输入到卷积网络中来分割图像来定位物体。利用分割的方法实现localization好处是bounding contours不必是矩形，region也无需完美地划定目标。缺点是需要像素级的labels来训练。

3、Vision Tasks

分类：是啥预测top-5分类

定位：在哪是啥预测top-5分类+每个类别的bounding box（50%以上的覆盖率认为是正确的）

检测：在哪都有啥

定位是介于分类和检测的中间任务，分类和定位使用相同的数据集，检测的数据集有额外的数据集（物体比较小）。

4、Classification

4.1模型的设计与训练

每个图像被降采样成短边为256个像素，抽取5个大小为221*221的crops，并且进行水平翻转，mini-batches size:128。权重随机初始化:均值0，方差0.01.随着SGD更新，momentum:0.6,l2权重衰减：0.00001.学习率初始为0.05，在（30,50,60,70,80）后通过因子0.5衰减。dropout ratio 0.5应用到最后的全连接层（6th,7th）。

两个模型fast和accurate：

fast结构

1 , 不使用LRN；

2，不使用over-pooling使用普通pooling；

3，第3,4,5卷基层特征数变大，从Alex-net的384→384→256；变为512→1024→1024.

4，fc-6层神经元个数减少，从4096变为3072

5，卷积的方式从valid卷积变为维度不变的卷积方式，所以输入变为231*231

accurate结构

1，不使用LRN；

2，不使用over-pooling使用普通pooling，更大的pooling间隔S=2或3

3，第一个卷基层的间隔从4变为2（accurate 模型），卷积大小从11*11变为7*7；第二个卷基层filter从5*5升为7*7

4，增加了一个第三层，是的卷积层变为6层；从Alex-net的384→384→256；变为512→512→1024→1024.

4.2、Feature Extractor

Fast模型比accurate模型的参数还多，连接数比较符合逻辑思维，为什么参数会多呢？

按理说两张图大小有区别，accurate自然会小，这应该不是根本原因吧，我们知道的caffemodel的参数主要集中在全连接层，第7层的连接数fast模型少，特征图大，说明特征图6*6大于5*5是导致模型参数大的主要因素吧。

4.3、多尺寸分类

Alex-net中，使用multi-view的方式来投票分类测试；然而这种方式可能忽略图像的一些区域，在重叠的view区域会有重复计算；而且还只在单一的图片缩放比例上测试图片，这个单一比例可能不是反馈最优的置信区域。

作者在多个缩放比例，不同位置上，对整个图片密集地进行卷积计算；这种滑窗的方式对于一些模型可能由于计算复杂而被禁止，但是在卷积网络上进行滑窗计算不仅保留了滑窗的鲁棒性，而且还很高效。每一个卷积网络的都输出一个m*n-C维的空间向量，C是分类的类别数；不同的缩放比例对应不同的m和n。

整个网络的子采样比例=2*3*2*3=36，即当应用网络计算时，输入图像的每个维度上，每36个像素才能产生一个输出。在图像上密集地应用卷积网络，对比10-views（图像做了crop，四个corner，加一个中间，总共变成了5个子图像，然后对图像进行翻转，这样就变成了10个图像）的测试分类方法，此时输出分布会降低准确率；因为物体和view可能没有很好的匹配分布（物体和view越好的匹配，网络输出的置信度越高）。这个36是什么呢？这个是针对accurate模型里面的，看下图的红色圈，

红色标记的stride表示的就相当于对原图降采样，所以作者说的：“However, thetotal subsampling ratio in the network described above is 2x3x2x3, or 36.”那么对于221*221的图像来说，通过了前面的conv+pooling就瞬间变成了6*6了。现在可以开心的在这个feature map上做滑动了。可以看到layer7（第一个fc层）的输入是5*5的，也就是说用这个5*5的窗口去6*6的上面滑，就可以得到2*2的窗口了，每一个窗口对应一个位置，将这4个5*5的作为输入，分别输入fc，这样就可以得到4个C向量，C代表要分的1000个类。这样实现了一个粗糙的滑窗。

为什么不用直接输入图像就给出类别呢？那是因为像ImageNet这样的数据，主要的物体是在图像中央，并且大小是填充了图像相当大的部分的，所以就算是有一些variation，那也是CNN能handle的，但是如果在测试中物体只是一个很小尺寸，并且出现在图像的一个角落，那么这个variation对于训练数据来说是完全impossible的。所以直接CNN分类的效果会很差。除非训练数据覆盖了各种尺寸和位置，当然这是non-sense的。文章的亮点：在原图上滑窗是没有明确的特征，那么就在输出的feature map上滑，这样就有针对性。

作者觉得方法还是不好，采取在最后一个max-pooling层换成偏置pooling，偏置pooling也算是一种数据增益技术。

上图是一维的情况，有3种池化组合方法，如果是2维图片的话，那么(△x,△y)就会有9种取值情况(3*3)；如果我们在做图片分类的时候，在网络的某一个池化层加入了这种offset 池化方法，然后把这9种池化结果，分别送入后面的网络层，最后图片分类输出结果就可以得到9个预测结果(每个类别都可以得到9种概率值，然后我们对每个类别的9种概率，取其最大值，做为此类别的预测概率值)。由于论文中图（a）不在一页，就一行，没有截图，图(a)就是一系列操作以后得到的20*20的图，然后做3*3的pooling得到上面说的6*6的feature map，现在用三个offset来做三次pooling，（b）表达了这个思想。这样作者认为就将分辨率提高了3倍。那么横坐标这样有3个offset，纵坐标也是3个，这样一结合，就变成了9个，所以之前的6*6就变成了（6*6）*（3*3），在这一系列的窗口上再去做滑窗，就变成了 4*9=36个位置了。作者最后还做了一个scale上的变换，把图像放缩到6个尺度上，所以这个多尺度的滑窗思想就得到实现了。

结果:

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第6张图片

1，fast模型，比Alex-net结果提升了近1%。本文Alex-net模型结果为18.2%比他们自己测试的高2%左右

2，accurate模型单个模型提升了近4%，说明增大网络可以提高分类效果。

3，采用偏置max-pooling感觉提升效果很小，感觉是因为卷积特征激活值具有很高的聚集性，每个offset特征图很相似，max-pooling后也会很相似。

4，多个缩放比例测试分类对于结果提升比较重要，通过多个比例可以把相对较小的物体放大，以便于特征捕捉。

4.4、卷积网络和滑窗效率

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第7张图片

这个图什么意思呢？

例如训练阶段在小的view（如图，14*14）下，训练网络；测试阶段在多个较大的图片上测试，由于每个14*14的view区域产生一个分类预测分布，上图在16*16的图片上测试，有4个不同的14*14的view，所以最后产生一个4个分类预测分布；组成一个具有C个特征图的2*2分类结果图，然后按照1*1卷积方式计算全连接部分；这样整个系统类似可以看做一个完整的卷积系统。

5、Localization

基于训练的分类网络，用一个回归网络替换分类器网络；并在各种缩放比例和view下训练回归网络来预测boundingbox；然后融合预测的各个bounding box。

5.1、生成预测

同时在各个view和缩放比例下计算分类和回归网络，分类器对类别c的输出作为类别c在对应比例和view出现的置信分数；

5.2、回归训练

输入是第5层的pooled feature maps，有2个完全连接size 4096、1024 channels隐层，每个类的输出层不同。4个unit specify the coordinates for the bounding box edges。（输出层有4个单元，分别是预测bounding box的四个边的坐标）
前面的multi-scale能提升预测的性能。

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第8张图片

使用预测边界和真实边界之间的L2范数作为代价函数，来训练回归网络。最终的回归层是一个类别指定的层，有1000个不同的versions。训练回归网络在多个缩放比例下对于不同缩放比例融合非常重要。在一个比例上训练网络在原比例上表现很好，在其他比例上也会表现的很好；但是多个缩放比例训练让预测在多个比例上匹配更准确，而且还会指数级别的增加预测类别的置信度。

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第9张图片

上图展示了在单个比例上预测的在各个offset和sliding window下 pooling后，预测的多个bounding box；从图中可以看出本文通过回归预测bounding box的方法可以很好的定位出物体的位置，而且bounding box都趋向于收敛到一个固定的位置，而且还可以定位多个物体和同一个物体的不同姿势。但是感觉offset和sliding window方式，通过融合虽然增加了了准确度，但是感觉好复杂；而且很多的边框都很相似，感觉不需要这么多的预测值。就可以满足超过覆盖50%的测试要求。

5.3、联合预测

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第10张图片

a）在6个缩放比例上运行分类网络，在每个比例上选取top-k个类别，就是给每个图片进行类别标定Cs

b）在每个比例上运行预测boundingbox网络，产生每个类别对应的bounding box集合Bs

c）各个比例的Bs到放到一个大集合B

d）融合bounding box。具体过程应该是选取两个bounding box b1，b2；计算b1和b2的匹配分式，如果匹配分数大于一个阈值，就结束，如果小于阈值就在B中删除b1，b2，然后把b1和b2的融合放入B中，在进行循环计算。

match score是两个bounding boxes中心的距离和它们交叉面积之和。
box merge计算两bounding boxes的coordinates的平均值。
最后的预测是找maximum class scores的那个merged bounding boxes。

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第11张图片

第一行图片，不同的缩放比例上，预测结果不同，例如在原始图像上预测结果只有熊，在放大比例后（第三，第四个图），预测分类中不仅有熊，还有鲸鱼等其他物体

第二行图片，通过offset和sliding window的方式可以有更多的类别预测

第三行图片，在每个比例上预测bounding box，放大比例越大的图片，预测的bounding box越多

第四行图片，融合bouding box

在最终的分类中，鲸鱼预测和其他的物体消失不仅使因为更低的置信度，还有就是他们的bounding box集合Bs不像熊一样连续，具有一致性，从而没有持续的置信度积累。通过这种方式正确的物体持续增加置信度，而错误的物体识别由于缺少bounding box的一致性和置信度，最终消失。这种方法对于错误的物体具有鲁棒性（但是图片中确实有一些鱼，虽然不是鲸鱼；但是系统并没有识别出来；也可能是类别中有鲸鱼，但是没有此种鱼的类别）。

实验结果：

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第12张图片

本文多个multi-scale和multi-view的方式非常关键，multi-view降低了4%，multi-scale降低了6%。令人惊讶的是本文PCR的结果并没有SCR好，原因是PCR的有1000个模型，每个模型都是用自己类别的数据来进行训练，训练数据不足可能导致欠拟合。而SCR通过权值共享，得到了充分的训练。训练分类模型只是使用了单尺度，但后面训练定位模型时候用到了多尺度，个人认为是为了增加样本——因为训练1k个定位模型的话，每类的样本太少了。“测试时实现多视角多尺度”方法，其本质上就是滑动窗口——多视角≈滑动到不同的位置，多尺度≈大小不一的窗口。
6、Detection

检测和分类训练阶段相似，但是是以空间的方式进行；一张图片中的多个位置可能会同时训练。和定位不通过的是，图片内没有物体的时候，需要预测背景。

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第13张图片

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第14张图片

结果：

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)_第15张图片

本文的方法在ILSVRC中获得了19%，在赛后改进到24.3%。

7、Discussion

overfeat ranks 4th on classification, 1st on localization and 1st on detection.
本文解释了ConvNets在localization and detection上高效的原因。
提出了一个结合分类、定位、检测的流程，它共享特征直接从像素点学习。它用multi-scale、sliding window方法。
overfeat可以在以下方向改进：

localization时没有实时反馈到整个网络，反馈后效果会更好。
本文使用 l2 loss（衰退网络的参数），而不是直接优化intersection-over-union (IOU) 准则。
变换bounding box的参数帮助输出去相关，这有助于网络训练。

=========================================================================

感谢：

https://yufeigan.github.io/2014/11/23/OverFeat-Integrated-Recognition-Localization-and-Detection-using-Convolutional-Networks/

http://azraelzhu.w159.mc-test.com/index.php/overfeat/

http://blog.csdn.net/seavan811/article/details/49825891

https://www.zybuluo.com/coolwyj/note/203086

http://blog.csdn.net/whiteinblue/article/details/43374195

《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
《Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision》论文阅读之DCMS 山水之间2018 无人驾驶 Paper Reading 大数据轨迹预测自动驾驶人工智能
目录摘要1简介2相关工作3.方法3.1结构3.2双重一致性约束3.3多伪目标监督3.4学习4实验4.1实验装置4.2实验结果4.3消融研究4.4泛化能力5限制6结论DCMS：具有双重一致性和多伪目标监督的运动预测香港科技大学暂无代码。摘要我们提出了一种具有双重一致性约束和多伪目标监督的运动预测新框架。运动预测任务通过结合过去的空间和时间信息来预测车辆的未来轨迹。DCMS的一个关键设计是提出双重一致
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
【论文阅读|cryoET】本周粗读汇总吃吃今天努力学习了吗冷冻电镜三维重建论文阅读
论文1：CryoDRGN-ET：深度重建生成网络以可视化细胞内动态生物分子Abstract虽然冷冻电子断层扫描可以以分子分辨率揭示结构，但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型，并且可以捕获成分和构象不同的状态。通过原位恢复肺炎支原体核糖体中
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation 进击的乔洋论文阅读语言模型人工智能计算机视觉
【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上（Inthisregard），针对WSSGG的研究主要利用图像标题（imagecaption）来获取非局部三元组，而主要关注将非局部三元组建立在图
Code Llama: Open Foundation Models for Code论文阅读 yang_daxia 大模型 llama codellama
整体介绍CodeLlama发布了3款模型，包括基础模型、Python专有模型和指令跟随模型，参数量分别为7B、13B、34B和70B。这些模型在长达16ktokens的序列上训练。都是基于Llama2。作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
VIT论文阅读： A Image is Worth 16x16 Words Undefined游侠论文阅读
简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor
【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation Bosenya12 模型窃取科研学习论文阅读知识蒸馏成员推理攻击黑盒
摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks(阅读)

你可能感兴趣的:(论文阅读)