One__Coder

【Faster RCNN】Faster R-CNN笔记

论文理论笔记部分：

rcnn是将每个proposal都放入到卷积层来进行计算，fast rcnn呢，则是将图片和proposal作为输入，并且proposal是为feature map的提取提供位置信息、为regression提供位置信息、以及在classification提供位置信息。在这里，faster rcnn的输入是一张图，提取到了共享的feature map后，将feature map用来进行RPN提取proposals操作以及联合RPN的输出进行ROIs操作，最后作为fast rcnn网络的输入来做回归和分类。

图片来源

Two modules:

a deep fully convolution network that proposes regions as an attention mechanism.
the fast RCNN detector that uses the proposed regions.

faster RCNN

1、RPN（Region Proposal Networks）

sppnet和fast RCNN减少了检测网络的时间，但是region proposal还是耗费很多时间。FASTER-RCNN解决了这个问题，提出了Region Proposal Network（RPN）代替selective search部分。

输入：image with any size；

输出：rectangular obect proposals with objectness score。

ultimate goal: share computation with a Fast R-CNN，implement end-to-end network.

Fast RCNN结构图

为了使RPN和fast rcnn分享卷积特征，所以这两个网络要使用同样的卷积层。在论文中，使用了ZF和VGG19两个网络的卷积层，作为共享卷积层。

如上图所示，为了生成region proposals，在最后一个卷积层上，用一个n*n（n=3）的小窗口（卷积层）滑动每个位置，把特征降为256维。把这256为特征分别输入到连个全连接层cls和reg。

2、Translation-Invariant Anchors（平移不变性）：

如果移动了一张图像中的一个物体，这proposal应该也移动了，而且相同的函数可以预测出热议未知的proposal。MultiBox不具备如此功能。平移不变性可以介绍模型大小。

在每个滑动窗口的位置预测k个region proposal（实验默认k=9）叫做anchor，默认使用3种尺度（scale:实验中使用128^2，256^2，512^2）和3种长宽比（ratio：实验中使用1：1，1：2，2：1），以滑动窗口的中心点为中心（An anchor is centered at the sliding window in question.）。对于一个convolutional feature map of size ，一共有个anchor（这里因为每个窗口点产生一个feature map 单元，每个单元里有k个anchors）。

【our anchor-based method is built on a pyramind of anchors, which is more cost-efficient.Our method classifies and regresses bounding boxes with reference to anchor boxes of multiple scales and aspect ratios】

3、Multi-Scale Anchor as Regression Reference

Two popular ways for multi-scale predictions

based on image/feature pyramids,如DPM and CNN-based methods。图像被resized成不同尺寸，然后为每一种尺寸计算feature maps(HOG或者deep convolutional features)。这种方法比较费时。
use sliding windows of multiple scales(and/or aspect ratio) on the feature maps——filters金字塔。第二种方法经常和第一种方法一起使用。

在本论文中：anchor金字塔——more cost-efficient，只依靠单尺寸的图像和feature map。

the design of multiscale anchors is a key component for sharing features without extra cost for addressing scales.

4、Loss Function for learning region proposal

为了训练PRNs，赋予anchors二值的类标对应是否包含object（只是是否包含有对象，不分类）。来对anchors赋label：

positive label：
- the anchor/anchors with the highest IOU overlap with a ground-truth box,
- or，an anchor that has an IOU overlap higher than 0.7 with any group-truth box.
negative label:

IOU ratio < 0.3 for all groud-truth boxes.

其余的非P非N的anchors have no contribution.

损失函数【 $L_{cls}$ 是log loss， $L_{reg}$ 是smooth_L1 loss】：

$L({P_i}, {t_i}) =\frac{1}{N_{cls}}\sum_iL_{cls}(P_i, p_i^*)+\lambda \frac{1}{N_{reg}}\sum_iP_i^*L_{reg}(t_i, t_i^*)$

tips：

is the index of an anchor

is the predicted probability of anchor i being an object.

为真实值 1 or 0

是预测边界框四个坐标组成的向量

normalized by $N_{cls}, N_{rcg}$ ，weighted by a balanced parameter $\lambda$ .【在论文实验代码中： $N_{cls}=256$ ， $N_{reg}$ ~ $2,400,\lambda =10$ 】

for bounding box：

，

tips：——>predicted box, ——>anchor box,——>groud-truth box。x与y是box的中心坐标，w，h为宽和高。

可以认为是从anchor box回归到附近的gound truth box。

5、Training RPNs

image-centric sampling strategy
mini-batch arises from a single image that contains many positive and negative example anchors.
随机在一张图片中采样256个anchors来计算一个mini-batch的loss function。正负anchors=1:1
all new layers的权值初始化：高斯分布( $\mu =0$ , $\sigma =0.01$ ), all other layers（比如共享卷积层）用imageNet来权值初始化。用ZF net来进行微调。
学习率：0.001(60k)——>0.0001(20k)
动量(momentum)：0.9
weight decay：0.0005

6、Sharing Feature for RPN and Fast R-CNN

sharing convolutional layers between the two networks, rather than learning two separate networks
三种训练的方法：
- （1）Alternative training：迭代，先训练RPN，然后用RPN的网络权重对Fast-rcnn网络进行初始化，并用之前RPN输出的proposal去作为输入去训练Fast R-CNN。被Fast R-CNN微调的网络然后用来初始化RPN，以此迭代。本论文所有的实现都是用该方法。
- （2）Approximate joint training：RPN和fast R-CNN融合到一个网络中进行训练。这里会有一个小瑕疵，就是会忽略掉RPN部分位置回归在反向传播时候的导数(end2end,代码常用实现)。即在下面结构中的rpn_bbox_pred-------------->proposal时，在反向传播时会切断这条路的计算，因为不方便求出其值，所以直接被忽略掉。（某一份代码里的做法）

- （3）Non-Approximate joint training：解决第二种的瑕疵，但是paper中没有提到。
- （4）four-step Alternating Training
4-step Alternating Traing【作者发布的源代码】
- step1:train RPN, initialized with an ImgNet-pre-trained model and fine-tuned end-to-end for the region tack.
- step2:train a separate detection network by Fast R-CNN using the proposals generated by the step1 RPN. This network is also initialized by the ImgNet-pre-trained model.At this point, the two network do not share conv layers.
- step3:use the detector network to initialize RPN training, but we fix the shared conv layers and only fine-tuned the layers unique to RPN. Now the two networks share conv layers.
- step4:keep the shared conv layers fixed, fine-tune the unique layers of Fast R-CNN.

7、implementation Details

Multi-scale and speed-accuracy之间的trade-off
To reduce redundancy, we adopt non-maximun-suppression(NMS) on the proposal regions based on their cls scores.

8、网络结构（1）

（1）VGG介绍：

VGG-16:VGG名字来自于在ImageNet ILSVRC 2014竞赛中使用此网络的小组组名，首次发布于论文[Very Deep Convolution Networks for large-Scale Image Recognition]。

当使用VGG作为分类任务时，其输入是224x224x3的张量，在分裂任务中输入图片尺寸固定，因为网络最后一部分的全连接层需要固定长度的输入。在接入全连接层时，通常需要将最后一层卷积的输出展开成一维张量。
因为要使用卷积网络中间层的输出所以输入图片的尺寸不再有限制。因为只有卷积层参与计算。
每一层卷积网络都在前一层的基础上提取了更加抽象的特征。第一层学习到了简单的边缘，第二层寻找目标边缘的模式，以激活后续卷积网络中更加复杂的形状。最终，我们得到了一个在空间维度上比原始图片小很多，但表征更加深的卷积特征图。特征图的长和宽会随着卷积层间的池化二缩小，深度会随着卷积层过滤器的数量而增加。

左侧：锚点，中心：特征图空间单一锚点在原图中的表达，右侧：所有锚点在原图中的表达

（2）RPN

RPN采用卷积特征图并在图像上生成proposal。

RPN接受所有的参考框（锚点）并为目标输出一套好的建议。RPN会：(i)输出锚点作为目标的概率，但是它不关心分类（2）：输出边框回归，用来调整锚点以更好的拟合其预测的目标。
RPN是用完全卷积的方式实现的，用基础网络返回的卷积特征图作为输入。首先，我们使用一个有256个通道和3x3卷积核大小的卷积层，然后我们有两个使用1x1卷积核并行卷积网络，其通道数量取决于每个点的锚点数量。

基于区域的卷积神经网络（R-CNN）是Faster R-CNN工作流的最后一步。从图像上获得卷积特征图之后，用它通过RPN来获得目标建议并最终为每个建议提取特征(通过RoI Pooling），最后我们需要使用这些特征进行分类。R-CNN试图模仿分类CNNs的最后阶段，在这个阶段用一个全连接层为每个目标类输出一个分数。

9. 网络结构（2）：参考自http://huchaowei.com/2018/01/16/faster-rcnn%E7%BD%91%E7%BB%9C%E5%89%96%E6%9E%90/

faster R-CNN=特征提取+RPN+fast R-CNN组成，这里选择ZF(VGG16)为作为特征提取的网络，再介入RPN，生成proposals。

四个部分：

Conv layers：使用你一组基础的conv+relu+pooling层提取image的feature maps
Region Proposal Networks（RPN）：该层生成一系列anchors并映射到原图，然后通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors获得精确的proposals.
Roi Pooling：该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature，送入后续全连接层判定目标类别。
Classification和bbox regression：利用proposal feature maps计算proposal的类别，同时再次bounding box regression获取检测框最终的精确位置。

如上图：

Conv layers：conv layers部分共分为13个conv层，13个relu层，4个pooling层。为了保证Con layers生成的feature map都可以和原图对应起来，卷积过程中使用pad保证卷积后宽高不变，经过一次pooling操作，宽高变为原来的1/2，一个MxN大小的矩阵经过conv layers固定变为(M/16)x(N/16)。一共有四次pooling，故一共是1/16。在feature后的3x3卷积，有256个通道。

RPN

RPN：网络分为两条线，上面的一条通过softmax分类anchors获得foreground和background（检测目标是foreground），下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。（一条分类一条回归，分类是有无目标的分类）最后的Proposal层则负责综合foreground和bounding box regression偏移量获取proposals，同时剔除大小和超出边界的proposals。
ROI pooling层负责收集proposal，统一proposals的尺度，送入后续网络。它有两个输入：原始的proposal boxes（大小各有不同）以及原始的feature maps
classification：classification部分利用已经获取的Proposal feature maps，通过full connect层与softmax计算每个proposal具体属于哪个类别，输出cls_prob概率向量，同时再次利用bounding box regression获取每个proposal的位置偏移量bbox_pred，用于回归更加精确的目标检测框。
- 通过全连接层和softmax对proposal进行分类，这实际上已经是识别的范畴了。
- 再次对Proposal进行bounding box regression，以获取更高精度的rect box。

Faster R-CNN训练：

ZF网络结构图（bone net）

faster R-CNN是在已经训练好的model（如VGG_CNN_M_1024, VGG, ZF）的基础上进行训练。实际训练分为6个步骤：

在已经训练好的model上，训练RPN网络，对应stage1_rpn_train.pt
利用第一步训练好的RPN，收集proposals，对应rpn_test_pt
第一次训练Faster RCNN网络，对应stage1_fast_rcnn_train.pt
第二次训练RPN网络，对应stage2_rpn_train.pt
再次利用第四步训练好的RPN，手机proposals，对应rpn_test.pt
第二次训练Fast R-CNN，对应stage2_fast_cnn_train.pt

可以看到训练的过程是一个”迭代“的过程，不过只是两次，两次的原因是：A similar alternative training can be run for more iterations. but we have observed negligible improvements。即更多了没什么效果提升。

一些细节【推荐】：

提取特征是与训练好的模型提取图片的特征。论文中主要使用的是caffe的预训练模型VGG16。最后提取出feature map出来。
RPN：
- 作者使用RPN，产生anchor是通过对每个feature map中的点都使用3种scale和3种ratio的排列组合共九种anchor。然后用这九种anchor在feature map左右上下移动，如：对一个512x62x37的feature map，有62x37x9=20000个anchor。也就是对一张图片，有20000个左右的anchor。
- anchor的数量和feature map的数量有关，不同的feature map对应的anchor数量也不一样。RPN在CNN提取feature map的基础上，再增加一个卷积，然后利用两个1x1的卷积分别进行二分类和位置回归。进行分类的卷积核通道数量为9x2（9个anchor，每个anchor二分类，使用交叉熵损失=-yloga-(1-y)log(1-a) ），进行回归的卷积核通道数为9x4（9个anchor，每个anchor有四个位置）。RPN是一个全卷积网络，这样对输入图片的尺寸没有要求。
- 接下来要做的就是将20000多个候选的anchor选出256个anchor来进行分类和位置回归。选择过程前面有讲到。对于每个anchor，要么为1（前景），要么为0（背景），而gt_loc则是由四个位置参数（tx, ty, tw, th）组成，按照上面的回归公式比直接回归坐标更好。计算分类损失用的是交叉熵损失，而计算回归损失用的是Smooth_l1_loss。在计算回归损失的时候，只计算正样本（前景）的损失，不计算负样本的损失。
- 现在利用RPN可以从上万个anchor中寻找到一定数目更有可能的候选框。在训练RCNN时，这个数目是2000，在测试推理阶段，这个数目是300（为了速度），ROI不是单纯的从anchor中选取一些出来作为候选框，它还会利用回归参数，微调anchor的形状和位置。可以这么理解：在RPN阶段，先通过feature map生成成千上万个anchor，然后利用ground truth Bounding boxes，训练这些anchor，而后从anchor中找出一定数目的候选区域（RoIs），RoIs在下一个阶段用来训练RoIHead，最后生成Predict Bounding Boxes。
虽然原始论文中使用4-Step Alternating Training，即四步交替迭代训练，然而现在在GitHub上，大多是采用的近似联合训练（Approximate Joint training），端到端，速度更快。那么Approximate Joint training是通过将RPN分类损失、回归损失、RoI分类损失、回归损失相加来作为最后的损失，来进行反向训练。
源码中的三个creator
- AnchorTargetCreator：负责在训练RPN的时候，从上万个anchor中选择一些（比如256）进行训练，以使的正负样本的比例大概是1：1，同时给出训练的位置参数目标。即返回gt_rpn_loc和gt_rpn_label。
- ProposalTargetCreator：负责在训练RoIHead/Fast RCNN的时候，从RoIs选择一部分（比如128）用以训练。同时给定训练目标，返回（sample_RoI，gt_RoI_loc，gt_RoI_label）
- ProposalCreator：在RPN中，从上万个anchor中，选择一定数目（2000或者300），调整大小和位置，生成RoIs，用以Fast RCNN训练或者测试。
- sum：其中AnchorTargetCreator和ProposalTargetCreator是为了生成训练的目标，只是在训练阶段用到，ProposalCreator是RPN为Fast RCNN生成RoIs，在训练和测试阶段都会用到。三个共同点在于他们都不用考虑反向传播。
为什么在RPN的时候选择IoU阈值为0.7？
- #pass

Faster RCNN整体流程图，其中蓝线表示会进行反向传播，红线则不会

有数据流的网络结构图《参考》

《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
《Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision》论文阅读之DCMS 山水之间2018 无人驾驶 Paper Reading 大数据轨迹预测自动驾驶人工智能
目录摘要1简介2相关工作3.方法3.1结构3.2双重一致性约束3.3多伪目标监督3.4学习4实验4.1实验装置4.2实验结果4.3消融研究4.4泛化能力5限制6结论DCMS：具有双重一致性和多伪目标监督的运动预测香港科技大学暂无代码。摘要我们提出了一种具有双重一致性约束和多伪目标监督的运动预测新框架。运动预测任务通过结合过去的空间和时间信息来预测车辆的未来轨迹。DCMS的一个关键设计是提出双重一致
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
【论文阅读|cryoET】本周粗读汇总吃吃今天努力学习了吗冷冻电镜三维重建论文阅读
论文1：CryoDRGN-ET：深度重建生成网络以可视化细胞内动态生物分子Abstract虽然冷冻电子断层扫描可以以分子分辨率揭示结构，但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型，并且可以捕获成分和构象不同的状态。通过原位恢复肺炎支原体核糖体中
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation 进击的乔洋论文阅读语言模型人工智能计算机视觉
【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上（Inthisregard），针对WSSGG的研究主要利用图像标题（imagecaption）来获取非局部三元组，而主要关注将非局部三元组建立在图
Code Llama: Open Foundation Models for Code论文阅读 yang_daxia 大模型 llama codellama
整体介绍CodeLlama发布了3款模型，包括基础模型、Python专有模型和指令跟随模型，参数量分别为7B、13B、34B和70B。这些模型在长达16ktokens的序列上训练。都是基于Llama2。作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
VIT论文阅读： A Image is Worth 16x16 Words Undefined游侠论文阅读
简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor
【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation Bosenya12 模型窃取科研学习论文阅读知识蒸馏成员推理攻击黑盒
摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

【Faster RCNN】Faster R-CNN笔记

论文理论笔记部分：

一些细节【推荐】：

你可能感兴趣的:(论文阅读)