向上的毛毛

【3D目标检测】PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud

文章目录

前言
- 摘要
- 1. 介绍
- 2. PointRCNN算法框架
- - 2.1 Bottom-up 3D proposal generation via point cloud segmentation
  - 2.2 Point cloud region pooling
  - 2.3 Canonical 3D bounding box refinement
- 3. 实验细节
- 4. 实验结果
- 5. 总结

前言

1. 为什么要做这个研究？
之前的方法做3D目标检测通常都是将点云投影到BEV视图或者正面图，又或者投射到体素中，效率比较低下。
2. 实验方法是什么样的？
PointRCNN分为两个阶段：
Stage-1：

通过PointNet++提取全局点云的特征；
进行前景分割（使用Focus Loss），并从前景点回归粗粒度的bounding box；
在bounding box的生成中，使用bin-based方法回归损失估计bounding box的中心点；
bin-based方法是对每个前景点都以其为原点构建X-Z坐标系，预测bounding box中心点在哪一个bin里面，再对其进行精确地残差回归。
基于BEV图做NMS去除冗余的bounding box，训练阶段只保留300个进入stage-2。

Stage-2：

扩大Stage-1输入的bounding box，保留扩大框中的点和特征；
将每个bounding box通过正交变换转到以自身中心为原点的local坐标系，以便更好地学习bounding box中的局部空间信息；
使用PointNet++的SA module提取特征，得到最后每个点的特征向量，进行置信分类和box微调；
同样使用bin-based方法进行proposal回归。

3. 创新与不足

第一个只使用原始点云的two-stage anchor free 3D目标检测模型；
通过语义分割获取前景点并回归proposal，避免了在整个3D空间搜索proposal；
使用bin-based回归loss，提高了网络的收敛速度和准确率；
对每个proposal使用正交转换，这样box微调阶段可以更好地学习局部空间特征；
不足： 大规模点云上使用PointNet++比较慢。

摘要

PointRCNN是一个用于原始点云的3D目标检测模型，整个框架由两个阶段组成：stage-1为自底向上的3D候选框生成阶段，stage-2在规范坐标下微调proposal获得最终的检测结果。不同于之前的通过RGB图像生成候选框或者将点云投射到BEV图或体素上，PointRCNN的stage-1通过将整个场景的点云分割成前景点和背景点，以自下而上地方式从点云中生成少量高质量的3D候选框。Stage-2将每个候选框的池化点转换到正交坐标系，更好地学习局部空间特征，并与stage-1学习的每个点的全局语义特征相结合，实现Box优化和置信度预测。在KITTI数据集的3D检测基准实验中表明，PointRCNN仅使用点云作为输入，结果SOTA。
论文链接：https://arxiv.org/abs/1812.04244
代码链接：https://github.com/sshaoshuai/PointRCNN

1. 介绍

由于3D目标的不规则数据格式和6自由度(DoF)搜索空间大，利用点云检测3D目标仍然面临巨大挑战。之前的方法或是将点云投影到BEV视图、正面视图，或是投射到规则的3D voxel中，而PointRCNN直接从原始点云自下而上地生成3D候选框。

不同于2D图像，用于3D目标检测的训练数据直接为3D目标分割提供了语义掩码。基于此观测结果，PointRCNN在stage-1自下而上地生成3D候选框，利用3D bounding box 生成 ground-truth 分割掩模。Stage-1对前景点进行分割，并从分割点同时生成少量的候选框。该策略避免了以往方法在整个3D空间中使用大量的3D锚盒，节省了计算量。
Stage-2进行规范3D box改进，生成3D候选框后，采用点云区域池化操作将stage-1中学习到的点表示进行池化。与现有的直接估计全局盒坐标的3D方法不同，合并后的3D点被转x换为规范坐标，并与合并后的点特征以及stage-1的分割掩码相结合，学习相对坐标细化。提出了基于全箱的3D box回归损耗来生成和细化候选框。
贡献：

提出了一种新颖的自底向上的基于点云3D候选框生成算法，该算法将点云分割为前景对象和背景，生成少量高质量的3D候选框。从分割中学习到的点表示不仅善于生成候选框，而且对后续的box优化也有帮助。
提出的规范3D边界框利用了stage-1生成的高召回盒提案，并在带有高鲁棒性的基于区域的损失的规范坐标中学习优化框坐标。
PointRCNN仅使用点云作为输入。

2. PointRCNN算法框架

2.1 Bottom-up 3D proposal generation via point cloud segmentation

2D目标检测算法中，one-stage方法通常更快，直接估计目标的边界框而没有微调；two-stage方法在第二阶段微调proposals和confidence。然而，由于3D搜索空间非常大和点云的不规则格式，直接将two-stage方法从2D拓展到3D不太合适。
AVOD在3D空间放置80-100k个anchor boxes，并在多个视图中对每个anchor池化特征生成proposals。
FPointNet从2D图像中生成2D proposals，并根据从2D区域裁剪出来的3D点估计3D boxes，但这样可能会漏掉只能从3D空间清晰观察到的物体。

作者提出了基于全场景点云分割的3D proposals生成算法。在3D场景中，物体是自然分开的，相互没有重叠。所有3D物体的分割掩码都可以通过其3D边界框注释直接获得，即将3D框内的3D点视为前景点。该算法逐点学习特征分割原始点云，并从分割好的前景点中生成3D proposals，这样就避免了在3D空间中使用大量预定义的3D boxes，极大地限制了3D proposals生成的搜索空间，提高召回率。
Learning point cloud representations
使用多尺度分组的PointNet++作为骨干网络，也可以选择VoxelNet。
Foreground point segmentation
同时进行前景分割和3D proposals生成，考虑到主干点云网络编码的逐点特征，添加了一个用于估计前景掩码的分割头和一个用于生成3D proposals的box回归头。对于点云分割，ground-truth分割掩模由3D ground-truth box提供。对于大型户外场景，前景点的数量通常比背景点的数量要小得多。因此，作者使用焦点损失来处理类不平衡问题。焦点损失减少了简单示例的损失贡献，并加强了对纠正错误分类示例的重视。

训练点云分割时，默认设置 $\alpha=0.25, \gamma=2$ 。
Bin-based 3D bounding box generation
之前已经分割出前景点了，box回归头直接从前景点回归3D proposals位置。尽管没有从背景点回归box，但由于点云网络的感受野，这些背景点也为生成box提供了支持信息。
3D边界框在LiDAR坐标系中表示为 $(x,y,z,h,w,l,\theta)$ ，其中(x,y,z)为物体中心位置，(h,w,l)为物体大小， $\theta$ 为物体从鸟瞰角度的方向，也就是偏航角。针对proposals中心点的定位，作者提出了bin-based方法。

对于每一个分割出的前景点，都对其X-Z坐标系构建一个网格，单方向搜索范围为S，每一格等长为 $\delta$ ，这样就可以初步预测中心点在哪一个bin里面，再对其进行精确地残差回归。Y轴由于比较扁平，因此可以直接使用smooth L1 loss回归。

$x^{(p)},y^{(p)},z^{(p)})$ 是感兴趣的前景点的坐标；
$x^p,y^p,z^p)$ 对应物体的中心坐标；
$bin_x^{(p)},bin_z^{(p)}$ 是X、Z轴上的ground-truth bin；
$res_x^{(p)},res_z^{(p)}$ 是在被分配的bin中做进一步定位微调的ground-truth残差；
C是归一化的bin长度。
训练及损失函数
在实验过程中，对于基于bin的预测参数 x、z、 $\theta$ ，首先选择置信度最高的bin中心点，再使用smooth L1 loss回归长宽高和y值。在训练时，采用0.85 IoU的NMS去除BEV图上的proposals，只保留前300进入stage-2的模型（测试的时候只保留前100）。
不同的训练损失项下的整个3D边界框的回归损失 $L_{reg}$ 可表示为：

$N_{pos}$ 是前景点的数量；
$\widehat{bin_u}^{(p)},\widehat{res_u}^{(p)}$ 是前景点p的被预测的bin分配和残差；
$bin_u^{(p)},res_u^{(p)}$ 是上面已经计算过的ground-truth对象；
$F_{cls}$ 是分类的交叉熵损失；
$F_{reg}$ 是smooth L1 loss。

2.2 Point cloud region pooling

扩大3D proposals
对于每个3D proposals，放大一定的大小得到一个新的3D框，获取更多的context信息。
$b_i=(x_i,y_i,z_i,h_i,w_i,l_i,\theta_i)$
to $b^e_i=(x_i,y_i,z_i,h_i+\eta,w_i+\eta,l_i+\eta,\theta_i)$
$\eta$ 是一个用来放大box的大小的固定值。
判断点是否在扩大的边界框内
对于每个点p，若在扩大框内，则该点及其特征会被保留用来微调 $b_i$ 。
内部点p的特征包括：3D坐标 $(x^{(p)},y^{(p)},z^{(p)}) \in \R^3$ 、激光反射强度 $r^{(p)}\in\R^3$ ，来自stage-1的预测分割掩码 $m^{(p)}\in\{0,1\}$ 和点特征表示 $f^{(p)}\in\R^c$ 。
通过分割掩码 $m^{(p)}$ 来区分扩大框中的是前景点还是背景点，点特征 $f^{(p)}$ 用于分割和生成proposals，然后消除没有内部点的proposals。

2.3 Canonical 3D bounding box refinement

如图2所示，每个proposal的池化点及其特征都被喂入stage-2中，用来微调3D框的位置及其前景目标置信度。

Canonical transformation（正交变换）
利用正交变换转换到每个proposal的local坐标系，一个3D proposal的正交坐标系表示：

坐标系的中心点是proposal的center；
$X^{'},Z^{'}$ 轴平行于地平面， $X^{'}$ 轴指向proposals的heading方向， $Z^{'}$ 轴垂直于 $X^{'}$ 轴；
$Y^{'}$ 轴与LiDAR坐标系保持一致；

proposal内的点p都从原来的坐标转换为local坐标系 $\tilde{p}$ ，这样box优化阶段可以更好地学习每个proposal的局部空间特征，学习的方法同stage-1一样，也是利用PointNet++的结构结合bin-based的方式，把回归问题转换为分类问题。

Feature learning for box proposal refinement
微调子网络的组成
微调子网络结合了已转换的局部空间点特征 $\tilde{p}$ 及其来自stage-1的全局语义特征 $f^{(p)}$ 。
正则变换的缺陷和解决方法
正则变换能够实现鲁棒的局部空间特征学习，但会丢失每个对象的深度信息。例如，由于LiDAR传感器扫描的时候，远处的物体通常比附近的物体拥有更少的点。为了补偿深度信息的丢失，将到传感器的距离 $d^{(p)}=\sqrt{(x^{(p)})^2+(y^{(p)})^2+(z^{(p)})^2}$ 纳入点p的特征中。
微调方法
对于每个proposal，首先将其关联点的局部空间特征 $\tilde{p}$ 和额外特征 $r^{(p)}, m^{(p)},d^{(p)}]$ concate后经过几个全连接层，将它们的局部特征编码为与stage-1得到的全局特征 $f^{(p)}$ 相同的维数。然后将局部特征和全局特征concate起来，用PointNet++的SA module提取特征，得到最后每个点的特征向量，进行置信分类和box微调。
Losses for box proposal refinement
采用类似stage-1的bin-based方法来优化proposal。如果gt box和proposal的IoU>0.55，则将该gt box分配给3D box proposal来学习box微调。
3D proposals和相应的3D gt box都被转换成正交坐标系，因此，
3D proposal: $b_i=(x_i,y_i,z_i,h_i,w_i,l_i,\theta_i)$
to $\tilde{b}_i=(0,0,0,h_i,w_i,l_i,0)$ ;

3D ground-truth box: $b_i^{gt}=(x_i^{gt},y_i^{gt},z_i^{gt},h_i^{gt},w_i^{gt},l_i^{gt},\theta_i^{gt})$
to $\tilde{b}_i^{gt}=(x_i^{gt} - x_i,y_i^{gt}- y_i,z_i^{gt}- z_i,h_i^{gt},w_i^{gt},l_i^{gt},\theta_i^{gt}-\theta_i)$ 。
Stage-2的loss整体为：

$B$ 是来自stage-1的3D proposals集合；
$B_{pos}$ 存放了positive的回归proposals；
$prob_i$ 是估算的 $\tilde{b_i}$ 的置信度；
$label_i$ 是对应的label；
$\tilde{L}_{bin}^{(i)},\tilde{L}_{res}^{(i)}$ 和公式3相似，但是用的是上面提到的通过 $\tilde{b}_i^{gt},\tilde{b_i}$ 计算的新结果。
最后，通过BEV视图上NMS IoU>0.01去除重叠的proposal。

3. 实验细节

网络结构
Stage-1的输入是16384个点，采用PointNet++，经过4次SA层（多尺度分组）提取特征，采样个数为[4096, 1024, 256, 64]，然后经过4次FP层获得逐点特征向量进行分割和proposal生成；
Stage-2的输入是每个proposal的合并区域随机抽取的512个点，采用3次SA（单尺度分组），采样个数为[128, 32, 1]，生成单个特征向量，用于目标置信度分类和proposal位置优化。
Stage-1（car）

选择ROI（Region of Interest）的时候在原前景分割的基础上向外扩0.2m；
bin-based的中心点预测时，单方向搜索范围S=3m，箱子大小 $\delta$ =0.5m；
偏航角预测n=12；
epoch=200，batch size=16，learning rate=0.002。

Stage-2（car）

Box置信度的输出：IoU>0.6为正例，IoU<0.45为负例；
角回归的输出：IoU>0.55；
bin-based参数：S=1.5m， $\delta$ =0.5m，旋转角为10°；
epoch=50，batch size=256，learning rate=0.002

数据增强
随机翻转，[0.95,1.05]放缩比例因子，绕Y轴旋转[-10°,10°]。

4. 实验结果

5. 总结

PointRCNN是一个two-stage的3D detection模型。模型分为两个阶段，Stage-1先使用PointNet++作为主干网络，分割出前景点，生成少量粗粒度的3D proposal；Stage-2进一步优化proposal。将这些bounding box通过正交变换转换到自己的局部坐标系下，再使用PointNet++学习局部特征，完成优化。

《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
《Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision》论文阅读之DCMS 山水之间2018 无人驾驶 Paper Reading 大数据轨迹预测自动驾驶人工智能
目录摘要1简介2相关工作3.方法3.1结构3.2双重一致性约束3.3多伪目标监督3.4学习4实验4.1实验装置4.2实验结果4.3消融研究4.4泛化能力5限制6结论DCMS：具有双重一致性和多伪目标监督的运动预测香港科技大学暂无代码。摘要我们提出了一种具有双重一致性约束和多伪目标监督的运动预测新框架。运动预测任务通过结合过去的空间和时间信息来预测车辆的未来轨迹。DCMS的一个关键设计是提出双重一致
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
【论文阅读|cryoET】本周粗读汇总吃吃今天努力学习了吗冷冻电镜三维重建论文阅读
论文1：CryoDRGN-ET：深度重建生成网络以可视化细胞内动态生物分子Abstract虽然冷冻电子断层扫描可以以分子分辨率揭示结构，但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型，并且可以捕获成分和构象不同的状态。通过原位恢复肺炎支原体核糖体中
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation 进击的乔洋论文阅读语言模型人工智能计算机视觉
【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上（Inthisregard），针对WSSGG的研究主要利用图像标题（imagecaption）来获取非局部三元组，而主要关注将非局部三元组建立在图
Code Llama: Open Foundation Models for Code论文阅读 yang_daxia 大模型 llama codellama
整体介绍CodeLlama发布了3款模型，包括基础模型、Python专有模型和指令跟随模型，参数量分别为7B、13B、34B和70B。这些模型在长达16ktokens的序列上训练。都是基于Llama2。作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
VIT论文阅读： A Image is Worth 16x16 Words Undefined游侠论文阅读
简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor
【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation Bosenya12 模型窃取科研学习论文阅读知识蒸馏成员推理攻击黑盒
摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include