向上的毛毛

【论文阅读】PointNet++论文解读以及代码分析（超全）

PointNet系列

第一章【论文阅读】PointNet论文解读
第二章【论文阅读】PointNet++论文解读以及代码分析（超全）

文章目录

PointNet系列
前言
1. PointNet的不足与PointNet++的解决方法
- 1.1 PointNet存在的问题
- 1.2 PointNet++采用的解决方法
2. PointNet++网络结构详解
- 2.1 改进特征提取方法
- 2.2 对于非均匀点云的处理方法
- 2.3 分类网络
- 2.4 分割网络
3. PointNet++代码分析
- 3.1 分类网络
- 3.2 分割网络
- 3.3 FP层代码
- 3.4 SA层代码
- 3.5 采样和分组代码
4. 总结

前言

上一篇文章主要介绍了点云处理的经典之作PointNet的整体思想和框架，本篇文章将介绍其团队基于PointNet改进的PointNet++。文章核心的一点就是提出了多层次特征提取结构。具体而言就是在输入点集中利用farthest point sampling选择一些点作为中心点，然后围绕每个中心点选择周围的点组成一个区域，将每个区域作为PointNet的一个输入样本，这样就得到了一组该区域的特征。之后中心点不变，扩大区域，把上一步得到的那些特征作为输入再送入PointNet，循环反复，不断提取局部特征，扩大局部范围，最后得到一组全局的特征，然后进行分类或者分割。文章还提出了多尺度方法解决样本中点云密度不均匀的问题，增加模型的鲁棒性。
PointNet++代码

1. PointNet的不足与PointNet++的解决方法

1.1 PointNet存在的问题

PointNet存在的一个缺点就是无法获取局部特征。在PointNet中，要不就是对单个点进行 $1 \times 1$ 卷积操作，要不就是对所有点进行最大池化获得全局特征，虽然每个点都映射到了高维空间中，但还是丢失了很多局部信息，如下图：

从很多实验结果可以看出，PointNet对于场景的分割效果十分一般，所以提取局部区域特征就成了改进的一个方向。为了解决这一问题，PointNet++提出了首先选取一些比较重要的点作为每个局部区域的中心点，然后再中心点的周围选取k个近邻点，再将k个近邻点作为一个局部点云丢入PointNet中提取特征。

1.2 PointNet++采用的解决方法

为了解决PointNet网络无法提取局部特征的问题，在PointNet++中，作者借鉴了CNN的多层感受野的思想。首先，在整个点云的局部采样并划分为具有重叠的局部区域，在局部区域中通过PointNet提取局部特征，然后扩大范围，在这些局部特征的基础行提取更高层次的特征，直到提取整个点云集的全局特征，整个过程和CNN网络提取特征的过程类似。

2. PointNet++网络结构详解

2.1 改进特征提取方法

PointNet++在PointNet的基础上加入了多层次结构，使得网络能够在越来越大的区域上提供更高级别的特征，每一次提取就称为set abstraction，主要包括3个部分：Sampling layer, Grouping layer and PointNet layer。

Sample layer：使用最远点采样法（FPS)对输入点进行采样，选出若干个中心点。FPS算法是随机选取一个点，然后选择离这个点最远的点加入到结果集中，迭代这个过程，直到结果集中点的数量达到某个给定值。
Grouping layer ：在上一层提取出的中心点的某个范围内寻找最近的k近邻点组成一个group。
PointNet layer：将k个区域通过小型PointNet网络得到的特征作为k个中心点的特征。

上图展示了set abstraction的过程。每一组set abstraction得到的中心点的特征向量集，会作为下一组set abstration的子集，随着层数加深，中心点的个数会越来越少，但是每一个中心点包含的信息会越来越多。在msg中，第一层set abstraction取中心点512个，半径分别为0.1、0.2、0.4，每个圈内的最大点数为16，32，128。
每一组SA的输入是 $N \times (d \times C)$ ，其中 $N$ 是输入点数量， $d$ 是坐标维度， $C$ 是特征维度；输出是 $N^{'}×(d×C^{'})$ ，其中 $N^{'}$ 是输出点数量， $d$ 是坐标维度不变， $C^{'}$ 是新的特征维度。下面介绍每一层的具体实现过程。
1. Sample layer 使用farhest point sampling选择 $N^{'}$ 个点，相较于随机采样，该方法能够更好的覆盖整个点集，具体选择多少个中心点由人来指定。
2. Grouping layer 该层使用Ball query方法生成 $N^{'}$ 个局部区域，论文中这里有两个变量，一个是每个区域中点的数量K，另一个是球的半径。算法会在某个半径的球中找点，数量上限是K，球的半径和每个区域中点的数量都是人指定的。这一步也可以使用KNN方法，对结果影响不大。

3. PointNet layer 该层是对 $N^{'}$ 个局部区域提取到 $N^{'}$ 个局部特征，输入为 $N^{'}×K×(d×C)$ ，输出是 $N^{'}×(d×C^{'})$ 。需要注意，在输入到网络之前，会把区域中的点变成围绕中心点的相对坐标，作者认为这样可以获取点与点之间的关系（更类似于Batch Norm)。

SA网络解释：输入为 $2 \times 16384 \times 3$ ，表示BatchSize为2，16384个点，维度为3。
SA1：输入为xyz，输出new_xyz, feature
- 对输入的xyz做permutation，然后使用farthest point sampling(FPS)寻找4096个中心点，这4096个点就是new_xyz，作为下一层的输入。
- 对于new_xyz中的每个点，在给定的距离内寻找点(BallQuery)，得到grouped_xyz，给定的距离不同，寻找到的点的数量不同，从而分成两条支路。
- 按照grouped_xyz的id对feature进行选取，在SA1中feature就是xyz，所以没有变化。
- 使用MLP对feature提取特征并做maxpooling得到高级特征。
- 对在BallQuery中不同距离下得到的高级特征进行concatenate操作，得到SA1的feature输出。
SA2：输入SA1.new_xyz，SA1.feature，输出new_xyz，feature
- SA2的MLP的输入是由SA1.new_xyz和SA1.feature进行concatenate得到的。
- 所以不同于SA1的第四步，按照grouped_xyz的id选取的时concatenate后的feature，而不是xyz。

2.2 对于非均匀点云的处理方法

通过使用多层次结构提取局部特征，在点云的分类和分割效果有了一定的提升，但是其在点云缺失的鲁棒性上变得更差了。其原因在于激光收集点云数据的时候总是在近的地方密集，在远的地方稀疏。因此一旦缺失部分点云数据，网络的性能就会受到极大影响，见下图。

在论文中，作者给出了对比实验，可以看出当点云缺失个数达到20%时，PointNet++的性能还不如PointNet。因此，通过固定范围选取的固定个数的近邻点是不合适的，pointnet++提出了两个解决方案，多尺度分组(MSG)和多分辨率分组(MRG)。

1. Multi-scale grouping (MSG)
MSG方法如上图左，就是在每一个分组层都通过多个尺度（设置多个半径值）来确定每一个中心点的领域范围，每一个范围都经过PointNet提取特征，再将得到的多个范围的特征concatenate起来，得到一个多尺度的新特征。
2. Multi-resolution grouping (MRG)
在MSG方法中，每一个中心点都需要多个patch的选取和卷积，计算量大，所以提出了MRG方法。如上图右所示，新特征由两部分concatenate得到，左边特征向量是通过较低层即 $L_{i-1}$ 层经过PointNet提取得到，右边特征向量是对当前层中心点对应的patch进行PointNet得到。当点云密度不均时，可以通过判断当前patch的点云密度给予左右两个特征向量不同的权重。例如，当patch中密度过小，左边特征向量中包含的点更稀疏，容易受到抽样不足的影响，因此提高右边特征向量的权重。

作者在论文中给出了分类实验结果对比图（见上图），可以看出多尺度(MSG, MRG)和单一尺度(SSG)相比分类准确率没有什么提升，但当点云很稀疏的时候，使用MSG可以保持很好的robustness。random input dropout(DP)对于robustness也很大。

2.3 分类网络

分类网络比较简单，对于经过两次SA后得到的特征图经过一个PointNet提取全局特征然后通过全连接网络得到分类结果，见下图。

2.4 分割网络

分割网络较为复杂，需要获得所有原始点的点特征，作者采用基于距离插值的分层传播策略和跨层跳跃链接来实现。在某一层的特征传播过程中，从 $N_{l}×(d + C)$ 向 $N_{l-1}$ 个点传播特性，这里 $N_{l-1}$ 和 $N_{l}$ 是点集抽象层 $l$ 的输入和输出的点集数量，并且 $N_{l} ≤ N_{l-1}$ 。
这里大概可以这么理解，输入xyz和feature经过一个SA后得到了输出new_xyz和new_feature。在上采样过程(FP)中，要将得到的new_xyz和new_feature再反过来加在输入上，也就是下图所示的 $N_{1}×(d + C_{1}) →SA→N_{2}×(d + C_{2})→interpolate→N_{1}×(d + C_{2}+C_{1})→unit pointnet→N_{1}×(d + C_{3})$ 。

文章中通过k近邻法(KNN，默认p=2,k=3)来反向加权求平均实现特征传播，具体公式如下：

简单来说就是距离越远的点权重越小，下面给出Upsampling操作的计算过程，由几个FP子网络构成。

FP1：输入SA2.new_xzy, SA2.feature, SA1.new_xzy, SA1.feature，输出feature。
- 对于SA1.new_xzy中每个点，寻找SA2.new_xzy中最近的3个点；
- 对于这3个点，记录id，计算距离，然后通过距离的倒数计算3个点各自的权重；
- 对这3个点的特征进行加权平均求取SA1.new_xyz中对应点的feaure;
- 得到的feature与SA1.feature进行concatenate操作;
- 通过MLP和MaxPooling得到FP1的输出feature，SA1.new_xyz中每个点都对应了一个新的feature。
FP2

这样就得到了每个原始点的点特征，最后通过计算得到每个原始点对应的分类。

3. PointNet++代码分析

3.1 分类网络

首先来看分类网络的整体网络结构，以pointnet2_cls_msg为例。

分类网络比较简单，首先是3个SA，前两个SA规定中心点分别为512和128，最后一个SA提取全局特征，得到结果为 $(B \times 1024)$ ，其中B为batch size，然后使用4层全连接网络 $1024→512→256→num_class)$ 得到分类结果，这里要注意中间隐层采用了dropout增加robustness，最后通过log_softmax()计算出每个样本的预测值。

3.2 分割网络

分割网络的整体网络也是非常规整，以pointnet2_sem_seg_msg为例。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210119221917952.png
分割网络首先通过4个SA提取局部特征，最后输出为 $B \times 1024 \times 16$ ，1024为特征通道数，16为中心点数；然后通过4个FP进行上采样，最后输出为 $B \times 128 \times N$ ，128是特征通道数，N是样本点云数量；最后通过简单的mlp和log_softmax获取样本中每个点的类别，实现分割。

3.3 FP层代码

PointNetFeaturePropagation函数是FP层的具体实现，可以看到代码中使用了k近邻法(KNN，默认p=2,k=3)来反向加权求平均实现上采样特征传播。

3.4 SA层代码

下图展示了使用了MSG方法的SA层代码。

3.5 采样和分组代码

4. 总结

本文详细阐述了PointNet++的设计思路、网络结构以及对部分代码进行了解析。PointNet系列是近些年来所有点云分割网络的baseline，希望本篇文章能够对你理解PointNet++有所帮助。欢迎各位小伙伴一起交流学习！

Reference

PointNet++ 论文及代码解读
【3D计算机视觉】从PointNet到PointNet++理论及pytorch代码
论文笔记：PointNet++论文代码讨论
3D点云数据分析：pointNet++论文分析及阅读笔记
【代码阅读】PointNet++具体实现详解

【论文阅读方法】沐神课程：如何读论文晴空对晚照论文阅读论文阅读
一篇论文的一般结构titleabstractintroductionmethodexperienceconclusion三明治论文阅读法第一遍：海选title+abstract+conclusion——确定要不要读第二遍：精读对整个文章过一遍，知道每一块在做什么可以从标题开始读到最后，注意不用咬文嚼字，不要太细节，公式、证明等很细节的部分可以忽略掉重点弄清楚每一个图表，算法在做什么，x轴y轴每一个
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读：Personalized Purchase Prediction of Market with Wasserstein-Based Sequence Matching Narcissus`小暮一步步来学大数据推荐系统
PersonalizedPurchasePredictionofMarketwithWasserstein-BasedSequenceMatching概述问题背景及陈述预测算法步骤一：itemembeddings步骤二：计算wassersteinDistance步骤三：Wasserstein-BasedDynamicTimeWarping预测实验评价标准数据集对比的baseline结论市场篮子的应
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读 EEG-TCNet Plan-C- 论文阅读
EEG-TCNet:AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度。EG-TCNET成功地推广了单个数据集，通过0.25的元效应优于MOABB的当前最新技术水平
论文阅读《Semantic Stereo Matching with Pyramid Cost Volumes》 cunese0088 深度学习
SSPCV-Net（语义立体匹配网络）目的：进一步捕捉视差的细节主要模块：数据集：SceneFlow,KITTI2012,KITTI2015,Cityscape(比较泛化能力)-------------------------------------------------------------------------------------------------------Concatevo
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
InternVL：论文阅读 -- 多模态大模型(视觉语言模型) XiaoJ1234567 LLM 论文阅读语言模型人工智能多模态大模型 internVL
更多内容：XiaoJ的知识星球文章目录InternVL:扩展视觉基础模型与通用视觉语言任务对齐1.概述2.InternVL整体架构1）大型视觉编码器：InternViT-6B2）语言中间件：QLLaMA。3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于
论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位（中国） MilkLeong 论文阅读空间计算
论文英文题目：AspatialinteractionmodelofQin-HanDynastyorganisationonthenorthernfrontierandthelocationoftheZhidaohighway(China)发表于：journalofarchaeologicalscience，影响因子：3.030论文主要是使用空间互动模型来对秦汉时期的北方边疆直道进行定位和重建。分析
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
【论文阅读】LayoutPrompter: Awaken the Design Ability of Large Language Models 进击的乔洋论文阅读语言模型人工智能
LayoutPrompter:AwakentheDesignAbilityofLargeLanguageModelsabstract条件图形布局生成是一种自动将用户约束映射为高质量布局的技术，目前受到了广泛关注。尽管最近的工作取得了很好的性能，但缺乏通用性和数据效率阻碍了它们的实际应用。本文提出Layout-Prompter，利用大型语言模型(llm)通过上下文学习来解决上述问题。LayoutPr
论文阅读方法某风吾起 work 哲学与人生论文阅读
文章目录步骤一：对论文进行自我判断阅读题目和关键词。阅读摘要阅读总结要点步骤二：阅读文章阅读图表和图表的注释阅读引言阅读实验部分阅读结果和作者对结果的讨论（创新点）要点步骤三：精度论文回答问题1回答问题2回答问题3要点步骤一：对论文进行自我判断阅读题目和关键词。观察这些关键词是否与你的研究的内容有关。如果不相干，可以随时停止，换篇文章看。阅读摘要摘要一般包含了整篇文章的主要内容，是非常非常重要的部
论文阅读：Recipe for a General, Powerful, Scalable Graph Transformer 不会&编程图神经网络论文阅读论文阅读 transformer 深度学习图神经网络人工智能
RecipeforaGeneral,Powerful,ScalableGraphTransformer论文和代码地址1介绍与贡献2GPS模型2.1模型框架图2.2PE和SE2.3GPSlayer:一种MPNN+Transformer的混合模型GraphTransformer)论文和代码地址论文地址：https://arxiv.org/pdf/2205.12454v4代码地址：https://git
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
Angular Superresolution of Real Aperture Radar for Target Scale Measurement 论文阅读青铜锁00 论文阅读 Radar 论文阅读
AngularSuperresolutionofRealApertureRadarforTargetScaleMeasurement1.研究目标与实际意义1.1研究目标1.2实际意义2.创新方法与模型设计2.1广义混合正则化（GHR）框架核心公式与传统方法对比2.2自适应迭代重加权（AIR）求解器算法设计复杂度分析3.实验设计与结果验证3.1仿真实验实验设置关键结果3.2实际数据验证4.未来研究方
Angular Superresolution of Real Aperture Radar Using Online Detect-Before-Reconstruct Framework 论文阅读青铜锁00 论文阅读 Radar 论文阅读
AngularSuperresolutionofRealApertureRadarUsingOnlineDetect-Before-ReconstructFramework1.论文的研究目标与实际问题意义1.1研究目标1.2实际问题与产业意义2.论文的创新方法、模型与公式分析（重点）2.1核心创新点2.2关键公式与模型2.2.1信号模型2.2.2稀疏正则化优化问题2.2.3坐标循环最小化2.2.4
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
[论文阅读]DAMO-YOLO——实时目标检测设计报告一朵小红花HH 知识蒸馏目标检测 YOLO 目标检测目标跟踪论文阅读人工智能
DAMO-YOLODAMO-YOLO:AReportonReal-TimeObjectDetectionDesign实时目标检测设计报告论文网址：DAMO-YOLO简读论文这篇论文介绍了一个名为DAMO-YOLO的新型目标检测方法,相比YOLO系列的其他方法有着更好的性能。该方法的优势来自于几项新技术:使用了MAE-NAS作为骨干网络,可以自动搜索出不同延迟预算下的优化网络结构。MAE-NAS被称
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
An Iterative Technique for the Rectification of Observed Distributions 论文阅读青铜锁00 论文阅读论文阅读
AnIterativeTechniquefortheRectificationofObservedDistributions-L.B.Lucy1.研究目标与实际意义1.1研究目标1.2实际意义2.新方法与公式分析2.1核心思路：基于贝叶斯定理的迭代框架2.1.1贝叶斯逆概率公式2.1.2迭代更新规则2.1.3多维推广2.2方法优势2.3对比传统方法3.实验验证3.1数值实验设计3.2关键结果4.雷
Azimuth Superresolution of Forward-Looking Radar Imaging Which Relies on Linearized Bregman论文阅读青铜锁00 论文阅读 Radar 论文阅读
AzimuthSuperresolutionofForward-LookingRadarImagingWhichReliesonLinearizedBregman1.论文的研究目标与意义1.1研究目标1.2实际应用意义2.论文提出的新方法、公式与优势（重点）2.1方法框架2.1.1贝叶斯建模2.1.2线性化Bregman算法2.2与传统方法的对比2.3公式总结3.实验设计与结果3.1点目标仿真3.
A Bayesian Angular Superresolution Method With Lognormal Constraint for Sea-Surface Target 论文阅读青铜锁00 论文阅读 Radar 论文阅读
目录1.研究背景与问题2.方法创新3.关键优势4.实验验证5.与传统方法对比6.结论与意义1.研究背景与问题核心挑战：实孔径雷达受限于天线孔径尺寸，导致角分辨率不足，影响海面目标（如船舶）的精细化探测。传统方法局限性：谱估计方法（如MUSIC、IAA）：依赖多快拍数据，机械扫描雷达难以满足。正则化方法（如TSVD、l1/l2约束）：假设噪声服从高斯分布，未考虑海杂波的非高斯特性（如Rayleigh
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
9、论文阅读：无监督的感知驱动深水下图像增强 Maker~ 图像增强论文阅读深度学习计算机视觉
Perception-DrivenDeepUnderwaterImageEnhancementWithoutPairedSupervision前言引言相关工作UIE模型基于非物理模型基于物理模型基于深度学习质量度量在图像增强中的应用方法论问题表述PQR模型PDD网络生成器损失函数实验A.数据集B.训练细节C.实验结果**PQR模型结果****定量UIE结果****定量UIE结果****可视化增强结
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
从零开始Real-ESRGAN的复现晒阳光的咸鱼超分辨率重建 python
前言要初步了解Real-ESRGAN，可以看我之前发布的博客。初学Real-Esrgan-CSDN博客本文主要是对Real-ESRGAN的一个复现，主要就是对环境的配置进行记录，因为是实现之后才做的记录，所以只能尽可能的对其进行复现。大家可以看一下这个博主的文章进行一个参考。【论文阅读+测试】Real-Esrgan超分辨率算法_realesrgan-CSDN博客项目开始首先，我们要知道Real-E
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。