麒麒哈尔

【论文阅读】【综述】Deep Learning for 3D Point Clouds: A Survey

文章目录

Survey
- 3D Shape Classification
- - Projection based
  - - Multi-view
    - Voxel
  - Point based
  - - Pointwise MLP network
    - Convolution-based Networks
    - Graph based
    - Data Indexing based
- 3D Object Detection
- - Region Proposal-based Methods
  - - Multi-view Methods
    - Segmentation-based Methods
    - Frustum-based Methods
  - Single Shot Methods
- 接下来就是我并不是很了解的部分
- 3D Tracking
- 3D Scene Flow Estimation
- 3D Point Cloud Segmentation
- - 3D Semantic Segmentation
  - - Projection based
    - Point-based networks
  - Instance Segmentation
  - Part Segmentation

本文是最新的使用深度学习处理点云的综述文章，本文所提及的方法非常全，可以作为一个文章索引来看，而且本论文对方法的分类也很有意义。但是作为综述性文章，本文每章节的结论有点弱，并没有通过对文章的综述产生太多指导性的结论。但总体来说，这篇文章对于读者，起到了查缺补漏和搭建知识框架的作用。

对于做点云的同学，我还是非常建议阅读以下本文的。

本博客与其他有关该survey的博客的区别在于，本博客不翻译该survey，而是细节讲述一些其中提到的方法，和总结一些我的理解。

Survey

1、数据集有：

ModelNet [6]
ShapeNet [7]
ScanNet [8]
Semantic3D [9]
KITTI Vision Benchmark Suite [10]

还有一些自动驾驶的数据集也包含了3D object detection & tracking的问题。

2、3D问题的分类与图像中的基本是一样的：

3D shape classification
3D object detection and tracking
3D point cloud segmentation

3、所有的方法按照解决的问题，使用的方法按照如下分类：

3D Shape Classification

该问题对应图像中的图像分类问题，是最简单的问题。按照图像处理的发展过程，可以认为，这部分提出来的网络将是Object Detection，Tracking和Segmentation方法的主干网络。

ModelNet40是一个普遍使用的数据集，排名可以在官网找到

Projection based

作者把Voxel的方法解归入到了Projection based的方法中，认为体素的构建过程是点云向3D栅格的投影过程。

Multi-view

典型的方法就是MVCNN[15]，将pointcloud投影到不同的视角下，其网络框架如下：

本文漏掉了目前ModelNet40精度最高的方法RotationNet，也是Multi-view类型的。相比于MVCNN，RotationNet使用了更多的视角，并在处理了每个视角的关系。其网络结构如下：

Multi-View的方法有以下几个特点：

理解简单，就是将点云投影到不同的view
网络结构已有，投影到2D平面之后，就可以用处理图像的CNN处理
精度高：RotationNet已有体现
处理速度慢：要处理多幅图像
对于一般场景不适用：因为要获取multi-view，例如智能车场景，就不可能获取多个view的投影

Voxel

典型方法以VoxNet[22]为例，就是把点云投影为占据栅格，然后使用3D convolution进行计算，具体结构如下图：

Voxel的方法在Object Detection的网络中也广泛使用，而其主干网络拿出来就可以作为Classification的网络使用，不同的代表有使用3D卷积的VoxelNet，使用2D卷积的PIXOR，使用Pointwise的feature构建Voxel的PointPillar等

Voxel的有以下特点：

理解容易，就是栅格化然后使用3D或者2D卷积
速度慢，占用内存大：内存占用和计算量都是与分辨率的立方有关
在体素化的过程中容易丢失信息，分辨率（精度）与计算效率的trade-off明显

Point based

Pointwise MLP network

这类方法以PointNet和PointNet++为主要代表，也是目前影响力最大的方法，Object Detection中Point based的主干网络大多用此网络搭建。典型结构如下：

PontNet++的网络详解

在Pointnet++的基础上，又出现了一些改进方法。

Pointwise MLP network类方法的特点如下：
在计算过程中，每个点都对应一个feature，计算每个点的feature都是使用MLP计算，MLP的输入时某个点的feature，输出是这个点的新的feature。对应图像处理中的理解就是，都使用1x1的卷积核，每个像素的feature的计算过程只与自身的feature有关。

Convolution-based Networks

相比于Pointwise MLP的方法来说，Convolution-based方法在于一个点的feature在计算的时候使用了其他点的feature，类比于图像处理中，使用的卷积核不再是1x1，而是出现了3x3这种的卷积核。

而这类方法又分为两种，一种是3D Continuous Convolution Networks（3D连续卷积网络），一种是3D Discrete Convolution Networks（3D离散卷积网络）。理解这两者的区别可以先参考一下图像处理中的RoI Pooling与RoI Align，Conv和Deformable Conv。RoI Pooling和Conv都是对bin处理的，也就是说，认为feature map是与像素一样，分成栅格的。而后者RoI Align和Deformable Conv则认为特征在空间内是连续的，而feature map只不过是离散的采样，通过差值可以较好的恢复特征空间内任意一点的特征。由于认为特征空间是连续的，那么相对于权重空间也是连续的。用KPconv文中的话说：
“we believe that that having a consistent domain for g helps the network to learn meaningful representations.”
其中g是指卷积核。

理解了上述区别，就可以看懂下面一张图：

b)认为特征空间是连续的，c)认为特征空间是离散的。具体的细节需要看具体的论文。

Continuous Convolution Network

这里详细介绍RS-CNN和KP-CNN，来理解Continuous Convolution Networks的内容。

Discrete Convolution Network
这里详细介绍Pointwise Convolutional Neural Network[49]和PointCNN[52]，来理解Discrete Convolution Networks的内容。

Graph based

这块内容我看的不多，也只看了Graph-based Methods in Spatial Domain，这里只介绍一下典型的DGCNN[60]

DGCNN的关键公式为如下：

$x_i$ 的新feature是由邻域内的点 $x_j$ 与 $x_i$ 的关系，通过 $h_\theta(·)$ （由MLP实现）处理，然后经过aggregated（sum or max）得到。

其中，DGCNN使用的 $h_\theta(x_i,x_j)= MLP(x_i, x_j-x_i)$ 。另外一个是， $x_i$ 的邻域计算不光通过点与点之间的距离，而是包括feature的距离，引用原文：
"Our experiments suggests that it is possible and actually beneficial to recompute the graph using nearest neighbors in the features space produces by each layer. This is a crucial distinction of our method from graph CNNs working on a fixed input graph. Such a dynamic graph update is the reason for the name of our architecture, the Dynamic Graph CNN (DGCNN). "

另外值得文章中提到了Pointnet系列等网络的关系，这里我也来梳理一下：
1）文章中提到了PointNet系列是Graph CNN的特例，也就是Pointnet使用了 $h_\theta(x_i,x_j)=MLP(x_i)$ ，PointNet++中的SA层中得特征提取过程则是 $h_\theta(x_i,x_j)= MLP(x_j-x_i)$
2）这里再对比一下DGCNN与RS-CNN，下图为RS-Conv的主要公式：
$M(h_{ij})$ 是与DGCNN中的 $h_\theta(·)$ 类似， $\sigma(A())$ 则是DGCNN中的 $\square$ 类似，而区别在于RS-Conv中后面相乘 $f_{x_j}$ ，也就是 $M(h_{ij})$ 相当于是权重，而DGCNN中生成直接是feature。这个是由于RS-Conv输入的 $x_j$ 只是点的坐标，而DGCNN中则包含了feature。具体的相似程度，你品，你细品！！

Data Indexing based

有的用Kd-tree，有的用Hash，这里就说一下Kd-Net。Kd-Net的结构如下：

Kd-tree本身是用来组织点云的一种数据结构，是一棵二叉树，叶节点是点云中的点，每一层的兄弟节点都有相邻关系。上图的圆点表示feature，箭头是MLP。

其实也能找到DGCNN与Kd-Net之间的联系：如果把DGCNN中的邻域内找点变成用kd-tree找，k临近点变成1个临近点，则变成Kd-Net。Kd-Net是点云处理早期的一个成果，但其代表了这一类型，我认为这一类型要被convolution或者graph based的方法所取代。

3D Object Detection

3D Object Detection的论文的详解可以看我另外一篇博客，这个survey中提到的我很多都有讲到，也有一些本survey没有提到的。这里就强调一下本篇文章中对分类方法。

Region Proposal-based Methods

就是我们常说的Two-Stage方法，先要生成Proposal，然后根据Proposal内部的特征，再对Proposal进行修成。对应到图像领域典型的就是Faster-RCNN。而通过生成Proposal的不同，可以分为以下三种方式。

Multi-view Methods

说是Multi-view Methods，但其实Proposal的生成方法基本是在BEV（俯视图）中生成。在BEV中生成Proposal有个好处就是：

Proposal在俯视图中本身就是分离存在的，而不像前视图中很有可能存在重叠。
前视图存在透视效应，同一类的Proposal在远近不同的时候Proposal存在尺度上的不同，而俯视图就不存在这个问题。

既然Multi-view的方法要用到BEV，那就少不了对点云进行栅格化（或者叫做体素化），所以Multi-view的方法基本上是使用Grid Convolution，例如2D Convolution和3D Convolution。

Multi-view既然叫Multi-view，自然需要考虑Multi-view特征的融合，所以有一些文章就在讨论如何进行Multi-view的融合。而前视图本身又是相机视角，所以何不在前视图中引入RGB这个特征？这就是本survey中Multi-view Methods中的First所讨论的事情。
Multi-view Methods中的Second所讨论的则是如何增强网络的表示性能，因为用了2D Convolution，所以很多增强手段就可以借鉴图像中得，例如Second中提到的SCANet，这篇文章细看下来，与CBAM就很像啊。

Segmentation-based Methods

上面已经提到了，Multi-view其实是和栅格化（体素化）相联系的，这就相对于第一部分3D Shape Classification中的Projection based的方法。那么Point Based的方法是否也能用到Object Detection的问题中呢？

这里再次借用一下RS-CNN中与图像识别中的网络的对比，其间的相似性可以由前三行表示，那么第四、五行的推出则是自然而然的事情：

Image Classification	3D Shape Classification
像素	点
特征图	点云中每个点的特征的集合
特征图的降采样	点的降采样
由特征图的中的一个cell的特征回归box的参数	由点云中的点的特征回归box的参数
由特征图的中的一个cell的特征分类该cell是否对应一个box	由点云中的点的特征分类该点是否对应一个box

这也就是Segmentation-based Methods的内在思想。先通过特征提取，得到点的特征，然后用点的特征预测box的参数。

Frustum-based Methods

相机和激光雷达融合的另外一种方法，能不能借鉴已有的2D Object Detection的成果呢？使用2D Object Detection在图像中检测车辆，然后在通过透视，将2D方框变成一个3D的棱台。在棱台中再进行检测，这部分的方法与Segmentation-based Methods类似。

这类方法典型的代表就是Frustum-Net，但这也是早期的一种方法。目前主流方法已经大量使用在BEV中生成Proposal，RGB图像只是用于提取特征了。

Single Shot Methods

我觉得这这一块的分类有问题。该survey把Single Shot Methods分为BEV-based Methods和Point Cloud-based Methods。

先说说为什么我觉得问题，我们一步一步来理解：
1）可以把这两种方法分别对应到Region Proposal-based Methods中的Multi-View Methods和Segmentation-based Methods。因为我在上面已经阐述了，Multi-View Methods基本是在BEV中生成Proposal，所以其处理方法是与BEV-based的方法是一样的，无非是一个Two-stage和One-Stage的问题。Segmentation-based Methods则是使用Point生成Proposal，与Point Cloud-based Methods这个名字对应。
2）那么如果按照这个理解方法，那么原文中对Point Cloud-based Methods的定义就出现了问题：*“These methods convert a point cloud into a regular representation (e.g., 2D map), and then apply CNN to predict both categories and 3D boxes of objects.”*所以说白了，其实这个regular representation和2D map其实也是栅格化（体素化）的一种，无非是在高度上，只有一层栅格而已。3）再看Point Cloud-based Methods中所列举的方法，基本也是用了栅格化的手段（栅格化的高度也并非都是1层，也就是说并不是都变成了2D map），然后很使用CNN。看框架而言，这就是BEV-based Methods啊。

再说说我理解的Point Cloud-based Methods的是什么：
1）先说一下图像处理中的2D Object Detection的问题，如果细看RetinaNet和Faster RCNN，可以看出来其实RetinaNet非常像Faster RCNN的RPN。这就是图像中的One-stage和Two-stage的联系。
2）对比到3D Object Detection，我认为的Point Cloud-based Methods更像是PointRCNN的RPN阶段。但类似于这种的方法我没有看到，可能是因为效果不够好的缘故吧。

我不是说survey中的这种分类方法是错误的，而是说这种分法的气的名称有问题，而且我认为分成这两个类没有太大必要。

接下来就是我并不是很了解的部分

Tracking，Flow Estimation和Segmentation我了解的并不多，相关的论文看的很少，我会更多的记录一下我从该survey中学到的东西。

3D Tracking

3D Tracking是与3D Object Detection有关的，都需要关注物体的box。而survey中提到的3D Tracking提到的与2D Tracking的不同点有 “occlusion, illumination and scale”。但这些2D Tracking存在的问题，在3D Tracking中似乎变得更容易解决一些：

occlusion：在自动驾驶场景，要tracking的3D box本身就是在三维空间内不互相遮挡的。尤其是在俯视图中，box都是分离的。
illumination：激光雷达的使用，直接解决了illumination的问题。
scale：同样，在俯视图中，物体的scale并不随着位置变化

而box的检测在3D Object Detection中解决了，然而后面的时候各种滤波器进行跟踪啊啥的思想山应该和2D是一样的。

3D Scene Flow Estimation

这个问题可以类比到图像中的预测光流的问题。这个问题可以理解为不再是对Object做Tracking，而是要对一个场景中的每个点做Tracking，这个问题就更难了。在这其中，我只看过FlowNet这篇文章，本survey中针对该文章中提到的一个问题就是，动态的场景（尤其是以动态障碍物为主的场景，例如密集的车流中，某个车在上一帧还是看到的是车头，这一帧已经完成了错车，看到的是车尾）的解决方法还是一个开放问题。而且在这个问题上的准确率，还不是很高。

3D Point Cloud Segmentation

Semantic Segmentation最基本的想法就是使用3D Shape Classification的网络作为主干网络，然后设计Encoder-Decoder的网络结构，每个input中的element都能得到一个特征，然后通过特征计算Segmentation的mask。

Instance Segmentation

3D Semantic Segmentation

根据上述所说的基本思想，所以3D Semantic Segmentation的方法也可以按照3D Shape Classification的分类方式进行分类。现在很多文章，提出一个3D Shape Classification的网络时，都会相对应的加上Decoder做一下Semantic Segmentation的测试，以证明网络的效果。

Projection based

Projection based包括以下方法：

Multi-view：将Point Cloud投影到Multi-view的2D Image上面，然后使用2D Semantic Segmentation的方法，然后再综合Multi-view的结果获取Point Cloud的Segmentation的结果。这种方法的缺点是：1）计算量大，2）结果与选择的视角敏感。
Spherical Representation：主要是做自动驾驶场景的Semantic Segmentation，这是由于采集设备激光雷达的工作原理所致，具体想法与Multi-view差不多，只不过是只用了一个view。
Voxel：面临着同样的困难，在从Point转到Voxel的过程中会丢失信息，分辨率越高，丢失信息越少，但计算量也会越大。但好处就是：Good scalability is one of the remarkable advantages of volumetric representation. Specifically, volumetric-based networks are free to be trained and tested in point clouds with different spatial sizes.
Permutohedral Lattice Representation：不了解，没读过

Point-based networks

同样，分为：

Point-wise MLP
Convoution-based
Graph based

Instance Segmentation

Part Segmentation

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

【论文阅读】【综述】Deep Learning for 3D Point Clouds: A Survey

文章目录

Survey

3D Shape Classification

Projection based

Multi-view

Voxel

Point based

Pointwise MLP network

Convolution-based Networks

Graph based

Data Indexing based

3D Object Detection

Region Proposal-based Methods

Multi-view Methods

Segmentation-based Methods

Frustum-based Methods

Single Shot Methods

接下来就是我并不是很了解的部分

3D Tracking

3D Scene Flow Estimation

3D Point Cloud Segmentation

3D Semantic Segmentation

Projection based

Point-based networks

Instance Segmentation

Part Segmentation

你可能感兴趣的:(论文阅读)