自动驾驶之心

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【深度估计】技术交流群

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文！

论文：Deep Depth Completion from Extremely Sparse Data: A Survey

摘要

获取正确的像素级场景深度在各种任务中发挥着重要作用，如场景理解、自动驾驶、机器人导航、同时定位和建图、智能农业和增强现实。因此，这是过去几十年来研究的一个长期目标。获得场景深度的一种成本有效的方法是使用单目深度估计算法，从单个图像直接估计场景深度。然而，视觉方法通常产生低的推理精度和较差的可概括性，因此容易受到实际部署的影响。深度传感器以真实的场景尺度提供精确和稳健的距离测量，因此，它们更适用于需要安全保证和高性能的应用，例如自动驾驶汽车。事实上，在工业应用中，使用激光雷达测量深度可能仍然是获得可靠深度的最可部署方式。然而，无论是LiDAR还是常用的RGBD相机，如Microsoft Kinect，都无法提供密集的像素深度图。如图1所示，Kinect捕捉到的深度图有小孔，而LiDAR捕捉到的地图明显更稀疏，因此，在实践中有必要填充空白像素。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第1张图片

由于不同传感器捕获的深度图之间存在明显差异，因此补全问题和解决方案通常取决于传感器，它经常被称为深度增强[48]、[74]、[97]、深度修复[66]、[81]和深度去噪[28]、[97]，其中的目标是从密集的原始深度图中推断缺失的深度值，并消除异常值。本文特别关注极稀疏数据的补全任务，例如，由激光雷达捕获的深度图，其中稀疏度通常超过95%。该问题在相关文献中单独研究和处理，并且由于稀疏输入的低密度而更具挑战性。为了简单起见，在本文的其余部分中，将极端数据的深度补全称为深度补全！

近年来，基于深度学习的方法在任务上表现出令人信服的性能，并引领了发展趋势。先前的工作表明，具有多个卷积层的网络或简单的自动编码器可以补全缺失的深度。此外，可以通过利用RGB信息进一步改进深度补全，这种类型的典型方法是使用双编码器分别从稀疏深度图及其对应的RGB图像中提取特征，然后将其与解码器融合。为了推动深度补全，最近的方法倾向于使用复杂的网络结构和复杂的学习策略，除了用于从多模态数据（例如图像和稀疏深度）中提取特征的多分支之外，研究人员已经开始将表面法线、亲和矩阵、残余深度图等集成到他们的框架中。此外，为了应对监督像素的缺乏，一些工作引入了利用多视图几何约束和对抗性正则化的方法，这些努力极大地促进了深度补全任务的进展。

本文旨在通过对现有方法进行分层分析和分类，描述基于学习的深度补全的发展，并为读者提供一些有价值的指导，对深度补全有一个直观的理解，通常，主要有以下问题：

1）实现高精度深度补全的以前方法的共同特点是什么？
2）与非引导方法相比，RGB引导方法的优点和缺点是什么？
3）由于以前的大多数工作都采用了视觉和激光雷达数据，那么多模态数据融合的最有效策略是什么？
4）当前的挑战是什么？

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第2张图片

图2显示了基于建议分类法的选定方法的时间线，其中底部和顶部分别显示了非引导方法和五种RGB引导方法！可以看出，尽管早期研究以非引导方式处理深度补全，但本文观察到，2020年后发表的研究逐渐被RGB引导方法所主导。在这篇文章中，作者从网络结构、损失函数、学习策略和基准数据集等方面考察了以往的研究，特别强调提出新算法或显著性能提升的方法，并适当提供其技术贡献的视觉描述，以促进澄清。此外，论文在最流行的基准数据集上对具有基本特征的现有方法进行了定量比较。通过对以往研究的深入分析，希望读者能够对深度补全有一个清晰的理解。

基于深度学习的深度补全

本节中首先给出深度补全任务的通用公式，然后概述了建议的分类法。注意到一些方法有共同的特点，作者通过共同考虑网络结构和主要技术贡献对它们进行分组。

通过联合考虑网络结构和主要技术贡献，论文提出了一种详细的分类法。现有方法首先被分类为非引导方法或RGB引导方法。然后，将其进一步分类为更具体的子类别。表1给出了建议的分类法的概述，并描述了识别类别的主要因素，如图所示，非引导方法有三个子类，包括方法1）使用稀疏性感知CNN，2）使用归一化CNN，以及3）使用辅助图像进行训练。引导方法包括五个子类，其中一些还具有更具体的类。对于第一类和第二类，即早期融合和晚期融合模型，融合策略是本文分类法中考虑的主要因素，对于后三类，即显式3D表示模型、残差深度模型和基于空间传播网络（SPN）的模型，融合策略不是识别其类型的主要因素，因为它们具有不同的特征，早期融合和晚期融合都在以前的方法中使用。对于大多数方法，论文发现它们在准确性方面的优势是模型复杂度方面的劣势，反之亦然。幸运的是，大多数方法在标准基准数据集上提供了定量结果。这些研究使我们能够公平地分析和比较他们的表现！

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第3张图片

非引导深度补全

给定稀疏的深度图，非引导方法的目标是直接用深度神经网络模型补全它。以前的方法通常可以分为三组：使用1）稀疏感知CNN的方法，2）归一化CNN，和3）使用辅助图像进行训练的方法。

在卷积操作期间使用二进制掩码识别有效和缺失的元素使得标准CNN能够更好地执行稀疏深度输入，Uhrig等人[109]提出了第一种基于深度学习的非引导方法。他们首先验证了正常卷积无法处理稀疏输入，因为它们通常会导致马赛克效应，并提出了一种新的稀疏卷积操作。然后引入了一个由所提出的稀疏卷积组合而成的6层CNN，稀疏卷积使用二进制有效性掩码来区分有效值和缺失值，并仅在有效数据之间执行卷积，有效性掩码的值由其本地邻居通过最大池化确定。第一种基于深度学习的方法优于非学习方法，并显示了深度学习在任务中的潜力。此外，它启发了许多后续研究。然而，稀疏卷积不适合直接应用于经典的编码器-解码器网络，后者可以充分利用多尺度特征。Huang等人[48]引入了三种稀疏不变（SI）操作，包括SI上采样、SI平均和SI级联，并构建了基于HSMNet的编码器-解码器。他们还通过向HSMNet添加一个小分支，演示了一个使用RGB输入的应用程序！

用连续的置信度图替换二进制有效性掩码可以获得更好的完成性能，稀疏性感知方法需要有效性掩码来识别执行卷积的缺失值。如[22]、[54]和[112]所述，由于CNN中早期层的掩模饱和，有效性掩模会降低模型性能。为了解决这一问题，在归一化卷积[59]的启发下，Eldsokey等人[22]引入了归一化的卷积神经网络（NCNN），该网络生成用于深度补全的连续不确定性图。本质区别在于，使用NCNN获得的特征使用连续不确定性图而不是二进制有效性掩码进行加权。此外，为了更快的收敛，SoftPlus函数[31]将卷积滤波器限制为非负的。尽管NCNN仍然采用稀疏掩码作为初始输入，但它产生了一个连续的置信图，以指示中间层的有用信息。实际上，由于激光雷达投影误差，存在干扰测量，初始稀疏置信度输入不能排除这种噪声输入。为了解决这个问题，Eldersokey等人[21]进一步开发了一种自监督方法，用于估计连续输入置信图，以抑制网络的干扰测量，NCNN也应用于[45]、[112]中的RGB引导深度补全。

通过引入用于重建的深度辅助任务，RGB信息可以被巧妙且隐含地用于非引导深度补全，为了克服语义线索的缺乏，Lu等人[73]在他们的框架中使用了辅助学习分支。他们不直接使用图像作为输入，而是只采用稀疏深度图作为输入，并同时预测重建图像和密集深度图。RGB图像仅在训练阶段用作学习目标，以鼓励获取更多互补的图像特征。[133]中也看到了类似的方法，其中RGB和法线用于辅助训练，在[113]中，采用自动编码器在潜在空间中生成RGB数据，然后自动编码器从中预测最终深度。该方法是无监督的，不使用密度更高的深度图作为地面真实情况，与[73]相比表现出较差的性能。尽管这些方法在训练中是RGB引导的，但它们的目的是在推理中执行非引导的深度完成，因此，我们将其归类为无指导方法！

作为解决深度补全的早期尝试，与标准卷积相比，稀疏性感知方法[109]提高了精度，然而性能较差，尤其是与随后的作品[21]、[48]、[73]相比。其准确性低有两个根本原因。首先，在这项工作中使用的有效性掩模不是空间尺度不变的，因此只能应用于简单地由几个卷积层组装的网络，即，由于模型容量低而缺乏可辨性。第二，从掩模获得的有效性信息在网络中的几个卷积层之后趋于消失。扩展的工作[48]实现了特征图的SI（稀疏不变）上采样、SI平均/求和和SI级联，因此允许使用分层编码器-解码器网络与[109]相比获得显著的精度提高（RMSE提高41.5%）。方法[14]不同于[48]、[109]，因为它将深度完成作为字典学习问题，并且在要求最小模型参数方面具有优势。归一化CNN[21]、[22]主要针对使用二进制有效性掩码导致的有效性丢失问题。与应用归一化卷积[22]得到的[109]相比，性能有了相当大的提高（20.8%），并且通过进一步考虑消除输入稀疏深度图中存在的异常值[21]，性能大大提高（40.0%）。与HSMNet[48]相比，[21]中提出的方法的一个优点是，它使用仅具有0.67M参数1的轻量级网络实现了相当的性能。使用辅助图像的方法通过在RGB生成任务中引入额外的深度，巧妙地将RGB引导引入非引导方法。使用共享编码器将RGB信息隐式聚合为深度完成模块，该方法[73]大大提高了准确性，是非制导方法的最新技术。此外，这种使用RGB图像的策略不会导致推理阶段中参数数量的任何增加。然而，他们的网络比[21]中提出的网络更复杂（11.67M比0.67M），因为它采用了基于Inception[103]的编码器，并选择使用更大的内核大小。此外，使用额外的RGB信息来指导模型训练将降低真实世界用例中非指导方法的泛化精度。

RGB引导深度补全

非引导方法通常表现不如RGB引导方法，并受到模糊效果和对象边界扭曲的影响，归因于关于自然场景的先验信息不足。如[46]中所研究的，自然场景的深度图可以分解为光滑表面和其间的尖锐不连续性，后者在深度图中形成阶边。该结构是深度图的关键属性，然而，当深度图非常稀疏时，诸如相邻对象和锐利边缘等先验信息明显缺失，使用CNN恢复完整的深度图甚至是困难的。因此，利用RGB信息作为附加输入是简单而合理的。RGB图像提供关于场景结构的信息，包括纹理、线条和边缘，以补充稀疏深度图的缺失线索，并鼓励平滑区域内的深度连续性和边界处的不连续性。此外，它们包括一些单目线索，例如消失点[43]，用于促进深度估计，这些好处补充了稀疏深度图。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第4张图片

与非引导方法相比，RGB引导方法通常具有三个优点：i）它们通常在准确性上优于非引导方法，ii）它们对不同的稀疏度水平更鲁棒，以及iii）它们获得更多感知正确的深度图。对于i）和ii），可以参考图3所示的实验结果，如所观察到的，使用RGB数据可以提高每个稀疏度级别的非引导模型的精度，并且当深度样本数量减少时，精度会缓慢下降。对于iii），定性比较示例如图4所示。结果表明，RGB引导的补全鼓励了对象边界处的不连续性，同时保持了对象内部的平滑度。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第5张图片

迄今为止，已经提出了不同类型的方法，它们主要可以分为五种类型：1）早期融合模型，2）晚期融合模型，3）显式3D表示模型，4）残余深度模型，以及5）基于空间传播网络（SPN）的模型。

1）Early Fusion Models

早期的融合方法在将稀疏深度图和RGB图像通过深度模型[17]、[77]、[88]之前，直接将它们连接起来，或者在模型的第一卷积层聚集多模态特征[51]、[70]、[123]。先前的早期融合方法可以分为两种：采用1）编码器-解码器网络的方法和2）两阶段粗到精预测的方法。

早期融合在其简单性方面有其优势，例如，如果EDN构建在同一网络上，则与非引导方法相比，EDN不会导致模型复杂度的许多增加。然而，从目前的情况来看，早期融合模型相当简单，因为多模态数据融合仅在输入层进行，特征提取完全依赖于黑盒CNN。论文发现，早期融合模型通常表现不如晚期融合模型，后者可以学习特定领域和相关特征。C2RP是对EDN的技术改进，它采用额外的编码器-解码器网络来进行预测细化，但牺牲了计算效率。对于基于C2RP的方法，作者发现只有S2DNet[36]和[70]表现出比单阶段预测方法更好的性能[51]，[89]，[112]。尽管采用C2RP的几种方法使用形态学算子[17]、最近邻插值[10]、[39]和双线性插值[39]应用粗预测，但由于稀疏输入的高稀疏性，预加密深度图的质量较低。S2DNet[36]和[70]都选择使用编码器网络进行粗略预测，并且能够在第一阶段学习更精确的深度图，从而相应地提高最终的细化性能。然而，与应用细化的其它方法（例如，残差模型和SPN模型）相比，细化缺乏空间约束。如这些分析所示，从单阶段回归到两阶段预测的改进被描述，这种趋势通常适用于现有方法，即准确性的提高在很大程度上取决于扩展模型复杂性或牺牲推理效率！

2）Late Fusion Models

后期融合模型通常使用两个子网络从（i）使用RGB编码器网络的RGB图像和（ii）使用深度编码器网络的稀疏深度输入中提取特征。融合在两个子网络的中间层进行，以前的大多数方法都利用具有各种网络结构的后期融合策略。具体地说，它们被分为三种类型：采用1）双编码器网络、2）双编码器编码器网络和3）全局和局部深度预测的方法。

如上所述，基于DEN的方法通常包括RGB编码器、深度编码器和解码器。融合在两个编码器之间进行。双编码器-解码器网络（DEDN）是双编码器网络的改进。一个普通的DEDN包含两个编码器-解码器网络。以类似的方式，一个获取图像输入，另一个获取稀疏深度输入。图像网络也称为引导网络。对于基于DEDN的方法，通常在多尺度上在图像分支的解码器和深度分支的编码器之间进行融合。作为图6所示的代表性方法，GuideNet[104]旨在学习RGB和深度特征的更有效融合。受引导图像滤波[37]和双边滤波[107]的启发，GuideNet推出了引导卷积，其从图像特征自动生成空间变化的核，并将其应用于为深度特征分配权重。将引导卷积应用于多尺度图像特征，为了降低计算复杂性，MobileNet-V2[94]将引导卷积分解为信道卷积和跨信道卷积。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第6张图片

受[104]和[109]的启发，Schuster等人[95]提出了稀疏空间引导传播（SSGP），它结合了图像引导空间传播和稀疏卷积。SSGP不仅适用于深度补全，还适用于其他插值问题，如光流和场景流。由于SSGP旨在概括为几个视觉任务，其模型设计缺乏对深度完成的关注，导致与GuideNet相比性能较差。最近，Yan等人[127]提出了具有新颖重复设计的RigNet，以处理模糊的对象边界并更好地恢复场景结构。在RigNet中，用于提取图像特征的分支使用重复沙漏网络（RHN）实现，即多个编码器-解码器网络，以产生感知清晰的图像特征。RigNet用于提取深度特征的分支也是一个沙漏网络，它堆叠着一个重复制导模块（RG）。RG与引导卷积[104]起着类似的作用，并建立在动态卷积[8]上。由于RG重复地实现动态卷积，[104]中提出的卷积分解变得效率较低。因此，他们设计了一种有效的引导算法，通过使用全局平均池，信道卷积中的核大小从3×3下降到1×1，RigNet实现了非凡的性能，目前在KITTI深度完井数据集上排名第二[109]。

在之前的一些工作中，RGB和LiDAR数据被称为全局信息，LiDAR数据被称为局部信息。全局和局部深度预测(GLDP)方法采用一个全局网络从全局信息中推断深度（全局信息相当于RGB图像和稀疏深度的早期融合），一个局部网络从局部信息中估计深度，最终的密集深度图是通过合并全局和局部网络的输出得到的。为了利用全局和局部特征，在[110]中预测了全局深度和局部深度图，以及相关的置信度图。在每个分支预测的置信度图被用作交叉指导，以完善由其他分支预测的深度图。在[62]中也介绍了类似的方法，其中Lee等人做了两项改进，首先，为了扩展感受野，他们设计了一个残差空间金字塔（RASP）块来代替传统的残差块。第二，与[110]不同的是，信心图直接用于通过 element-wise 的乘法来完善深度图，他们引入了一个新的引导模块，同时应用 element-wise 和pixel-wise的注意操作。在[72]中，同样的框架也被用来解决来自极度稀疏深度的深度补全，以探索来自单线深度图的深度补全。

3）显式三维表示模型

大多数先前的RGB引导深度补全研究以隐式但无效的方式学习3D几何关系，通常，困难来自于正常2D卷积无法从观测到的深度值不规则分布的稀疏输入中捕获3D几何线索。因此，另一种类型的先前方法促进了显式3D表示（E3DR），这种类型的先前方法可以分为使用1）3D感知卷积、2）中间曲面法线表示和3）从点云学习几何表示的方法。

在2D-3D FuseNet[9]中，从RGB分支和深度分支提取的特征由几个2D-3D融合块融合，这些融合块共同学习2D和3D表示。2D-3D融合块使用多尺度分支以正常卷积操作提取2D网格空间中的外观特征，并使用分支通过在3D空间中中心点的K个最近邻上应用两个连续卷积[114]来学习3D几何表示。随后的研究中通常采用从空间上接近的K近邻学习的思想。例如，在ACMNet[140]中，通过比较空间差异来类似地识别最近的邻居，与[9]不同，非网格卷积是通过图传播实现的。如图7所示，ACMNet具有DEDN结构，其中编码器由协作引导图传播模块（CGPM）组成，解码器是对称门控融合模块（SGFM）的堆栈。CGPM在图像和深度编码器中自适应地应用基于注意力的图形传播来进行多模态特征提取，SGFM在两个解码器之间应用对称交叉引导来进行多模式特征融合。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第7张图片

一些作品利用表面法线作为深度图的中间3D表示，并介绍了使用表面法线引导完成的方法。如[47]和[136]中所研究的，表面法线是合理的中间表示，可以促进室内深度增强。然而，正如邱等人所指出的[88]，从室外场景中的法线重建深度对噪声和遮挡更敏感；在这种情况下，如何利用曲面法线仍然是一个悬而未决的问题。为了解决这个问题，他们提出了DeepLIDAR，这是一个由两个分支组成的网络，颜色路径和表面法线路径（如图8所示）。这两个分支都生成密集的深度图，通过对两个路径的输出进行基于注意力的加权来获得最终的深度图，在曲面法线分支中，曲面法线用作生成的深度图的中间表示。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第8张图片

最近，一些研究直接从点云学习几何表示。例如，Du等人[20]建议首先使用边缘卷积从点云学习几何感知嵌入[115]，然后，利用DEN从RGB图像和几何嵌入中执行深度补全，Jeon等人[55]也使用点云作为输入。通过将注意力机制并入双边卷积[102]，他们设计了一种基于注意力双边卷积层（ABCL）的编码器，用于从3D点云中提取特征。他们的框架还实现了DEN，其中点云编码器用于提取3D特征，图像编码器用于从RGB图像和稀疏深度输入中提取2D特征。如[20]、[55]所示，将点云集成到深度完成中显著提高了不同环境中的模型泛化精度，与[55]相比，[20]的方法以更简单、更轻量级的框架实现了竞争性的结果。

4）Residual Depth Models

残差深度模型（RDM）预测深度图和残差图，它们的线性组合获得最终深度。通过残差图的预测，该模型可以细化模糊深度预测，并在对象边界上产生更精细的结果。这些方法通常应用两阶段粗定义，类似于预测过程，[64]中显示了一个简单的应用，其中首先将稀疏深度图完成为密集图，然后预测残差图。最后，它们的逐元素求和生成最终的深度图。Gu等人[34]提出了DenseLiDAR，一种类似的方法，如图9所示，在DenseLiDAR中，首先预测了具有形态学操作的伪深度图。然后，将伪深度图、RGB图像和稀疏深度输入发送到CNN以预测残差图。最后，用残差图校正伪深度图以产生最终深度图。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第9张图片

对于其它方法，改进是通过增强粗略深度图或残余深度图的估计而得到的。例如，在核回归的激励下，在[67]，[83]中，提出了一种可微分核回归网络来代替手工制作的插值，以根据稀疏输入进行粗略深度预测。此外，FCFR Net[68]实现了基于能量的多模态特征融合操作，以促进残差地图学习。为了处理不均匀分布和异常值问题，Zhu等人[144]引入了一种新的基于不确定性的框架，该框架由两个网络组成：多尺度深度补全block和不确定性注意力残差学习网络。与其它基于残差的方法一样，前一种网络产生粗预测，后一种网络执行细化。基于不确定性的框架通过在第一完成阶段放松高度不确定区域的约束来防止异常值的过度拟合，并引导网络在细化阶段生成残差图。Zhang等人[138]将后期融合与残差学习相结合，提出了一种基于DEN的多线索引导网络。与其它方法不同，最终深度是稀疏输入和估计残差图的组合！

5）SPN-based Models

SPN通过基于亲和力的细化明确地强制深度点与其相邻点之间的空间相关性！它用于细化和获得视觉任务中的细粒度预测。在空间传播网络（SPN）[69]中，学习亲和矩阵被公式化为学习一组变换矩阵。

由于深度点与其相邻点相关，因此SPN合理地适用于深度回归问题，一系列先前的研究基于SPN开发了他们的算法。Cheng等人提出了开创性的卷积空间传播网络（CSPN）[13]，[111]，这是第一个用于深度完成的基于SPN的模型。与原始SPN[69]相比，CSPN有两大改进。首先，在SPN中，一个点从最近的行或列链接到三个本地邻居，而在CSPN中，使用3×3本地窗口连接本地邻居。其次，CSPN通过卷积运算在所有方向上有效地传播局部区域，而不是在不同方向上传播并与最大池作为SPN。深度点的最终值由其局部邻居通过具有亲和矩阵的扩散过程确定。具体地说，[77]中提出的网络用跳跃连接和额外的输出分支进行修改，以生成亲和矩阵。给定粗略的预测深度图和亲和矩阵，将CSPN插入网络[77]进行细化，如图10所示。超参数（包括核大小（局部邻居的大小）和迭代次数）需要通过超参数搜索进行调整。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第10张图片

为了解决确定内核大小和迭代次数的困难，Cheng等人进一步提出了CSPN++[12]，该CSPN++12]支持上下文感知CSPN（CA-CSPN）和资源感知CSPN（RA-CSPN）。对于CA-CSPN的实现，首先定义了内核大小和迭代次数的各种配置，并引入了两个额外的超参数来自适应地权衡不同的内核大小和重复次数。因此，CA-CSPN消耗大量的计算资源。为了解决这个问题，RA-CSPN通过最小化计算资源使用，为每个像素选择最佳的内核大小和迭代次数。为此，将计算成本函数聚合到优化目标，以平衡精度和训练时间之间的权衡。虽然CSPN和CSPN++主要关注于现有编码器-解码器方法的改进[77]，但PENet[44]利用了SPN和后期融合模型。PENet使用DEDN结构，其中一个网络根据RGB图像和稀疏深度进行预测，另一个网络则根据稀疏深度和预加密深度图进行预测，然后将CSPN++应用于这些预测的融合深度图。

训练模型的学习目标

由于深度补全和单目深度估计具有相同的目标输出，即预测密集深度图，因此它们共享相同的学习目标，例如深度损失、表面法线损失和光度损失，常见的loss如下所示：

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第11张图片

数据集和评估指标

在本节中，将详细介绍以前工作中常用的基准数据集，还全面调查了相关数据集，以供参考。

数据集

KITTI depth completion dataset ：KITTI数据集是一个广泛使用的大型户外数据集，包含93000多张半密集深度图以及相应的原始稀疏激光雷达扫描和RGB图像。训练、验证和测试集分别有86000、7000和1000个样本，图像和深度图的全分辨率可达1216×352，比大多数现有RGBD数据集都大。原始激光雷达扫描由Velodyne HDL-64E捕获。为了获得半密集地面真实深度图，Uhrig等人[109]使用半全局匹配（SGM）纯化了原始数据，并通过累积11次激光扫描来加密稀疏深度图。应该注意的是，在实施以前的方法时，可以不同地使用基本事实。原始稀疏深度图的密度仅为约5%（如图13（b）所示），而KITTI基准提供的半密集真实度可达到约30%（如图13C所示）。大多数先前的工作采用更密集的gt来实现其方法，而一些无监督方法[118]、[119]、[120]、[121]、[129]假设只有原始稀疏深度图可用，在这种情况下，深度一致性仅适用于那些5%有效像素！

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第12张图片

NYU-v2 ：NYU-v2 数据集由464个室内场景组成，其中408000张RGBD图像由Microsoft Kinect拍摄，原始分辨率为640×480。尽管原始RGBD数据仅适用于深度增强方法，但先前的深度补全研究通过随机选择200个（图14（b））或500个深度点（图14）（c））作为稀疏输入来实现其方法。在这两种情况下，总有效像素都小于1%。在NYU-v2数据集上评估的大多数方法都是RGB引导的。对于在此数据集上评估的方法，无监督方法只能将深度一致性应用于合成稀疏深度输入中的有效深度点。相比之下，[12]、[13]、[77]等监督方法通常使用由官方修复工具箱预先加密的密集像素地面真实深度图。

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第13张图片

VOID[120]：VOID数据集包含使用Intel RealSense D435i相机从室内和室外场景采集的56个序列，其中48个序列（约47000帧）用于训练，其余8个序列用于测试。每个帧的分辨率为640×480，每个序列有三个不同的密度级别，分别为1500、500和150点。该数据集用于评估[93]、[118]、[119]、[120]、[121]中的方法。DenseLivox[133]：DenseLivox数据集是使用比KITTI更便宜的Livox LiDAR采集的，该LiDAR具有更密集的深度图（密度为88.3%）。DenseLivox还提供了一些额外的数据，如绑定遮挡和正常。该数据集用于评估[133]中的方法。

Evaluation Metrics

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第14张图片

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第15张图片

实验

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第16张图片

2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）_第17张图片

深度补全的一些问题与研究方向

Depth Mixing Problem

深度混合问题，也称为深度涂抹问题，是由于难以正确识别物体边界附近的像素，通常会导致边缘模糊和伪影。为了缓解这个问题，[51]通过将深度图划分为一组具有固定深度范围的bins，将深度完成公式化为一个热编码问题。Imran等人[52]分离遮挡边界区域中的前景和背景深度，并分别对其进行建模。NLSPN[86]使网络学习非局部相对邻居，从而可以在迭代传播期间分离像素，实现这种分离过程的一种更简单的方法是利用K最近算法[9]，[126]，[140]。此外，在深度补全后添加了边界一致性网络，以鼓励预测更清晰的边界[47]，[105]。然而，这个问题对于深度估计任务来说仍然是困难的，需要持续研究。

缺陷的GT

另一个问题是真实深度标签存在缺陷，首先，与语义分割不同，由于深度传感器的限制，现有的真实世界数据集都不能提供像素级的真实情况。尽管许多现有方法都是以监督的方式训练的，但大多数像素都不能得到充分的监督。其次，由于遮挡、动态对象等引起的异常值，半密集注释并不完全可靠。为了克服稀疏性问题，一些研究人员[76]、[100]转向自监督框架来缓解真实深度的不足。为了解决第二个问题，Zhu等人[144]通过将不确定性估计纳入深度补全网络来处理异常值。此外，一些工作[1]、[134]利用合成数据集进行模型训练。然而，真实世界和合成数据之间的领域差距阻碍了这些方法的广泛应用。尽管先前的研究做出了上述努力，但如何排除不可靠深度的影响仍然是一个悬而未决的问题，而且仍有很大的改进空间。

Lightweight Networks

大多数以前的方法具有复杂的网络结构和大量的参数，此外，他们中的许多人采取两阶段的粗到精预测。因此，这些方法是耗时的，并且需要大量使用硬件资源。然而，对于自动驾驶和机器人导航等应用，计算资源有限，需要实时推理。尽管一些先前的研究[2]、[105]、[112]、[126]部分考虑了实时推理问题，但它们的性能较差，此外，网络设计本质上是经验性的。随着单目深度估计的进展，可以进一步应用几种技术，例如应用知识蒸馏[40]、网络压缩[117]和神经架构搜索[50]。在不牺牲太多准确性的情况下，开发具有快速推理速度的轻量级方法对于现实世界的部署具有巨大的潜力，因此，这是未来工作中有价值和实用的研究点。

无监督/自监督框架

如前所述，无监督学习框架是在缺乏密集的GT情况下常用的解决方案。与监督方法相比，当前无/自监督方法的精度仍然较低，因为它们仅将深度一致性应用于稀疏输入中的有效深度点，并且无法利用监督方法所使用的GT深度点。另一方面，只有当预测的深度图足够接近地GT时，光度损失才会有效。然而，由于光度损失特别容易受到噪声、移动对象和无纹理区域的影响，这仍然是一个挑战，因此无监督方法还有很大的改进空间。由于这类方法对动态对象、远距离区域等不鲁棒，因此可以通过利用更有效的网络结构来执行辅助任务（例如姿态估计和异常值去除）来实现改进。

Domain Adaptation

当前的基准数据集面临缺乏可靠深度点的挑战，此外，在有限的场景中，在理想的照明条件下捕获数据。因此，使用这种类型的数据训练的模型不能保证在不同的工作条件和领域中进行泛化。因此，在模拟环境中操纵深度网络是合理的，我们不仅可以获得每像素的GT实况，还可以通过大量不同的场景获得可变的照明或天气条件。此外，它鼓励开发在现实世界中难以实现的更先进的方法，挑战是如何将模型从模拟环境转移到真实场景。一些工作探索了深度完成的域自适应方法[1]，[71]。然而，这个探索不足的问题仍然未知，值得进一步探索。

对不同传感器的鲁棒性

现有方法仅适用于特定传感器，例如，最常用的KITTI数据集由64线激光雷达捕获。不能保证以前的方法可以应用于较低扫描线传感器，例如32线、16线和1线激光雷达。如[72]、[76]、[93]、[131]所示，从64线传感器到较低扫描线传感器，性能下降显著。因此，保持较低扫描线传感器的相同精度水平具有挑战性。这一探索不足的问题在实际应用中也很实用，因为高扫描线传感器比低扫描线传感器更昂贵。因此，确保各种低扫描线传感器的基于学习的方法的准确性也是一个重要而有价值的研究课题。

基于Transformer的网络结构

最近，视觉transformer（ViT）引起了广泛关注，并不断为许多感知任务引入新的最新结果，包括分类[18]、语义分割[101]、目标检测[139]和单目深度估计[4]。与CNN不同，ViT接收一组图像补丁作为输入，并使用自我关注进行局部和全局特征交互。它可能为深度补全带来新的范式转变，其中可能存在更有效的多模态数据融合和处理输入稀疏性的新策略。

参考

[1] Deep Depth Completion from Extremely Sparse Data: A Survey

往期回顾

史上最全综述 | 3D目标检测算法汇总！（单目/双目/LiDAR/多模态/时序/半弱自监督）

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

加入我们：自动驾驶之心技术交流群汇总！

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球（三天内无条件退款），日常分享论文+代码，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！

你可能感兴趣的:(2022最新综述！稀疏数据下的深度图补全（深度学习/非引导/RGB引导）)

前端开发：在vue中实现按钮倒计时功能三掌柜666 前端开发进阶 vue.js javascript 前端
前言在vue中开发中，关于计时器的使用也是比较常见的知识点，如基于移动端的短信60秒倒计时按钮、阅读协议40秒等实际需求，很常见的需求也不复杂，主要是有些细节需要注意。那么本篇博文就来分享一下关于vue中实现倒计时功能的方法，方便查阅使用，如有问题请指正。使用场景在前端开发中基于移动端的短信验证码发送60s倒计时使用，用户协议阅读30s倒计时提示等等。核心原理主要要处理的是倒计时按钮提示的数字以及
【SSE】前端vue3使用SSE，EventSource携带请求头 2501_91133273 前端
写在前面：兄弟们，我手里有个长期项目，考虑接私活的可以看看我GitHub！https://github.com/ccy-233/coder2retire一、[SSE]介绍1.定义SSE（Server-SentEvents）是一种基于HTTP协议，用于实现服务器主动向客户端推送数据的技术。它在客户端与[服务器]之间建立一条持久化连接，并通过这条连接实现服务器向客户端的实时数据推送，而客户端不能发送数
深入浅出Docker：从零构建容器化开发能力庸子 docker 容器运维 linux
目录一、容器革命：重新定义应用交付二、核心概念体系解析2.1镜像与容器2.2镜像构建哲学三、核心操作指令精要3.1容器生命周期管理3.2镜像管理进阶四、生产级实践指南4.1环境变量管理4.2持久化存储方案4.3网络架构设计五、持续交付流水线集成5.1Dockerfile优化原则5.2多环境配置策略六、安全加固要点一、容器革命：重新定义应用交付在传统软件部署中，环境差异导致的"在我机器上能跑"问题长
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
【数据结构】近期博客大思想（2）面向使用出发泡泡大虾数据结构
一、核心思想1.一切以实用出发2.能简单就简单3.写数篇专题小文章、小知识点总结，数周后汇总二、避免的潜意识1.不要随便和比你暂时学得好的同龄人攀比技术2.戒浮躁:别人学得好写得好是自己不能够控制的3.能控制自己创作的东西，自己的脚步三、核心改进1.一篇小文章二十分钟多不超过0.5h写完2.立马交！立马上传！3.分而治之:大不了多篇小文章整合成一篇大文章……一大篇分成四五小篇轻轻松松搞定！4.遍历
AIGC从入门到实战：可能消失的职业和新出现的机会 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：可能消失的职业和新出现的机会作者：禅与计算机程序设计艺术1.背景介绍人工智能生成内容（AIGC）正在迅速改变我们的世界。从文本、代码到图像和音乐，AIGC正在各个领域展示其强大的能力，并开始挑战传统的创意产业。本篇文章将深入探讨AIGC的概念、技术原理、应用场景以及其对未来职业的影响，并为读者提供入门AIGC的实用指南。1.1AIGC的兴起AIGC的兴起得益于近年来人工智能技
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
迪威 3D 模型发布系统：制造业产品展示革新利器 3D小将联讯软件迪威模型 3d 3d模型发布系统建站系统制造业
在竞争激烈的制造业领域，如何将产品全方位、直观地呈现给客户，成为企业脱颖而出的关键。传统的产品展示方式往往受限于平面资料或有限的实物展示，难以让客户深入了解产品的复杂结构与精妙细节。迪威3D模型发布系统的问世，为制造业企业带来了革命性的产品展示解决方案，开启了高效、立体的产品推广新篇章。一、沉浸式3D模型展示，让产品细节纤毫毕现制造业产品通常具有复杂的构造与精密的工艺，这些关键信息在传统展示中极易
深入探索文件上传基础及过滤方式：Web 安全的关键防线阿贾克斯的黎明网络安全 web安全
目录深入探索文件上传基础及过滤方式：Web安全的关键防线文件上传基础文件上传的安全风险文件上传的过滤方式在Web应用程序的安全领域中，文件上传功能是一把双刃剑。它为用户提供了极大的便利，比如用户可以上传头像、文档等各类文件，但同时也给Web应用带来了诸多安全风险。恶意用户可能利用文件上传漏洞，上传恶意脚本文件，进而获取服务器权限，导致敏感信息泄露、网站被篡改等严重后果。因此，深入了解文件上传基础及
open-webui使用searXNG插件连接自定义的联网搜索服务程序 chinayeren 教程 python ai llama chatgpt
项目背景因为国内无法访问内置的一些免费搜索插件，安装完searXNG本地服务端后根据教程中连接始终无法连接，docker方案国内也无法使用的情况下，本地使用python写一个Flask服务程序使用爬虫技术提供联网搜索数据。下面是实现代码V1#!/usr/bin/python3#_*_coding:utf-8_*_##Copyright(C)2025-2025#@Title:这是一个模拟searXN
前端初学者，有哪些适合的学习网站？四六的六前端学习个人开发
对于前端初学者而言，选择合适的学习网站至关重要，以下是一些我知道的优质学习平台，在这里分享给大家：菜鸟教程：该网站以其简洁明了的界面设计和通俗易懂的教程内容而受到广大初学者的欢迎。其前端教程体系涵盖了前端开发的大量入门知识，包括HTML、CSS、JavaScript等基础技术，以及当前主流的前端框架和工具的使用方法，如Vue.js、React、Webpack等。教程内容的讲解方式深入浅出，注重从基
Kotlin知识体系(二) : Kotlin的七个关键特性氦客知识体系 -Kotlin基础 kotlin android 开发语言特性密封类 data class 安卓
前言在Android开发中，Kotlin以其简洁的语法和强大的特性显著提升了开发效率。本文将解析Kotlin中7个关键特性，通过代码示例展示它们在实际开发中的应用。一、构造函数：主次分明主构造函数classUserconstructor(_name:String){//传统写法valname=_name}classStudent(valid:Int,varname:String)//简化版主构造函
ST-Align：一个包含430万训练样本，涵盖了15种细粒度多模态数据集数据集
2025-01-15，由北航大学、合肥工业大学、中科院信息工程研究所和美团等机构联合创建介绍了一种名为LLaVA-ST的多模态大型语言模型。该模型配备了一个名为ST-Align的数据集，专为细粒度时空多模态理解设计。一、研究背景近年来，多模态大型语言模型（MLLMs）在多模态理解方面取得了显著进展，能够基于图像或视频生成对话或描述。然而，对于需要基于语言输入处理视觉坐标的细粒度多模态理解任务，现有
PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架数据集
2025年1月7号，由杨德杰、赵子敬、刘洋联合提出PlanLLM，一种基于可微调大型语言模型（LLM）的跨模态联合学习框架，用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块，PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制，实现了对新步骤和任务的泛化能力。该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升，展现了其在弱监督学习中的有效性
数字新基建浪潮下：5G时代项目管理工具选型指南程序员
随着数字化时代的加速推进，数字新基建浪潮正以前所未有的力量重塑着各个行业。在这股浪潮中，5G技术的广泛应用成为了关键驱动力。而对于企业和项目管理者来说，如何在5G时代选择合适的项目管理工具，以提高项目的效率和质量，成为了一个至关重要的问题。本文将为您提供一份全面的5G时代项目管理工具选型指南，帮助您在众多选择中找到最适合自己的工具。5G时代项目管理的新挑战与需求在5G时代，项目管理面临着一系列新的
HarmonyOS Next ohpm-repo自动化运维——日志、备份与监控 harmonyos
在HarmonyOSNext开发过程中，ohpm-repo作为私有仓库管理工具，其稳定运行对于项目的顺利推进至关重要。有效的自动化运维是保障ohpm-repo高效运行的关键，涵盖日志管理、仓库备份与恢复以及批量操作等多个方面。接下来，我们详细探讨这些自动化运维能力。如何管理ohpm-repo的日志？ohpm-repo有一个内置的日志记录器，定义了四种日志类型，分别是访问日志（access.log）
批量请求微信小程序封禁状态的C++代码示例小程序
标题：批量请求微信小程序封禁状态的C++代码示例概述：此C++代码示例将展示如何批量请求指定API接口，检查微信小程序是否被封禁。根据返回的code值，我们可以判断小程序是否被封禁，code为0时表示小程序被封禁，code为1表示正常。代码介绍：目标：通过C++编写批量请求的代码，检查多个小程序的封禁状态。使用的库：使用libcurl库来发送HTTP请求。libcurl是一个强大的库，广泛用于在C
【APM】Loki日志多行显示运维归一 DevOps APM loki 日志并行
上一篇文章我们搭建了Alertmanager和Loki，接下来我们来实现日志并行显示专栏：https://blog.csdn.net/zhanremo3062/category_12552674.html我们只需要修改Promtail服务的配置文件即可multiline:#RE2正则表达式，如果匹配将开始一个新的多行日志块#这个表达式必须被提供firstline:#解析的最大等待时间（Godura
基于HarmonyNext的ArkTS实战：构建跨平台金融理财系统 harmonyos-next
基于HarmonyNext的ArkTS实战：构建跨平台金融理财系统引言金融理财是现代人生活中不可或缺的一部分，尤其是在数字化时代，用户对理财工具的需求日益增长。HarmonyNext作为新一代操作系统，结合ArkTS的强大能力，为开发者提供了构建高性能、跨平台金融理财系统的绝佳工具。本文将详细讲解如何利用ArkTS和HarmonyNext构建一个功能完善的金融理财系统，涵盖账户管理、投资组合分析、
HarmonyNext实战：基于ArkTS的分布式任务调度系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式任务调度系统开发引言在HarmonyNext生态系统中，分布式任务调度是一个核心且复杂的技术领域。随着设备互联的普及，如何在多设备间高效、可靠地分配和执行任务成为开发者面临的重要挑战。本文将深入探讨如何利用ArkTS语言构建一个高性能的分布式任务调度系统，涵盖从架构设计到代码实现的完整过程。分布式任务调度系统概述分布式任务调度系统的核心目标是将任务
HarmonyNext实战：基于ArkTS的跨设备分布式计算应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨设备分布式计算应用开发引言随着分布式计算技术的快速发展，跨设备协同计算已成为提升应用性能的重要手段。HarmonyNext作为新一代操作系统，提供了强大的分布式能力，而ArkTS作为其开发语言，能够帮助开发者高效实现跨设备分布式计算。本文将详细讲解如何在HarmonyNext平台上使用ArkTS开发一个跨设备分布式计算应用。我们将从分布式计算的基本原理
HarmonyNext实战：基于ArkTS的跨平台文件管理系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的跨平台文件管理系统开发引言随着HarmonyNext的发布，ArkTS作为其核心开发语言，为开发者提供了更高效、更灵活的编程体验。本文将围绕文件管理系统的开发，详细讲解如何利用ArkTS构建一个跨平台的高效文件管理工具。通过本案例，您将掌握ArkTS的核心语法、HarmonyNext的API调用以及实际开发中的最佳实践。一、项目背景与需求分析1.1项目背
基于oracle linux的 DBI/DBD 标准化安装文档(四) linux
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
将自己的域名添加到 GitHub Pages Kissablecho github
转自我的博客，欢迎多多支持。将自己的域名添加到GitHubPages前言GitHubPages是一个方便的网站托管服务，可让用户轻松地创建和发布自己的网站。如果您想使用自己的域名来访问GitHubPages上的网站，本文将介绍如何添加自己的域名到GitHubPages。工具GitHub账号一个域名（请注意，您必须拥有该域名的所有权或者有权访问DNS记录以便修改域名配置。）步骤第一步：在GitHub
Spring 核心注解深度解析教程我不是少爷. Java基础 spring python java
（涵盖@Component/@Repository/@Service/@Controller/@Autowired/@Qualifier/@Resource/@Value）一、组件扫描与分层注解1.@Component基础组件标识@Component//通用组件标识publicclassBasicComponent{//会被Spring自动扫描并注册为Bean}特性：所有组件注解的基类默认Bean
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台数据集
2025-02-27，由北京邮电大学和理想汽车公司联合创建。该平台基于《Overcooked-AI》游戏环境，设计了更具挑战性和实用性的交互任务，目的通过自然语言沟通促进多智能体协作。一、研究背景近年来，基于大型语言模型的智能体系统在复杂任务分解和规划方面展现出巨大潜力，成为自然语言处理领域的研究热点。然而，随着研究的深入，人们发现单个智能体在处理复杂任务时存在局限性，而多智能体系统通过协作能够显
书籍-《深度生成模型（第二版）》
书籍：DeepGenerativeModeling作者：JakubM.Tomczak出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《深度生成模型（第二版）》01书籍介绍本书是关于生成式AI背后模型的第一本全面著作，经过彻底修订，涵盖了所有主要类别的深度生成模型，包括混合模型、概率电路、自回归模型、基于流的模型、潜在变量模型、生成对抗网络（GANs）、混合模型、基于得分的
基于内容分块（CDC）的重删算法详解：原理、实现与优化这个懒人算法
引言在数据爆炸式增长的时代，存储资源优化成为技术领域的重要课题。重复数据删除（Deduplication）技术通过消除冗余数据副本，可将存储需求降低90%以上。其中基于内容分块（Content-DefinedChunking,CDC）算法凭借其对数据局部修改的强适应性，成为企业级备份系统、云存储服务的核心技术。一、CDC算法核心原理1.1动态分块vs静态分块传统固定分块算法将数据按固定大小（如4K
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb