shiyueyueya

Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review 综述自动驾驶中图像和点云融合的深度学习

题目：Deep Learning for Image and Point Cloud Fusionin Autonomous Driving: A Review

原文连接：Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review | IEEE Journals & Magazine | IEEE Xplore

出处 2021 IEEE Transactions on Intelligent Transportation Systems

翻译了一些重要的内容，还有一点点自己的总结，在（）中，加了一点自己认为比较重要的提到的论文的结构图，内容较长，约1w5字。

csdn右侧有目录，可以展开结构更加清晰。

摘要：

1、到目前为止，还没有针对基于深度学习的摄像机-激光雷达融合方法的重要评论。为了弥合这一差距并激励未来的研究，本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。

2、图像+点云的数据处理的深度学习：深度补全、目标检测、语义分割和跟踪。

1. INTRODUCTION

本篇论文的三个贡献

1、第一篇专注于自动驾驶中基于深度学习的图像和点云融合方法的调查，包括深度补全、目标检测、语义分割和目标跟踪。（注第一篇：作者是这么认为的 To the best of our knowledge）

2、本文根据融合方法对方法进行了组织和回顾。此外，本文还介绍了最新的 (2014-2020) 概述和最新的相机-激光雷达融合方法的性能比较。

3、本文提出了被忽视的开放问题，例如在线自校准和传感器无关框架，这些问题对于自动驾驶技术的实际部署至关重要。此外，还总结了趋势和面临的挑战。

结构安排：第二章：简要概述深度学习在图像和点云的方法；第三章：深度补全；第四章：3d目标检测；第五章：语义分割；第六章：目标跟踪；第七章：未来趋势。

2. A BRIEF REVIEW OF DEEP LEARNING 各自的常见方法

2.1 Deep Learning on Image 图像

这个就很熟悉了CNN(卷积)和MLP(多层感知机)

2.2 Deep Learning on Point Cloud 点云

点云是一组数据点，它们是检测到的物体表面的测量值。在数据结构上，点云是稀疏、不规则、无秩序和连续的。点云以3D结构和反射强度对信息进行编码，这些信息对于尺度，刚性变换和置换是不变的。这些特征对于现有的基于CNN的深度学习模型具有挑战性，需要对现有模型或专门设计的模型进行修改。因此，本节重点介绍一些常用的点云处理方法。

（就是说点云不能直接用CNN来处理）

2.2.1 Volumetric representation based 体素的方法

优点：体积表示方法将点云划分成3D的小格子，可以通过手工设计/学习的方法对格子进行特征提取。这种划分通常是固定分辨率，因此可以套用标准的CNN来处理。

缺点：高分辨率保留更丰富的细粒度几何名单时，增加了计算和内存成本，体素的数量随着分辨率增长。

2.2.2 Tree-like representation based 树的表示方法

优点：高分辨率和计算成本之间的的平衡。通过将点云划分为一系列不平衡树，可以根据其点密度对区域进行划分。这允许点密度较低的区域具有较低的分辨率，从而减少了不必要的计算和内存成本。使用类似卷积的操作沿树结构提取点特征。

2.2.3 2D Views Representation Based 基于 2D 视图表示

点云的 2D 视图表示是通过将点云投影到某个 2D 视图平面/网格来生成的。这会产生一个类似图像的特征图，其中每个像素/网格都编码该 2D 像素/网格内的点特征。最受欢迎的视图之一是鸟瞰图 (BEV)，其中透视遮挡是最小的，并且保留了有关对象方向的原始信息，x/y 坐标。常用的点特征包括平均点高度、密度和强度。标准的 2D 卷积和现成的 CNN 架构可以直接应用于 BEV 表示。

2.2.4 Graph Representation Based基于图表示

点云可以表示为图，并且可以在空间或谱域中的图上实现类似卷积的操作。

对于空间域中的图卷积，MLP 对空间相邻点执行操作。

对于谱域图卷积通过拉普拉斯光谱扩展了卷积作为图上的谱滤波。

2.2.5 Point representation based 点云直接表示

基于点表示的方法处理原始点云。以PointNet为代表，它采用了独立的T-Net模块来对齐点云，并共享多层感知器 (mlp) 来处理单个点，以进行逐点特征提取。允许处理无序数据的关键思想是采用对称函数 (最大池化)。

优点：点云的全局特征可以通过最大池化从这些逐点特征中聚合。该方法对刚性变换和置换具有不变性。

缺点：局部点间几何结构并未得到充分探索。此外，对齐网络引入了额外的计算成本。

pointnet 结构图 (1)点云的置换不变性=>对称函数 (2)点云的旋转不变性 =>T-Net

3. DEPTH COMPLETION 深度补全

自动驾驶汽车大规模商业化的障碍之一是传感器的成本。特别是高分辨率激光雷达（64 或 128 通道）的成本极高。此外，即使使用高端激光雷达，远程目标的测量仍然有限且稀疏。这种稀疏性极大地限制了 3D 感知算法并使其复杂化，这些算法通常旨在处理密集和规则的数据。深度补全旨在通过将稀疏的不规则数据上采样为密集的规则数据来解决此问题。基于相机-LiDAR 融合的方法通常利用高分辨率图像来指导深度上采样，这也导致逐像素融合并产生密集的深度图像。

深度补全模型可以用这个公式补全，f是网络，w是网络的参数，x是输入(可以理解为图片)，G是真值（真实的深度），L是误差函数loss函数。（其实就是算网络的预测和真实标签之间的差距）

融合级别、时间线：

融合效果、运行时间

3.1 Mono Camera and LiDAR fusion 单目+激光融合

当前有关深度完成的大多数研究都集中在使用单声道相机的图像来指导深度完成。这个想法是密集的RGB/颜色信息包含相关的3D几何形状，可以将其用作深度上采样的参考。

3.1.1 Signal-level fusion 信号级别融合

Sparse-to-dense提出了一种基于ResNet 的自动编码器网络，该网络利用稀疏深度图连接的图像来生成密集深度图。此方法采用信号级别融合，并且优于其他深度完成方法。然而，这种方法需要像素级深度地面真相。

Self-supervised sparse-to-dense 这种自我监督是通过采用稀疏的深度约束，光度损失和平滑度损失来实现的。但是，这种方法假定对象是静止的。此外，所得的深度输出是模糊的，并且输入深度可能无法保留。

CSPN尝试将RGB-D图像送入卷积空间传播网络，直接提取图像相关的亲和矩阵，以较少的运行时间在关键测量中产生显著更好的结果。

CSPN++为了减少计算量，提出动态选择卷积核大小和迭代次数，此外，CSPN++采用加权组装来提高其性能。

3.1.2 Feature-level fusion 特征级别级别融合

Sparse and dense data with cnns一种自动编码器网络，该网络可以执行深度完成或从稀疏深度和图像进行语义分割，而无需应用有效性掩码。图像和稀疏深度图首先由两个并行的基于NASNet的编码器处理，然后将它们融合到共享解码器中。即使使用非常稀疏的深度输入 (8通道激光雷达)，这种方法也可以实现不错的性能。

GuideNet将图像特征融合到编码器不同阶段的稀疏深度特征，以指导稀疏深度的上采样。值得注意的是，GuideNet是KITTI深度完成基准中当前性能最好的模型。

3.1.3 Multi-level fusion 多层次融合

Sparse and noisy lidar completion with rgb guidance and uncertainty在图像引导深度完成网络中进一步结合了信号级融合和特征级融合技术。该网络由一个全局分支和一个本地分支组成，用于并行处理rgb-d数据和深度数据，然后根据置信度图将其融合。这种方法是实时的，在KITTI深度完成基准上排名第一。

3.2 Stereo Cameras and LiDAR fusion

与RGB图像相比，双目相机的密集深度差异包含更丰富的地面真相3D几何形状。另一方面，激光雷达深度稀疏，但精度更高。立体深度和激光雷达深度的互补特征使得可以从中计算出密集且更准确的深度。但是，双目相机的可测距性有限，并且在高遮挡，无纹理的环境中挣扎，使其不太适合自动驾驶。

3.2.1 Feature-level fusion 特征级别融合

High-precision depth estimation using uncalibrated lidar and stereo fusion使用两阶段CNN从密集立体视差和点云计算出高精度密集视差图。CNN的第一阶段采用激光雷达和立体视差来产生融合视差。在第二阶段，将此融合的视差和左RGB图像融合在特征空间中，以预测最终的高精度视差。最后，可以从这种高精度视差中重建3D场景。这种方法的瓶颈是需要大规模带注释的立体激光雷达数据集，但是这种数据很难获得。

LidarStereoNet通过无监督学习方案避免了这一困难，该方案不需要深度地面真理。无监督方案采用图像翘曲/光度损失，稀疏深度损失，平滑度损失和平面拟合损失进行端到端训练。此外，“反馈环” 的引入使LidarStereoNet对噪声点云和传感器错位具有鲁棒性。

4. DYNAMIC OBJECT DETECTION 动态物体检测

3D对象检测旨在定位，分类和估计3D空间中的定向边界框。物体检测有两种主要方法: 顺序法（两阶段）和一步法。

基于顺序的模型包括提案阶段和3D边界框 (bbox) 回归阶段。在提案阶段，提出了可能包含感兴趣对象的区域。在bbox回归阶段，根据从3D信息中提取的区域特征对区域建议进行分类。但是，顺序融合的性能受到每个阶段的限制。

一步模型由一个阶段组成，其中以并行方式处理2D和3D信息。

时间线和性能

三种常见3D目标检测框架对比后边有相应介绍+原论文结构图

4.1 2D Proposal Based Sequential Models 2D提议顺序模型

基于2D提案的顺序模型尝试在提案阶段利用2D图像语义，该模型利用了现成的图像处理模型。具体地，这些方法利用图像对象检测器来生成2D区域建议，可以将其作为检测种子投影到3D空间。有两种投影方法可以将2D提案转换为3D。第一个是将图像平面中的边界框投影到3D点云，从而形成截头形的3D搜索空间。第二种方法将点云投影到图像平面，从而产生具有逐点2D语义信息的点云。然而，遥远或被遮挡的物体通常由少数稀疏点表示，使得3D bbox回归变得困难。

4.1.1 Result-level Fusion 结果级融合

在这些方法中，信息聚合发生在结果级别。这些方法背后的直觉是使用现成的2D对象检测器来缩小3D对象检测器的兴趣区域。实现2D bbox到3D种子区域的最常见方法是通过反向相机投影。这用多个较小的感兴趣区域代替了整个点云的处理，从而大大减少了计算和运行时间。但是，由于整个管道取决于2D对象检测器的结果，因此该方法的整体性能在很大程度上受到2D对象检测器性能的限制。结果级融合的核心思想不是使用多模态数据相互补充，而是减少计算量。

FPointNets 其中 2D 边界框首先从图像数据生成，然后投影到 3D 空间。生成的投影平截头体(看成一个三角锥也行)提议区域被输入基于 PointNet的检测器，用于 3D 对象检测。FPointNets结构图：

4.1.2 Multi-level Fusion

另一个可能的改进方向是将结果级融合与特征级融合相结合，其中一项工作是 PointFusion。 PointFusion 首先利用现有的 2D 对象检测器来生成 2D bbox。这些 bbox 用于选择对应的点，通过将点投影到图像平面并定位穿过 bbox 的点。最后，基于 ResNet 和 PointNet的网络结合图像和点云特征来估计 3D 对象。在这种方法中，图像特征和点云特征被融合到每个提案中，用于 3D 中的最终对象检测，这有助于 3D bbox 回归。但是，提案阶段仍然是非模态的。在 SIFRNet中，首先从图像生成平截头体提议。然后将这些截锥体提议中的点云特征与其相应的图像特征相结合，以进行最终的 3D bbox 回归。为了实现尺度不变，PointSIFT被合并到网络中。此外，SENet 模块用于抑制信息量较少的特征。

4.1.3 Feature-level Fusion

多模态融合的早期尝试是按像素进行的，其中3D几何图形被转换为图像格式或作为图像的附加通道附加。直觉是将3D几何投影到图像平面上，并利用成熟的图像处理方法来提取信息。然而，结果输出也在图像平面上，这对于在3D空间中定位对象并不理想。2014年，Gupta等人提出了DepthRCNN，一种基于RCNN （二维对象检测、实例和语义分割的体系结构）。它在图像的RGB通道中编码来自Microsoft Kinect相机的3D几何图形，它们是水平视差，地面高度和重力角度 (HHA)。Gupta等人。通过对齐3D CAD模型，扩展了用于3D对象检测的Depth-RCNN。2015年，从而显着提高了性能。2016年，Gupta等人开发了一种新颖的技术，用于在基于图像数据和看不见的成对图像模态 (深度图像) 训练的网络之间进行有监督的知识转移。

为了在3D中准确定位对象，当前的工作通常采用逐点融合。在这种方法中，图像特征被附加到点云中的每个点。这是通过将点投影到图像平面以进行点-像素关联来实现的。PointPainting采用将点投影到2D语义图的想法，而不是进行逐点融合。简单地将2D语义作为附加通道附加到点云上，而不是使用2D语义来过滤点云。作者认为，这种技术使PointPainting变得灵活，因为它使任何基于点云的网络都可以应用于此融合数据。为了证明这种灵活性，融合的点云被馈送到多个现有的点云检测器中，这些检测器基于PointRCNN，VoxelNet 和pointpills。

4.2 3D Proposal Based Sequential Model

在基于3D提案的顺序模型中，直接从2D或3D数据生成3D提案。消除2D到3D转换极大地缩小了用于对象检测的3D搜索空间。用于3D提案生成的常用方法包括多视图方法和点云体素化方法。

基于多视图的方法利用点云的鸟瞰图 (BEV) 表示来生成3D提案。BEV是首选视点，因为它避免了透视遮挡并保留了对象的方向和x，y坐标的原始信息。这些方向和x，y坐标信息对于3D物体检测至关重要，同时使BEV和其他视图之间的坐标变换直接进行。

点云体素化将连续的不规则数据结构转换为离散的规则数据结构。这使得可以应用标准的3D离散卷积并利用现有的网络结构来处理点云。缺点是损失了一些空间分辨率，其中可能包含细粒度的3D结构信息。

4.2.1 Feature-level fusion

MV3D是从BEV表示生成3D提案的开创性和最重要的工作之一。MV3D在像素化的自上而下的激光雷达特征图 (高度，密度和强度) 上生成3D建议。然后将这些3D候选物投影到LiDAR前视图和图像平面，以提取并融合区域特征以进行bbox回归。MV3D结构图：

尽管 MV3D 的性能明显优于最先进的模型，但仍然存在一些缺陷。首先，在 BEV 上生成 3D 提议假设所有感兴趣的对象都被捕获，而不受该视点和该 LiDAR 传感器的干扰。这个假设不适用于小物体实例，例如行人和骑自行车的人，它们可能被点云中的其他大物体完全遮挡。其次，连续卷积操作导致的特征图下采样过程中丢失了小对象实例的空间信息。第三，以对象为中心的融合通过 ROI-pooling 结合图像和点云的特征图，在此过程中破坏了细粒度的几何信息。还值得注意的是，冗余提案会导致 bbox 回归阶段的重复计算。为了缓解这些挑战，已经提出了多种方法来改进 MV3D。

聚合视图对象检测网络（AVOD）首先使用来自 BEV 点云和图像的特征图改进了 MV3D 中的提议阶段。此外，采用自动编码器架构将最终特征图上采样到其原始大小。这可以缓解小物体可能通过连续卷积操作被下采样到一个“像素”的问题。所提出的特征融合区域提议网络（RPN）首先通过裁剪和调整大小操作从多种模态（BEV 点云和图像）中提取等长特征向量。其次是 1X1 卷积运算，用于特征空间降维，可以降低计算成本并提高速度。AVOD结构图

mvx-net 介绍了两种将图像和点云数据逐点或逐体素融合的方法。两种方法都采用预训练的2D CNN进行图像特征提取，并采用基于VoxelNet网络来估计融合点云中的对象。在逐点融合方法中，首先将点云投影到图像特征空间，以提取体素化之前的图像特征，并由VoxelNet进行处理。体素方向融合方法首先对点云进行体素化，然后将非空体素投影到图像特征空间进行体素/区域方向特征提取。这些体素特征仅在体素网络的后期附加到其相应的体素。MVX-Net在KITTI基准上实现了最先进的结果并优于其他基于激光雷达的方法，同时降低了假阳性和假阴性率。

MVX-net结构图

4.3 One-step Models

一步模型在一个阶段执行提案生成和 bbox 回归。通过将提案和 bbox 回归阶段融合为一步，这些模型通常在计算上更有效。这使它们更适合移动计算平台上的实时应用程序。Sensor fusion for joint 3d object detection and semantic segmentation将 LaserNet 扩展到多任务和多模式网络，对融合的图像和 LiDAR 数据执行 3D 对象检测和 3D 语义分割。两个 CNN 并行处理深度图像（从点云生成）和前视图图像，并通过将点投影到图像平面将它们融合以关联相应的图像特征。该特征图被输入到 LaserNet 以预测边界框的每点分布，并将它们组合成最终的 3D 提议。这种方法非常高效，同时实现了最先进的性能。

5. STATIONARY ROAD OBJECT DETECTION 静态物体检测

本节着重回顾基于摄像机-激光雷达融合的固定道路物体检测方法的最新进展。固定道路物体可以分为道路物体 (例如路面和道路标记) 和非道路物体 (例如交通标志)。道路和非道路物体为自动驾驶车辆提供法规，警告禁令和指导。车道线检测：

交通信号标志识别：

5.1 Lane/Road Detection 车道线检测

现有的研究对传统的多模式道路检测方法进行了详细评论。这些方法主要依靠视觉进行道路/车道检测，同时利用 LiDAR 进行路边拟合和障碍物遮蔽。因此，本节重点介绍基于深度学习的道路提取融合策略的最新进展。

基于深度学习的道路检测方法可以分为基于BEV或front-camera-view-based。

BEV-based的方法将激光雷达深度和图像投影到BEV进行道路检测，从而保留了物体的原始x，y坐标和方向。=使用CNN从点云预测密集BEV高度估计，然后将其与BEV图像融合以进行准确的车道检测。但是，这种方法不能区分不同的车道类型。

Front-camera-view-based 方法将雷达深度投影到相机平面提取道路表面，但是2D到3D边界比那换会有精度损失。

5.2 Trafﬁc Sign Recognition交通信号识别

在激光雷达扫描中，交通标志因其逆反射特性而具有高度可区分性，但缺乏密集纹理使其难以分类。相反，交通标志图像补丁可以很容易地分类。然而，基于视觉的 TSR 系统很难在 3D 空间中定位这些交通标志。因此，各种研究提出将相机和激光雷达用于 TSR。

对于采用典型TSR融合管道的方法，主要区别在于分类器。这些分类器包括基于深度玻尔兹曼机 (DBMs) 的分层分类器 [102] 、svm [101] 和DNN [104]。总而言之，这些方法都采用结果级融合和分层对象检测模型。他们认为在激光雷达扫描中可以看到交通标志，但由于遮挡，有时情况并非如此。此外，该管道受到移动LiDARs的检测范围的限制。

为了缓解这些挑战，Deng 和 Zhou [106] 结合图像和点云来生成彩色点云，用于交通标志检测和分类。此外，利用检测到的交通标志的 3D 几何特性来减少误报。在[107]中，交通标志检测基于先验知识，包括道路几何信息和交通标志几何信息。检测到的交通标志补丁由 Gaussian-Bernoulli DBMs 模型分类。遵循这一理想，Guan 等人。 [105]使用卷积胶囊网络进一步改进了交通标志识别部分。总而言之，这些方法利用多模态数据和先验知识改进了交通标志检测阶段。然而，先验知识通常是特定于地区的，这使得很难推广到世界其他地区。

6. 2D/3D SEMANTIC SEGMENTATION 语义分割

2D/3D语义分割旨在预测每个像素和每个点的类标签，而实例分割还关心单个实例。时间线：

典型的网络结构：

6.1 2D Semantic Segmentation 2D语义分割

6.1.1 Feature-level fusion

稀疏和密集 [46] 提出了一种基于NASNet的自动编码器网络，该网络可用于利用图像和稀疏深度进行2D语义分割或深度完成。图像和相应的稀疏深度图在融合到共享解码器之前由两个并行编码器处理。

6.2 3D Semantic Segmentation 3D语义分割

6.2.1Feature-Level Fusion

3DMV，这是一种用于3D语义分割的多视图网络，该网络融合了体素化点云中的图像语义和点特征。由2D cnn从多个对齐的图像中提取图像特征，并将其投影回3D空间。这些多视图图像特征是最大池体素，并与3D几何图形融合，然后再输入3D cnn以进行每个体素语义预测。3DMV在ScanNet [110] 基准上优于其他基于体素的方法。但是，基于体素的方法的性能取决于体素分辨率，并受到体素边界伪影的阻碍。

6.3 Instance Segmentation 实例分割

本质上，实例分割旨在共同执行语义分割和对象检测。它通过区分类中的单个实例来扩展语义分割任务，这使其更具挑战性。

6.3.1 Proposal based 基于提议的（两阶段）

3D-SIS，两阶段3D CNN，对多视图图像和rgb-d扫描数据执行体素方向3D实例分割。在3D检测阶段，使用基于ENet的网络提取多视图图像特征并进行下采样。此下采样过程解决了高分辨率图像特征图和低分辨率体素化点云特征图之间的不匹配问题。这些下采样的图像特征图被投影回3D体素空间，并附加到相应的3D几何特征，然后将其馈送到3D CNN中以预测对象类和3D bbox姿势。在3D遮罩阶段，3D CNN拍摄图像，点云特征和3D对象检测结果，以预测每个体素实例标签。

Narita等人 [116] 扩展了2D全景分割，以对RGB图像和深度图像联合执行场景重建、3D语义分割和3D实例分割。这种方法将RGB和深度帧作为实例和2D语义分割网络的输入。为了跟踪帧之间的标签，通过关联和集成到体积图来引用这些帧预测的全景注释和相应的深度。在最后一步中，使用完全连接的条件随机场 (CRF) 来微调输出。但是，这种方法不支持动态场景，并且容易受到长期后期漂移的影响。

6.3.2 Proposal-free based（没有提议阶段）

3D-BEVIS，该框架使用聚类方法在与2D语义聚合的点上共同执行3D语义和实例分割任务。3D-BEVIS首先从2D BEV表示 (RGB和地面高度) 中提取全局语义分数图和实例特征图。使用图神经网络将这两个语义图传播到点。最后，mean shift算法使用这些语义特征将点聚类为实例。这种方法主要受其依赖于来自BEV的语义特征，可能会从传感器位移中引入遮挡。

7. OBJECTS TRACKING 物体跟踪

多对象跟踪 (MOT) 旨在维护对象身份并跨数据帧 (随时间推移) 跟踪其位置，这对于自动驾驶车辆的决策是必不可少的。为此，本节回顾了基于摄像机-激光雷达融合的对象跟踪方法。基于对象初始化方法，MOT算法可以分类为基于检测的跟踪 (DBT) 和无检测跟踪 (DFT) 框架。DBT或逐个检测跟踪框架利用对象检测器产生的一系列对象假设和更高级别的线索来跟踪对象。在DBT中，通过数据 (检测序列) 关联或多重假设跟踪跟踪对象。相反，DFT框架基于有限集统计 (FISST) 进行状态估计。常见的方法包括多目标多伯努利 (成员) 滤波器和概率假设密度 (PHD) 滤波器。表五显示了KITTI多目标跟踪基准 (car) 上不同型号的性能 [56]。图10提供了DBT和DFT方法之间的比较。

7.1 Detection-Based Tracking (DBT)基于检测的跟踪

检测跟踪框架由两个阶段组成。在第一阶段，检测感兴趣的对象。第二阶段随着时间的推移将这些对象关联起来，并将它们形成轨迹，这些轨迹被表述为线性程序。 Frossard 和 Urtasun [119] 提出了一个端到端的可训练跟踪检测框架，由多个独立的网络组成，这些网络同时利用图像和点云。该框架连续执行目标检测、提议匹配和评分、线性优化。为了实现端到端的学习，检测和匹配是通过深度结构化模型（DSM）制定的。

7.2 Detection-Free Tracking (DFT)不需要检测的跟踪

在 DFT 中，对象通过基于过滤的方法手动初始化和跟踪。 complexer-YOLO [122] 是一个实时框架，用于对图像和点云数据进行解耦的 3D 对象检测和跟踪。在 3D 对象检测阶段，提取 2D 语义并将其逐点融合到点云中。该语义点云被体素化并输入 3D complex-YOLO 以进行 3D 对象检测。为了加快训练过程，IoU 被一种称为 Scale-Rotation-Translation score (SRT) 的新指标取代，该指标评估边界框位置的 3 个自由度。多目标跟踪与检测分离，并通过标记多伯努利随机有限集滤波器 (LMB RFS) 实现推理。

8 ONLINE CROSS-SENSOR CALIBRATION

相机-激光雷达融合管道的先决条件之一是传感器之间的完美配准/校准，这可能很难满足。传感器之间的校准参数由于机械振动和热量波动而不断变化。由于大多数融合方法对校准误差极为敏感，因此可能会严重削弱其性能和可靠性。此外，离线校准是一个麻烦且耗时的过程。因此，在线自动交叉传感器校准的研究具有显着的实际效益。(应该就是自动标定，感觉这一章写的大意就是，在线标定都挺难)

8.1 Classical Online Calibration 传统的在线标定

在线校准方法在没有校准目标的自然环境中估计外部。许多研究 [124]-[127] 通过最大化互信息 (MI) (强度值或边缘强度) 在不同模态之间。但是，基于MI的方法对纹理丰富的环境，传感器位移引起的大校准和遮挡并不可靠。或者，基于LiDARenabled视觉测距的方法 [128] 使用相机的自我运动来估计和评估相机激光雷达外部参数。尽管如此，[128] 仍在与大的去校准作斗争，并且无法实时运行。

8.2 Classical Online Calibration 深度学习的在线标定

设计了一个实时的CNN（RegNet）来估计外在的，它是在随机去校准的数据上训练的。所提出的 RegNet 在两个平行分支中提取图像和深度特征，并将它们连接起来以生成融合特征图。这个融合的特征图被输入到网络中的网络（NiN）模块堆栈和两个完全连接的层中，用于特征匹配和全局回归。然而，RegNet 对传感器的内在参数是不可知的，一旦这些内在参数发生变化，就需要重新训练。为了解决这个问题，CalibNet [130] 学习以自我监督的方式最小化错误校准和目标深度之间的几何和光度不一致。因为内在函数仅在 3D 空间变换期间使用，所以 CalibNet 可以应用于任何经过内在校准的相机。然而，基于深度学习的跨传感器校准方法的计算成本很高。

9.TRENDS, OPEN CHALLENGES AND PROMISING DIRECTIONS 趋势、开放挑战和有希望的方向

点云融合总结三点

• 2D到3D: 在3D特征提取方法的进步下，在3D空间中定位，跟踪和分割对象已成为研究的热点领域。

• 单任务到多任务: 结合了多个互补的任务，例如对象检测，语义分割和深度完成，以实现更好的整体性能并降低计算成本。

• 信号级到多级融合: 早期的工作经常利用信号级融合，其中3D几何图形被转换到图像平面以利用现成的图像处理模型，而最近的模型试图在多层次 (例如早期融合，晚期融合) 和时间上下文编码中融合图像和激光雷达。

9.1.1 What Should Be the Data Representation of Fused Data?融合数据的数据表示应该是什么

选择融合数据的数据表示形式在设计任何数据融合算法中起着至关重要的作用。图像和点云融合的当前数据表示包括:

• 图像表示: 附加3D几何形状作为图像的附加通道。基于图像的表示支持现成的图像处理模型。但是，结果在2D图像平面中也受到限制，这对于自动驾驶而言不太理想。

• 点表示: 附加RGB信号/特征作为点云的附加通道。然而，高分辨率图像和低分辨率点云之间的分辨率不匹配导致效率低下。

• 中间数据表示: 将图像和点云特征/信号转换为中间数据表示，例如体素化点云 [82]。但是，基于体素的方法的可伸缩性很差。

最近许多用于点云处理的工作都集中在定义显式点卷积操作 [32]，[444]，[35]-[38]，[62]，它们显示出巨大的潜力。这些点卷积更适合提取细粒度的perpoint和局部几何。因此，我们认为融合数据的点表示与点卷积结合在相机-激光雷达融合研究中具有巨大的潜力。

9.1.2 How to Encode Temporal Context?如何编码时间上下文？

当前大多数基于深度学习的感知系统都倾向于忽略时间上下文。这导致许多问题，例如低刷新率引起的点云变形和传感器之间不正确的时间同步。这些问题导致图像、点云与实际环境不匹配。因此，将时间上下文纳入感知系统至关重要。在自动驾驶的情况下，可以使用RNN或LSTM模型合并时间环境。在 [131] 中，LSTM自动编码器用于估计周围车辆的未来状态并相应地调整计划的轨迹，这有助于自动驾驶车辆运行更平稳和更稳定。在 [121] 中，利用时间上下文来估计自我运动，这有利于后来的任务相关报头网络。此外，时间上下文可以通过基于视觉测距的方法 [128] 受益于在线自校准。遵循这种趋势，可以通过编码时间上下文和生成模型来解决由LiDAR低刷新率引起的不匹配。

9.1.3 What Should Be the Learning Scheme?学习方案应该是什么？

大多数当前的相机-激光雷达融合方法都依赖于监督学习，这需要大量带注释的数据集。但是，注释图像和点云既昂贵又耗时。这限制了当前多模态数据集的大小和监督学习方法的性能。这个问题的答案是无监督和弱监督的学习框架。最近的一些研究显示了这方面的巨大潜力 [24]，[43]，[50]，[101]，[132]。遵循这一趋势，在无监督和弱监督学习融合框架中的未来研究可以使网络在大型未标记/粗略标记的数据集上进行训练，并带来更好的性能。

9.1.4 When to Use Deep Learning Methods？何时使用深度学习方法？

深度学习技术的最新进展加速了自动驾驶技术的发展。然而，在许多方面，传统方法在当前的自动驾驶系统中仍然是必不可少的。与深度学习方法相比，传统方法具有更好的可解释性，并且消耗的计算资源明显更少。跟踪决策的能力对于自动驾驶汽车的决策和规划系统至关重要。尽管如此，当前的深度学习算法不是可追溯的，因此不适合这些应用程序。除了这种黑箱困境之外，传统算法还因其实时功能而受到青睐。总而言之，我们认为深度学习方法应应用于具有明确目标可客观验证的应用程序。

9.2.1 How to Mitigate Camera-LiDAR Coupling?如何减轻相机-激光雷达耦合？

从工程的角度来看，冗余设计自主车辆中的至关重要的安全.虽然融合激光雷达和相机提高了感知性能，但它也伴随着信号耦合的问题。如果其中一个信号路径突然出现故障，整个管道能够分解并削弱下游模块.这是不可接受的自动驾驶系统，这需要强大的感知管道.针对这一问题，我们应该制定一个传感器无关.例如，可以采用多个融合模块具有不同的传感器输入.此外，我们还可以使用多路径融合模块采取异步多模态数据.然而，最好的解决方案仍处于打开状态的研究.

9.2.2 How to Improve All-weather/Lighting Conditions?如何改善全天候/照明条件？

自动驾驶汽车需要在所有天气和照明条件下工作。但是，当前的数据集和方法大多集中在具有良好照明和天气条件的场景上。这会导致在照明和天气条件更加复杂的现实世界中表现不佳。解决此问题的第一步是开发更多数据集，这些数据集包含广泛的照明和天气条件。此外，采用多模式数据来解决复杂的照明和天气条件的方法需要进一步研究。（很多比赛增加了雨雪等天气）

9.2.3 Adversarial Attacks and Corner Cases？如何处理对抗性攻击和角落案件？

针对基于摄像头的感知系统的对抗性攻击已被证明是有效的。这对自动驾驶汽车构成了严重的危险，因为它在安全关键的环境中运行。可能很难识别为某些感觉方式明确设计的攻击。然而，感知结果可以通过不同的方式进行验证。在这种情况下，可以进一步探索利用3D几何形状和图像来共同识别这些攻击的研究。由于自动驾驶汽车在具有无限可能性的不可预测的开放环境中运行，因此在感知管道的设计中考虑拐角和边缘情况至关重要。感知系统应该预见到看不见的和不寻常的障碍，奇怪的行为和极端天气。例如，骑自行车的人的图像印在大型车辆上，人们穿着服装。仅使用摄像机或激光雷达管道通常很难处理这些角落的情况。但是，利用来自多模态的数据来识别这些角落情况可能比来自单一模态传感器的数据更有效（特斯拉？？？），更可靠。在此方向上的进一步研究可以极大地促进自动驾驶技术的安全性和商业化。

9.2.4 How to Solve Open-Set Object Detection?如何解决Open-Set对象检测？

Open-set对象检测是在来自未知/看不见的类的实例上测试对象检测器的场景（出现在训练集之外的场景）。开集问题对于自动驾驶汽车至关重要，因为它在具有无限类别对象的不受约束的环境中运行。当前的数据集通常对不感兴趣的任何对象使用后台类。但是，没有数据集可以在后台类中包含所有不需要的对象类别。因此，对象检测器在开放设置中的行为是高度不确定的，这对于自动驾驶而言不太理想。缺乏开放集对象检测意识，测试协议和度量标准，导致在当前对象检测研究中对开放集性能的明确评估很少。Dhamija等人最近的一项研究已经讨论和研究了这些挑战 [133]，其中提出了一种新颖的开放集协议和度量。作者提出了一个额外的混合未知类别，其中包含已知的 “背景” 对象和未知/看不见的对象。基于此协议，在具有从现有数据集的组合生成的混合未知类别的测试集上测试一下当前方法。在最近关于点云的另一项研究中，Wong等人 [134] 提出了一种将来自不同类别的不需要的对象映射到类别不可知的嵌入空间中以进行聚类的技术。开放式挑战对于在现实世界中部署基于深度学习的感知系统至关重要。它需要整个研究界的更多努力和关注 (强调未知对象的数据集和方法，测试一下协议和度量标准等)

9.2.5 How to Balance Speed-Accuracy Trade-offs？如何平衡速度-精度的权衡？

多个高分辨率图像和大规模点云的处理给现有的移动计算平台带来了巨大的压力。这有时会导致丢帧，这可能会严重降低感知系统的性能。更一般地，它导致高功率消耗和低可靠性。因此，在实际部署中平衡模型的速度和准确性非常重要。有研究试图检测掉帧。在 [135] 中，Imre等人提出了一种利用相机对上的多个片段 (虚线) 拟合的多相机帧掉落检测算法。但是，丢帧检测只能解决一半的问题。最困难的部分是防止因丢帧而导致的性能下降。生成模型的最新进展已经证明了预测视频序列中丢失帧的巨大潜力 [136]，这可以在自动驾驶中用于填充图像和点云管道中的丢失帧。但是，我们认为解决丢帧问题的最有效方法是通过减少硬件工作量来防止它。这可以通过仔细平衡模型的速度和精度来实现 [137]。为了实现这一目标，深度学习模型应该能够降低其计算成本，同时保持可接受的性能。这种可扩展性通常是通过减少输入的数量 (点，像素，体素) 或网络的深度来实现的。从先前的研究 [30]，[38]，[138]，基于点和多视图的融合方法比基于体素的方法更具可扩展性。

（性能和精度，轻量化老生常谈了）

10.CONCLUSION

本文对自动驾驶背景下的点云和图像融合深度学习模型的最新进展进行了深入回顾。具体来说，这篇综述根据它们的融合方法组织了方法，涵盖了深度完成、动态和静止物体检测、语义分割、跟踪和在线交叉传感器校准。此外，表格中还列出了公开可用数据集的性能比较，模型的重点和优缺点。典型的模型体系结构如图所示。最后，我们总结了总体趋势，并讨论了开放的挑战和可能的未来方向。这项调查还提高了人们的认识，并提供了对研究界忽略但困扰自动驾驶技术实际部署的问题的见解。

整理不易，求点赞~

你可能感兴趣的:(语义,综述,深度学习,自动驾驶,计算机视觉)

线性代数导引：张量与张量空间 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
线性代数，张量，张量空间，深度学习，机器学习，人工智能1.背景介绍在现代人工智能领域，深度学习和机器学习算法的蓬勃发展，使得对数据的高效处理和表示能力提出了更高的要求。线性代数作为数学基础，为理解和构建这些算法提供了坚实的基础。而张量，作为一种高维数组的表示形式，成为了深度学习和机器学习的核心数据结构。本篇文章将从线性代数的角度出发，深入探讨张量与张量空间的概念，并阐述其在深度学习和机器学习中的重
探秘 DeepSeek R1 模型：跨越多领域的科技奇迹，引领智能应用新浪潮羑悻的小杀马特. AI学习科技 deepseek AI大模型
DeepSeekR1模型功能强大，应用广泛。在自然语言处理、计算机视觉、推荐系统和医疗等领域都能发挥作用。本文介绍了其在各领域的应用场景和代码示例，助你深入了解它。目录编辑一、本篇背景：二、DeepSeekR1模型概述：2.1模型特点：2.2技术原理：三、自然语言处理领域的应用：3.1文本分类：3.1.1应用场景：3.1.2代码演示：3.2情感分析：3.2.1应用场景：3.2.2代码演示：3.3机
Fink与Hadoop的简介以及联系 Bugkillers hadoop 大数据分布式
Fink和Hadoop是两个常用于大数据处理的开源工具，它们可以搭配使用以构建高效的数据处理系统。一、Fink和Hadoop的关系Fink：1、Fink是一个分布式流处理框架，专注于实时数据处理。它支持高吞吐、低延迟的流处理，适用于实时分析、事件驱动应用等场景。2、Fink提供精确一次（exactly-once）语义，确保数据处理的准确性。Hadoop：1、Hadoop是一个分布式存储和批处理框架
每天五分钟深度学习框架pytorch：搭建谷歌的Inception网络模块每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 网络人工智能机器学习 Inception
本文重点前面我们学习了VGG，从现在开始我们将学习谷歌公司推出的GoogLeNet。当年ImageNet竞赛的第二名是VGG，而第一名就是GoogLeNet,它的模型设计拥有很多的技巧，这个model证明了一件事：用更多的卷积，更深的层次可以得到更好的结构GoogLeNet的网络结构如图所示就是GoogLeNet的网络结构，在这个网络结构中我们可以看到红色框起来的地方，他就是Inception块，
使用opencv实现深度学习的图片与视频的超分辨率人工智能研究所人工智能之计算机视觉 opencv 深度学习视频超分辨率图片超分辨率
图片超分辨率什么是视频与图片的超分辨率，总结一下便是给一张分辨率比较低的图片，进行超分辨率的处理后，生成比较清晰的高分辨率的图片，上图图片完美解释了超分辨率的过程，由于不同的算法不同，处理的结果也不相同，本期我们介绍一下如何进行图片的超分辨率的处理。·EDSR模型图像超分辨率EDSR：EnhancedDeepResidualNetworksforSingleImageSuper-Resolutio
OpenCV 简介奇点创客 OpenCV
OpenCV（OpenSourceComputerVisionLibrary，开源计算机视觉库：http://opencv.org）是一个开放源代码库，其中包含数百种计算机视觉算法。本文档介绍所谓的OpenCV2.xAPI，与基于C的OpenCV1.xAPI相比，该API本质上是一套C++API（自OpenCV2.4发行以来，不推荐再使用CAPI，并且不使用“C”编译器进行测试）。OpenCV具有
Pytorch实现mnist手写数字识别 Zn要学习 python
>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**我的环境：语言环境：Python3.8编译器：JupyterLab深度学习环境：torch==1.12.1+cu113torchvision==0.13.1+cu113一、前期准备1.设置GPU如果设备上支持GPU就使用GPU,否则使用CPUimporttorchimporttorch.nnasnnimpo
本地部署DeepSeek模型技术指南 Evaporator Core apache Doris 人工智能 deepseek
DeepSeek模型是一种先进的深度学习模型，广泛应用于自然语言处理、计算机视觉等领域。为了充分利用DeepSeek模型的强大功能，许多开发者和研究人员选择在本地环境中部署该模型。本文将详细介绍如何在本地环境中部署DeepSeek模型，包括环境准备、模型下载、配置、优化以及代码实现等内容。通过本文的指导，您将能够在本地成功部署并运行DeepSeek模型。1.环境准备在部署DeepSeek模型之前，
DeepSeek R1蒸馏版模型部署的实战教程 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
Cesium中级开发教程之三十四：单体化模型 CesiumMaster Cesium开发教程前端 javascript Cesium html
一、效果图在3D地理场景中，数据通常以群体的形式呈现，例如城市中的建筑可能是一个整体的3D模型。单体化就是将这些群体数据中的每个独立对象分离出来，使其能够被单独识别和操作。这样可以为用户提供更精细的交互体验，比如单独选中某一栋建筑进行信息查询，或者对某一个设施进行高亮显示。1、数据格式基础语义信息嵌入：支持单体化的数据格式，如i3dm、pnts、b3dm等，会在数据结构里嵌入每个独立对象的语义信息
计算机视觉如何快速入门? Frunze软件开发日常问题回答开发语言计算机视觉工业异常检测论文
目录1.明确研究方向2.学习基础知识3.掌握核心算法4.实践项目5.阅读文献6.复现经典论文7.改进与创新总结计算机视觉（ComputerVision）是一个复杂且广泛的领域，尤其是工业异常检测这种特定方向，需要结合理论知识和实践技能。以下是一些具体的、可操作的建议，也是个人实际路径的一个总结，希望可以帮助到你快速入门并完成一篇论文。1.明确研究方向-工业异常检测的核心是识别图像或视频中的异常区域
使用 pgvector 实现 PostgreSQL 语义搜索和 RAG：完整指南小林rr 面试学习路线阿里巴巴 postgresql 数据库
使用pgvector实现PostgreSQL语义搜索和RAG：完整指南1.引言在当今的数据驱动世界中，能够高效地搜索和检索相关信息变得越来越重要。传统的关系型数据库虽然在结构化数据管理方面表现出色，但在处理非结构化数据和语义搜索时往往力不从心。本文将介绍如何使用pgvector扩展来增强PostgreSQL数据库，实现语义搜索和检索增强生成（RAG）功能，从而大大提升数据检索的效率和准确性。2.p
transformer概述沉墨的夜 transformer 深度学习人工智能
Transformer架构的提出，不仅在自然语言处理（NLP）领域掀起了革命，也在多个深度学习任务中获得了广泛应用。自2017年由Vaswani等人提出以来，Transformer经历了多次优化和扩展，成为深度学习领域的基石。以下是Transformer架构的演进历程、作用和意义、架构详情以及未来发展趋势的详细阐述。Transformer架构的演进历程(1)Transformer的起源（2017年
Pytorch官方文档英语翻译 yanzhiwen2 深度学习Pyrotch pytorch 机器学习 python 人工智能深度学习
深度学习Pytorch-Pytorch官方文档英语翻译1.a-e1.1span跨度1.2blended混合的1.3criterion标准1.4deprecated弃用的1.5clamp钳制1.6arbitraryshapes任意形状1.7explodinggradients梯度爆炸1.8converge收敛1.9approximate近似1.10arg参数1.11argument参数1.12con
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进金外飞176 技术前沿目标跟踪人工智能计算机视觉
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进YOLO（YouOnlyLookOnce）系列目标检测算法自2016年首次发布以来，凭借其高效的实时检测能力，迅速成为计算机视觉领域的热门研究方向之一。本文将详细回顾YOLO系列从v1到v11的版本迭代过程，分析每个版本的技术改进、性能提升以及应用场景。1.YOLOv1：开创性的单阶段检测算法YOLOv1是目标检测领域的一个重要里程碑，
PyTorch实战深度学习——用CNN进行手写数字识别一位小说男主人工智能入门深度学习
用CNN进行手写数字识别---计算机专业研究生的代码第一课，相当于”HelloWorld“，不管以后选择什么研究方向，都值得一看,欢迎大家留言交流学习！下面手把手教大家一步一步实现该任务：1.环境准备首先呢，您需要确保安装了PyTorch库。如果还没有安装，可以使用以下命令进行安装，这里默认您已经有Anaconda并创建好虚拟环境啦，如果还没有安装，可以参考其他更完整的安装pytorch的教程：p
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
HTML5新特性 augenstern416 HTMl html 前端
1.声明方式修改html5：2.更多的语义化标签header（网页头部）footer（网页尾部）aside（侧边栏）section（内容区域块）3.新的input表单输入类型与属性类型邮箱数值输入文件导入上传本地文件，需js代码配合。如果需要上传多个文件，给表单添加mulitiple属性。如果上传图片，给表单添加enctype属性。constmyFile=document.getElementBy
RK3588+昇腾AI｜40TOPS算力AI盒子设计方案 ARM+FPGA+AI工业主板定制专家 AI盒子瑞芯微人工智能
综合视频智能AI分析系统介绍以计算机视觉技术为基础，AI赋能千行百业，依托人工智能视觉分析技术以及强大的“端+边”算力支撑，实时分析烟火，入侵等事件，同时结合云上预警业务平台，实现事件发现、预警、处置全流程闭环。设计架构系统架构视频智能识别系统自下而上分为“感知层、网络层、支撑层、应用层”四层，系统逻辑架构如下图所示：感知层对接前端感知设备，如视频监控、NVR、和其他物联感知设备，对重要通道和场所
如何优化产品版本管理流程？全面指南项目管理
产品版本管理流程是现代软件开发中不可或缺的重要环节，它直接影响着产品的质量、开发效率和用户体验。优化这一流程不仅能够提高团队协作效率，还能确保产品的稳定性和可靠性。本文将深入探讨如何优化产品版本管理流程，为您提供全面的指导。版本管理策略的制定制定清晰的版本管理策略是优化产品版本管理流程的基础。这包括确定版本号命名规则、发布周期和分支管理策略。采用语义化版本控制（SemanticVersioning
计算机视觉中图像的基础认知全栈你个大西瓜人工智能计算机视觉人工智能图像基本属性 RGB 三通道彩色单通道灰度图像 OpenCV Matplotlib
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中，图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。宽度（W）和高度（H）定义了图像的像素分辨率，单位通常是像素。例如，一张1920x1080的图像有1920列（
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
【深度学习基础】什么是注意力机制我的青春不太冷深度学习人工智能注意力机制
文章目录一、注意力机制的核心地位：从补充到主导二、技术突破：从Transformer到多模态融合三、跨领域应用：从NLP到通用人工智能四、未来挑战与趋势结语参考链接注意力机制：深度学习的核心革命与未来基石在深度学习的发展历程中，注意力机制（AttentionMechanism）的引入堪称一场革命。它不仅解决了传统模型的根本性缺陷，更通过动态聚焦关键信息的能力，重塑了人工智能处理复杂任务的范式。本文
【第15章：量子深度学习与未来趋势—15.3 量子深度学习在图像处理、自然语言处理等领域的应用潜力分析】再见孙悟空_ #【深度学习・探索智能核心奥秘】深度学习机器学习人工智能音视频自然语言处理量子深度学习量子学习未来
一、开篇：为什么我们需要关注这场"量子+AI"的世纪联姻？各位技术爱好者们，今天我们要聊的这个话题，可能是未来十年最值得押注的技术革命——量子深度学习。这不是简单的"1+1=2"的物理叠加，而是一场可能彻底改写AI发展轨迹的范式转移。想象这样一个场景：你现在训练一个GPT-5级别的模型，不需要耗费价值上亿美元的算力资源，不需要等待数周的训练时间，甚至不需要纠结于模型参数是否过拟合。这就是量子深度学
【第15章：量子深度学习与未来趋势—15.1 量子计算基础与量子机器学习的发展背景】再见孙悟空_ #【深度学习・探索智能核心奥秘】机器翻译自然语言处理计算机视觉量子计算人工智能深度学习机器学习
想象一下，你正在用ChatGPT生成一篇小说，突然它卡在"主角穿越虫洞"的情节上——这不是因为想象力枯竭，而是传统计算机的晶体管已经烧到冒烟。当前AI大模型的参数规模每4个月翻一番，但摩尔定律的终结让经典计算机的算力增长首次跟不上AI的进化速度。这时候，量子计算带着它的"超能力"登场了：1台50量子位的量子计算机，处理某些问题的速度可达超级计算机的1亿倍。这场算力革命，正在改写深度学习的游戏规则。
基于深度学习YOLOv10的PCB板缺陷检测系统（附完整资源+PySide6界面+训练代码）人工智能_SYBH 深度学习 YOLO 人工智能目标检测 python
引言：在现代制造业中，电子元件和PCB（印刷电路板）是非常重要的基础设施。PCB缺陷检测是生产过程中至关重要的一步。传统的缺陷检测方法主要依靠人工检查，这不仅效率低，而且容易受到人眼疲劳的影响。随着深度学习技术的不断发展，基于深度学习的自动化缺陷检测已成为研究的热点，尤其是在计算机视觉领域。YOLO（YouOnlyLookOnce）系列算法凭借其高速和高精度的优势，成为了目标检测领域的佼佼者。本文
笔记-《A Survey of Large Language Models》- 尾声 L_serein 玩转LLM 笔记语言模型人工智能
尾声:尾声:本综述是由我们研究团队在一次讨论会上计划的,我们旨在总结LLM的最新进展,为我们的团队成员提供一份高度可读性的报告。第一稿于2023年3月13日完成,我们的团队成员尽最大努力以相对客观、全面的方式囊括有关LLM的相关研究。接着,我们进行了多次细致的写作和内容修订。尽管我们付出了巨大的努力,但这份综述仍远非完美:我们可能会遗漏重要的参考文献或主题,也可能存在不严谨的表述或讨论。由于空间有
【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略 X_taiyang18 人工智能
【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations）被誉为“深度学习的顶级会议”。自2013年由深度学习三巨头中的YoshuaBengio和YannLeCun创办以来，ICLR迅速崛起，成为全球科研人员争相投稿的学术盛会。那么，ICLR
使用多模态大语言模型进行深度学习的图像、文本和语音数据增强数行天下人工智能语言模型深度学习人工智能自然语言处理
在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。本文通过探索利用多模态LLMs进行图像、文本和语音数据增强的最新文献，填补了
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review 综述 自动驾驶中图像和点云融合的深度学习

摘要：