第一次见到这么清晰的综述!
- 摘要
- 引言
- 融合方案
- 协同感知方法(for Ideal Scenarios)
-
- 早期融合
- 自定义沟通机制
- 特征融合
-
- 传统融合:
- 基于图的融合
- 基于注意力的融合
- 自定义损失函数
- 输出融合
- 协同感知方法(for Real-world Issues)
-
- 数据集与实验评估
- 挑战与机遇
-
- 协作感知中的传输效率
- 复杂场景中的协同感知
- 基于联合学习的协同感知
- 低标签依赖的协同感知
- 结论
摘要
协同感知对于解决自动驾驶中的遮挡和传感器故障问题至关重要。近年来,对协同感知新工作的理论和实验研究急剧增加。然而,到目前为止,很少有评论专注于系统协作模块和大规模协作感知数据集。这项工作回顾了该领域最近的成就,以弥合这一差距并激发了未来的研究。我们首先简要概述协作方案。之后,我们系统地总结了理想场景和现实世界问题的协作感知方法。前者侧重于协作模块和效率,后者致力于解决实际应用中的问题。此外,我们提出了大规模的公共数据集,并总结了这些基准上的定量结果。
引言
自动驾驶中典型的协同感知方法从两个角度进行分类:
- 1)如何在理想的场景中设计常见的协作模块,专注于协作效率和性能,
- 2)如何解决实际应用中的问题(例如定位误差、通信延迟和模型差异)
本文与现有评论的主要区别在于
- 首先,之前的大多数评论只关注某些特定的应用问题或感知任务。在这项工作中,我们提供了协作方法的系统总结,这将有助于读者建立完整的知识系统并快速找到未来的方向。具体来说,我们回顾了最近在理想场景中的协作模块和现实世界问题的解决方案方面的工作。前者关注协作效率和性能,而后者更关注协作的鲁棒性和安全性,如图2所示。
- 其次,虽然当前的评论讨论了之前的一些方法,但它们并没有涵盖最新的研究进展,如新的应用问题、最先进的框架和大型公共数据集。为此,我们跟踪和总结这些最新的发展。据我们所知,这是第一个全面总结和比较大规模协同感知数据集的工作。此外,我们通过讨论当前研究状态来提出未来工作的挑战和机遇。
融合方案
(a) 显示了个人感知或没有协作的框架。
(b-d) 展示了自动驾驶中协作感知的三个通用框架。早期的协作 (b) 在感知网络的输入处传输和融合原始数据,中间协作 c 聚合特征,后期协作 (d) 直接合并输出。
理想的场景:
- Scheme: 包括早期(E)、中期(I)和后期(L)协作。
- Data Fusion: 包括原始数据融合(raw)和输出融合(Out)。
- Comm Mecha: 通信机制包括代理选择(agent)和特征选择(Feat)。
- Feat Fusion: 特征融合可分为传统特征融合(Trad)、基于图的特征融合(Graph)和基于注意的特征融合(attention)。
- Loss Func: 损失函数可用于不确定性估计(Uncert)和冗余最小化(Redund)。
实际应用中:
- Loc Error:包括定位(Loc)和姿势(Pos)错误。
- Comm Issue:包括延迟(Laten)、中断(Inter)和丢失(loss)。
- DisCrep:包括模型(model)和任务(task)差异
- Security:攻击防御(attack)和隐私保护(privacy)。
协同感知方法(for Ideal Scenarios)
如下是sota的中间协同感知框架
早期融合
- 第一个早期的协同感知系统Cooper选择激光雷达数据作为融合目标。点云可以通过只提取位置坐标和反射值压缩成更小的尺寸。在代理之间的交互之后,Cooper 使用变换矩阵重建接收到的点云,然后将自我点云集连接起来进行最终预测
- 受Cooper的启发,Coop3D也探索了早期的协作,并引入了一种新的点云融合方法。具体来说,Coop3D 系统不是使用连接,而是利用spatial transformation来融合传感器数据。此外,与 Cooper 在车上共享车辆到车辆信息不同,Coop3D 提出了一个中央系统来合并多个传感器数据,这允许传感器和协作的处理成本摊销。
自定义沟通机制
最初的中间协作方法遵循贪婪的通信机制,以获得尽可能多的信息。通常,它们与通信范围内的所有代理共享信息,并将压缩的全特征图放入集体感知消息(CPM)中。然而,由于特征稀疏和代理冗余,贪婪通信可能会极大地浪费带宽。为了解决这个问题,
- Who2com在带宽约束下建立了第一种通信机制,通过三阶段握手实现。具体而言,Who2com使用一般注意力函数来计算代理之间的匹配分数,并选择最需要的代理来有效地减少带宽。
- When2com(在Who2com的基础上)引入了按比例的一般注意力,以确定何时与他人交流。因此,自我代理只有在信息不足时才与他人通信,有效地节省了协作资源。
除了选择合适的通信代理外,通信内容对减小带宽压力也很重要。
- FPVRCNN中提出了初始特征选择策略。具体来说,FPV-RCNN采用检测头生成提案,只选择提案中的特征点。关键点选择模块减少了共享深度特征的冗余,为初始建议提供了有价值的补充信息。
Where2comm也提出了一种新的空间信任感知通信机制。其核心思想是利用空间置信度图确定共享特征和通信目标。在特征选择阶段,Where2comm选择并传输满足高置信度和其他agent请求的空间元素。在agent选择阶段,自我agent只与能够提供所需特性的agent进行通信。通过发送和接收感知关键区域的功能,Where2comm节省了大量带宽,显著提高了协作效率。
特征融合
特征融合模块是中间协作的关键。在从其他代理接收cpm后,自我车辆可以利用不同的策略来聚合这些特征。一种可行的融合策略能够捕捉特征之间的潜在关系,提高感知网络的性能。根据基于图像的特征融合思想,将现有的特征融合方法分为传统融合、基于图融合和基于注意力融合。
传统融合:
在协作感知研究的早期,研究者倾向于采用传统的特征融合策略,如串联、求和和线性加权等。中间协作将这些不变排列操作应用于深度特征上,由于简单,实现了快速推理。
- 第一个中间协作感知框架FCooper提取低级体素和深层空间特征。基于这两个层次的特征,F-Cooper提出了两种特征融合策略:体素特征融合(VFF)和空间特征融合(SFF)。两者都采用逐元素最大化来融合重叠区域中的特征。由于体素特征更接近原始数据,VFF与用于近距离物体检测的原始数据融合方法一样有能力。同时,SFF也有其自身的优势。受SENet的启发,SFF选择选择部分信道以减少传输时间消耗,同时保持可比的检测精度。
- 考虑到F-Cooper忽略了低置信度特征的重要性,Guo等人提出了CoFF来改进F-Cooper。CoFF通过测量重叠特征的相似性和重叠面积来对重叠特征进行加权。相似性越小,距离越大,相邻特征直观地提供的补充信息就越多。此外,还添加了增强参数以增加弱特征的值。实验表明,这种简单而高效的设计使CoFF大大提高了F-Cooper
- Hu等人提出了协作式纯相机3D检测(CoCa3D),以展示协作在增强基于相机的3D检测方面的潜力。由于深度估计是基于相机的3D检测的瓶颈,CoCa3D除了协作特征学习(Co-FL)之外,还包含协作深度估计(Co-depth)。在Co-Depth中,相邻代理仅以低不确定性传输深度估计,而自我代理通过考虑单视角深度概率和多视角一致性来更新深度估计。在Co-FL中,代理发送具有高检测置信度的特征元素,并采用简单的非参数逐点最大值来融合特征。实验结果表明,CoCa3D有助于相机在三维物体检测中超越激光雷达。
基于图的融合
尽管传统的中间融合很简单,但它们忽略了多代理之间的潜在关系,也无法对消息从发送者到接收者进行推理。图神经网络(GNN)具有传播和聚合来自邻居的消息的能力,最近的工作表明了GNN在感知和自动驾驶方面的有效性。
- V2VNet首先利用空间感知图神经网络(GNN)来对代理之间的通信进行建模。在GNN消息传递阶段,V2VNet利用变分图像压缩算法对特征进行压缩。在跨车辆聚合中,V2VNet首先补偿时间延迟,为每个节点创建初始状态,然后将压缩特征从邻居代理扭曲并在空间上转换为自我车辆,所有这些操作都在重叠的视场中进行。在特征融合阶段,V2VNet采用平均运算来聚合特征,并使用卷积门控递归单元(ConvGRU)更新节点状态。
- 尽管V2VNet通过GNN实现了性能改进,但标量值的协作权重不能反映不同空间区域的重要性。受此启发,DiscoNet提出使用矩阵值的边缘权重以高分辨率捕捉代理间的注意力。在消息传递过程中,DiscoNet将特征连接起来,并为特征图中的每个元素应用矩阵值的边缘权重。此外,DiscoNet通过应用师生框架将早期和中期融合相结合,进一步提高了性能。
- Zhou等人提出了另一个基于广义gnn的感知框架MP-Pose。在消息传递阶段,MP-Pose使用空间编码网络对相对空间关系进行编码,而不是直接扭曲特征。受图注意网络(GAT)的启发,它进一步使用动态交叉注意编码网络来捕获代理之间的关系,并像GAT一样聚合多个特征。
基于注意力的融合
除了图学习,注意力机制已成为探索特征关系的强大工具。注意机制可以根据数据域分为通道注意、空间注意和通道&空间注意力。
- 为了捕捉特征图中特定区域之间的相互作用,Xu等人提出了AttFusion,并首先在精确的空间位置使用自注意操作。具体而言,与传统方法F-Cooper和基于图的方法DiscoNet相比,AttFusion引入了单头自注意融合模块,并实现了性能和推理速度之间的平衡。AttFusion中的空间感知交互与DiscoNet中的矩阵权重边缘相似,但使用不同的工具实现。
- 除了传统的基于注意力的方法外,基于transformer的方法还可以激发协作感知。Cui等提出了基于Point Transformer的COOPERNAUT,这是一种用于点云处理的自关注网络。在接收到消息后,ego代理使用降采样块和点变压器块来聚合点特征。前一个块用于减少点集的基数,第二个块允许所有点之间的局部信息交换。这两种操作都保留了消息的排列不变性。更重要的是,COOPERNAUT将协同感知与控制决策相结合,这对自动驾驶的模块联动具有重要意义
- 与V2V协作相比,V2I可以提供更稳定的协作信息,并且拥有大量的基础设施,但很少有作品关注这一场景。Xu等人提出了第一个统一的变压器架构(V2X-ViT),它同时涵盖了V2V和V2I。为了模块化不同类型智能体之间的交互,V2X-ViT提出了一种新的异构多智能体注意模块(HMSA)来学习V2V和V2I之间的不同关系。此外,在高分辨率检测中引入了多尺度窗口注意模块(MSwin)来捕获远程空间相互作用。
- 此外,考虑到RGB相机比LiDAR便宜,Xu等人提出了第一个通用的基于多相机的协同感知框架CoBEVT。CoBEVT设计了一个融合轴向注意(FAX)模块,通过稀疏的全局交互和基于局部窗口的注意来探索多视图和多智能体之间的交互。实验表明,CoBEVT在多视角和多智能体交互中表现良好,对摄像机丢失具有鲁棒性。
- Wang等人还介绍了一种基于摄像头的协同感知方法,称为车辆-基础设施多视图中间融合(VIMI)。为了探索不同尺度下车辆与基础设施特征之间的相关性,VIMI采用了多尺度交叉注意(MCA)模块,该模块使用可变形CNN提取多尺度特征,并通过交叉注意操作生成每个尺度的注意权值。此外,他们还设计了一种相机感知通道掩蔽策略(CCM),该策略通过基于相机参数以通道方式重新加权特征来纠正校准误差并增强特征。
- 以前的研究主要集中在同构传感器协作场景。然而,涉及异构传感器的协同感知尚未被探索。为了填补这一空白,Xiang等人提出了第一个统一的异型车对车(V2V)协同感知框架HM-ViT。HM-ViT包括一个通用的异构3D图形注意(H3GAT),它融合了多个代理中来自不同传感器类型的鸟瞰图(BEV)特征。具体而言,H3GAT中的类型依赖节点和边缘共同捕获传感器异质性、原因空间交互和跨代理关系。此外,还引入了基于局部窗口的注意力和基于稀疏全局网格的注意力来捕获局部和全局线索。实验结果表明,HM-ViT在异构和同态协同感知方面都具有优势。
自定义损失函数
在协作场景中,相邻代理提供的类似信息对于自我车辆来说是冗余的。为了有效地利用协同信息,Luo等人提出了一种互补性增强和冗余最小化的协作网络(CRCNet)。具体来说,CRCNet有两个模块来指导网络。在互补性增强模块中,CRCNet利用对比学习来增强信息增益。在冗余最小化模块中,CRCNet利用互信息来鼓励融合特征对之间的依赖。在上述模块的指导下,CRCNet在融合特征时能够从相邻agent中选择互补信息。
除了冗余之外,协同信息还包含感知不确定性,即感知不准确性或传感器噪声。Su(Uncertainty Quantification of Collaborative Detection for Self-Driving)等首先探讨了协作感知中的不确定性。具体来说,他们设计了一个定制的移动块bootstrap方法来估计模型和数据的不确定性,以及一个精心设计的损失函数来直接捕获数据的不确定性。实验表明,在不同的协作方案中,不确定性估计可以减少不确定性,提高精度。
输出融合
后期协作通常在后处理阶段采用融合操作,合并多智能体感知输出。例如,用于 3D 对象检测的后期协作通常利用非最大抑制 (NMS) 等后处理方法来去除冗余和低置信度的预测。然而,后期融合总是面临空间和时间错位等挑战。一些工作[58,82]提出了更稳健的后处理策略来细化后期融合方法,这将在下一节中讨论。
协同感知方法(for Real-world Issues)
在真实世界的自动驾驶场景中,通信系统可能会遇到以下问题:
1)定位错误,
2)通信延迟和中断,
3)模型或任务差异,
4)隐私和安全问题
定位错误
- 为了解决V2VNet中的定位误差问题,Vadivelu等人引入了端到端可学习的神经推理层来校正姿态误差。具体而言,Vadivelu等人[62]提出了一个姿态回归模块和特征聚合前的一致性模块。姿态回归模块学习校正参数,该校正参数将被应用于噪声相对变换以产生预测的真实相对变换。一致性模块通过在具有马尔可夫随机场(MRF)的所有代理之间找到全局一致的绝对姿态来细化预测的相对姿态。
- FPV-RCNN还提出了一种有效的定位误差校正模块,以避免定位误差下的性能下降。它根据分类得分选择极点、围栏和墙壁的关键点,并利用具有粗略搜索分辨率的最大一致性算法[13]来找到相应的车辆中心和极点。最后,利用这些对应关系来估计姿态误差。实验表明,在存在定位误差的情况下,FPV-RCNN的性能优于传统的基于BEV的协作方法。
- 后期协作方法通常采用直接的融合策略。因此,它们对定位误差更敏感。为了实现鲁棒的对象级信息组合,Song等人[58]设计了一种称为OptiMatch的分布式对象级协同感知系统,该系统利用基于最优传输理论的算法来探索对象之间的精细匹配。经过上述匹配算法的细化,即使在高位置和航向噪声的情况下,后期协作框架也能获得相对准确的性能。
- 与探索与对象匹配算法的姿态一致性的OptiMatch[58]类似,Lu等人[43]提出了一种混合协作框架CoAlign来估计正确的姿态。具体来说,CoAlign构建了一个代理-对象姿态图,其中对象节点基于盒子的不确定性估计进行空间聚类。从包围盒簇中对物体姿态进行采样,并引入了姿态一致性优化函数。在没有任何姿势监督的情况下,CoAlign提高了协作感知网络在各种噪声水平下的性能。
通信问题
- 为了解决后期协作中的延迟问题,Yu等人[82]提出了一种基于跟踪和状态估计模块的时间约束后期融合(TCLF)框架。TCLF预测具有先前相邻帧的当前基础结构预测。通过匹配相邻帧的预测,TCLF可以估计物体速度,并通过线性插值进一步近似当前帧处的物体位置。最后,估计的基础设施预测将与自我预测相融合
- 与TCLF[82]相比,V2X-ViT[78]减轻了中间协作的延迟。特别地,V2X-ViT利用自适应延迟感知位置编码模块(DPE)在时间上对准特征。此外,HMSA和MSwin模块捕捉代理间和代理内的交互,这可以隐式地校正由定位误差和时间延迟引起的特征错位。实验表明,在不同的时延条件下,DPE都能提高系统的性能。
- 同年,雷等人[31]提出了第一个感知延迟的协同感知系统SyncNet,实现了特征级的同步。由于特征和注意力相互影响,核心模块SyncNet利用历史协作信息来同时估计当前特征和相应的协作注意力。具体而言,在特征-注意力共生估计(FASE)模块中,双分支共享相同的输入,其中包含实时和历史特征,从先前的特征/注意力中学习交互,然后依次估计特征/注意力。此外,时间调制基于延迟时间自适应地融合原始特征和估计特征。
除了延迟问题,Ren等人首先考虑了协作感知中的通信中断
- 为了缓解这种影响,Ren等人[51]利用历史信息来恢复缺失的特征,并提出了一种中断感知的鲁棒协作感知(V2X-INCOP)框架。此外,他们引入了空间注意力掩模来抑制背景噪声,并采用课程学习策略来稳定训练
- 数据包丢失是通信中的另一个关键问题,可能是由障碍物和快速行驶的车辆引起的。为了解决这个问题,李等人[33]提出了一种LCRN,以确保有损通信下协作感知的鲁棒性。受图像去噪架构的启发,LCRN采用了具有修复损失的编码器架构来从其他代理恢复特征。此外,李等人[33]提出了一种基于注意力的融合方法来融合代理间和代理内的特征,以消除恢复特征的不确定性,从而增强了模型的鲁棒性。
模型或任务差异
多智能体中的同质模型在现实世界中是不切实际的。特定任务的训练会导致特定任务的信息,阻碍协作感知的大规模部署。
- 当不同的代理在不同的架构和参数中配备感知模型时,由于模型的异质性,当前的协作方法可能会产生不可靠的融合结果。为了缓解这个问题,Chen等人[12]提出了一个模型不可知的协作感知框架。首先,考虑到代理之间存在置信度分布,使用离线校准器将代理的置信度得分与其经验准确性相匹配。此外,为了配合空间相关性,Chen等人[12]提出了促进抑制聚合(PSA)模块,以寻找促进建议。通过离线置信度校准和在线方案聚合,后期协作方法在参数和模型不一致的情况下实现了稳健的性能。
- 除了检测边界框中的置信度差距外,模型差异还导致中间特征之间的域差距。徐等人提出了第一个多智能体感知域自适应框架(MPDA)来解决中间协作中的主要区别。具体地,MPDA使用可学习的调整器将接收到的特征调整为目标大小。它还利用稀疏跨域变换器通过对抗性地欺骗域分类器来生成域不变特征。实验结果表明,在模型不一致的情况下,MDPA有效地弥合了特征域的差距。
- 特定任务训练倾向于学习特定任务的特征表示。自动驾驶协同感知的部署涉及多个任务。因此,该模型需要捕捉通用和稳健的特征。为此,李等人[39]提出了一种新的自监督学习任务,称为multi-robot scene completion,该任务使每个智能体能够单独重建单个场景以学习潜在特征。具体来说,他们设计了一个时空自动编码器(STAR)模块,以平衡该任务中的场景重建性能和通信量。该模型使用新型自动编码器学习多任务的更鲁棒的表示。
隐私与安全
- 最近的研究提出了各种方法来解决连接和自动化车辆(CAV)中的这些隐私问题,包括隐私保护卷积神经网络(P-CNN)[73]、边缘协作隐私保护点云对象检测框架(SecPCV)[5]和隐私保护对象检测框架。这些方法的有效性是通过对共享的原始数据使用安全保护技术来实现的,如加性秘密共享(ASS)和混沌加密。需要注意的是,这些方法的隐私保护功能仅在个人感知数据集上进行评估[21],还需要在协作感知数据集中进行进一步评估。
- 协作感知依赖于代理之间的通信,而共享的信息可能是恶意的,并且代理中的网络容易受到对抗性攻击。通过研究对抗性鲁棒性,我们可以增强协作感知的安全性。到目前为止,只有一项工作[61]研究了协作感知中的对抗性攻击。Tu等人[61]评估V2VNet[68]的攻击和防御性能。从攻击的角度来看,攻击者的联合扰动会导致更强的攻击。从防御的角度来看,如果攻击模型已知,对抗性训练可以有效地防御攻击。此外,随着协作代理数量的增加,协作系统的防御能力也得到了增强。
数据集与实验评估
- Source:模拟器(Simu)和现实世界(Real)。
- Frame:为带注释的基于激光雷达的协同感知帧数。
- 支持常见感知任务:3D物体检测(OD), BEV语义分割(SS), 3D物体跟踪(OT),运动预测(MP)。
我们使用一些指标来评估MOT,包括经典的多目标跟踪精度(MOTA)、多目标跟踪精确度(MOTP)、平均多目标跟踪准确性(AMOTA)和平均多目标追踪精度(AMOTP)。具体而言,AMOTA和AMOTP在所有召回阈值中的平均MOTA和MOTP
挑战与机遇
协作感知中的传输效率
为了减少延迟并提高传输效率,对传输数据的特征压缩和选择对协作感知至关重要。当前的方法通常利用置信度得分来选择关键信息,这可能会忽略置信度低的区域。鼓励未来的工作通过考虑数据结构和不确定性来计算自我载体的盲感知区和弱感知区。为了防止特征压缩丢失重要信息,应该考虑更动态的特征压缩策略,如按重要性压缩。
复杂场景中的协同感知
虽然近年来出现了一些大规模的数据集,但它们主要是为常见场景设计的,无法覆盖复杂和具有挑战性的场景(如恶劣天气、高速公路和远处或小物体)。在这些场景中,传感器可能会受到光线或距离的影响,产生低质量的数据。此外,智能体之间由于高速运动可能存在严重的时空不一致性,这可能导致协同感知系统的不稳定性和不确定性。
为了构建更加鲁棒的系统,迫切需要在复杂环境中收集协同感知数据(如DeepAccident[67]),并针对各种复杂场景提出精心设计的方法。多传感器融合有助于补偿天气和距离对数据质量的影响,虚拟点云的生成[65,81]将有助于预测远距离目标。此外,需要时空数据融合来预测高速运动物体的轨迹。
基于联合学习的协同感知
在协同感知中,多个智能体相互交换数据以改进它们的模型。这种方法已经得到了广泛的研究,但是当代理来自不同的制造商或平台时,可能会出现通信开销和隐私问题。为了保护不同自主设备的隐私并促进协同感知的应用,联邦学习(FL)提供了一种可行的解决方案。
联邦学习是一种在分散环境中训练机器学习模型的方法,在这种环境中,数据保持在每个设备的本地,近年来在联网自动驾驶汽车(cav)上引起了人们的关注[9]。基于人工智能的协作学习通过共享感知模型实现车辆协作,而无需直接交换数据。通过这种方式,车辆可以相互学习,以分布式的方式提高感知能力和通信效率,同时保持数据隐私。现有的自动驾驶汽车联邦学习方法侧重于个体感知,鼓励未来的工作研究联合学习和协作感知中保护隐私的数据交换的结合。
低标签依赖的协同感知
近年来,协同感知研究取得了显著进展。然而,协作感知系统的训练严重依赖于全标注的大规模数据集。标注是一项费时费力的工作,特别是对于涉及多个智能体的协作系统,严重影响了现实世界中协作感知的研究。虽然已经提出了一些方法来减少2D[32]和3D视觉[40]中模型对标签的依赖,但关于协同感知的研究很少。为了更好地促进协同感知,降低标注成本和研究低依赖标注的协同感知是至关重要的。减少对标注的依赖主要有两个方向。一种是广义弱监督学习,另一种是领域自适应。
- 广义弱监督学习包括半监督学习和标记不完全学习,前者需要标记和未标记数据的组合,后者需要对每个场景进行不完全标注。
- 领域适应需要完全注释的源领域数据和未标记的目标领域数据,例如,完全注释的模拟数据和未标记的真实世界数据。领域自适应旨在减少两个领域之间的领域差异,使协同感知模型产生领域不变特征。
在协作感知的领域自适应方面已经有了一些尝试[24,77],但对于富有监督的协作感知仍需进一步探索
结论
我们系统地总结了理想场景和现实问题的协作感知方法,还有大型协作感知数据集和这些基准的性能比较。最后,我们就协作感知应用程序的实际实现问题提出了新的观点。
原文链接