点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
在本文中研究了
Vehicle-to-Everything
(V2X
)通信在提高自动驾驶汽车感知性能方面的应用。使用新颖的vision Transformer
提出了一个具有V2X
通信的强大协作感知框架。具体来说,本文构建了一个整体注意力模型,即
V2X-ViT
,以有效地融合道路代理(即车辆和基础设施)的信息。V2X-ViT
由异构多智能体自注意力
和多尺度窗口自注意力
的交替层组成,可捕获智能体间的交互和每个智能体的空间关系。这些关键模块设计在统一的Transformer
架构中,以应对常见的V2X
挑战,包括异步信息共享、姿势错误和V2X
组件的异构性。为了验证方法的有效性,作者使用
CARLA
和OpenCDA
创建了一个大规模的V2X
感知数据集。广泛的实验结果表明,V2X-ViT
再3D目标检测
方面得到了新的最先进性能,即使在恶劣、嘈杂的环境下也能实现稳健的性能。
准确感知复杂的驾驶环境对于自动驾驶汽车 (AV) 的安全至关重要。随着深度学习的最新进展,单车感知系统的鲁棒性在语义分割和模板检测等多项任务中表现出显著改善。尽管最近取得了进展,但挑战依然存在。单智能体感知系统往往会遭受远距离的遮挡和稀疏的传感器观察,这可能会导致灾难性的后果。造成这种问题的原因是单个车辆只能从单一视角感知环境,视野有限。为了解决这些问题,最近的研究通过调查Vehicle-to-Vehicle
(V2V
) 协作来利用同一场景的多个视点的优势,其中视觉信息(例如,检测输出、原始感官信息、中间深度学习特征)来自多个附近的 AV
共享,以便全面准确地了解环境。
尽管 V2V
技术有望彻底改变移动行业,但它忽略了一个关键——路边基础设施
。自动驾驶汽车的存在通常是不可预测的,而一旦安装在十字路口和人行横道等关键场景中,基础设施总是可以提供支持。此外,在较高位置配备传感器的基础设施具有更广阔的视野和可能更少的遮挡。
尽管有这些优势,包括部署强大的 V2X
感知系统的基础设施并非易事。与所有代理都是同质的 V2V
协作不同,V2X
系统通常涉及由基础设施和 AV
形成的异构图。基础设施和车辆传感器之间的配置差异,例如类型、噪音水平、安装高度,甚至传感器属性和模式,使 V2X
感知系统的设计具有挑战性。此外,GPS 定位噪声
和自动驾驶汽车和基础设施的异步传感器测量可能会引入不准确的坐标转换和滞后的传感信息。未能妥善处理这些挑战将使自动驾驶系统变得十分脆弱。
在本文中介绍了一个统一的融合框架,即 V2X Vision Transformer 或 V2X-ViT,用于 V2X 感知,可以共同应对这些挑战。图 2 说明了整个系统。AV 和基础设施相互捕获、编码、压缩和发送中间视觉特征,而自我车辆(即接收器)使用 V2X-Transformer 执行信息融合以进行目标检测。
作者提出了2个新颖的注意力模块来适应 V2X
挑战:
一个定制的异构多智能体自注意力模块,在执行注意力融合时明确考虑智能体类型(车辆和基础设施)及其连接;
一个多尺度窗口注意力模块,可以通过并行使用多分辨率窗口来处理定位错误。
这2个模块将以迭代的方式自适应地融合视觉特征,以捕捉智能体间的交互和每个智能体的空间关系,纠正由定位误差和时间延迟引起的特征错位。此外,还集成了延迟感知位置编码,以进一步处理时间延迟的不确定性。值得注意的是,所有这些模块都集成在一个Transformer
中,该Transformer
可以实现端到端地应对这些挑战。
为了评估本文的方法,作者收集了一个新的大规模开放数据集,即 V2XSet
,它使用高保真模拟器carla
和一个合作驾驶自动化模拟工具OpenCDA
,明确地考虑了V2X
通信过程中的真实噪声。图1显示了所收集到的数据集中的一个数据样本。实验表明,V2X-ViT
显著提高了基于V2Xlidar
的3D目标检测的性能,与single-agent baseline
相比,实现了21.2%的AP增益,比领先的中间融合方法至少提高了7.3%。
提出了第一个用于V2X感知的统一Transformer
架构(V2X-vit
),它可以捕获V
2X
系统的异质性,对各种噪声具有很强的鲁棒性。此外,该模型在具有挑战性的协同检测任务上取得了最先进的性能。
提出了一种新的异构多智能体注意力模块(HMSA
),专门用于异构智能体之间的自适应信息融合。
提出了一种新的多尺度窗口注意力模块(MSWin
),它可以同时并行捕获局部和全局空间特征交互。
构建了V2XSet
,一个新的大规模的V2X
感知的开放模拟数据集,它明确地解释了不完善的现实世界条件。
在本文中,作者将 V2X
感知视为异构多智能体感知系统,其中不同类型的智能体(即智能基础设施和 AV)感知周围环境并相互通信。为了模拟真实世界的场景,假设所有代理的定位不完善,并且在特征传输过程中存在时间延迟。鉴于此开发一个强大的融合系统,以增强车辆的感知能力并以统一的端到端方式应对上述挑战。
框架的整体架构如图 2 所示,其中包括5个主要组件:
元数据共享
特征提取
压缩和共享
V2X-ViT
一个Detection Head
在协作的早期阶段,每个 agent 在通信网络中共享元数据,例如姿势、外在和agent类型 (表示基础设施或车辆)。选择其中一个连接的 AV
作为自车辆 (e) 以在其周围构建 V2X
图,其中节点是 AV
或基础设施,边缘表示定向 V2X
通信通道。在这项工作中关注特征共享延迟并忽略元数据共享延迟,因为它的尺寸最小。更具体地说,假设元数据的传输是同步良好的,这意味着每个agent i 都可以在时间 接收到自姿势 $。在接收到本车的姿态后,附近的所有其他连接agent将在特征提取之前将自己的 LiDAR 点云投影到本车的坐标系中。
利用PointPillar
从点云中提取视觉特征(PointPillar
具有低推理延迟和优化的内存使用)。原始点云将被转换为一个堆叠的pillar
张量,然后分散到一个二维伪图像,并输入到 PointPillar backbone
。backbone
提取信息特征图,表示 agent i在时间的特征,高度为H、宽度为W和通道C。
为了减少所需的传输带宽,利用一系列1×1卷积沿通道维度逐步压缩特征图。然后将大小为(H,W,C')的压缩特征(其中 C'<< C)传输到自车辆 (e),在其上使用1×1卷积将特征投影回(H,W,C) 。
在激光雷达数据被连接的agent捕获时和被提取的特征被自载体接收时之间存在着不可避免的时间间隔。因此,从周围agent收集的特征往往与自载体上捕获的特征在时间不一致。为了纠正这种延迟引起的全局空间失调,需要将接收到的特征转换(即旋转和平移)为当前的自车辆的姿态。因此,利用了一个时空校正模块(STCM),它使用了一个差分变换和采样算子Γξ来对特征映射进行空间扭曲。还计算了一个 ROI mask,以防止网络关注由空间扭曲引起的填充零。
从连接agents
聚合的中间特征 被输入框架的主要组件,即 V2X-ViT
,以使用自注意力机制进行迭代agents
间和agents
内特征融合。在整个 Transformer
中将特征图保持在相同的高分辨率水平,因为作者观察到缺乏高清特征会极大地损害模板检测性能。
在收到最终的融合特征图 后,应用2个 1×1 卷积层进行框回归和分类。回归输出为(x,y,z,w,l,h,θ),分别表示预定义Anchor box
的位置、大小和偏航角。分类输出是作为每个Anchor box
的对象或背景的置信度得分。这里使用 PointPillar
中定义的相同损失,即用于回归的Smooth L1 Loss
和用于分类的Focal Loss
。
作者的目标是设计一个定制的 Vision Transformer
,可以共同应对常见的 V2X
挑战。首先,为了有效地捕捉基础设施和 AV
之间的异构图表示,作者构建了一个异构多智能体自注意力模块
,该模块根据节点和边类型学习不同的关系提出了一种新颖的空间注意力模块
,即多尺度窗口注意力
(MSwin
),它可以捕获各种尺度的远程交互。MSwin
使用多个窗口大小来聚合空间信息,这大大提高了对定位错误的检测鲁棒性。最后,这2个注意力模块以分解的方式集成到单个 V2X-ViT
块中(如图 3a 所示)能够在整个过程中保持高分辨率特征。堆叠了一系列 V2X-ViT 块
以迭代地学习agent间交互和每个agent的空间注意力,从而产生用于检测的强大聚合特征表示。
基础设施和 AV 捕获的传感器测量结果可能具有不同的特征。基础设施的激光雷达通常安装在较高位置,遮挡较少且视角不同。此外,由于维护频率、硬件质量等原因,传感器可能具有不同级别的传感器噪声。为了编码这种异质性,作者构建了一种新颖的异构多智能体自注意力(HMSA),其中将类型附加到节点和边缘有向图。
为了简化图结构,假设同一类别的agent之间的传感器设置是相同的。如图 3b 所示,有2种类型的节点和4种类型的边,即节点类型 和边类型 。
请注意,与将节点特征视为向量的传统注意力不同,仅推理来自不同agent的相同空间位置的特征的交互以保留空间线索。
形式上,HSMA
表示为:
HSMA
包含3个操作符:一个线性聚合器、注意力权值估计器ATT
和消息聚合器MSG
。密集度是一组由节点类型索引的线性投影,聚合了多头信息。ATT
计算基于相关节点和边缘类型的节点对之间的重要性权重:
式中,|| 表示concat,m为当前Head数,h为Head总数。请注意,这里的密集度是由节点类型和Head数m共同索引的。K和Q中的线性层有不同的参数。
为了结合边的语义意义,计算了query和key向量之间的点积,由矩阵
本文提出了一种新型的注意力机制,专为高分辨率检测上的高效远程空间交互而设计,称为多尺度窗口注意力(MSwin
)。它使用了一个窗口金字塔,每个窗口都覆盖了不同的注意力范围,如图 3c 所示。
可变窗口大小的使用可以极大地提高 V2X-ViT
针对定位错误的检测鲁棒性(参见图 5b 中的消融研究)。在较大窗口中执行的注意力可以捕获远程视觉线索以补偿较大的定位错误,而较小的窗口分支在更精细的范围内执行注意力以保留局部上下文。之后,split-attention
模块用于自适应地融合来自多个分支的信息,使 MSwin
能够处理一系列姿势错误。
注意,MSwin
独立应用于每个智能体,而不考虑任何智能体间融合;
形式上,让 是单个agent的输入特征图。在 k 个平行分支中的分支 j 中,使用窗口大小 将 H 划分为形状为的张量,它表示一个 每个大小为 的非重叠patch网格。
使用 个head来提高第 j 个分支的注意力。更详细的公式可以在附录中找到。作者还考虑了一个额外的相对位置编码 B,它作为添加到注意力图中的偏置项。由于沿每个轴的相对位置位于 范围内,这里从参数化矩阵 中获取 B。
为了获得每个智能体的多范围空间关系,每个分支将输入张量 H 划分为不同的窗口大小,即 。当使用更大的窗口大小来节省内存使用时,会逐渐减少Head的数量。最后,通过 Split-Attention
模块融合来自所有分支的特征,产生输出特征 Y。
所提出的 MSwin
的复杂性与图像大小 HW
成线性关系,同时享受远程多尺度感受野并自适应地融合两者并行的局部和全局视觉信息。
值得注意的是,与 Swin Transformer
不同,本文多尺度窗口方法不需要掩码、填充或循环移位,使其在实现中更高效,同时具有更大规模的空间交互。
尽管空间扭曲矩阵Γ捕获了全局错位,但也需要考虑另一种类型的局部错位,它是由延迟引起的时间滞后期间的物体运动引起的。为了编码这些时间信息,利用了自适应延迟感知位置编码 (DPE
),它由线性投影和可学习嵌入组成。使用以时间延迟 和通道 为条件的正弦函数对其进行初始化:
一个线性投影将进一步扭曲可学习的嵌入,从而可以更好地推广到看不见的时延。在输入Transformer
之前将这个投影嵌入添加到每个agents
的特征中,以便将这些特性预先进行时间对齐。
[1].V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer.
【自动驾驶之心】全栈技术交流群
自动驾驶之心是国内首个自动驾驶开发者社区,聚焦目标检测、语义分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;
加入我们:自动驾驶之心技术交流群汇总!
自动驾驶之心【知识星球】
想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!
整理不易,请点赞和在看