BEVFormer

自动驾驶---感知模型之BEVFormer

BEVFormer的提出旨在解决这一问题，通过Transformer架构实现高效的多传感器数据融合和BEV特征表示学习。BEVFormer

智能汽车人·2025-06-18 08:44

智能驾驶感知算法任务简介

本文将结合BEVFormer、MapTR和OccupancyPrediction三个算法，简单介绍一下他们，如果有不正确的地方，欢迎评论。

·2025-05-28 20:18

论文阅读《BEVFormer v2》

BEVFormerv2:AdaptingModernImageBackbonestoBird’s-Eye-ViewRecognitionviaPerspectiveSupervision目录摘要1介绍2相关工作2.1BEV三维目标检测器摘要我们提出了一种具有透视监督的新型鸟瞰图（BEV）检测器，其收敛速度更快并且更适合现代图像主干。现有的最先进的BEV检测器通常与某些深度预训练主干网络（如VoVN

YMWM_·2025-05-17 11:28

论文阅读《BEVFormer》

BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers目录摘要

YMWM_·2025-05-17 11:28

BEVFormer 开源算法逐行解析（一）：Encoder 部分

写在前面：对于BEVFormer算法框架的整体理解，大家可以找到大量的资料参考，但是对于算法代码的解读缺乏详实的资料。

地平线开发者·2025-04-16 04:25

51-24 BEVFormer、BEVFormer v2，Occupancy占用网络灵感源泉论文精读

今天要读论文的是BEVFormer，有人说这是新一代自动驾驶感知融合的基石，有人说是后续OccupancyNetwork占用网络工作的灵感源泉。

深圳季连AIgraphX·2024-02-07 13:31

基于环视Camera的BEV感知算法-BEVFormer实战

目录前言1.BEVFormer实战前言自动驾驶之心推出的《国内首个BVE感知全栈系列学习教程》，链接。

爱听歌的周童鞋·2024-01-28 20:57

解读BEVFormer，新一代CV工作的基石

文章出处BEVFormer这篇文章很有划时代的意义，改变了许多视觉领域工作的pipeline[2203.17270]BEVFormer:LearningBird's-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers

哆啦叮当·2024-01-27 08:27

用BEVformer来卷自动驾驶-4

书接前文前文链接：用BEVformer来卷自动驾驶-3(qq.com)上文书介绍了BEVformer是个啥，以及怎么实现Deformable-attention我们继续BEVformer的输入数据格式：

周博洋K·2024-01-22 22:50

用BEVformer来卷自动驾驶-3

书接前文前文链接：用BEVformer来卷自动驾驶-2(qq.com)上文书基本把BEV的概念捋清楚了，也对标准BEV可能存在的计算和显存的压力做了一番分析这篇就是介绍BEVformer是个啥先给个定义

周博洋K·2024-01-10 17:17

BEVFormer | ECCV2022

转载自:万字长文理解纯视觉感知算法——BEVFormer-知乎BEVFormer的PipelineBackbone+Neck（ResNet-101-DCN+FPN）提取环视图像的多尺度特征；论文提出的Encoder

HHHHGitttt·2024-01-05 01:19

BEVFormer | ECCV2022 | 原文翻译

BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformersBEVFormer

HHHHGitttt·2024-01-05 01:19

用BEVformer来卷自动驾驶-2

回顾上一期：用BEVformer来卷自动驾驶-1(qq.com)上一期我们讲到了从3D到4D（加了时间概念）以后使得BEV能变得更厉害，具体这种厉害其实是可以解决纯视觉解决方案里面最难解决的问题，就是基于恶劣天气

周博洋K·2023-12-25 08:59

用BEVformer来卷自动驾驶-1

之所以是-1，是因为大概率1篇文章写不完，但是又不知道应该用几篇来说事，先写着看按照惯例，上论文地址：2203.17270v1.pdf(arxiv.org)什么是BEV，Bird's-Eye-View的意思，就是鸟瞰比如稍微传统一些的自动驾驶，大部分的实现。如果靠纯CV的方案的话，那么基本上不管你做什么下游任务，物体检测也好，还是分割图像也好，就看到你眼前这一块，或者说摄像头里这一块视野，然后分别

周博洋K·2023-12-23 09:28

自动驾驶多传感器融合学习笔记

相机端采用BEV算法生成BEV特征，如bevformer、LSSLIDAR端用3D卷积提取BEV特征，与相机端特征co

AI视觉网奇·2023-12-18 18:42

【BEV感知】BEVFormer 融合多视角相机空间特征和时序特征的端到端框架 ECCV 2022

前言本文分享BEV感知方案中，具有代表性的方法：BEVFormer。基本思想：使用可学习的查询Queries表示BEV特征，查找图像中的空间特征和先前BEV地图中的时间特征。

一颗小树x·2023-12-18 12:38

基于环视Camera的BEV感知算法-BEVFormer

记录下个人学习笔记，仅供自己参考本次课程我们来学习下课程第四章——基于环视Camera的BEV感知算法，一起去学习下BEVFormer感知算法课程大纲可以看下面的思维导图0.简述今天我们来给大家分享一下一个在

爱听歌的周童鞋·2023-12-17 22:51

BEVFormer环境配置

官网的教程说是StepByStep，但是实际上我按照步骤安装下来运行不了（BEVFormerGitHub地址）。主要是安装后关于包依赖产生的某些错误，特别是安装nuscenes-devkit没有在步骤中列出来，后面就不好解决某些包的版本依赖了。参考一些博客以及官方安装教程后（blog1，blog2），安装过程如下：P.S.cuda版本是11.3，安装pytorch版本要对应，以及后面安装包也要对应

指间理想·2023-12-03 23:47

BEVFormer论文笔记（详细版）

论文论文链接：《BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers

西米611·2023-11-12 13:36

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

一、概要提出新框架BEVFormer，用spatiotemporaltransformer学习统一的BEV表示，来支持多个自动驾驶感知任务。

北极与幽蓝·2023-11-12 13:36

BEVFormer笔记

BEVFormer分为两个模块，一个是基于空间时序的transformer怎么做，一个是如何生成BEV的表征。什么是BEV表征？1、是一个重构空间。什么是重构空间？

兔斯基12138·2023-11-12 13:33

【论文阅读】Planning-oriented Autonomous Driving

具体如下：BEVFormer：输入是多个相机拍摄的图像序列，将其通过BEVForme

ryb4i·2023-11-12 13:33

论文阅读 | BEVFormer

BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers[外链图片转存失败

moneymyone·2023-11-12 13:02

BEVFormer代码复现实践

BEVFormer代码复现实践1环境配置感谢大佬们的开源工作，BEVFormer-github地址-YYDSBEV各算法环境部署实战汇总如果本文对您有帮助，请一键三连支持一波，^_^部署有问题的小伙伴欢迎留言和加

全网最菜的Slamer·2023-11-12 13:31

TPVFormer论文阅读笔记

Tri-PerspectiveViewforVision-Based3DSemanticOccupancyPrediction论文，代码链接：TPVFormer(wzzheng.net)BEVFormer

liu liu liu·2023-11-12 13:29

BEVFormer 论文阅读

论文链接BEVFormerBEVFormer，这是一个将Transformer和时间结构应用于自动驾驶的范式，用于从多相机输入中生成鸟瞰（BEV）特征利用查询来查找空间/时间，并相应地聚合时空信息，从而为感知任务提供更强的表示0.AbstractBEVFormer，通过时空转换器学习统一的BEV表示，以支持多个自动驾驶感知任务过预定义的网格状BEV查询与空间和时间空间相互作用，以利用空间和时间信息

KrMzyc·2023-11-12 13:56

BEVFusion、BEVFormer方法总结

1.BEVFormer原理概述BEVFormer原理是通过利用多视角相机图像生成BEV特征并进行3D目标检测的方法，该方法使用了一个基于变换器的编码器和一个基于残差连接的多层感知机编码器，其中通过空间交叉注意力模块实现不同视角摄像头的特征提取

信雪神话·2023-10-25 09:36

1_Occupancy network

ALarge-Scale3DOccupancyPredictionBenchmarkforAutonomousDriving本文构建了3D占据栅格标注数据流程以及标准数据集，并提出了粗到精的占据栅格网络且性能相较于BEVDet和BEVFormer

陈昊-1·2023-10-21 14:01

[论文笔记] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

Multi-camera3doccupancypredictionforautonomousdriving.”ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.重点记录将占用网格应用到多个相机构成的3D空间中;使用BEVFormer

zhwangye·2023-10-21 13:26

BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

作者|李志琦单位|南京大学/上海人工智能实验室研究方向|基于注意力机制的视觉感知BEVFormer很荣幸参与到最近这波BEV感知的研究浪潮中，我们从开源社区中受益良多，也希望尽我们所能为社区做出我们自己的贡献

PaperWeekly·2023-10-15 19:17

自动驾驶+行人重识别面经

使用深度估计：LSS➡BEVDet➡BEVDet4D➡BEVDepth➡BEVFusiontranformer的方式：BEVFormer➡BEVFormerV2使用Fast-ray的方式：M2BEV➡Fast-BEVCVT

唯一的小小彬·2023-10-10 18:03

BEVFromer论文研读

1.总体结构上图为BEVFormer在t时刻的网络结构。图(a)表示的是BEVFormer的encoder层。

高的好想出去玩啊·2023-09-12 18:22

BEVFormer论文解析

背景跟基于雷达的相比，纯视觉的方案成本低，而且具有RGB和纹理信息，可以用于检测像交通信号灯、车道线等道路要素。自动驾驶的感知本意是要从多个摄像头给出的2D信息来预测3Dbbox(检测)或者semanticmap(分割)，最直接的方案是基于单目的框架或者加入跨相机的后处理，这种方案的缺点是单独去处理不同的视图，而且不能捕获那些跨视图的信息，因此效果差。相比于单目框架，更加统一的方案是从多相机图像中

AI松子666·2023-09-07 12:05

Bevformer：通过时空变换从多摄像机图像学习鸟瞰图表示

论文地址：BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers

飞大圣·2023-09-02 06:03

To Learn

专栏目录…https://zhuanlan.zhihu.com/p/404001918一文读懂BEVFormer论

FlyingAnt_·2023-08-23 20:04

自动驾驶BEV感知的下一步是什么？

www.zhihu.com/question/538920658编辑：深度学习与计算机视觉声明：仅做学术分享，侵删目前BEV感知似乎已经成了nuScenes/Waymoleaderboard上的主流，如纯camera的BEVFormer

woshicver·2023-07-14 21:06

BEV专栏（二）从BEVFormer看BEV流程（下篇）

前言书接上回，在上一篇文章中，我们介绍了BEVFormer这一先进的BEV算法。

CV技术指南(公众号)·2023-07-14 00:04

bevfomer/maptr模型中时序对齐模块的改进

1原理介绍当前在自动驾驶感知领域，最流行的算法就是基于bev原理的检测算法，其中基于bev目标检测的典型算法是bevformer，基于bev建图的典型算法是maptr。

BIT_Legend·2023-07-14 00:32

BEVFormer转onnx，并优化

以下记录均是在bevformer_tiny版本上进行的实验，且不考虑时序输入参考了https://github.com/DerryHub/BEVFormer_tensorrt，但是这个是为了部署在tensorRT

李zm151·2023-07-14 00:28

Ubuntu16.04部署BEVformer 实时记录

一配置依赖a.Createacondavirtualenvironmentandactivateit.condacreate-nopen-mmlabpython=3.8-ycondaactivateopen-mmlabb.InstallPyTorchandtorchvisionfollowingtheofficialinstructions.pipinstalltorch==1.9.1+cu111

袁博特·2023-06-16 12:12

计算机视觉算法——BEV Perception算法总结

算法总结计算机视觉算法——BEVPerception算法总结1.HomographBased——3DLaneNet2.DepthBased——LSS3.MLPBased——PON4.TransformerBased——BEVFormer5

Leo-Peng·2023-06-16 09:56

BEVFormer论文解析

1、背景跟基于雷达的相比，纯视觉的方案成本低，而且具有RGB和纹理信息，可以用于检测像交通信号灯、车道线等道路要素。自动驾驶的感知本意是要从多个摄像头给出的2D信息来预测3Dbbox(检测)或者semanticmap(分割)，最直接的方案是基于单目的框架或者加入跨相机的后处理，这种方案的缺点是单独去处理不同的视图，而且不能捕获那些跨视图的信息，因此效果差。相比于单目框架，更加统一的方案是从多相机图

Jumbo星·2023-04-08 08:31

视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images

目录文章侧重点网络架构论文链接：BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers

zz的大穗禾·2023-03-20 07:31

BEVFormer论文翻译校对版

BEVFormer论文地址：BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers

泽渊20·2023-03-20 07:00

从Transformer到BEVFormer(注意力机制在CV中的使用)

TransformerRNN:RecurrentNeuralNetwork在讲Transformer之前，先看看RNN（循环神经网络）的不足之处。下图是RNN结构示例：X表示输入的向量，经过输入层到隐藏层的权重矩阵U后和隐藏层的权重矩阵W后，得到隐藏层的特征向量s，s经过隐藏层到输出层的权重矩阵V后得到最后的输出向量o。所谓的循环神经网络的关键在于权重矩阵W，它包含了上一时刻的输入x,当前时刻隐藏

liu liu liu·2023-03-20 07:16

BEV的学习笔记

张铁通·2023-02-06 08:36

多尺度可形变注意力机制MultiScaleDeformableAttn

zhuanlan.zhihu.com/p/495941788这个模块是将Transformer的全局注意力变为局部注意力的一个非常关键的组件，用于减少训练时间，提高Transformer的收敛速度；应用于BEVFormer

流浪德意志·2023-01-27 11:41

使用Transformer融合时空信息的自动驾驶感知框架

BEVFormer很荣幸参与到最近这波BEV感知的研究浪潮中，我们从开源社区中受益良多，也希望尽我们所能为社区做出我们自己的贡献，希望未来与社区一道共同构建更加安全可靠的自动驾驶感知系统。

OpenDriveLab·2023-01-07 11:15

[BEV] 学习笔记之BEVFormer(一)

1、前言在BEV空间下进行视觉任务逐渐成为自动驾驶中的技术主流，为了搞懂如何在BEV下进行视觉任务，打算利用BEVFormer这个项目来理解其步骤,本文为BEVFormer的运行以及整体框架的梳理(源码看的有点乱了

Rex久居·2023-01-06 12:08

[BEV] 学习笔记之BEVFormer(二)

1、前言在上一篇中介绍了BEVFormer的大体流程，地址为:https://zhuanlan.zhihu.com/p/593998659，由于本项目中涉及到许多变量重复且变量名重复使用，导致在代码阅读中会有一定的难度

Rex久居·2023-01-06 12:38

推荐频道

BEVFormer

自动驾驶---感知模型之BEVFormer

智能驾驶感知算法任务简介

论文阅读《BEVFormer v2》

论文阅读《BEVFormer》

BEVFormer 开源算法逐行解析（一）：Encoder 部分

51-24 BEVFormer、BEVFormer v2，Occupancy占用网络灵感源泉 论文精读

基于环视Camera的BEV感知算法-BEVFormer实战

解读BEVFormer，新一代CV工作的基石

用BEVformer来卷自动驾驶-4

用BEVformer来卷自动驾驶-3

BEVFormer | ECCV2022

BEVFormer | ECCV2022 | 原文翻译

用BEVformer来卷自动驾驶-2

用BEVformer来卷自动驾驶-1

自动驾驶多传感器融合学习笔记

【BEV感知】BEVFormer 融合多视角相机空间特征和时序特征的端到端框架 ECCV 2022

基于环视Camera的BEV感知算法-BEVFormer

BEVFormer环境配置

BEVFormer论文笔记（详细版）

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal论文阅读

BEVFormer笔记

【论文阅读】Planning-oriented Autonomous Driving

论文阅读 | BEVFormer

BEVFormer代码复现实践

TPVFormer论文阅读笔记

BEVFormer 论文阅读

BEVFusion、BEVFormer方法总结

1_Occupancy network

[论文笔记] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

BEVFormer：基于Transformer的自动驾驶BEV纯视觉感知

自动驾驶+行人重识别面经

BEVFromer论文研读

BEVFormer论文解析

Bevformer：通过时空变换从多摄像机图像学习鸟瞰图表示

To Learn

自动驾驶BEV感知的下一步是什么？

BEV专栏（二）从BEVFormer看BEV流程（下篇）

bevfomer/maptr模型中时序对齐模块的改进

BEVFormer转onnx，并优化

Ubuntu16.04部署BEVformer 实时记录

计算机视觉算法——BEV Perception算法总结

BEVFormer论文解析

视觉感知——【Transformer】BEVFormer: Learning BEV Representation from Multi-Camera Images

BEVFormer论文翻译校对版

从Transformer到BEVFormer(注意力机制在CV中的使用)

BEV的学习笔记

多尺度可形变注意力机制MultiScaleDeformableAttn

使用Transformer融合时空信息的自动驾驶感知框架

[BEV] 学习笔记之BEVFormer(一)

[BEV] 学习笔记之BEVFormer(二)

51-24 BEVFormer、BEVFormer v2，Occupancy占用网络灵感源泉论文精读