-
2022年人体姿态估计SOTA方案ViTPose论文解读 ⭐️⭐️
- Abstract: 2022年人体姿态估计SOTA方案ViTPose论文解读
- Paper: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
- Code: https://github.com/ViTAE-Transformer/ViTPose
- Tips: 本文实验了纯ViT用于人体姿态估计,在COCO数据集上取得了SOTA表现,同时验证了纯ViT所具有的诸多良好特性:结构简单、模型规模容易扩展、训练灵活、知识可迁移。
-
CVPR 2022 | BoxeR:用于2D和3D Transformer的Box新注意力机制 ⭐️⭐️
- Abstract: BoxeR:用于2D和3D Transformer的Box新注意力机制
- Paper: BoxeR: Box-Attention for 2D and 3D Transformers
- Code: https://github.com/kienduynguyen/BoxeR
- Tips: 这篇文章主要基于 Deformable DETR 做了进一步拓展,Deformable DETR 是通过对原特征学出需要的注意的几个点以及其相应注意力权重,而本文提出,只注意一个 box 区域内的所有点。
-
NAACL2022:(代码实践)好的视觉引导促进更好的特征提取,多模态命名实体识别(附源代码下载) ⭐️⭐️
- Abstract: 好的视觉引导促进更好的特征提取,多模态命名实体识别
- Paper: Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction
- Code: https://github.com/zjunlp/HVPNeT
- Tips: 研究者提出了一种新颖的分层视觉前缀融合网络(HVPNeT),用于视觉增强实体和关系提取,旨在实现更有效和更强大的性能。具体来说,将视觉表示视为可插入的视觉前缀,以指导错误不敏感预测决策的文本表示。进一步提出了一种动态门控聚合策略,以实现分层多尺度视觉特征作为融合的视觉前缀。
-
BEVFusion: 基于统一BEV表征的多任务多传感器融合 ⭐️⭐️
- Abstract: BEVFusion: 基于统一BEV表征的多任务多传感器融合
- Paper: BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation
- Code: https://github.com/mit-han-lab/bevfusion
- Tips: 本文提出的BEVFusion是一种多任务多传感器融合框架,其统一BEV表征空间中的多模态特征,很好地保留了几何和语义信息。为实现这一点,优化BEV池化,诊断并解除视图转换中的关键效率瓶颈,将延迟减少了40倍。BEVFusion从根本上来说是任务无关的,无缝支持不同的3D感知任务,几乎没有架构的更改。
-
RAL 2022|基于3D语义共视图的语义SLAM精确回环检测 ⭐️⭐️
- Abstract: 基于3D语义共视图的语义SLAM精确回环检测
- Paper: Towards Accurate Loop Closure Detection in Semantic SLAM With 3D Semantic Covisibility Graphs
- Tips: 本文提出了一种新的基于单目视觉的语义SLAM系统中的循环检测和漂移校正方法,以充分利用high-level的语义信息和low-level的几何信息。
-
如何轻松上手3D检测应用实战?飞桨产业实践范例全流程详解 ⭐️⭐️
- Abstract: 如何轻松上手3D检测应用实战?飞桨产业实践范例全流程详解
- Code: https://aistudio.baidu.com/aistudio/projectdetail/4038086
- Tips: 为了让大家能够更快速的应用前沿的技术,百度视觉技术部基于飞桨提供了一套完整的3D视觉检测产业实践范例,提供了从数据准备、模型训练及优化的全流程可复用方案,降低产业落地门槛。