苏源流

[学习SLAM]深度学习+视觉SLAM 的可行性/方向

原文链接： https://note.youdao.com/ynoteshare1/index.html?id=25bdf533b875b4b925a26936c0c0b67c&type=note

时间：2019.07 作者：干磊

背景：本文统计的是2018年及以前的相关论，未涉及2019年的论文。

1，深度学习+SLAM的可行性

长期来讲，深度学习有极大可能会去替代目前SLAM技术中的某些模块，但彻底端到端取代SLAM可能性不大。
短期来讲（三到五年），深度学习不会对传统SLAM技术产生很大冲击。

2，深度学习+SLAM的 5 个主要研究方向

1）单目SLAM学习尺度/深度
2）相机重定位 / 闭环检测
3）前端提取特征和匹配
4）端到端学习相机位姿
5）语义SLAM

3，单目SLAM学习尺度/深度

特点：

单目纯视觉SLAM最大的问题是缺乏尺度信息，于是最直观的思路就是引入深度学习来脑补图像的尺度/深度信息。

示例1：

如TUM发表在CVPR17上的CNN-SLAM，将LSD-SLAM里的深度估计和图像匹配都替换成基于CNN的方法，取得了较为鲁棒的结果。
实际上，相关工作的精度确实不高，CNN-SLAM在室内每个像素的平均误差约50cm，在室外则高达7米，相比传统三角化计算深度在精度上有一定差距。但优势在于鲁棒性较强，传统三角化所面临的视差太大太小问题在DL这里都不存在。

示例2：

GEN-SLAM：一种用于单目SLAM的深度学习生成模型。来自福特的无人驾驶研究人员提出了一个基于深度学习的系统，可通过单目RGB传感器实现位姿估计和深度估计。整个系统基于传统的几何SLAM结果来训练，实现单个相机能够输出其在环境中的拓扑姿态，以及周围障碍物的深度图。
基于这篇文章提出的方案可以先使用深度传感器和传统几何SLAM方法进行一次预先构建地图，然后用该地图作为先验结合本文的模型进行训练。随后这些移动机器人只需要配备低成本的单目相机，就可以利用训练好的模型来实现复杂工厂环境下的感知与导航了。
拓扑地图生成。作者采用ORB-SLAM2算法获得相机运动轨迹，为确保路径可重复，作者先用ORB-SLAM2建图并保存，在后续实验中以此地图来实现定位功能，并让机器人按照同样的路径运动。

示例3：单目深度估计和视觉里程计无监督学习

本文工作的目标是解决无监督学习的尺度不确定问题，采用双目数据联合训练深度估计和视觉里程计网络，应用时只需单目图像输入即可，即可得到深度估计值和单目相机的转移矩阵（可实现视觉里程计的功能）。作者设计了基于帧到帧的视觉里程计，性能显著优于同类无监督学习方法，且与基于几何的方法相当。

参考文章：

[1] CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction（2017）

[2] GEN-SLAM: Generative Modeling for Monocular Simultaneous Localization and Mapping（2019）

[3] Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction（2018），https://github.com/Huangying-Zhan/ Depth-VO-Feat

4，相机重定位 / 闭环检测

特点：

相机重定位/闭环检测通常需要对当前时刻各类传感器的信息进行特征提取，并与之前得到的历史数据进行搜索匹配，以便在跟丢后重新获取一个初始位置/判断是否到达了某个历史位置。这一过程与传统的图像匹配有一定相似性，是比较适合用深度学习去完成的一类任务。

示例1：

代表工作如DL+SLAM的开山之作——剑桥的论文：ICCV15的PoseNet，使用GoogleNet去做 6-dof 相机位姿的回归模型，并利用得到的pose进行重定位。

评价：

其结果在当时（15年）非常具有开创性，但其主要意义还是在于开创了一种新的思路，其实用性及精确度并不如传统重定位方案来的可靠。

参考文章：

[1] PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization（2015），https://github.com/alexgkendall/caffe-posenet

[2] 基于深度学习的视觉SLAM闭环检测的性能评估，本文主要的贡献是对目前主流深度神经网络，比如PCANet,CaffeNet,AlexNet,GoogleNet和传统的词带模型（BoW）和全局特征信息（GIST）在闭环检测中的性能表现做了比较分析。

5，前端提取特征和匹配

特点：

DL用于特征提取及图像匹配是一个比较有潜力的方向，因为传统的特征提取、描述、匹配方案在数学上并没有一个非常清晰完整的解释，并且目前看来也很难用数学去进行清晰的描述：如SIFT、FAST各类特征点对图像的理解仅局限于非常有限的点信息，光流跟踪一直没有一个非常完美的数学框架。这一块去使用DL去进行high-level regression可能会取得意想不到的效果。
同时，特征提取及描述一直是SLAM算法中的耗时大户，花费大量的计算才能得到比较鲁棒精确的结果，并且其中很多计算是不可避免难以优化的。那么利用DL直接出特征会是一个值得一试的思路，毕竟目前DL的优化方法数不胜数。

示例1：

Magic Leap 17年放出的文章 Toward Geometric Deep SLAM 提出了一种基于CNN的提取特征点及匹配方法，包含两个网络，第一个用于提取二维特征点，第二个用于输出二维特征点的单应矩阵。无需描述子，无需繁杂的图像预处理，可以准确的定位到了物体的每个角点，高速轻量，在单核CPU上可达30fps，但代码未开源。

示例2：

发表于ECCV16的 LIFT 提出了一种新型的深度网络，实现了完整的特征处理pipeline：包括检测，方向估计和特征描述。能提取出相比SIFT更加稠密的特征点，且给予了其端到端架构较好的解释性。从实验结果看来在几个数据集上的表现吊打目前所有传统的及基于DL的特征方案（包括SIFT），但未给出运行时间数据，估计其速度应该比较堪忧。

示例3：

这篇文章提出了一种基于深度学习的关键字和描述符生成网络GCNv2，它基于为三维投影几何而训练的GCN而来。GCNv2设计了一个二进制描述符向量作为ORB特征，以便在诸如ORB-slam等系统中方便的替换ORB。代码可以在GitHub上找到。

参考文章：

[1] Toward Geometric Deep SLAM（2017）

[2] LIFT: Learned Invariant Feature Transform（2016），http://t.cn/RiepX4E

[3] GCNv2: Efficient Correspondence Prediction for Real-Time SLAM（2019），https://github.com/jiexiong2016/GCNv2_SLAM

6，端到端学习相机位姿

特点：

端到端SLAM最大的优势即“端到端”：完全舍去前端提点跟踪、后端优化求解的一系列过程，直接输入图像给出位姿（或者位姿+深度）。
其实端到端就不能算是SLAM问题了，SLAM是同步定位与地图构建，端到端是输入image输出action，没有定位和建图。

示例1：

Google CVPR17的 SfM-Learner，文章的核心思想和 LSD-SLAM 如出一辙，本质都是优化 photometric error，是利用 photometric consistency 原理来估计每一帧的 depth 和 pose。photometric consistency 就是对于同一个物体的点，在不同两帧图像上投影点，图像灰度应该是一样的。仅用一段单目视频就可以训练两个网络，分别输出pose和depth。在KITTI数据集上的效果优于不开闭环重定位的ORB-SLAM，但略逊于开了闭环重定位的ORB-SLAM。

示例2：

Google的 SfM-Net，可以说是SfM-Learner的升级版，除了计算pose和depth以外，还计算了光流，场景流，三维点云等，并且可以做场景运动目标分割，总之是一个非常强大的网络。

示例3：

CVPR17的DeMoN: Depth and Motion Network for Learning Monocular Stereo，和前面的SfM-Learner较为相似，使用pose，depth作为监督信息，来估计pose和depth。

示例4：

ICRA18的UnDeepVO，利用双目图像信息进行无监督训练网络得到尺度，并用于单目SLAM，可以估计单目相机的6自由度位姿以及使用深度神经网络估计单目视角的深度。UnDeepVO有两个显著的特性：一个是无监督深度学习方法，另一个是绝对尺度恢复。在KITTI数据集上的效果高于前面的SfM-Learner和不开闭环的ORB-SLAM。

评价：

用DL做端到端SLAM非常简单粗暴，能够绕开许多传统SLAM框架中极为麻烦的步骤如外参标定、时间戳同步，同时避开前后端算法中许多棘手的问题。作为一种全新的思路具有一定的意义。
但同样端到端SLAM的问题也非常明显，和前面所说的深度估计类似，SLAM这样一个包含很多几何模型非常数学的问题，通过深度学习去端到端解决，在原理上是完全没有依据的，而且也没理由能得到高精度解。
另一个很大的问题是模型的泛化性难以保证。目前的SLAM系统（视觉里程计）通常会有一个非常复杂的框架，从前端到后端每一步都有明确的目的，有完整的数学理论支撑，具有很强的解释性。而用高度依赖数据的DL去粗暴地近似SLAM系统，对于某些数据集可能效果不错，换个场景可能就无法跟踪。
事实上，目前的端到端深度学习SLAM确实在精度上并不能和state-of-the-art的传统方法媲美，大部分工作无法直接用视频进行训练，训练过程较为麻烦。

参考文献：

[1] SfM-Learner：Unsupervised Learning of Depth and Ego-Motion from Video（2017），https://github.com/tinghuiz/SfMLearner

[2] SfM-Net: Learning of Structure and Motion from Video（2017），非官方的TensorFlow代码：https://github.com/waxz/sfm_net，https://github.com/augustelalande/sfm

[3] DeMoN: Depth and Motion Network for Learning Monocular Stereo（2017），https://github.com/lmb-freiburg/demon

[4] UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning（2018）

7，语义SLAM

特点：

语义SLAM是SLAM未来发展的一个重要方向。传统SLAM主要解决的问题是：机器人在哪里，机器人要怎么走，对图像的理解通常只限于低级且有限的点特征。但是没有回答：机器人周边环境的物体是什么，有什么特点，理想的情况应当能像人类一样对图像进行高层语义层面理解。这个不但从商业的角度来说想象空间和商机非常大，而且对终端用户来说更实用更有意义。
如果说稀疏SLAM的稀疏地图点是为了跟踪和重定位，稠密SLAM的稠密点云或者mesh是为了场景重建，那么语义SLAM才是真的全方位“环境重建”。

示例1：构建语义地图

前面提过的 CNN-SLAM 除了用CNN估计深度外，还用了CNN做图像语义分割，然后将geometry和semantic融合起来，生成具有语义信息的地图。

示例2：构建语义地图

2016年的工作 Semi-Dense 3D Semantic Mapping from Monocular SLAM，利用 LSD-SLAM 作为框架，引入DL进行语义地图构建，选择关键帧进行做深度学习实现语义分割，之后选择相邻的几帧做增强。本质上是做了二维语义分割，然后利用SLAM投影到三维空间中去。可在室内外环境工作。

示例3：

Meaningful Maps With Object-Oriented Semantic Mapping，输入RGB-D图像 -> ORB-SLAM2应用于每一帧，SSD（Single Shot MultiBox Detector）用于每一个关键帧进行目标检测，3D无监督分割方法对于每一个检测结果生成一个3D点云分割 -> 使用类似ICP的匹配值方法进行数据关联，以决定是否在地图中创建新的对象或者跟已有对象建立检测上的关联 -> 地图对象的3D模型（3D点云分割，指向ORB-SLAM2中位姿图的指针，对每个类别的累计置信度）。

示例4：

ICRA17 best paper 的 Probabilistic data association for semantic SLAM 在数学上很有条理很严谨地解答了SLAM几何上的状态（sensor states）和语义的地标（semantic landmark）一起构成的优化问题，在ORB-SLAM2的基础上引入DL来进行语义SLAM中的数据关联，语义识别物体，并将目标检测的结果作为SLAM前端的输入，与传统特征互补提高定位鲁棒性。难点在于detection结果的data association最好能和定位联合优化，即构建紧耦合优化，但前者是个离散问题。文章利用EM算法首次针对融合了语义信息的SLAM问题给出了求解思路。作者通篇是公式，没有给出网络框架，没有找到源代码。

示例5：语义视觉里程计

《VSO: Visual Semantic Odometry》这篇文章依然使用 EM 估计，在上一篇的基础上使用距离变换将分割结果的边缘作为约束，同时依然利用投影误差构造约束条件。在 ORB SLAM2 和 PhotoBundle 上做了验证取得了一定效果。这篇文章引入距离变换的思路比较直观，很多人可能都能想到，不过能够做 work 以及做了很多细节上的尝试，依然是非常不容易的。但仍然存在一个问题是，分割的边缘并不代表是物体几何上的边缘，不同的视角这一分割边缘也是不停变化的，因此这一假设也不是非常合理。
该篇论文提出了一种用语义信息实现中期连续点跟踪的方法。可以被简单地融合进已有的直接或间接视觉里程计框架中。在自动驾驶下应用该方法实现了巨大改善。

示例6: 3D目标检测与跟踪，定位

SLAM 是一个多传感器融合的框架，RGB、激光、语义、IMU、码盘等等都是不同的观测，所以只要是解决关于定位的问题，SLAM 的框架都是一样适用的。在这篇文章中，他们将不同物体看成不同的 Map，一边重建一边跟踪。使用的跟踪方法仍然是传统的 Local Feature，而 VIO 作为世界坐标系的运动估计。语义融合方面，他们构造了4个优化项，最终取得了很好的效果。

示例7：自动驾驶中基于语义分割的定位

《Long-term Visual Localization using Semantically Segmented Images》，这篇论文讲得比较有意思，它不是一个完整的SLAM系统，不能解决Mapping的问题。它解决的问题是，当我已经有了一个很好的3D地图后，我用这个地图怎么来定位。在传统方法中，我们的定位也是基于特征匹配的，要么匹配 Local Feature 要么匹配线、边等等几何特征。而我们看人在定位时的思维，其实人看不到这么细节的特征的，通常人是从物体级别去定位，比如我的位置东边是某某大楼，西边有个学校，前边有个公交车，我自己在公交站牌的旁边这种方式。当你把你的位置这样描述出来的时候，如果我自己知道你说的这些东西在地图上的位置，我就可以基本确定你在什么地方了。这篇文章就有一点这种意思在里边，不过它用的观测结果是分割，用的定位方法是粒子滤波。它的地图是三维点云和点云上每个点的物体分类。利用这样语义级别的约束，它仍然达到了很好的定位效果。可想而知这样的方法有一定的优点，比如语义比局部特征稳定等；当然也有缺点，你的观测中的语义信息要比较丰富，如果场景中你只能偶尔分割出一两个物体，那是没有办法work的。

参考文献：

[1] Semi-Dense 3D Semantic Mapping from Monocular SLAM（2016）

[2] Meaningful Maps With Object-Oriented Semantic Mapping（2017）

[2] Probabilistic data association for semantic SLAM（2017）

[3] VSO: Visual Semantic Odometry（2018）

[6] Long-term Visual Localization using Semantically Segmented Images（2018）

从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
《YOLO11的ONNX推理部署：多语言多架构实践指南》空云风语 YOLO 人工智能深度学习目标跟踪人工智能计算机视觉 YOLO
引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。想象一下，自动驾驶汽车需要实时准确地检测出道路上的车辆、行人、交通标志；智能安防系统要快速识别出监控画面中的异常行为和可疑人员；工业生产线上，需要精准检测产品的缺陷；医疗影像分析中，辅助医生检测病变区域。这些场景都对目标检测技术的准
【CVPR2024】计算机视觉|即插即用|DFAM:marine！不懂DFAM，别说你会做水下动物分割！
论文地址：http://arxiv.org/pdf/2404.04996v1代码地址：https://github.com/Drchip61/Dual_SAM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要本研究提出了一种新颖的特征学习框架，名为**Dual-SAM，用于高性能的海洋动物分割
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
视觉表征和多模态融合一只齐刘海的猫语言模型
视觉表征和多模态融合是当前人工智能领域的研究热点，特别是在计算机视觉和自然语言处理的交叉领域。视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。视觉表征(VisualRepresentation)目的：将图像或视频数据转化为深度学习模型可以理解的特征向量。方法：卷积神经网络(CNN)：传
从0到1掌握OpenCV！Python图像处理实战全解析（附代码+案例）小张在编程 Python学习 opencv python 图像处理
引言你有没有想过，手机里的美颜滤镜如何精准识别五官？监控摄像头如何在人流中锁定可疑目标？医学影像软件如何从CT片中快速标注病灶？这些“神奇操作”的背后，往往藏着一个低调的“图像处理神器”——OpenCV。作为Python生态中最受欢迎的计算机视觉库，它用一行行代码将抽象的像素点变成可操作的“数字画布”。今天，我们就从最基础的图像读写开始，手把手带你解锁OpenCV的“十八般武艺”，从图像处理小白变
目标检测在国防和政府的应用实例 MzKyle 计算机视觉目标检测人工智能计算机视觉
一、目标检测技术概述目标检测是计算机视觉的核心任务，通过算法对图像/视频中的物体进行识别与定位，当前主流技术包括：经典算法：YOLO系列（实时性强）、FasterR-CNN（精度高）、SSD（平衡速度与精度）技术升级：结合深度学习（CNN、Transformer）、多模态融合（视觉+红外+雷达）、边缘计算实时处理二、国防领域核心应用实例（一）军事侦察与监控系统无人机侦察与目标识别应用场景：战术无人
VLA模型
一介绍在机器人领域，视觉-语言-动作(VLA)模型的发展经历了显著的演变，这得益于计算机视觉和自然语言处理领域的进步。VLA模型代表了一类旨在处理多模态输入的模型，整合了来自视觉、语言和动作的信息。这些模型对于实现具身智能至关重要，使机器人能够理解物理世界并与之互动。以下是VLA模型发展的时间线：早期阶段：计算机视觉和自然语言处理的集成大约在2015年开始，随着视觉问答(VQA)系统的出现。这些系
Random Erasing：计算机视觉的「隐形斗篷」——遮挡艺术的对抗学习革命星光银河深度学习-代表性技术主题 /概念层面计算机视觉学习人工智能 cnn 神经网络深度学习
当ImageNet冠军模型在真实世界的遮挡面前崩溃时（识别准确率骤降38%），中科院自动化研究所2017年提出的RandomErasing技术以一纸惊艳了学界。这种在图像中随机挖洞的简单操作，让ResNet-50在Partial-iNaturalist数据集上抗遮挡能力提升4.2倍，错误率降低59%，揭示了模型鲁棒性的深层密码。️遮挡困境：视觉模型的阿喀琉斯之踵图像识别鲁棒性演化史时代技术Imag
AI人工智能与自动驾驶的协同创新模式 AI大模型应用之禅人工智能自动驾驶机器学习 ai
AI人工智能与自动驾驶的协同创新模式关键词：人工智能、自动驾驶、协同创新、深度学习、计算机视觉、传感器融合、决策系统摘要：本文深入探讨了人工智能与自动驾驶技术的协同创新模式。我们将从基础概念出发，逐步分析AI如何赋能自动驾驶系统，涵盖感知、决策和控制三大核心模块。文章将通过生动的比喻解释复杂技术原理，展示实际代码实现，并探讨未来发展趋势和挑战。通过这篇文章，读者将全面理解AI与自动驾驶如何相互促进
基于 OpenCV 的图像 ROI 切割实现
一、引言在计算机视觉领域，我们经常需要处理各种各样的图像数据。有时候，我们只对图像中的某一部分区域感兴趣，例如在一张人物照片中，我们可能只关注人物的脸部。在这种情况下，将我们感兴趣的区域从整个图像中切割出来，不仅可以节省计算量，还能提高程序的运行速度。这就是我们所说的ROI（RegionofInterest，感兴趣区域）切割。二、ROI切割的原理2.1图像数据的存储在使用OpenCV进行图像读取时
【Python】车牌自动识别幽兰的天空 Python python opencv
实现车牌自动识别（LicensePlateRecognition,LPR）是计算机视觉和深度学习领域中的一个常见任务。用Python和OpenCV，结合其他深度学习库，可以建立一个简单的车牌识别系统。以下是一个基于这两者的基本实现思路和示例代码。实现步骤环境准备：安装必要的库：bashpipinstallopencv-pythonopencv-python-headlessnumpypillowp
Python和OpenCV实现车牌识别的毕业设计案例媛源啊
本文还有配套的精品资源，点击获取简介：本项目通过Python和OpenCV库，实现了一个实用的车牌识别系统，包含图像捕获、预处理、车牌定位、车牌分割和字符识别等步骤。系统提供了一键运行的完整代码，使学生能够快速掌握计算机视觉和深度学习应用。遇到的挑战和解决方案也进行了讨论，比如光照变化、车牌角度不一致和污损的处理，以及数据增强技术和模型参数优化。1.车牌识别系统的基本理论和应用1.1车牌识别的背景
【大模型面试】大模型Prompt Engineer面试题及参考答案大模型知识 prompt 人工智能开发语言 python chatgpt 深度学习大模型
一、基础概念类1.什么是大模型？大模型通常指具有庞大参数规模的机器学习模型，尤其是在自然语言处理（NLP）和计算机视觉等领域。这些模型能够学习到大量数据中的复杂模式和特征，具备强大的泛化能力，可在多种任务上表现出色，如GPT系列、BERT等。2.大模型与传统机器学习模型的区别是什么？传统机器学习模型参数规模相对较小，往往针对特定任务进行设计和训练，需要较多人工特征工程。而大模型参数数量庞大，通过在
AI产品经理技术篇：AI领域常用术语解析让我看看好学吗人工智能产品经理机器学习深度学习学习
作为AI产品经理，深入理解人工智能领域的核心术语是高效沟通、需求定义和产品落地的关键。无论是与算法工程师协作优化模型，还是向业务方解释技术方案，准确掌握专业术语能显著提升决策效率，避免因概念混淆导致的开发偏差。本文系统梳理了模型与算法、NLP（自然语言处理）、CV（计算机视觉）、数据处理、核心评估指标等领域的核心术语，帮助产品经理快速构建AI技术认知框架。目录1.基础概念2.模型与算法3.自然语言
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

[学习SLAM]深度学习+视觉SLAM 的可行性/方向

你可能感兴趣的:(计算机视觉,运动估计,视觉导航,视觉SLAM,三维重建)