hltt3838

视觉SLAM常见面试题（上）

文章目录

                1、视觉SLAM方法一般分为特征点法、直接法、和光流法，简述概念，及优缺点。
                    特征点法
                    直接法
                    光流法
                2、视觉SLAM常用相机包括：单目，双目，RGB-D相机，简述优缺点、常用的相机型号？
                    单目
                    双目
                    RGB-D
                3、关键帧是什么？作用？如何选择关键帧？
                4、 SLAM中为什么要引入李群李代数？关系？
                5、对极约束（对极几何）、PnP、ICP 。 P3P求解过程，缺点及改进 EPNP 概述
                    对极约束
                    PNP
                    ICP
                    P3P求解过程:
                6、单目SLAM初始化过程？单目SLAM流程？
                7、三角测量不稳定性的缓解方法？
                8、单目视觉SLAM尺寸漂移产生原因？解决办法？
                9、 RANSAC和鲁棒核函数区别？
                10、 SLAM后端一般有两种方法：滤波方法和非线性优化方法，优缺点？
                    滤波
                    优化
                11、 SLAM中回环检测（闭环检测）目的？方法？
                12、 SLAM中的kidnap(绑架问题)？
                13、词袋模型在回环检测和重定位中的区别？
                14、地图点的构建方法？
————————————————

1、视觉SLAM方法一般分为特征点法、直接法、和光流法，简述概念，及优缺点。
特征点法——根据提取和匹配特征点来估计相机运动，优化的是重投影误差，对光照变化不敏感，是比较成熟的方案。常见的开源方案：ORB_SLAM
优点：
① 特征点本身对光照、运动、旋转比较不敏感，所以较稳定
② 相机运动较快（相对直接法来说）也能跟踪成功，鲁棒性较好
③ 研究时间较久，方案较成熟
缺点：
① 关键点提取、描述子计算、特征点匹配耗时长
② 特征点丢失场景无法使用
③ 只能构建稀疏地图
④ 只使用特征点，丢弃大量可能有用的信息

直接法——根据相机的亮度信息估计相机运动，可以不需要计算关键点和描述子，优化的是光度误差，根据使用像素数量可以分为稀疏、半稠密、稠密。常见的开源方案：SVO、LSD_SLAM
优点：
① 速度快，可以省去特征点提取、计算、匹配时间
② 只要图像有深度即可
③ 可以用在特征缺失的场合，比如白墙（特征点法在该情况下会急速变差）
④ 可以构建稀疏、半稠密、稠密地图
缺点：
① 灰度不变假设，易受光照影响
② 要求相机运动较慢，或相机采样频率较高（可以用图像金字塔改善）
③ 单个像素或像素块区分度不强，采用的是数量代替质量的策略
光流法——用光流跟踪代替描述子计算和特征点匹配，估计相机运动。
优点：
① 不需要计算描述子和匹配特征点
② 只会特征跟丢，很少会误匹配
缺点：
① LK光流的结果依赖于图像梯度，局部梯度不能预测长期图像走向（可以用多层光流来解决）
② 图像边界的点，光流不好追踪（直接法弥补了这个缺点）
③ 灰度不变假设，易受光照影响

2、视觉SLAM常用相机包括：单目，双目，RGB-D相机，简述优缺点、常用的相机型号？
单目——种类多
优点：
① 应用广，成本低
② 体积小，标定简单，硬件搭建简单
③ 可用于室内、外（适当光照下）
缺点：
① 纯视觉传感器通病：光照变化较大、纹理特征缺失、快速运动导致模糊的情况下无法使用
② 尺度不确定性，需要专门初始化
③ 必须通过运动估计深度（帧间匹配三角化）
双目——ZED、小觅、Indemind
优点：
① 相比单目，静止时能根据左右相机视差计算深度
② 基线距离越大，测量距离越远
③ 可用于室内、外（适当光照下）
缺点：
④ 纯视觉传感器通病：光照变化较大、纹理特征缺失、快速运动导致模糊的情况下无法使用
① 双目标定计算复杂
② 用视差计算深度比较耗资源
RGB-D——Kinect系列、realsence系列、Orbbec
优点：
① 使用物理测距方法测量深度，在无光照、快速运动时都可以测距
② 相对双目，输出帧率较高，更适合运动场景
③ 深度值较准（结合RGB信息，容易实现手势识别、人体姿态估计等应用）
缺点：
① 测量范围窄，易受日光影响，只能用于室内
② 标定较复杂
③ 分辨率不能很高（VGA：640x480）
④ 遇到透射材料、反光表面、黑色物体时表现不好，造成深度图缺失

3、关键帧是什么？作用？如何选择关键帧？

概念：在局部一系列普通帧中选出一帧作为局部帧的代表。（班长就是关键帧）
作用：面向后端优化的算力与精度的折中
选择标准：
① 如果当前帧和最新关键帧之间跟踪的特征点的平均视差超出某个特定阈值，则将该帧视为新关键帧【避免关键帧太密集】；
② 跟踪点的特征数量低于某一阈值【避免跟踪特征完全丢失】
注：当出现纯旋转的时候特征点无法被三角化，无法计算出旋转值，也就无法计算跟踪点间的平均视差。为了解决这一问题，采用短时的陀螺仪观测值来补偿旋转，从而计算出视差，这一过程只应用到平均视差的计算，不会影响真实的旋转结果。

4、 SLAM中为什么要引入李群李代数？关系？

原因：旋转矩阵自身是带有约束的，R是正交矩阵且行列式为1，他们作为优化变量时，会引入额外的约束，优化变的困难。通过李群李代数的转换关系，把位姿估计变成无约束的优化问题。
关系：
① 李群—对数变换—》李代数；李群《—指数变换—李代数
② 李群——矩阵；李代数——向量
③ 矩阵求导，加法不封闭；而李代数向量，加法封闭

5、对极约束（对极几何）、PnP、ICP 。 P3P求解过程，缺点及改进 EPNP 概述

**
对极约束——（单目）一般使用八点法计算本质矩阵Ｅ．然后通过SVD分解出相机的运动R和t；再通过三角测量求解三维点的坐标
概念：相机在不同位置拍摄了两幅图像，如果一个空间点P在两幅图像上分别有两个成像点。已知左图成像点为p1，那么右图成像点P2一定在相对于p1的极线上（可以简洁的给出匹配点的空间位置关系，相对暴力匹配极大减少待匹配的点的数量）。
RANSAC：有外点（误匹配）时
PNP——输入数据为3对3D-2D匹配点；利用三角形的相似性，求解3个2D投影点在相机坐标系下的3D坐标；然后根据3D-3D的点对，计算相机的运动R,t。
线性方法：先求相机位姿,再求空间点位置；非线性优化：把它们都看成优化变量,放在一起优化
ICP—— 对于一副点云中的每个点，用迭代最近法，在另一副点云中计算匹配点；极小化匹配点间的匹配误差，计算位姿R和t；然后将位姿作用于点云，再重新计算匹配点

**
5、P3P求解过程:

——输入数据为3对3D-2D匹配点；利用三角形的相似性，求解3个2D投影点在相机坐标系下的3D坐标；然后根据3D-3D的点对，计算相机的运动R,t。
P3P缺点：只利用3个点的信息，难以利用更多信息；受噪声或者误匹配影响
P3P改进: EPNP——利用更多信息，且迭代的方式对相机位姿进行优化，以消除噪声影响

6、单目SLAM初始化过程？单目SLAM流程？

单目SLAM初始化过程：是通过前两帧之间2D-2D匹配点，使用对极几何计算出相机的R、t；并将该t初始化为单位1，解决单目的尺度不确定性问题。且在初始化时，要保证两帧图片之间的运动必须包括平移（不能只是纯旋转）。
单目SLAM流程：单目初始化—PnP—三角化—PnP—三角化……。具体方法是依赖对极几何的相关知识，根据2D-2D匹配点对计算本质矩阵（或基本矩阵），并对其进行分解得到相机运动，再依据三角化原理计算特征点深度。至此即得到3D-2D匹配点对，后续的相机位姿的估计就是PnP问题了，后续3D点的计算仍采用三角化方式。

7、三角测量不稳定性的缓解方法？

方法：
① 使用可信的位移t，使角度变换限制在一个可信范围
② 使用深度滤波器。假设特征点误差分别符合高斯分布，多次观测方差会不断缩小，即滤波

8、单目视觉SLAM尺寸漂移产生原因？解决办法？

产生原因：使用单目估计相机位姿和3D点坐标时，需要通过对极几何、三角化进行估计，在这个过程中会产生误差（特征点精度误差、计算误差）；经过多帧累积，误差变大，造成尺度漂移
解决办法：
① 视觉与IMU融合，借助IMU测得的高帧率的加速度、角速度对视觉进行修正、补充；
② 后端优化时，把尺度作为一个优化变量进行优化，可以减少尺度漂移。

9、 RANSAC和鲁棒核函数区别？

同：都是为了解决outlier的问题
RANSAC：从数据中选择正确的匹配进行估计
鲁棒核函数：剔除野值。直接作用在残差上，对残差进行饱和函数运算，限制野值对误差函数的影响

10、 SLAM后端一般有两种方法：滤波方法和非线性优化方法，优缺点？
滤波

思路：假设马尔科夫性，认为k时刻状态只与k-1时刻状态有关，而与再之前的无关。用前一个时刻的值来估计下一个时刻，以EKF为代表。
优点：
① 形式简洁、应用广泛；
② 在计算资源受限、待估计量较简单时，EKF为代表的滤波比较有效，常用于激光SLAM。
缺点：
① 滤波器方法基于马尔科夫性，对于很久之前时刻的数据难以处理；
② 存在非线性误差，扩展卡尔曼滤波器只在固定点作一次线性化，但在离开工作点较远处不一定能够近似整个函数；
③ 不适用于大型场景，扩展卡尔曼滤波需要存储状态量的均值和方差，并对其更新维护，若状态中加入路标，存储量是相当大。
优化

思路：考虑k时刻状态与之前所有状态的关系，把所有状态看成变量，把运动方程和观测方程看成变量间的约束，构造误差函数，然后最小化这个误差的二次型。
优点：
① 把所有数据放在一起优化，可以实现全局优化
② 根据BA的稀疏性和边缘化，通过图优化可以实现实时
缺点：
① 包含大量特征点和相机位姿的稠密BA计算量很大，受硬件资源的影响，无法实时；
② 早期通过梯度下降法求解BA，矩阵求逆的时间复杂度为O(n3)。

11、 SLAM中回环检测（闭环检测）目的？方法？

目的：有效地检测相机经过同一个地方，然后构建一个约束，从而减少累积误差
方法：利用词袋来进行回环检测，通过单词来度量图像间的相似性评分 (图像的相似性=word的相似性)
词袋（DBoW）——就是一个大的数据库字典，通过对图像提取特征点然后训练成不同的单词，用单词来描述一幅图像。
单词选择：k-means——从图像中提取了N个特征点，需要分成k个单词的字典。我们可以先随机选取k个中心点；对N个特征点，计算最近的k点作为聚类；再对每一类重新计算中心点；如果中心点收敛了，则退出；否则继续迭代。
k-means缺点——效率低。所以：用kd-tree解决——每一个根节点分为k个分支，深度为d，可容纳k^d个单词；对数级别查找效率

12、 SLAM中的kidnap(绑架问题)？

绑架问题——重定位问题。指机器人在缺少之前位置信息的情况下，或跟踪丢失的情况下，如何进行重定位，确定当前位姿。

13、词袋模型在回环检测和重定位中的区别？

词袋模型在SLAM中的应用：当前帧与关键帧的特征匹配、重定位的特征匹配、回环检测的特征匹配；（第一个是后两个的基本原理，后两个是应用场景）
注：连续帧间特征匹配采用的并不是词袋模型。
（1）重定位：主要是通过当前帧与关键帧的特征匹配，定位当前帧的相机位姿。
（2）回环检测：优化整个地图信息，包括3D路标点、及相机位姿、相对尺度信息。回环检测提供了当前帧与所有历史帧的关系

14、地图点的构建方法？

单目：关键帧匹配构造、普通帧构造
双目：立体匹配、快匹配
RGB-D：彩色深度图对齐得到深度d，再根据彩色（u，v）坐标，根据相机投影公式计算3D点坐标
————————————————

基于图像比对的跨平台UI一致性校验工具开发全流程指南——Android/iOS/Web三端自动化测试实战追寻向上 ui android ios
一、需求背景与方案概述1.1为什么需要跨平台UI校验？在移动互联网时代，同一产品需覆盖Android、iOS和Web三端。由于不同平台的开发框架（如Android的MaterialDesign与iOS的Cupertino风格）及渲染引擎差异，UI界面易出现以下问题：布局错位：按钮位置偏移、文本换行不一致视觉差异：颜色色差、字体粗细不同交互逻辑冲突：滑动方向、弹窗动画不一致传统人工测试效率低且易遗漏
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
机器视觉工程师必须知道读码器如何选型视觉人机器视觉杂说数码相机 3d 人工智能 c#
一、明确核心需求应用场景工业场景（产线、仓储）：需高防护等级（IP65+）、抗震动/冲击、宽温工作（-20℃~50℃）。商业场景（零售、物流）：注重扫描速度、多码兼容性（一维/二维码混合）。移动场景（手持设备、AGV）：选择无线连接（蓝牙/Wi-Fi）、轻便设计。特殊环境（高粉尘、强光）：需配备强光源补偿、高帧率图像传感器。码的类型一维码：传统激光扫描器（成本低）或线性图像式扫描器（破损码容错）。
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
医图论文 CVPR‘24 | 适应医学图像中泛化异常检测的视觉-语言模型小白学视觉医学图像处理论文解读语言模型人工智能计算机视觉医学图像顶会医学图像处理 CVPR 论文解读
论文信息题目：AdaptingVisual-LanguageModelsforGeneralizableAnomalyDetectioninMedicalImages适应医学图像中泛化异常检测的视觉-语言模型作者：ChaoqinHuang，AofanJiang，JinghaoFeng，YaZhang，XinchaoWang，YanfengWang源码：https://github.com/Medi
超小巧且经济的CMOS工业相机——Vieworks的VZ系列 51camera 工业相机
今天我们来看一款超级紧凑小巧且具有成本效益的工业相机——Vieworks的VZ系列。它主要有以下四大特点：1、超紧凑的工业相机VZ系列是最小的相机，适用于广泛的机器视觉应用。由于其29mmx29mm的紧凑外壳尺寸和重量轻，VZ系列可以简单地取代大多数工业相机。2、无缝安装和高可用性PoE千兆以太网和USB3.0接口使得系统集成相对容易，减少了电缆长度和多个摄像头设置。VZ系列通过使用千兆以太网和U
工业相机的主要参数及计算 51camera 工业相机
工业相机是机器视觉系统中的关键组件，其本质是将光信号转变为有序的电信号，进而实现数字图像的获取，广泛应用于工业生产、检测、测量等领域。其成像原理与小孔成像类似，但更为复杂。当被摄物体反射的光线通过工业镜头折射后，会投射到相机的感光传感器上，这个感光传感器通常是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。dalsanano系列工业相机1、工作原理图像采集：通过镜头收集被拍摄物体反射或透
高输出红外光源的特点及应用 51camera 工业光源红外光源机器视觉
我们都知道光源在机器视觉系统中起着重要作用，能够影响成像效果，今天我们来看看红外光源。红外光是指波长比可见光中的红光长并且肉眼看不到的光。与可见光的红光相比，红外光的散射率较低，但透射率较高，因此，可用于透过印刷图案或液体的成像。红外LED的优点LED照射的红外光仅拥有特定波长范围的能量,与卤素光源相比,照射热极少。因此,对象物不易因热能而受损。红外光源成像实例（以ccs光源为例）1、1000nm
项目管理软件的十大核心功能，一文解读！项目管理
一、项目管理软件必备的十大功能任务管理任务管理是项目管理的基石。以一个新产品发布项目为例，你可以为每个阶段创建独立任务，如市场调研、产品设计、开发和测试，并为团队成员分配责任。甘特图甘特图是在视觉上查看项目进度的最佳工具之一。通过条形图的方式来显示项目时间安排，使项目经理可以清晰地看到任务的起始和结束日期。例如，当计划一个产品发布周期时，甘特图可以帮助确定各项任务的进展，并有助于提前识别和解决潜在
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
机器人触觉的意义越来越胖的GuanRunwei 触觉传感机器人触觉传感人工智能
机器人触觉的重要性触觉在机器人领域至关重要，尤其是在自主操作、精细操控、人机交互等方面。虽然视觉和语音技术已高度发展，但机器人在现实世界中的操作仍然受限，因为：视觉有局限性：仅凭视觉，机器人难以判断物体的材质、温度、表面摩擦力等信息。例如，看起来像金属的物体，可能是塑料镀层。接触与力控制是核心问题：无论是抓取、操作工具，还是进行柔性物体（如布料）操作，触觉信息比视觉更直接。例如，手术机器人需要触觉
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
斩获 44K 星！让 DeepSeek 控制你的浏览器，绝了开源项目精选人工智能
Browser-Use的开源框架，是一个能让电脑自动操作网页的智能工具。能处理动态加载的内容（比如广告弹窗、实时更新的图表），遇到网页元素位置变化还会自己调整策略，减少人工干预。Stars数46046Forks数4735主要特点强大的浏览器自动化功能：BrowserUse将先进的AI能力与强大的浏览器自动化技术相结合，为AI智能体实现流畅无缝的网页交互体验。视觉感知与HTML结构提取：将视觉理解能
【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破寻道AI小兵 AI大模型前沿技术追踪人工智能语言模型 AIGC
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破目录系列篇章前言一、项目概述二、技术原理（一）异构低秩适应（H-LoRA）（二）分层视觉感知（HVP）（三）三阶段学习策略（TLS）三、
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
Python数据可视化与地理空间分析 CrMylive. 信息可视化 python 开发语言
一、引言数据可视化与地理空间分析是数据科学领域中的两个重要领域，其中数据可视化侧重于将数据转换成可视化的图表，而地理空间分析则关注于如何在地理空间内处理与分析数据。Python作为一种高效、灵活、易用的编程语言，近年来在数据科学领域越来越受到欢迎。本文将以Python为工具，在数据可视化与地理空间分析方面进行详细探讨，并给出一些相关实例。二、数据可视化数据可视化是指利用图表、图形和其他视觉元素来展
如何运用python爬虫爬取图片素材网站的图片？（附完整代码）大懒猫软件 vue.js python 网络爬虫图像处理 bash
在当今数字化时代，高质量的图片资源对于设计师、开发者以及任何需要视觉素材的用户来说都至关重要。壁纸社作为一个提供丰富壁纸资源的网站，涵盖了从普通高清到4K、5K甚至8K超高清的多种分辨率，满足了不同用户的需求。然而，手动下载这些壁纸不仅耗时，而且效率低下。因此，开发一个自动化爬虫程序，批量下载高质量壁纸，不仅能节省时间，还能提高工作效率。本文将详细介绍如何使用Python爬虫技术从壁纸社爬取并保存
Dyn-VQA：含1452动态问题的视觉问答数据集，需灵活提供知识检索方案，查询、工具与检索时间皆可变。数据集
2024-11-05，由阿里巴巴集团创建Dyn-VQA数据集，它包含三种类型的“动态”问题，需要复杂的知识检索策略，这些问题的查询、工具和时间都是可变的。这个数据集的创建对于推动mRAG研究和解决现有VQA数据集无法充分反映启发式mRAGs在获取复杂知识方面的刚性问题具有重要意义。数据集地址：Dyn-VQA|多模态检索数据集|自然语言处理数据集一、研究背景：在多模态大型语言模型（MLLMs）中，解
DeepSeek高能低耗AI创作突破智能计算研究中心其他
内容概要随着人工智能技术向垂直领域加速渗透，生成式模型的应用边界正经历革命性拓展。DeepSeek系列产品通过670亿参数混合专家架构，构建起覆盖学术研究、内容创作与编程开发的多模态解决方案。该架构融合视觉语言理解与多语言处理能力，在保持高响应速度的同时，显著降低算力消耗，其单位计算成本仅为同类产品的三分之一。值得关注的是，系统搭载的DeepSeekProver学术引擎可自动生成文献综述框架，而D
OctoTools：一个具有复杂推理可扩展工具的智体框架三谷秋水智能体大模型机器学习人工智能语言模型机器学习
25年2月来自斯坦福大学的论文“OctoTools:AnAgenticFrameworkwithExtensibleToolsforComplexReasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的OctoTools，是一个无需训练、用户友好且易于扩展的
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

视觉SLAM常见面试题 （上）

你可能感兴趣的:(视觉SLAM14)

视觉SLAM常见面试题（上）