babyai996

基于图像的相机定位：概述

虚拟现实、增强现实、机器人和自动驾驶最近引起了学术界和工业界的广泛关注，其中基于图像的相机定位是一项关键任务。然而，还没有关于基于图像的相机定位的完整评论。迫切需要映射这个主题，使个人能够快速进入该领域。在本文中，概述了基于图像的摄像机定位。提供了一种新的、完整的基于图像的摄像机定位方法分类，并介绍了相关技术。还讨论了未来发展的趋势。这不仅对研究人员有用，而且对工程师和对该领域感兴趣的其他个人也有用。

背景

近年来，虚拟现实、增强现实、机器人、自动驾驶等，其中基于图像的相机定位是一项关键任务，引起了学术界和工业界的广泛关注。迫切需要提供基于图像的相机定位的概述。

用于基于图像的相机定位的传感器是相机。最近开发了多种类型的三维 (3D) 相机。本研究考虑二维 (2D) 相机。室外定位常用的工具是 GPS，它不能在室内使用。室内定位工具有很多，包括激光雷达、超宽带（UWB）、无线保真（WiFi）等；其中，使用摄像头进行定位是最灵活、成本最低的方法。自主定位和导航是移动机器人所必需的。为了增强图像的真实感，需要确定相机姿势或定位。要查看虚拟环境，需要计算相应的视角。此外，相机无处不在，人们每天都携带带有相机的手机。所以，

点、线、二次曲线、球体和角度的图像特征用于基于图像的相机定位；其中，点使用最广泛。本研究着重于点。

基于图像的相机定位是一个广泛的话题。我们试图涵盖相关工作并对基于图像的相机定位方法进行完整分类。然而，由于篇幅限制，不可能涵盖本文中的所有相关工作。此外，由于篇幅所限，我们无法针对如此广泛的主题对每篇被引用的论文进行深入批评。未来将对基于图像的相机定位的一些活跃的重要方面进行更深入的评论，或者感兴趣的人可以阅读现有的调查。关于基于图像的相机定位的某些方面已经有很好的评论。最新的包括以下内容。汗和阿德南 [ 1] 概述了自我运动估计，其中自我运动需要两个连续图像之间的时间间隔足够小。卡德纳等人。[ 2 ] 调查了同时定位和映射 (SLAM) 的当前状态并考虑了未来的方向，其中他们回顾了相关工作，包括长期映射中的鲁棒性和可扩展性、映射的度量和语义表示、理论性能保证、主动 SLAM，和探索。尤尼斯等。[ 3 ] 特别回顾了基于关键帧的单目 SLAM。皮亚斯科等。[ 4 ] 提供了一项关于来自异构数据的基于视觉的定位的调查，其中仅考虑已知环境。

与这些研究不同，这项研究的独特之处在于它首先映射了整个基于图像的相机定位，并为主题提供了完整的分类。“概述”部分概述了基于图像的摄像机定位，并映射为树结构。“ Reviews on image-based camera localization ”部分介绍了分类的各个方面。“讨论”部分对未来发展趋势进行讨论和分析。“结论”部分对论文进行总结。

概述

什么是基于图像的相机定位？基于图像的相机定位是根据相机捕获的图像或视频计算相机在世界坐标系下的位姿。根据环境是否事先已知，基于图像的摄像机定位可以分为两类：一类是环境已知的，另一类是环境未知的。

令n为使用的点数。已知环境的方法包括 3 ≤ n < 6 的方法和n ≥ 6 的方法。这些是 PnP 问题。一般来说，3 ≤ n < 6的问题是非线性的， n ≥ 6 的是线性的。

具有未知环境的方法可以分为具有在线和实时环境映射的方法和没有在线和实时环境映射的方法。前者是众所周知的同步定位和映射（SLAM），后者是众所周知的运动结构（SFM）的中间过程。根据地图生成的不同，SLAM分为几何度量SLAM、学习SLAM、拓扑SLAM和标记SLAM四个部分。学习SLAM是最近一个新的研究方向。我们认为它与几何度量 SLAM 和拓扑 SLAM 的区别在于单一类别。学习 SLAM 可以获得相机位姿和 3D 地图，但需要先验数据集来训练网络。学习 SLAM 的性能在很大程度上取决于所使用的数据集，泛化能力低。因此，学习 SLAM 不如几何度量 SLAM 灵活，并且其在使用的数据集之外获得的 3D 地图在大多数情况下不如几何度量 SLAM 准确。然而，同时，学习 SLAM 除了拓扑表示之外还有 3D 地图。标记 SLAM 在不知道完整环境的情况下根据已知的结构化标记计算相机姿势。几何度量 SLAM 由单目 SLAM、多目 SLAM 和多传感器 SLAM 组成。此外，几何度量SLAM可以分为基于滤波器的SLAM和基于关键帧的SLAM。基于关键帧的SLAM可以进一步分为基于特征的SLAM和直接SLAM。多传感器SLAM可分为松耦合SLAM和紧耦合SLAM。基于图像的摄像机定位方法的这些分类被可视化为逻辑树结构， 1，其中当前活跃的主题用粗体边框表示。我们认为这些主题是来自大数据的相机定位、学习 SLAM、基于关键帧的 SLAM 和多种传感器 SLAM。

图。1

基于图像的相机定位概述

全尺寸图片

基于图像的相机定位评论

已知环境

从已知的 3D 空间点确定相机位姿称为透视 n 点问题，即 PnP 问题。当n = 1,2 时，PnP 问题没有解决方案，因为它们受到约束。当n ≥ 6 时，PnP 问题是线性的。当n = 3、4、5 时，PnP 问题的原始方程通常是非线性的。PnP 问题的历史可以追溯到 1841 年到 1903 年。Grunert [ 5 ]、Finsterwalder 到 Scheufele [ 6 ] 得出结论，P3P 问题最多有四个解，而 P4P 问题通常有一个唯一解。PnP 问题也是 SLAM 的关键重定位问题。

n = 3、4、5的 PnP 问题

解决n = 3、4、5的 PnP 问题的方法主要集中在两个方面。一方面研究非线性问题的解数或多解几何配置。另一方面研究相机姿态的消除或其他求解方法。

针对第一方面的方法如下。Grunert [ 5 ]、Finsterwalder和Scheufele [ 6 ]指出P3P最多有四个解，P4P有唯一解。Fischler 和 Bolles [ 7 ] 针对 PnP 的 RANSAC 研究了 P3P，发现 P3P 的四种解决方案是可以实现的。沃尔夫等。[ 8 ]表明P3P主要有两种解决方案；他们确定了两个解决方案，并提供了 P3P 可以有两个、三个或四个解决方案的几何解释。胡和吴[ 9] 定义了基于距离和基于转换的 P4P 问题。他们发现定义的两个 P4P 问题并不等价；他们发现基于转换的问题最多有四个解，而基于距离的问题最多有五个解。Zhang 和Hu [ 10 ] 提供了P3P 有四种解决方案的充分必要条件。吴、胡[ 11] 证明基于距离的问题等同于 P3P 的基于旋转变换的问题，基于距离的问题等同于 P4P/P5P 的基于正交变换的问题。此外，他们还表明，对于任意三个非共线点，总能找到光心，使得这三个控制点与光心形成的P3P问题将有四个解，即其上界。此外，还提供了一种几何方法来构建这四种解决方案。Vynnycky 和 Kanev [ 12 ] 研究了等边 P3P 问题的多解概率。

关注n = 3, 4, 5的 PnP 问题的第二个方面的方法如下。Horaud 等人。[ 13 ] 描述了 P4P 问题的消除方法以获得酉四次方程。哈拉利克等人。[ 14 ]回顾了P3P 问题的六种方法，它们是[ 5、6、7、15、16、17 ]。Dementhon 和 Davis [ 18 ] 通过准透视成像的查询表提出了 P3P 问题的解决方案。Quan 和 Lan [ 19 ] 线性解决了 P4P 和 P5P 问题。高等。[ 20] 使用吴氏消元法得到P3P问题的完备解。Wu 和 Hu [ 10 ] 引入了一种基于深度比的方法来表示完整 PnP 问题的解决方案。Josephson 和 Byrod [ 21 ] 使用 Grobner 基方法解决了未知焦距相机径向畸变的 P4P 问题。赫施等。[ 22 ] 研究了n >= 3的 PnP 的非线性平方解。Kneip 等人。[ 23 ]直接解决了P3P问题的旋转和平移解。奈普等人。[ 24 ]提出了一个统一的 PnP 解决方案，可以处理广义相机和具有全局优化和线性复杂性的多重解决方案。匡和阿斯特罗姆 [ 25] 研究了使用点和线的未知焦距的 PnP 问题。Z. Kukelova 等人。[ 26 ]研究了具有径向畸变图像的焦距未知的 PnP 问题。文图拉等。[ 27 ] 提出了广义姿态和尺度问题的最小解决方案。郑等。[ 28 ] 引入了一个角度约束并为每个 P3P 导出了一个紧凑的二元多项式方程，然后提出了一种使用迭代来解决焦距未知的 PnP 问题的通用方法。后来，Zheng 和 Kneip [ 29 ] 在不需要点序和迭代的情况下改进了他们的工作。Wu [ 30 ] 研究了焦距未知且n = 3.5 的 PnP 解决方案。阿尔布尔等。[ 31] 研究了滚动快门相机的姿势解决方案，并在 2016 年晚些时候改进了结果。

n ≥ 6的 PnP 问题

当n > = 6 时，PnP 问题是线性的，对它们的研究主要集中在两个方面。一方面研究从较少数量的点对相机姿势的有效优化。另一方面从大数据研究快速相机定位。

第一方面的研究如下。卢等人。[ 32 ] 给出了一个使用共线点的全局收敛算法。Schweighofer 和 Pinz [ 33 ] 研究了平面目标的多解。吴等。[ 34 ] 提出了场景和图像之间的不变关系，然后是使用不变量的稳健 RANSAC PNP。Lepetit 等人。[ 35 ] 为 PnP 问题提供了精确的 O(n) 解决方案，称为 EPnP，如今已广泛使用。在 [ 36 ] 中通过束调整研究了卷帘快门相机的位姿问题。在 [ 37 ] 中也使用 B 样条协方差矩阵研究了类似的问题。郑等。[ 38] 使用四元数和 Grobner 基来提供 PnP 问题的全局优化解决方案。[ 39 ]中给出了具有代数异常值拒绝的 PnP 问题的非常快速的解决方案。Svarm 等人。[ 40 ]研究了考虑重力方向的大型 3D 模型的精确定位和姿态估计。Ozyesil 等人。[ 41 ]通过凸规划提供了稳健的相机位置估计。布拉赫曼等人。[ 42 ] 显示了来自单个 RGB 图像的对象和场景的不确定性驱动的 6D 姿态估计。冯等。[ 43 ] 提出了一种无手眼校准策略，通过顺序校正相对 3D 旋转和平移，以相同的 6D 姿态主动重新定位相机。中野 [ 44] 用Grobner方法解决了三种PnP问题：标定相机的PnP问题，未知焦距相机的PnPf问题，未知焦距和未知径向畸变相机的PnPfr问题。

第二个方面的研究侧重于从大数据中快速定位相机，如下所示。亚瑟等人。[ 45 , 46 ] 展示了手机的实时摄像头定位。萨特勒等人。[ 47 ]基于视觉词汇量化和优先对应搜索与已知的城市场景大型 3D 模型推导了直接匹配框架。后来，他们在 [ 48 ]中通过主动对应搜索改进了该方法。李等。[ 49 ] 设计了一种自适应的优先算法，用于将覆盖大场景的一组代表性 SIFT 特征与查询图像进行匹配，以实现高效定位。后来李等人。[ 50] 针对大型地理配准 3D 点云提供了完整的 6-DOF-plus-intrinsic 相机姿势。雷等。[ 51 ] 使用基于 PCA 的点分组从街景中研究了有效的摄像机定位。Bansal 和 Daniilidis [ 52 ] 使用从城市环境的数字高程地图中提取的 3D 点射线特征提出了一种纯几何无对应的城市地理定位方法。肯德尔等人。[ 53 ] 通过训练卷积神经网络 (CNN) 以端到端的方式从单个 RGB 图像中回归 6-DOF 相机姿态，提出了一个强大的实时单目 6-DOF 重定位系统。王等。[ 54] 提出了一种在非常大的室内空间中定位的新方法，该方法将单个图像和环境平面图作为输入。蔡斯等人。[ 55 ] 提出了一种基于投票的姿态估计策略，该策略在匹配次数方面表现出 O(n) 的复杂性，从而有助于考虑更多的匹配次数。卢等人。[ 56 ]使用由短视频重建的 3D 模型作为查询，在多任务点检索框架下实现 3D 到 3D 定位。瓦伦丁等。[ 57 ] 训练了一个回归森林来预测各向异性 3D 高斯的混合，并展示了如何将预测的不确定性考虑在内以进行连续姿态优化。斯特劳布等人。[ 58] 提出了一种重新定位系统，通过使用二进制特征描述符和局部敏感哈希的最近邻搜索，可以实现宽基线的实时 6D 姿势恢复。冯等。[ 59 ] 通过使用二进制特征的监督索引实现了大规模环境中的快速定位，其中通过利用从对应于公共 3D 点的多个特征派生的标签信息，在监督训练过程中构建随机树。Ventura 和 Höllerer [ 60 ] 提出了一个任意广域环境的系统，用于使用手持设备进行实时跟踪。[ 61]中提出了基于关键帧的单目 SLAM 系统和全局定位方法的结合。]. [ 62 ]中出版了一本关于大规模视觉地理定位的书。刘等人。[ 63 ] 展示了在大规模 3D 地图中相机定位的高效全局 2D-3D 匹配。Campbell [ 64 ] 提出了一种用于同步相机姿势和特征对应的全局最优内点集最大化的方法。[ 65 ]提出了具有二元特征索引在线学习的实时 SLAM 重定位。吴等。[ 66 ] 提出了用于相机重定位的 CNN。Kendall 和 Cipolla [ 67 ] 探索了许多用于学习相机姿势的新型损失函数，这些损失函数基于几何和场景重投影误差。秦等。[ 68] 开发了一种用于单目视觉惯性 SLAM 的重定位方法。皮亚斯科等。[ 4 ] 提出了一项关于来自异构数据的基于视觉的定位的调查。[ 69 ]中提出了一种用于移动增强现实系统的基于几何的点云缩减方法。

从以上已知环境的研究中，我们可以看到基于大数据的快速相机定位越来越受到关注。这是因为针对大数据的摄像头定位有很多应用，例如基于位置的服务、各类机器人的SLAM重定位、AR导航等。

未知环境

未知环境可以通过视频实时在线重建。同时，实时在线计算相机位姿。这些就是众所周知的SLAM技术。如果未知环境是在不需要速度和在线计算的情况下从多视图图像重建的，那就是已知的 SFM，其中求解相机位姿是一个中间步骤，而不是最终目标；因此，我们仅提及少量关于 SFM 的研究，而不会在下文中提供深入的概述。将详细介绍SLAM的研究。

大满贯

SLAM 始于 1986 年的研究[ 70 ]：“关于空间不确定性的表示和估计”，发表在国际机器人研究杂志上。1995 年，在第 7 届国际机器人研究研讨会上的研究 [ 71 ]：“自动引导车辆的定位”中创造了首字母缩略词 SLAM 。根据地图生成的不同，对SLAM的研究可以分为四类：几何度量SLAM、学习SLAM、拓扑SLAM和标记SLAM。由于其精确的计算，几何度量 SLAM 引起了越来越多的关注。学习SLAM是随着深度学习的发展而受到关注的一个新课题。对纯拓扑 SLAM 的研究正在减少。标记 SLAM 更准确和稳定。有一项研究 [2 ] 回顾了 SLAM 的最新进展，涵盖了广泛的主题，包括长期映射的稳健性和可扩展性、映射的度量和语义表示、理论性能保证、主动 SLAM 和探索。下面分别介绍几何度量SLAM、学习SLAM、拓扑SLAM和标记SLAM。

A。
几何度量SLAM

几何度量 SLAM 使用精确的数学方程计算 3D 地图。根据使用的传感器不同，几何度量SLAM分为单目SLAM、多目SLAM和多类传感器SLAM。根据使用的技术不同，几何度量SLAM分为基于滤波器的SLAM和基于关键帧的SLAM，还有另一类SLAM：基于网格的SLAM，其中少数处理图像，大部分处理激光数据。最近，有一篇关于基于关键帧的单目 SLAM 的综述，提供了深入的分析 [ 3 ]。
1. A.1)
  单目SLAM
  1. A.1.1)
    基于过滤器的 SLAM
    
    单目 SLAM 的一部分是基于滤波器的方法。第一个是戴维森[ 72 ]提出的基于扩展卡尔曼滤波器（EKF）的Mono-SLAM 。后来，他们在 [ 73 , 74 ] 中进一步发展了这项工作。Montemerlo 和 Thrun [ 75 ] 提出了基于粒子滤波器的单目 SLAM。斯特拉斯达等人。[ 76、77 ]通过比较基于过滤器和基于关键帧的方法讨论了为什么使用基于过滤器的SLAM 。[ 76 ]在 ICRA 2010 的会议论文获得了最佳论文奖，他们指出基于关键帧的 SLAM 可以提供更准确的结果。Nuchter 等人。[ 78] 使用 SLAM 的粒子过滤器来映射大型 3D 室外环境。黄等。[ 79 ] 解决了无迹卡尔曼滤波器 (UKF) 在应用于 SLAM 问题时的两个关键限制：状态数量的三次计算复杂性和状态估计的不一致性。他们为具有恒定计算复杂度的 UKF 引入了一种新的采样策略，并提出了一种新算法来确保 UKF 基于线性回归的系统模型的不可观察子空间与非线性 SLAM 系统的不可观察子空间具有相同的维度。尤尼斯等。[ 3 ] 还指出，基于过滤器的 SLAM 在 2010 年之前很常见，此后大多数解决方案都围绕非过滤器、基于关键帧的架构设计了他们的系统。
  2. A.1.2)
    基于关键帧的SLAM
    单目 SLAM 的第二部分是基于关键帧的方法。基于关键帧的SLAM可以进一步分为：基于特征的方法和直接方法。a) 基于特征的 SLAM：第一个基于关键帧的特征 SLAM 是在 [ 80 ] 中提出的 PTAM。后来，该方法在 [ 81 ]中被扩展到结合边缘，并在 [ 82 ]中被扩展到手机平台。关键帧选择在 [ 83、84 ]中进行了研究。在 [ 85 ]中提出了具有循环检测和目标识别的 SLAM++ 。[ 86 ]研究了动态场景检测和自适应 RANSAC 。关于动态对象，Feng 等人。[ 87] 提出了一种 3D 辅助光流 SLAM。ORB SLAM [ 88 ]可以处理循环检测、动态场景检测、单目、双目和深度图像。[ 89 ]的方法可以在使用子图和线性程序去除异常值的大规模环境中运行。b) Direct SLAM：单目SLAM的第二部分是直接法。纽科姆等人。[ 90 ] 提出了 DTAM，这是第一个直接 SLAM，其中在选定的关键帧处生成详细的纹理密集深度图，同时通过针对密集纹理模型的整个图像对齐以帧速率跟踪相机姿态。在[ 91 ]中提出了一种半密集视觉里程计（VO）。LSD SLAM [ 92] 提供了适用于大规模环境的密集 SLAM。帕斯科等人。[ 93 ]提出了一种用于激光雷达和相机的道路环境的直接密集 SLAM。手机上的半 VO 由 [ 94 ] 执行。
    
    A2）
    多目SLAM
    
    多目 SLAM 使用多个相机来计算相机姿势和 3D 地图。大多数研究都集中在双眼视觉上。它们也是多眼视觉的基础。
    
    Konolige 和 Agrawal [ 95 ] 使用经典的 bundle adjustment 技术将视觉帧与大量点特征进行匹配，但只保留相对帧姿态信息。梅等。[ 96 ]使用立体声对提供的运动和结构的局部估计来根据一系列相对位置来表示环境。Zou 和 Tan [ 97 ] 研究了构建全球地图的多个移动摄像机的 SLAM。恩格尔等。[ 98 ]提出了一种新颖的用于立体相机的大规模直接 SLAM 算法。皮尔等。[ 99 ] 提出了一种称为 S-PTAM 的立体 SLAM 系统，它可以计算地图的真实比例并克服 PTAM 对机器人导航的限制。莫雷诺等人。[ 100] 为立体 SLAM 系统提出了一种称为稀疏相对束调整 (SRBA) 的新方法。Artal 和 Tardos [ 101 ] 展示了 ORB-SLAM2，它是一个完整的 SLAM 系统，适用于单目、立体和 RGB-D 相机，具有地图重用、闭环和重定位功能。张等。[ 102 ] 提出了一种使用直线作为特征的基于图形的立体 SLAM 系统。戈麦斯-奥赫达等人。[ 103 ] 提出了 PL-SLAM，这是一种立体视觉 SLAM 系统，它结合了点和线段，可以在更广泛的场景中稳健地工作，特别是在图像中点特征稀缺或分布不均的场景中。在 [ 104 ]中提出了一种用于立体相机的新型直接视觉惯性里程计方法。王等。[[105 ] 提出了立体直接稀疏里程计（Stereo DSO），用于从立体相机对大规模环境进行高精度实时视觉里程计估计。在[ 106 ]中提出了用于单目和多相机系统的半直接视觉里程计（SVO）。孙等。[ 107 ]提出了立体多状态约束卡尔曼滤波器（S-MSCKF）。与多状态约束卡尔曼滤波器（MSCKF）相比，S-MSCKF 表现出明显更强的鲁棒性。
    
    多目 SLAM 比单目 SLAM 具有更高的可靠性。一般来说，如果允许硬件平台，多目SLAM是首选。
    
    A.3)
    多种传感器SLAM
    
    在这里，多种传感器仅限于视觉和惯性测量单元（IMU）；其他传感器这里不再介绍。这是因为，最近，视觉和 IMU 融合比其他领域更受关注。
    
    在机器人技术中，有很多关于结合相机和 IMU 的 SLAM 的研究。移动设备通常配备摄像头和惯性单元。摄像机可以提供丰富的场景信息。IMU 可以提供自运动信息，也可以提供准确的高频短期运动估计。相机和 IMU 一直被认为是相辅相成的。由于视觉惯性传感器的普适性和互补性，视觉惯性融合成为近年来非常活跃的研究课题。视觉惯性融合的主要研究方法可以分为两类，即松耦合和紧耦合方法。
    
    A.3.1)
    松耦合 SLAM 在松耦合系统中，所有传感器状态都是独立估计和优化的。在 [ 108 ]中，集成的 IMU 数据作为独立测量纳入立体视觉优化。仅视觉姿态估计用于更新 EKF，以便可以执行 IMU 传播 [ 109 ]。给出了对由 RGB-D 相机和惯性测量单元组成的移动传感器装置计算帧到帧运动估计的不同直接方法的评估，并将视觉里程计的姿势直接添加到 IMU 优化框架中 [ 110 ]。
    
    A.3.2)
    紧耦合 SLAM 在紧耦合系统中，所有传感器状态都是联合估计和优化的。为此有两种方法，即基于过滤器的方法和基于关键帧非线性优化的方法。
    
    A.3.2.a)
    基于滤波器的方法基于滤波器的方法使用 EKF 来传播和更新视觉惯性传感器的运动状态。[ 111 ]中的 MSCKF使用 IMU 传播车辆的运动估计，并通过观察单目相机的显着特征来更新此运动估计。Li 和 Mourikis [ 112 ] 通过提出基于实时 EKF 的 VIO 算法 MSCKF2.0 改进了 MSCKF。该算法通过确保其线性化系统模型的正确可观测性以及对相机到惯性测量单元校准参数进行在线估计来实现一致估计。李等。[ 113 ], Li 和 Mourikis [ 114] 使用惯性感应和滚动快门相机在手机上实现实时运动跟踪。MSCKF 算法是 Google 的 Project Tango https://get.google.com/tango/的核心算法。克莱门特等人。[ 115 ] 比较了两种现代方法：MSCKF 和滑动窗口滤波器 (SWF)。SWF 比 MSCKF 更准确，对调整参数的敏感度更低。然而，MSCKF 的计算成本更低，具有良好的一致性，并且由于跟踪了更多的特征而提高了准确性。Bloesch 等人。[ 116]提出了一种直接利用图像块像素强度误差的单目视觉惯性里程计算法。在该算法中，通过直接使用强度误差作为创新项，多级补丁特征的跟踪在更新步骤中与底层 EKF 紧密耦合。
    
    A.3.2.b)
    基于关键帧非线性优化的方法基于非线性优化的方法使用基于关键帧的非线性优化，由于能够通过对固有非线性问题的重复线性化来限制线性化误差，因此可能会实现更高的精度。福斯特等人。[ 117 ] 提出了一种预积分理论，该理论适当地解决了旋转群的流形结构。此外，结果表明，预积分 IMU 模型可以在因子图的统一框架下无缝集成到视觉惯性管道中。该方法是 GTSAM 的缩写。Leutenegger 等人。[ 118] 提出了一种新颖的方法 OKVIS，将视觉测量与 IMU 测量紧密集成，其中优化了以完全概率方式将 IMU 误差项与地标重投影误差集成的联合非线性成本函数。此外，为了确保实时操作，旧状态被边缘化以保持有界大小的优化窗口。李等。[ 119 ]提出了复杂环境中相机定位的紧耦合、基于优化的单目视觉惯性状态估计。该方法可以在具有轻量级闭环的移动设备上运行。在 ORB 单目 SLAM [ 88 ] 之后，在 [ 120 ]中提出了一种紧耦合的视觉惯性 SLAM 系统。
    
    在松散耦合的系统中，很容易处理帧和 IMU 数据。然而，在紧耦合系统中，要联合优化所有传感器状态，很难处理帧和 IMU 数据。在估计精度方面，紧耦合方法比松耦合方法更准确和鲁棒。紧耦合方法越来越受欢迎，并引起了研究人员的极大关注。
    
    B.
    学习SLAM
    
    学习SLAM是最近由于深度学习的发展而引起关注的一个新课题。我们认为它与几何度量 SLAM 和拓扑 SLAM 的区别在于单一类别。学习 SLAM 可以获得相机位姿和 3D 地图，但需要先验数据集来训练网络。学习 SLAM 的性能很大程度上取决于所使用的数据集，泛化能力低。因此，学习 SLAM 不如几何度量 SLAM 灵活，并且在使用的数据集之外获得的几何地图在大多数情况下不如几何度量 SLAM 准确。然而，同时，学习 SLAM 具有 3D 地图而不是 2D 图形表示。
    
    馆野等。[ 121 ] 使用 CNN 来预测密集的深度图，然后使用基于关键帧的 3D 度量直接 SLAM 来计算相机姿态。Ummenhofer 等人。[ 122 ] 训练了多个堆叠的编码器-解码器网络来计算连续的、不受约束的图像对的深度和相机运动。Vijayanarasimhan 等人。[ 123 ] 提出了一种用于视频运动估计的几何感知神经网络。周等。[ 124 ] 提出了一种无监督学习框架，用于从视频序列中估计单眼深度和相机运动。李等。[ 125 ]提出了一种使用无监督深度学习的单目视觉里程计系统；他们使用立体图像对来恢复尺度。克拉克等人。[ 126] 提出了一种流形上的序列到序列学习方法，用于使用视觉和惯性传感器进行运动估计。德通等人。[ 127 ] 提出了一个由两个深度 CNN、MagicPoint 和 MagicWarp 驱动的点跟踪系统。Gao 和 Zhang [ 128 ] 提出了一种基于堆叠式去噪自动编码器的闭环检测方法。Araujo 等人。[ 129 ] 提出了一种用于内窥镜胶囊机器人的基于循环 CNN 的视觉里程计方法。
    
    这些年学习SLAM逐渐增多。然而，由于学习方法的速度和泛化能力较低，使用几何方法仍然以实际应用为中心。
    
    C。
    拓扑SLAM
    
    拓扑 SLAM 不需要精确计算 3D 地图，通过连通性或拓扑来表示环境。Kuipers 和 Byun [ 130 ] 使用空间环境的分层描述，其中拓扑网络描述介于控制和度量级别之间；此外，独特的地方和路径由它们在控制级别的属性定义，并用作拓扑模型的节点和弧线。Ulrich 和 Nourbakhsh [ 131 ] 提出了一种用于拓扑定位的基于外观的位置识别系统。Choset 和 Nagatani [ 132] 利用机器人自由空间的拓扑结构将机器人定位在部分构建的地图上，并将环境的拓扑结构编码为广义 Voronoi 图。Kuipers 等人。[ 133 ]描述了如何分析局部感知图以识别局部拓扑描述并抽象到拓扑位置。张等。[ 134 ] 提出了一种基于预测的 SLAM 算法来预测未探索区域内的结构。布兰科等人。[ 135 ] 使用贝叶斯滤波提供基于混合离散-连续状态空间中机器人路径重建的概率估计。布兰科等人。[ 136] 提出了用于自动生成子图的谱图分区技术。Kawewong 等人。[ 137 ]提出了字典管理，以消除基于 PIRF 提取的室内环路闭合检测的冗余搜索。Sünderhauf 和 Protzel [ 138 ] 提出了 SLAM 的后端公式，使用可切换约束通过制作基础因子图表示的拓扑来识别和拒绝闭环检测期间的异常值。拉蒂夫等人。[ 139 ] 描述了一种基于共识的方法，用于稳健的位置识别，以检测和删除过去不正确的闭环，以处理损坏的地图估计问题。拉蒂夫等人。[ 140] 提出了图 SLAM 的比较分析，其中图节点是通过里程计或位置识别连接的相机姿势。Vallvé 等人。[ 141 ]提出了两种简单的SLAM稀疏化算法，因子下降和非循环因子下降。
    
    如上述一些工作所示，拓扑SLAM近年来已被修改为度量SLAM作为环路检测。对纯拓扑 SLAM 的研究正在减少。
    
    D.
    标记SLAM
    
    我们在上面介绍了针对已知和未知环境的基于图像的相机定位研究。此外，还有一些研究使用一些先验环境知识来定位相机，而不是使用标记等 3D 地图。这些作品被认为是半已知环境。
    
    1991 年，Gatrell 等人。[ 142 ]设计了一个同心圆形标记，在[ 143 ]中用额外的颜色和比例信息对其进行了修改。[ 144 ]在标记中考虑了环信息。Kato 和 Billinghurst [ 145 ] 提出了第一个基于基准标记的增强现实系统，称为 ARToolkit，其中使用的标记是带有简单图形或文本的黑色封闭矩形。Naimark 和 Foxlin [ 146 ] 开发了一种更通用的标记生成方法，将条形码编码成黑色圆形区域以产生更多标记。[ 147 ]提出了一个方形标记。正方形角上的四个圆圈是由 [ 148]. [ 149 , 150 ]提出了一个被黑色和白色块包围的黑色矩形，称为 ARTag 。从四个标记点，Maidi 等人。[ 151 ] 开发了一种混合方法，该方法结合了基于 EKF 的迭代方法和具有姿态参数计算直接分辨率的分析方法。最近，Bergamasco 等人。[ 152 ]提供了一组排列在同心层中的圆形高对比度点。DeGol 等人。[ 153 ] 介绍了一个基准标记、ChromaTag 和一种检测算法，以使用对立颜色来限制和拒绝初始错误检测和灰度。Munoz-Salinas 等人。[ 154] 提出从大量方形平面标记中检测映射和定位问题的关键点。Eade 和 Drummond [ 155 ] 为具有数百个地标的序列提出了实时全局图 SLAM。Wu [ 156 ] 研究了一种不需要匹配的新相机定位标记。
    
    可持续森林管理
    
    在 SFM 中，相机姿态计算只是一个中间步骤。因此，在下文中，我们将简要介绍相机定位 SFM。
    
    在SFM发展的早期阶段，对相对位姿求解的研究较多。其中一项有用的研究是 [ 157 ]中用于五点相对位姿问题的算法，它比其他相对位姿求解器具有更少的退化。李等。[ 158 ]研究了已知垂直方向的多相机系统的相对位姿估计。Kneip 和 Li [ 159 ] 提出了一种新颖的解决方案来计算广义相机的相对位姿。Chatterjee 和 Govindu [ 160 ] 提出了相对 3D 旋转的有效且稳健的大规模平均。文图拉等。[ 161] 提出了一种有效的方法，用于从最小的特征对应集估计多相机装备的相对运动。弗雷德里克森等人。[ 162 ]估计两个相机之间的相对平移，同时最大化内部对应的数量。
    
    全局姿态研究如下。公园等。[ 163 ]使用参考图像估计地理标记图像的相机方向。卡隆等人。[ 164 ] 调查了 3D 旋转估计的技术。姜等。[ 165 ]提出了一种用于相机姿态配准的全局线性方法。后来，该方法被[ 166 ]和[ 167 ]改进。
    
    最近，已经开发了混合增量和全局 SFM。崔等。[ 168 , 169 ]，通过全局方法估计旋转，通过增量方法估计平移，并提出基于社区的 SFM。朱等。[ 170 ] 提出了从局部增量到全局平均的并行 SFM。
    
    [ 171 ]中介绍了最近对 SFM 的调查。此外，还有一些关于从单个图像学习深度的研究。从双筒望远镜中，通常可以学习视差图。请参考KITTI数据集网站上排名的相关作品。
    讨论
    
    从以上技术可以看出，目前对于小规模环境下的PnP问题的研究越来越少。同样，使用传统几何方法对 SFM 进行的研究也很少。然而，对于 SLAM，传统的几何和学习方法仍然很受欢迎。
    
    使用深度学习进行基于图像的相机定位的研究正在逐渐增加。但在实际应用中，仍采用几何方法居中。深度学习方法可以提供有效的图像特征并补偿几何方法。
    
    PnP 问题或 SLAM 在大规模环境中的重定位问题尚未得到很好解决，值得进一步研究。对于可靠性和低成本的实际应用，用于定位但以视觉传感器为中心的多个低成本传感器融合是一种有效的方法。
    
    此外，一些作品研究了其他相机传感器的位姿问题，例如 [ 172、173 ] 中滚动快门相机的对极几何和 [ 174 ] 中的径向扭曲滚动快门直接SLAM 。加列戈等。[ 175 ]，维达尔等人。[ 176 ]，Rebecq 等人。[ 177 ] 研究了事件相机 SLAM。
    
    随着 SLAM 的不断发展，也许它开始了嵌入式 SLAM 算法的时代，如 [ 178 ] 所示。我们认为集成各种技术的优点是实用 SLAM 系统的趋势，例如几何和学习融合、多传感器融合、多特征融合、基于特征和直接方法融合。这些技术的集成可以解决当前具有挑战性的困难，例如纹理差的场景、大的照明变化、重复的纹理和高度动态的运动。
    
    结论
    
    基于图像的相机定位在虚拟现实、增强现实、机器人等领域有着重要的应用。随着人工智能的快速发展，这些领域已成为高增长市场，备受学术界和工业界的关注。
    
    我们概述了基于图像的摄像机定位，其中提供了完整的分类。每个分类都进一步划分为类别，相关工作与一些分析一起呈现。同时，以树形结构描述概况，如图 1所示。在树形结构中，当前的热门话题用粗体蓝色边框表示。这些主题包括大数据相机定位、学习 SLAM、多种传感器 SLAM 和基于关键帧的 SLAM。讨论部分还讨论了未来的发展。

你可能感兴趣的:(cv,计算机视觉,人工智能,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt