JoannaJuanCV

多视图几何三维重建实战系列之COLMAP

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

为了方便大家了解基于多视图立体的三维重建技术，更重要的是能亲手利用开源数据集或者自己采集的影像跑一遍流程，进而对整个流程更为熟悉，本文整理了近年来几种经典的基于传统方法和基于深度学习方法的三维重建技术Pipeline，并详细介绍从多视图影像到深度图估计，再到恢复三维点云的整个过程。

因为三维重建原理复杂，且各种软件或代码之间接口变化多样，无法一言蔽之，因此作者打算分为四篇文章介绍四种经典的三维重建技术Pipeline。分别为：

1）传统方法（COLMAP）

2）深度学习方法（COLMAP + MVSNet）

3）传统方法（COLMAP + OpenMVS）

4）深度学习方法（COLMAP + R-MVSNet）

多视图几何三维重建实战系列之COLMAP

1.概述

作为计算机视觉的核心问题，基于多视图立体(以下简称为”MVS”)的三维重建技术已经广泛应用于3D打印、离线地图重建和文物修复等行业应用中。

本文先整体介绍三维重建流程（第二节），在介绍传统方法COLMAP的实际操作流程（第三节），最后根据输出结果对COLMAP的重建效果进行分析（第四节）。（注意，这个系列选用的三维重建方式均为基于深度图融合的方法。）

2.三维重建流程

基于MVS的三维重建技术流程包括以下步骤：数据采集，稀疏重建，深度图估计和稠密重建(图1)。

图1 基于MVS的三维重建技术流程

对于数据采集。多视角数据来源广泛，我们主要使用的是开源数据集和自采数据进行试验。

对于稀疏重建。我们主要利用SfM进行稀疏重建。SfM，(Structure From Motion，从运动中恢复结构)，是一种从一组不同视角下拍摄的无序或有序影像中，同时恢复场景三维结构和相机姿态的技术。本文主要以增量式SfM为主，目的是得到场景中的相机姿态和表示场景结构的稀疏点云(图2)。增量式SfM选择无序影像进行特征匹配，并进行几何纠正、三角测量恢复稀疏点云结构，通过已有点云重新估计相对姿态，再进行局部和全局的BA优化。之后逐步向已有的结构中增加视角或影像，进行三角测量和姿态估计，再进行BA优化修正结构数据，最后输出全部的相机参数和稀疏三维点云。

图2 增量式SfM结构图

对于深度图估计，目的是恢复参考影像的深度信息。基于MVS的深度图估计，主流传统方法的流程（图3）是：首先，对一个参考影像，筛选用于和参考影像配对计算视差的原始影像(以下，被选中的影像被称为代表。整个代表集合用候选集表示)。其次，参考视差计算的经典框架，计算参考影像上第个特征对应的匹配代价，在通过代价聚合，计算深度值，最后进行深度过滤，优化初始深度图。

图3 深度图估计框架

对于稠密重建，目的是恢复场景的稠密点云。利用深度图配准原理融合深度图，恢复稠密点云。

3.COLMAP实际操作

以传统方法COLMAP为例，介绍的三维重建的实际操作，行文结构按照数据采集、稀疏重建、深度图估计、稠密重建等四个步骤，希望读者可以参考本节，利用开源数据集或者自采数据，跑通基于传统方法（COLMAP）的三维重建技术。

3.1数据集

3.1.1数据采集

1）DTU数据集

DTU数据集[1]是针对于MVS而专门拍摄并处理的室内数据集（图4）。利用一个搭载可调节亮度灯的工业机器臂对一个物体进行多视角的拍摄，每个物体所拍的视角都经过严格控制，所以可以获取每个视角的相机内、外参数。

图4 DTU原始数据集

整个数据集由124个不同的物体或场景组成，每个物体共拍摄49个视角，每个视角共有7中不同的亮度，因此，每个物体或场景文件夹内部共有343个图片。每张影像的分辨率为1600×1200。（该数据集还包含带有深度图真值的训练影像集，我们将在之后文章中介绍如何利用该数据集训练神经网络。）

2）Tanks and Temples数据集

不同于DTU数据集，Tanks and Temples数据集[2]采集的是室外场景。这个数据集主要用于验证我们使用的网型和开源软件泛化能力，验证其是否对光照变化大、存在动态目标的场景仍具备较为精确地重建能力（图5）。

图5 Tank and Temples 数据集

3）开源数据集下载链接：（感谢香港科技大学姚遥开源的数据集链接）

我们需要下载的是用于测试的数据集，所以打开百度云链接时，点击 “mvsnet”，再点击“preprocessed_inputs”，下载其中“dtu.zip”和“tankandtemples.zip”即可（图6）。

图6 目标目录

百度云盘链接：

https://pan.baidu.com/s/1Wb9E6BWCJu4wZfwxm_t4TQ#list/path=%2F

密码：s2v2

4) 自采数据采集要求

经过笔者多次实验，自采数据主要有以下几点要求：

尽量使用单反相机或专业数码相机进行数据采集，如果要用手机进行采集，请使用单摄像头的手机进行数据采集。
尽量选择纹理丰富的外界环境进行数据采集，避免玻璃围墙、瓷砖和打蜡地板等强反光材料环境
尽量选择光照明亮，且光照条件变化不剧烈的环境，最好选择室内环境。如室内客厅，开启客厅大灯进行灯光补偿。
尽量围绕重建物体或环境采集较多的影像，且在采集过程中控制快门速度，避免模糊。

接下来介绍COLMAP，笔者推荐大家使用Linux（Ubuntu）系统进行以下代码的编译与运行。以下所有程序的下载和编译都将基于Linux系统（Ubuntu）。传统方法暂时不需要GPU的加持，但之后的深度学习方法还是需要我们使用GPU，所以这里笔者建议各位读者，如果时间充裕，可先自行配置NVIDIA驱动，并安装CUDA9.0以上版本。笔者环境配置为：驱动版本 418.56， CUDA版本10.1， GTX960M，显存4GB（图7）。

图7 NVIDIA驱动版本

3.2 COLMAP

1）软件介绍

COLMAP是一款结合SfM(Structure-from-Motion)和MVS(Multi-View Stereo)的三维重建Pipeline，编译成功后我们能获取带有图形界面的软件(Graphic Interface)和不需要图形界面的二进制可执行文件(Command-Line Interface)，可进行稀疏重建和稠密重建。源码链接及教程为：https://github.com/colmap/colmap。

2）代码编译

代码的编译和使用我们就直接使用别人造好的轮子，大家可以自行百度或谷歌搜索相关编译教程，本文中引用一些笔者认为具有参考意义的教程。如果大家需要，笔者后期再重新整理相关教程分享给大家。

官方Github：https://github.com/colmap/colmap
COLMAP的安装和简单使用：

https://blog.csdn.net/X_kh_2001/article/details/82591978

（感谢以上博客作者整理的安装帮助）

3.3 稀疏重建

我们将使用COLMAP中的增量式SfM技术进行稀疏重建。大家也可以使用OpenMVG增强对SfM的理解。

1）准备工作

首先，我们需要准备几个目录，第一个是包含原始图像的目录，第二个则是COLMAP工程的目录，各位读者可以自行管理自己的目录

为了举例，以Scan1 表示COLMAP工程的目录，命名为当前场景的代号，内部包含该重建场景的原始图片，文件夹名称为images.

在终端输入一下命令，打开COLMAP的图形界面（图8）。

Linux : ~$ colmap gui

图8 COLMAP图形界面

之后，新建项目：点击”file”，再点击“New Project”，弹出“project”窗口，点击“New”新建工程文件，将该工程文件保存在Scan1目录下，并点击“Select”选择场景原始图片所在的目录。最后点击“save”保存。

图9 COLMAP

保存结束后，数据库将会显示.db文件，内部保存原始图片地址、之后特征提取匹配等数据（图9）。

2）特征提取

按照稀疏重建的步骤，需要我们进行对应点搜索，可以理解为全局的特征匹配。首先进行特征提取，点击“processing”中的“Feature Extraction”，弹出选择窗体，这里面，只需要将相机模型选择为“Pinhole”模型即可，其他参数默认可以不变。读者感兴趣的话，可以自行修正。一般我们采集的影像是携带有EXIF文件的，所以这里，需要选上“Parameters from EXIF”，意思是从EXIF中提取相机内参数。之后点击“Extract”即可进行特征提取（图10）。

图10 特征提取

3）特征匹配

其次进行特征匹配，操作也十分简单，点击“processing”中的“Feature Matching”，弹出选择窗体。同样，这里面的参数都可以选择默认的参数，然后点击“Run”，即可进行特征匹配（图11）。

图11 特征匹配

COLMAP封装的比较好，在特征匹配结束后，会自动生成场景图和匹配矩阵，即以不同视图之间同名特征数为权值，以不同视图为图节点的图结构。对于匹配矩阵等中间过程的分析见第四节。

4）增量式重建

增量式重建是个逐渐增加视角，并进行迭代优化重投影误差的过程[4]。目的是计算不同视图的相机参数、得到场景的稀疏点云和确定不同视图与点云之间的可视关系。

在COLMAP中操作比较简单，点击“reconstruction”中的“start reconstruction”进行一键式重建，整个过程将会自动进行增量式重建，我们可以从旁边的log框内查询当前状态。

图12 增量式重建过程

如图13，当前正在新增第39个视角，当前影像可以看到已有点云的337个，进行姿态估计(Pose Refinement Report)，再进行BA优化，整体稀疏点云融合测量点110个，滤除测量点41个，最后进行三角测量(Retriangulation)新增观测点111个。上述过程结束后，进行迭代全局的BA优化，优化已有相机的姿态和三维稀疏点云坐标。

图13 SfM统计结果

结束后，就可以获得目标场景稀疏点云和各个视角的相机姿态（图14）。

图14 稀疏重建结果

3.4深度图估计与优化

1）深度估计与优化原理

在COLMAP中，匹配代价构造、累计、估计和优化是封装在一起的，利用GEM模型进行求解。与视差估计框架一样，深度估计框架也分为如下四个步骤：匹配代价构造，代价累积，深度估计，深度图优化[5]。

代价累积。COLMAP也采用Patch Match的信息传递策略[3]。经过视角平滑后，在候选集子集中进行同名特征采样，所以式1)被修改为：

2）操作1 - 影像去畸变

在进行深度图估计前的第一步为影像去畸变，在COLMAP中，使用光学一致性和几何一致性联合约束构造匹配代价，带有畸变的影像会导致边缘有较大的视差估计误差。

但实际上为了简化，我们使用的数据集已经经过及畸变纠正，且在之前的那一步使用了针孔模型中隐含约定无畸变。倘若我们自己采集的数据没有经过畸变纠正，需要更改相机模型为带有畸变参数的相机模型，或者先使用畸变较小的数码相机进行数据采集，保证测试的结果是正确的。

具体操作十分简单，点击“reconstruction”中的“dense reconstruction”，弹出稠密重建窗口，并点击“select”选择生成文件存放的目录，这里存放在 ./Scan1/ （即工程目录下）中即可。然后点击“undistortion”即可去除图像畸变（图15）。

图15 稠密重建窗口——去除图像畸变

3）操作2 - 深度估计

点击“stereo”，即可进行场景深度估计。（这里会有视觉上的卡顿，属于正常现象，一般来说，这里电脑是无法再进行其他事情的（至少笔者的电脑是这样），所以大家可以选择休息一下。）深度估计结束后，可以得到“photometric”和“geometric”下的深度图和法向量图。由之前提及的原理，COLMAP会利用光学一致性（photometric）同时估计视角的深度值和法向量值，并利用几何一致性(geometric)进行深度图优化，我们可以点击“Depth Map”和“Normal Map”，即可得到我们对应视角的深度图和法向量图（图16）。

图16 深度估计与优化结果

图17 从左到右：Scan1原图，初始深度图，优化后深度图

通过观察结果（图17）发现，COLMAP可以获得较为精确的深度估计值，但在深度图完整度和深度连续性方面仍存在一些问题，深度图存在较多漏洞。

3.5稠密重建

先说操作，同样在该界面下，点击“Fusion”即可进行基于深度图融合的稠密重建。而该原理就是对估计出来的深度图，首先通过配准进行深度图融合，然后通过式3)，按照投影方法进行点云恢复。

稠密重建结束后，我们利用meshlab打开生成的.ply文件，即可看到稠密重建结果（图18）。

图18 稠密重建结果

4.结果分析

COLMAP中可以导出丰富的中间数据，便于我们理解三维重建流程和各个模块的状态。

4.1匹配矩阵分析

通过点击“Extras”中的“Match Matrix”可以导出当前场景的匹配矩阵。

图19 匹配矩阵

从匹配矩阵中看出数据集之间相机运动规律，若相机围绕物体呈圆周采样，匹配矩阵将有条带出现（图19-b），且若途中各个条带的平行关系越紧致，则说明相机的运动控制越严格。

例如Scan10中的上三角区中有平行排布的红色线条(图19-a)，这是因为该数据集[1]在采样过程相机运动间隔受到严格规定(图20-a)，而对于Tank and Tample[2]数据集，匹配矩阵的平行关系不紧致(图19-b)，说明相机运动未受到严格限制(图20-b)，只是简单的圆周运动。

通过对比发现，Scan10 可以通过较少的视图得到相同完整度和精度的重建结果，说明采集相片集过程中的前期控制对重见效果有影响。

图20 相机分布示意图

4.2 深度估计时间

表1 深度图估计运行时间对比(单位：分钟)

结果表明，COLMAP深度估计的时间会随相片数量增多而增加。效率低于OpenMVS和深度学习方法。（不同机器上运行的时间不同）

4.3 深度图估计结果

图21 其他场景深度图估计结果

4.4稠密重建结果

图22 稠密重建结果

5.结论

COLMAP可以用于快速三维重建，代码封装良好。但缺点为深度图估计速度过慢，且在深度图估计精度上略低于深度学习的方法，我们将在之后带来基于深度学习方法的三维重建技术的实操以及相应原理、结果分析。敬请期待。

参考文献

[1] Aan H , Jensen R R , Vogiatzis G , et al. Large-Scale Data for Multiple-View Stereopsis[J]. International Journal of Computer Vision, 2016, 120(2):153-168.

[2] Snavely N , Seitz S M , Szeliski R . Modeling the World from Internet Photo Collections[J]. International Journal of Computer Vision, 2008, 80(2):189-210.

[3] Barnes C , Shechtman E , Finkelstein A , et al. Patch Match: A Randomized Correspondence Algorithm for Structural Image Editing[J]. Acm Transactions on Graphics, 2009, 28(3, article 24).

[4] Schnberger J L , Zheng E , Pollefeys M. Structure-From-Motion Revisited.

[5] Schnberger J L , Zheng E , Pollefeys M , et al. Pixelwise View Selection for Unstructured Multi-View Stereo[C] European Conference on Computer Vision (ECCV). Springer, Cham, 2016.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉优质源码，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
整理不易，请给工坊点赞和在看！

双目立体视觉（6.1）测距 2501_90596733 双目立体视觉计算机视觉人工智能 opencv
在计算机视觉领域，双目相机测距是一项关键技术，它通过模拟人类双眼的视觉机制，利用两个相机从不同角度拍摄同一场景，进而计算出物体的深度信息。一、双目测距的基本原理1.1视差图（DisparityMap）视差图是一种存储了单视图所有像素的视差值的二维图像。视差值是同一物体在左右两幅图像中的列坐标差，即通过比较左右两幅图像的对应像素差异来计算物体的深度信息。视差图是以图像对中任一幅图像为基准生成的，其大
双目立体视觉（3.1）立体标定 2501_90596733 双目立体视觉计算机视觉 python 人工智能
在双目测距系统中，立体标定是至关重要的一步。其主要目的是求解双目相机的所有内外参数，这些参数的准确性直接关系到后续的效果，进而影响双目测距的精度。一、立体标定的重要性立体标定的核心目标是获取相机的内外参数。内参数包括焦距、主点坐标和畸变参数等，这些参数在相机制造完成后基本固定，无需频繁标定。外参数则包括旋转矩阵R和平移向量T，用于描述相机与场景之间的相对位置关系。通过标定，我们可以消除相机的畸变，
3D机器视觉的类型、应用和未来趋势视觉人机器视觉机器视觉3D 3d 人工智能计算机视觉 c#前端
3D机器视觉的类型、应用和未来趋势类型3D机器视觉技术主要分为以下几类：立体视觉（StereoVision）通过两个或多个摄像头从不同角度捕捉图像，利用视差计算深度信息，生成3D模型。结构光（StructuredLight）使用投影仪将特定光图案投射到物体表面，通过摄像头捕捉变形图案，计算物体形状和深度。飞行时间（TimeofFlight,ToF）通过测量光脉冲从发射到反射回传感器的时间，计算物体
普通屏幕已过时？裸眼3D屏幕显示效果更胜一筹！振邦视界科技 3d
随着多媒体技术的迅猛进步，我们日常生活中的内容展现方式，已经经历了前所未有的变革。在这其中，裸眼3D屏幕的应用，无疑是最为引人注目的亮点，它相较于传统屏幕，在显示效果上展现出了鲜明的优势，不仅为观众带来了全新的视觉盛宴，更在沉浸感和交互性上实现了质的飞跃。那么，这两种屏幕技术之间究竟隐藏着怎样的差异呢？一、立体画面传统的屏幕显示内容主要停留在平面效果上，若想要实现3D的立体视觉，观众通常需佩戴3D
双目立体视觉（1） 2501_90596733 双目立体视觉人工智能计算机视觉
1.背景计算机视觉技术，是以摄像头作为传感器来获取二维图像数据，并依靠计算机运用各类算法对这些图像数据展开处理。依据所采用视觉传感器数量的差异，可分为单目、双目以及多目视觉这几类。单目视觉依赖单摄像头获取二维平面图像，在知晓物体实际尺寸的前提下，结合相机成像模型能够计算出距离，但这种单一的2D图像在深度感知能力上存在局限，且较易受到动态背景的干扰，通常被应用于缺陷检测、目标识别等相关领域。多目视觉
RK3568的ISP功能沐风_ZTL 接口隔离原则人工智能 RK3568 ISP
RockchipRK3568处理器的ISP（图像信号处理器）功能专为提升图像质量设计，适用于多种视觉应用场景。以下是其ISP功能的详细解析：核心功能与特性多摄像头支持配置灵活：支持单摄像头最高13MP（30fps），或双8MP摄像头（30fps），适用于多目监控或立体视觉。接口兼容：支持MIPI-CSI（2-4Lane）、DVP并行接口、LVDS等，适配多种传感器。图像增强处理3D降噪（3DNR）
双目视觉之获取三维坐标（立体校正、Q矩阵与三角测量原理）乐平要加油啊 YOLO+双目视觉计算机视觉 opencv
前言双目视觉是一种模拟人类立体视觉的计算机视觉技术，它通过两个相机从不同的角度拍摄同一个场景，然后利用三角测量原理，计算出场景中物体的三维坐标信息。这种技术在机器人导航、自动驾驶、物体跟踪、三维重建等领域有广泛的应用。获取三维坐标是双目视觉的核心任务之一。通过对左右相机拍摄的图像进行特征匹配和视差计算，我们可以得到场景中每个像素点的视差值。视差值表示了同一个物体在左右图像中的位置差异，它与物体距离
Ubuntu: 配置OpenCV环境达柳斯·绍达华·宁 ubuntu opencv linux
从从Ubuntu系统安装opencv_ubuntu安装opencv-CSDN博客文章浏览阅读2.3k次，点赞4次，收藏14次。开源计算机视觉(OpenCV)是一个主要针对实时计算机视觉的编程函数库。OpenCV的应用领域包括:2D和3D功能工具包、运动估计、面部识别系统、手势识别、人机交互、移动机器人、动作理解、物体识别、分割和识别、实体影像立体视觉:来自两个摄像机的深度感知、运动跟踪、增强现实等
计算机视觉领域顶级会议和顶级期刊汇总 AdaCoding 论文阅读与写作计算机视觉人工智能
计算机视觉领域顶级会议和顶级期刊汇总一、计算机视觉顶会一档二档二、计算机视觉顶刊一、计算机视觉顶会一档1、ICCV，全称：IEEE/CVFInternationalConferenceonComputerVision国际计算机视觉会议，是公认的三个会议中级别最高的，收录率一般在20%左右，由IEEE主办。收录论文的内容：底层视觉与感知，颜色、光照与纹理处理，分割与聚合，运动与跟踪，立体视觉与运动结
立体视觉几何（三） dc爱傲雪和技术计算机视觉数码相机人工智能
立体视觉系统概述误差分析考虑对应于深度Z的视差d的匹配对。我们想要评估ΔZ，即视差误差引起的深度误差。将Z对d求导，得到：立体视觉中基线（baseline）、焦距（focallength）和立体重建的准确性之间的基本关系。“深度：立体重建的分辨率随着深度呈二次减小。这意味着立体视觉的适用性受到严重限制。”-这句话指出，随着物体距离相机的深度增加，立体重建的分辨率会二次减小。这意味着在较远的距离上，
双目视觉测宽仪系列模拟人眼高精测量！蓝鹏测控其他制造
双目视觉测宽仪系列基于机器视觉原理，两个工业相机就像人的双眼，可以形成立体视觉，这样就可以得到足够的信息判断被测物的距离，修正和消除距离变化对测量的影响，在线检测生产线上产品的宽度值。可广泛应用于轧制材料（热轧、冷轧）、机械部件、钢板、铁板、金属板、厚板等板材类产品的在线检测。具有非接触、实时测量、精度高等优点。技术参数：测量范围：500-3000mm（定制）测量方式：双工业相机，自发光/光源补光
科普类——进行基线设计、系统测试和优化的立体视觉软件与工具（七） JANGHIGH 科普类无人驾驶自动驾驶
科普类——进行基线设计、系统测试和优化的立体视觉软件与工具（七）在立体视觉领域，有许多立体视觉软件和工具可以帮助工程师进行基线设计、系统测试和优化。以下是一些常用的立体视觉软件和工具：Meshroom：这是一个基于AliceVision摄影测量计算机视觉框架的免费开源三维重建软件。Meshroom可以处理大规模的图像数据集，进行立体视觉重建。OpenMVG(OpenMultipleViewGeom
三维重建开源函数库或者工具冰清-小魔鱼遥感 GIS 计算机视觉目标检测人工智能
三维重建使用摄影测量、计算机视觉技术，利用立体视觉恢复真实相机姿态，获取现实物体的三维信息，并进行虚拟三维场景重现。1、OpenDroneMapODM是一个基于航空影像的三维重建集成工具箱，利用多幅航空影像恢复相机姿态和3D场景，可以生产点云、三维贴图模型、正射影像、数字表面模型、数字高程模型等，提供Web接口，支持CUDA加速，基础函数库使用OpenSfM,OpenMVS,PDAL,Entwin
【三维重建】双目立体视觉 Patrick star` 人工智能
通过极几何可以求得极线，现在我们需要将左边的图变成右边的平行视图。所有的极线都经过极点(e/e')，如果极点位于无穷远处，那所有的极线都平行。(极几何的基础知识可以参考这篇文章：【三维重建】对极几何-CSDN博客)平行视图中，可以利用视差就得深度，视差越小深度越深。如何得到平行视图呢？
[Python图像处理] 使用OpenCV创建深度图 AI technophile Python图像处理实战 python 图像处理计算机视觉
使用OpenCV创建深度图双目视觉创建深度图相关链接双目视觉在传统的立体视觉中，两个摄像机彼此水平移动，用于获得场景上的两个不同视图(作为立体图像)，就像人类的双目视觉系统：通过比较这两个图像，可以以视差的形式获得相对深度信息，该视差编码对应图像点的水平坐标的差异。两个立体图像中单个像素的位移量称为视差(disparity)，像素的视差与其在场景中的深度成反比。可以用灰度值对每个像素的视差进行编码
11. 双目视觉之立体视觉基础宛如新生 slam中的标定问题数码相机
目录1.深度恢复1.1单目相机缺少深度信息1.2如何恢复场景深度？1.3深度恢复的思路2.对极几何约束2.1直观感受2.2数学上的描述1.深度恢复1.1单目相机缺少深度信息之前学习过相机模型，最经典的就是小孔成像模型。我们知道相机通过小孔成像模型对世界点的观测是缺少深度信息的。我们得到的只是世界点在相机平面上的一个投影。如下图，世界点P只要是在那条红色线上，他在相机上的成像位置就是P‘，所以我们无
12. 双目视觉之极线矫正宛如新生 slam中的标定问题数码相机
目录1.为何要进行极线矫正？2.极线矫正过程。1.为何要进行极线矫正？之前的文章立体视觉基础中介绍单目相机无法获得深度信息，我们可以通过多个相机来实现立体视觉。通过两个相机对某场景同时观测时，当我们知道了相机的内（外）参以及两者之间的基线，然后通过某种方式找到两相机对同一世界点的观测的关联关系（类似特征匹配），就可以计算出视差，最终通过下列公式计算出观测到的世界点的深度。我们假设双目相机已经标定完
第六篇【传奇开心果系列】Python的OpenCV库技术点案例示例：摄像头标定传奇开心果编程 Python库OpenCV 技术点案例示例短博文 opencv 计算机视觉 python
传奇开心果博文系列系列博文目录Python的OpenCV库技术点案例示例系列博文目录一、前言二、OpenCV摄像头标定介绍三、摄像头内外参数标定示例代码和扩展四、立体视觉标定示例代码和扩展五、归纳总结系列博文目录Python的OpenCV库技术点案例示例系列博文目录一、前言OpenCV摄像头标定：包括摄像头内外参数标定、立体视觉标定等功能。二、OpenCV摄像头标定介绍OpenCV是一个广泛使用的
双目立体视觉——视差图（stereo matching）三种相似度算法实现 7lingqi7 1024程序员节 python 笔记学习
目录双目立体视觉的理解：平行视图的极几何（第二种实现视差图的思路）图像校正（cameracalibration）实现——相似度匹配，视差计算重要影响参数实验报告讨论部分SGBM算法示例，这个效果更好，速度也更快。【双目视觉】SGBM算法应用（Python版）_落叶随峰的博客-CSDN博客任务：生成视差图关键词：视差原理（平行视图的极几何），图像校正，相似度匹配，视差计算和匹配图片数据集：visio
立体视觉几何 (二) dc爱傲雪和技术计算机视觉
1.视差2.立体匹配立体匹配的基本概念:匹配目标:在立体匹配中，主要目标是确定左图像中像素的右图像中的对应像素。这个对应像素通常位于相同的行。视差（Disparity）:视差d是右图像中对应像素xr和左图像中像素xl之间的水平位置差。视差是深度信息的关键指标。匹配方法:方法涉及在左图像中以某个像素为中心取一个窗口W，然后将这个窗口沿水平方向平移视差d，并将其放置在右图像中。接着比较左图像中窗口W和
立体视觉几何（一） dc爱傲雪和技术计算机视觉
1.什么是立体视觉几何立体视觉=对应+重建：•对应：给定一幅图像中的点pl，找到另一幅图像中的对应点pr。•重建：给定对应关系(pl,pr)，计算空间中相应点的3D坐标P。立体视觉：从图像中的投影恢复场景中点的三维位置的过程类型：基于窗口/局部的算法和全局算法三角测量：给定pl，我们知道点P位于连接pl和左光心Cl的直线Ll上。**假设我们确切地知道相机的参数，我们可以显式计算Ll和Lr的参数。*
重大突破！单向结构光系统校准方法，平面测量精度提高2.5倍，球面测量精度提高2倍 3DCV 学习计算机视觉人工智能算法深度学习平面
作者：小柠檬|来源：3DCV在公众号「3DCV」后台，回复「原论文」获取论文本文提出了一种新颖的单向结构光系统标定方法，该方法利用白色平面作为标定目标，而不是具有圆点或方格方块等物理特征的传统目标。该方法通过采用具有投影随机图案和平面拟合的立体视觉来重建白色平面。为了促进校准过程，使用了辅助摄像机和辅助投影仪。实验结果表明，所提出的方法对于单向结构光系统具有较高的标定精度。原文链接：重大突破！单向
vslam论文24：ESVIO: 基于事件相机的双目VIO（RAL 2023） xsyaoxuexi 视觉SLAM论文阅读 c++人工智能学习笔记
摘要异步输出低延迟事件流的事件相机为具有挑战性的情况下的状态估计提供了很大的机会。尽管近年来基于事件的视觉里程测量技术得到了广泛的研究，但大多数都是基于单目的，而对立体事件视觉的研究很少。在本文中，我们介绍了ESVIO，这是第一个基于事件的立体视觉惯性里程计，它利用了事件流、标准图像和惯性测量的互补优势。我们建议的pipeline包括ESIO(纯基于事件的)和ESVIO(带有图像辅助的事件)，它们
OpenCV-Python(43):姿势估计图灵追慕者 opencv-python opencv calib3D模块姿势估计摄像机标定立体视觉 3D重构
目标学习了解calib3D模块学习在图像中创建3D效果calib3D模块OpenCV-Python的calib3D模块是OpenCV库中的一个重要模块，用于摄像头标定和三维重建等计算机视觉任务。该模块提供了一些函数和类，用于摄像头标定、立体视觉和三维重建等方面的操作。下面是一些calib3D模块常用的函数和类的介绍：1.findChessboardCorners()：用于在一张图片中查找棋盘格角点
工业相机相关概念词介绍：ISP算法、线阵相机、常用术语明月醉窗台应用工具使用介绍图像处理相关算法数码相机接口隔离原则算法计算机视觉图像处理
工业相机相关概念词介绍：ISP算法、线阵相机、常用术语ISP基本框架及算法介绍相机的常用设置50个常用术语关于立体视觉相关算法，可参考我的专栏：https://blog.csdn.net/yohnyang/category_11720857.html0.ISP基本框架及算法介绍ISP(ImageSignalProcessor)，即图像处理，主要作用是对前端图像传感器输出的信号做后期处理，主要功能有
使用opencv做双目测距（相机标定+立体匹配+测距） AAI机器之心 opencv 数码相机人工智能 pytorch 机器学习计算机视觉
最近在做双目测距，觉得有必要记录点东西，所以我的第一篇博客就这么诞生啦~双目测距属于立体视觉这一块，我觉得应该有很多人踩过这个坑了，但网上的资料依旧是云里雾里的，要么是理论讲一大堆，最后发现还不知道怎么做，要么就是直接代码一贴，让你懵逼。所以今天我想做的，是尽量给大家一个明确的阐述，并且能够上手做出来。一、标定首先我们要对摄像头做标定，具体的公式推导在learningopencv中有详细的解释，这
ZED使用指南（八）Depth Sensing Happy_Cabbage ZED2 计算机视觉人工智能
ZED立体相机再现了人类双目视觉的工作方式。通过比较左眼和右眼看到的两种视图，不仅可以推断深度，还可以推断空间中的3D运动。ZED立体相机可以捕捉到场景的高分辨率3D视频，通过比较左右图像之间的像素位移可以估计深度和运动。深度感知深度感知是指确定物体之间的距离，以三维的角度看世界。到目前为止，深度传感器仅限于近距离和室内的深度感知，限制了其在手势控制和身体跟踪方面的应用。ZED是第一个使用立体视觉
双目立体视觉进入“上车”时代，这家厂商如何“领跑”全球高工智能汽车汽车
车载双目立体视觉正在迎来爆发式增长的窗口期。《高工智能汽车》了解到，继大众、丰田、零跑等越来越多主机厂开始从单目切换为双目方案之后，小鹏汽车也已经布局双目立体感知方案，以提高L2及以上智能驾驶的安全性和可靠性。现阶段，以NOA为代表的高阶智能驾驶系统，已经成为了车企决战智能化下半场竞争的关键。根据高工智能汽车研究院最新发布数据显示，2023年1-9月，中国市场（不含进出口）乘用车前装标配（软硬件）
OpenCV 中 core, imgcodecs, imgproc, calib3d, highgui, dnn, features2d, flann, gapi, ml, objc等分别是什么？型者无疆 opencv 3d dnn
下面是关于这些OpenCV模块的简要说明：core:OpenCV核心功能模块，提供了基本的数据结构、图像处理函数和数学运算等常见功能。imgcodecs:图像编解码模块，用于读取、写入和编解码各种图像格式，如JPEG、PNG等。imgproc:图像处理模块，提供了图像处理和操作的函数，包括滤波、边缘检测、几何变换等。calib3d:相机标定和三维重建模块，用于相机标定、立体视觉、姿态估计和三维物体
Active Stereo Without Pattern Projector论文精读你不困我困论文精读深度学习计算机视觉
1.背景补充主动立体相机和被动立体相机的主要区别在于它们获取立体视觉信息的方式主动立体相机12：主动立体视觉是指寻找最佳的视角去重建目标或者场景1。主动视觉的实现方式通常有：改变环境中的光照条件、改变相机的视角、移动相机自身位置等，其目的是提高感知结果的质量1。主动立体视觉还包括没有先验的场景信息去主动识别或是跟踪，存在与环境的交互1。结构光法采用主动投射已知图案的方法来实现匹配特征点，达到较高的
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

多视图几何三维重建实战系列之COLMAP

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 圈里有高质量教程资料、可答疑解惑、助你高效解决问题整理不易，请给工坊点赞和在看！

你可能感兴趣的:(立体视觉)

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
整理不易，请给工坊点赞和在看！