Eason.wxd

深度相机（五）--Kinect v2.0

原文：http://blog.csdn.net/qq1175421841/article/details/50412994

----微软Build2012大会：Kinect for Windows Programming Deep Dive

这个周末看了两天的微软Build 2012大会，真的是一次盛会，上面有很多的演讲主题，都是微软相关技术和产品的最新动态，我比较关注.NET、WPF、Office及Kinect相关开发，上面的演讲视频和PPT都可以下载，个人觉得比较精彩的有The Evolution of .NET ，回顾了微软推出.NET以来的历次开发者大会推出的新版本和新特性，里面还有10多年前比尔盖子老师在开发者大会上宣布.NET战略时的演讲视频，不觉得感叹岁月是把杀猪刀啊。 What's New for Developers in Office 2013 and SharePoint 2013 介绍了不同于以往的以VBA，SharedAddIn，以及VSTO的全新的Office开发方式OfficeApp，Building apps for Office and SharePoint 2013 using the web technologies you know and love, Part 1、Part2介绍了如何使用各种我们熟悉的技术如Html、Javascript、C#等来构建OfficeApp。上面还有很多关于Windows Phone 8，WPF4.5等相关的介绍，主题很多，强烈建议大家有空可以上去看看。

大会上关于Kinect开发有三个，第一个是微软研究院讲的Super-Natural Interaction这个PPT比演讲视频都大，达到了罕见的997M，为啥这么大呢，因为里面嵌入了一个长达40分钟视频，哈哈，这个演讲主要演示了微软研究院正在进行的各种人机交互，虚拟现实等研究，非常的Cutting-edge，里面也有和Kinect相关的部分，有兴趣的可以看看。第二个是Kinect Design Considerations，一则关于Kinect应用程序设计是应该考虑的问题比如交互方式的设计的演讲，我没有太仔细看，不过内容应该和Kinect Human Interface Guideline内容差不多，您可以在Kinect Developer Toolkit中查看。第三篇演讲是 Kinect for Windows Programming Deep Dive 我将这个翻译为了深入理解Kinect for Windows开发，相对来说该演讲和Kinect开发比较相关，现与大家分享，该演讲上面写的级别为 300-advanced，个人觉得这个演讲内容其实很简单，只是对Kinect能够获取的相关数据源，Kinect SDK处理过了的可供识别的数据源，以及未来的趋势和大家做了一下介绍。Kinect SDK中其实没有太多的东西，真正的则在于各种模式识别算法，比如通过深度数据，红外数据，进行各种物体识别等等，有了这些数据，尤其是1.6版本的SDK提供的获取红外原始数据，就可以通过这个数据，结合深度数据做出很多非常令人惊叹的应用来。废话不多说了，下面和大家分享一下该演讲的主要内容，也算是一个关于Kinect开发的比较好的入门介绍吧。

一大纲

演讲大体分为5个部分，第一部分介绍了Kinect SDK的开发方式以及运行环境，第二部分是写代码，讲解Kinect中的一些彩色，深度，骨骼等数据的处理和显示，第三部分讲解了传感器直接产生的数据流，包括彩色，深度，红外，语音，加速器数据源，第四部分讲解了经过Kinect SDK对原始数据流处理后的可供用来进行直接识别的，骨骼，语音及面部识别数据源，最后一部分讲解了未来Kinect可进行的一系列应用。现在先来看第一部分吧。

二 Kinect应用场景及开发环境

首先介绍了一下Kinect的应用场景。主要有三大类方面的应用。第一是自然人机交互界面。比如说一些像少数派报告中的那种用手指非接触即可操纵大屏幕上的显示内容。这在一些高科技或者科幻类电影中经常能够看到这类的场景。还有一些就是在国外已经有的应用如Kinect虚拟试衣间，Kinect车展演示广告，Kinect 手术室影像操作，还有Kinect操作幻灯片，Kinect进行照片浏览等等，这些自然人机交互界面的应用带来了新的用户体验。第二种是自然环境识别，比如根据Kinect 产生的深度数据，红外数据对物体进行三维扫描重建，利用Kinect进行机器人导航进行障碍物自动回避等。第三种是自然用户的识别，比如说利用Kinect来进行姿势识别，人脸识别。比如说一些大家比较熟悉的XBOX360 中的舞林大会，运动会，大冒险等体感游戏，这些都是利用Kinect的一些数据来进行用户的动作识别，从而参与到游戏中的互动。还有一些增强现实的应用，利用了上面的三个方面的特性，比如说利用Kinect来将荧幕变成触摸屏，并在上面可以进行各种操作，等等应用。

要开发上面的应用，首先要了解一下开发环境，如这张幻灯片所示：

Kinect 提供了非托管(C++)和托管(.NET)两种开发方式的SDK，如果您用C++开发的话，需要安装Speech Runtime(V11)，Kinect for Windows Runtime和驱动的，如果您使用C#和VB.NET的话，需要Microsoft.Kinect.dll和Mirosoft.Speech.dll两个dll，这两个其实是对前C++里面的两个dll的.NET封装，不论何种开发，您都需要安装driver，所有这些都包含在Kinect SDK安装包中，安装方法您可以参考之前的文章。Kinect开发支持Windows7/Windows Embedded Standard/Windows8操作系统，最新的1.6版本的SDK还支持虚拟机里面的Windows系统，不过只要年代不太久远的Windows系统应该都是可以的。上面写的最好使用.NET 4.0/4.5也只是建议，老版本的应该也行。如果是使用.NET开发方式的话，您需要安装.NET Framework，IDE可以使用Visual Studio 2010/2012。

三代码演示

这部分主要是通过编写代码演示Kinect的各项功能，代码我在这里就不讲了。

首先第一个演示是显示彩色影像，比较简单。然后是结合深度影像数据显示彩色影像数据上对应某一点的深度值。

图上使用鼠标点击就能够加上一个标签，标签里面的值是该点的深度值，这个功能应该是比较好实现的，主要是展示如何使用彩色影像数据和深度数据，您如果感兴趣的话看完这篇文章应该就能实现这个功能。

然后演示了骨骼追踪功能，图中追踪了头部，双手的位置，并显示了两只手所处的深度值，头部上显示的Tracking ID，Kinect能同时追踪6个待选目标，但只有两个目标处于活动状态。每一次追踪都会分配给目标一个Tracking ID。

这个功能主要演示了如何使用骨骼数据，您如果感兴趣的话看完这篇文章应该就能实现这个功能。

除了1.5及之前能够提供的各种数据之外，1.6 的SDK提供了红外影像数据，您可以利用数据校准彩色影像数据，使得在较暗的条件下也能够进行人物识别。其实Kinect骨骼识别主要是通过深度数据来实现的，而深度数据是通过红外发射接收产生的，1.6版本的SDK提供了我们直接访问和操作红外数据的能力。

第四个Demo是演示了Kinect的面部识别功能，Kinect的面部识别是在1.5 SDK中引入的，面部识别可以识别最多达一百多个面部特征点，下面是演示的Demo：

上面的功能在Kinect Developer Toolkit中有实例和源代码，您可以下载查看，入门的话，您也可以看这篇文章，比较简单的对使用FaceTracking的一点介绍。

Kinect除了这些功能之外还有强大的语音识别功能，在这篇演讲中没有演示出来，不过在Super-Natural Interaction这篇演讲的视频中，您可以体会该改功能的强大，Kinect语音识别不仅能够识别出声音，而且还能对声音的来源方向进行识别，且具有强大的去噪增强功能，要了解这些你可以看这篇文章，对Kinect的语音识别做了一些简单的介绍。

四 Kinect数据源及应用

Kinect开发涉及到的数据源分为两类：

一类是传感器本身产生的原始数据源，比如说彩色影像数据源，深度影像数据源，语音数据源，红外影像数据源，加速计数据源，其中红外影像数据源，加速计数据源是在1.6的SDK中新加入的。下面这张图很好的说明了各个数据源：

第二类数据源是，SDK中通过一些算法识别出来的可以直接拿来进行识别的数据源，他们包括：骨骼追踪，语音识别，面部识别数据源。

可以看到，骨骼追踪数据源是在深度影像数据源的再通过一系列算法实现的，语音识别是通过语音数据源再通过一系列算法实现的，而面部识别则综合了彩色影像、深度影像和骨骼追踪为系列数据源的再通过一系列算法实现的。这些功能都是通过SDK来实现的。

有了这些数据源，就能够进行各种应用了：

典型的应用有绿屏抠像，这个功能在一些电视节目录制，比如天气预报节目中都是应用的这个实现的，他把任务从背景中分离出来，然后可以随意的更换背景，这个功能用到了影像数据和深度数据，你可以参考这篇文章，里面有一个简单的例子。第二个应用是产生点阵云，就是通过Kinect的深度影像数据产生每个点的位置信息然后生成三维模型。如下面这个例子：

图中左边是通过Kinect的深度影像数据产的三维建模图像。

第三个应用是魔镜功能，我觉得应该是一些类似哈哈镜效果或者是IOS中的Photo Booth应用，主要用到了彩色影像数据，面部识别，骨骼识别等功能。还有一些就是虚拟试衣间这样的功能，最后的一个应用场景就是各种NUI交互界面了。

五展望

除了以上的几种典型的数据源之外，还展示了下一步的计划，比如说针对景深数据进行进一步处理的Kinect Fusion数据源。

下面是演示的例子：图中，右边桌子上摆放了一个茶壶，然后利用Kinect对该茶壶进行了三维建模，然后。移除右边实物茶壶后，用户可以对虚拟的茶壶进行各种操作，神奇吧，这些都是下一个版本或者是将来的SDK能够方便我们或者简化我们实现这些功能准备添加的功能。

到最后展望了下一步要进行的工作：

可以看出Kinect的愿景是使得计算机能够看到、听到、能够更加理解周围的人和环境。

Kinect SDK的版本发布是很快的，自从今年二月份发布了Kinect Sensor for Windows 体感仪及Kinect for Windows SDK 1.0官方版本以来；5月21日发布了1.5版本SDK以及1.5的Developer Toolkit及调试工具Kinect Studio 1.5，不久又发布了Developer Toolkit 1.5.1及Developer Toolkit 1.5.2；10月9日发布了1.6版本的SDK和Developer ToolKit，同时宣布正式在大陆开售Kinect Sensor for Windows体感仪。每一个版本都增加了一些新的功能。相信下一个版本的SDK 也会有新的功能加入。

相信大家看了这个演讲之后应该可以感受到Kinect带来的变化，也相信以后Kinect开发能应用到日常生活中的例子会越来越多。

最后，希望大家有空到Channel9上看真人演讲哦，上面还有很多有意思主题演讲，所有演讲的PPT都可以在线看，视频都提供下载，当您不确定那个演讲想不想看时，可以看看下面的在线屁屁踢哦，当然除了那种900多M的变态PPT之外其他的都可以在线浏览，这样您就可以迅速的了解演讲内容以及对该内容有没有兴趣啦。

关于Kinect 网上资料很多，不做详细描述。

这里主要记录一下V1.0和V1.2的区别。原文：http://www.cnblogs.com/TracePlus/p/4136297.html

本文主要是对传感的配置和运行条件进行彻底的比较。

本连载介绍的Kinect for Windows Developer Preview是暂定的，软件、硬件以及API有可能因为最终的产品版发生变更，还请谅解。

关于本连载

本连载主要是比较次世代型的Kinect for Windows（后面称作Kinect v2预览版）和现行型的Kinect for Windows（后面称作Kinect v1）的同时，介绍面向c++开发者而进化的硬件和软件。（本网站也发布了对应C#/Visual Basic开发者的内容，.NET开发者可以同时参考[新型Kinect for Windows v2 Developer Preview programing入门]）

次世代型的Kinect for Windows

2012年美国微软发售的Kinect v1，因为可以很方便就能取得Depth（深度）和 skeleton（人物姿势）等信息，被全世界的开发者和研究人员关注。

2014年预定发售的Kinect v2，预测在硬件和软件上会做很大的进化，在销售前，开发者向的预览版的Kinect v2(传感器)和SDK v2（软件开发套件）很早就发布了出来。

还有，因为这个开发者向的早期提供程序是必须签订NDA(密码保持契约)，本稿有不能公布的事项也事先请各位谅解。

Kinect v1和Kinect v2预览版的外观比较

Kinect v1(图1)和Kinect v2 预览版(图2)的外观的照片。

图1 Kinect for Windows v1(现行型)

Kinect v1的Depth传感器，采用了「Light Coding」的方式，读取投射的红外线pattern，通过pattern的变形来取得Depth的信息。为此，Depth传感器分为投射红外线pattern的IR Projector（左）和读取的这个的IR Camera（右）。还有Depth传感器中间还搭载了Color Camera。

Light Coding是以色列的PrimeSense公司的Depth传感器技术，于2013年被美国苹果公司收购。

图2 Kinect for Windows v2(次世代型)预览版

Kinect V2预览版的Depth传感器，采用的是「Time of Flight(TOF)」的方式，通过从投射的红外线反射后返回的时间来取得Depth信息。Depth传感器看不到外观，不过Color Camera旁边是红外线Camera(左)和投射脉冲变调红外线的Porjector（右）。

微软过去收购过使用TOF方式处理Depth传感器技术的公司（注：应该是指的3DV），已经在使用这个技术，不过没有详细的公布。

Kinect v1和Kinect v2预览版的配置比较

Kinect v1和Kinect v2预览版的传感器的配置比较在表1显示。

		Kinect v1	Kinect v2预览版
颜色（Color）	分辨率（Resolution）	640×480	1920×1080
颜色（Color）	fps	30fps	30fps
深度（Depth）	分辨率（Resolution）	320×240	512×424
深度（Depth）	fps	30fps	30fps
人物数量（Player）		6人	6人
人物姿势（Skeleton）		2人	6人
関節（Joint）		20関節／人	25関節／人
手的開閉状態（Hand State）		△（Developer Toolkit）	○（SDK）
检测範囲（Range of Detection）		0.8～4.0m	0.5～4.5m
角度（Angle）（Depth）	水平（Horizontal）	57度	70度
角度（Angle）（Depth）	垂直（Vertical）	43度	60度
（Tilt Motor）		○	×（手動）
複数的App		×（単一的App）	○

表1是Kinect v1和Kinect v2预览版的传感器的配置比较

Kinect v1的Color Camera的分辨率是640x480较低，不能取得非常漂亮的图像，Kinect v2预览版的分辨率大幅提高，能取得1920×1080非常漂亮的图像（图3）。

（注：v1的要求是USB2.0理论传输速率是60MB/s，v2是USB3.0理论传输速率是500MB/s。可以计算一下，以XRGB Color为例，30fps，那么每秒所需传输的数据大小为640 x 480 x 4 x 30约为35M；再加上USHORT格式的Depth Color，30fps，大小为320 x 240 x 2 x 30约为4M。总计约为40MB/s，因为带宽有限，所以在保证画面帧率稳定的情况下，分辨率只能如此，而且基本上必须独占一个USB Controller。再算算v2的情况，Color =1920 x 1080x 4 x 30 约为237M，Depth = 512 x 424 x 2 x 30约为12M，总计约为250M/s。所以非USB3.0不可，否则传输不了这么大的数据量。显而易见，Color Map是最占带宽的，其实可以通过一些其他格式，比如I420或MJPG来减少数据量，然后通过CPU或GPU来进行解压和回放。）

图3 Kinect v1和Kinect v2预览版的Color

Kinect v2预览版的Depth传感器的分辨率也提高到512×424，而Kinect v1是可以取640×480分辨率的Depth数据，乍一看规格好像下降了，其实Kinect v1的Depth传感器的物理分辨率是320x240，Up Sacling到640x480而已（注：猜测是Runtime处理的）。另外，Depth传感器的方式也是从Light Coding变更为Time of Flight(TOF)。

不能详细叙述，不过Kinect V2预览版Depth数据的精度也提高了(图4)，关于精度还敬请等待产品版。

图4 Kinect v1和Kinect v2预览版的Depth

Kinect v1，v2预览版可以取得Player（可识别的人体）数量都是6人。Kinect v2预览版因为Depth传感器的分辨率提高了，用Player数据只需要简单的剪切就可以很漂亮得把背景和人物分离。

Kinect v1可以取得全部关节（Joint）的skeleton的数量是2人，随着Depth传感器的分辨率上升和视角的宽广，Kinect v2预览版变得能取得6人。

还有，Kinect v1能取得的Joint是20个Joint每人，Kinect v2预览版变为能取得25个Joint。具体的如图5所示，头(Neck)，指尖（HAND_TIP_LEFT，HAND_TIP_RIGHT），大拇指（THUMB_LEFT，THUMB_RIGHT），增加了这5个Joint。不仅仅是手的位置，大拇指和指尖的细小信息也可以获取到。

Hand State（手的开闭状态）的识别，Kinect v1是靠Developer Toolkit里的「Kinect Interaction」库来支持，不过在Kinect V2预览版SDK里是标准支持。

Kinect v1和Kinect v2预览版可以取得的Joint

Kinect v1为了摇头装载了倾斜电机(Tilt motor)，也有视角扩展，Kinect v2预览版没有搭载Tilt motor，靠手动来摇头。

Kinect v1不能多个应用程序同时连接到一个传感器。Kinect v2预览版通过「Kinect Service」，可以让多个应用程序同时从传感器取得数据（参考图6）

现在，Kinect Service作为常驻程序被提供，一般认为产品版里会成为Windows的服务(Service)。

图6 通过Kinect Service，对应多个应用程序

Kinect v1和Kinect v2 预览版的运行环境的比较表(表2)。

	Kinect v1	Kinect v2预览版
OS	Windows 7以后	Windows 8以后
编译器（Compiler）	Visual Studio 2010以后	Visual Studio 2012以后
接続端子（Connector）	USB 2.0	USB 3.0
CPU	Dual-Core 2.66GHz	Dual-Core 2.66GHz
GPU	DirectX 9.0c	DirectX 11.0
RAM	2.0GBytes	2.0 GBytes

表2　Kinect v1和Kinect v2预览版的最小运行环境比較

Kinect v1要在Windows 7以后的版本上运行，Kinect v2要求是在Windows 8 运行。关于Visual Studio也要求是2012以后的版本。

Kinect v1要求USB 2.0（或更快的USB）来运行，因为Kinect 2预览版传感器的分辨率也提高了，需要更快的USB 3.0来运行。Kinect v1和Kinect v2预览版的专有USB总线带宽都没有变化。

Kinect v1和Kinect v2预览版都有与部分USB Host Controller不兼容而导致不能正常运行的情况，现在是Renesas和Intel的USB 3.0 Host Controller可以运行。台式PC也可以增加USB3.0扩展卡来对应。

CPU方面，和Kinect v1一样，要求Dual Core 2.66 GHz以上。「时钟频率较低」一类的运行环境也稍微下降了，不是特别差的情况都可以运行，不过注意传感器分辨率提高，取得的数据的处理消耗也上升了。

Kinect v1要求的是支持DirectX 9.0c的GPU（Kinect Fusion除外），Kinect v2预览版要求支持DirectX 11.0以后的GPU，像笔记本这种没有装载NVIDIA GeForce和AMD Radeon外置GPU（独立显卡）的很多无法运行，而像有Intel HD Graphics这种支持DirectX 11.0以后的处理器内置的GPU（集成显卡）是可以运行的。

如上展示了Kinect v2预览版的必要运行环境，和前述一样在产品版中有变更的可能性，现在还不需要着急准备对应环境。关于USB Host Controller的兼容性今后也有解决的可能，希望起到参考的作用。

总结

这次彻底的比较了Kinect v1和Kinect v2预览版的传感器配置和必要运行环境。

补充：

1.V1的程序不能在V2上运行，也就是V2不向下兼容。

2.差不多与V2同时上市的，还有微软在上海自贸区生产的游戏机，就是Xbox One。这个在中国是合法销售的。这个游戏机如果配一台感应器，也能玩体感游戏。这台感应器叫“Kinect for Xbox One”。这个时候，微软在中国已经有了两台感应器：用于体感游戏机的叫Kinect for Xbox One，用于PC编程的叫Kinect for Windows V2。问题来了。V2只能用作开发，Xbox One只能玩游戏。如果你又想玩游戏，又想搞编程开发，就得买两种感应器Kinect for Xbox One和V2。于是，微软对这种复杂的硬件组合进行了优化，把这两种感应器精简为一种，它的名字叫：“Xbox One专用Kinect感应器”。为了节省篇幅，我们在后面把它简称为“全能感应器”。这个“全能感应器”的功能又强大了，它可以兼容Xbox游戏机。如果再加个小设备，就可以兼容PC机。这个小设备叫“适配器”。

Ubuntu: 配置OpenCV环境达柳斯·绍达华·宁 ubuntu opencv linux
从从Ubuntu系统安装opencv_ubuntu安装opencv-CSDN博客文章浏览阅读2.3k次，点赞4次，收藏14次。开源计算机视觉(OpenCV)是一个主要针对实时计算机视觉的编程函数库。OpenCV的应用领域包括:2D和3D功能工具包、运动估计、面部识别系统、手势识别、人机交互、移动机器人、动作理解、物体识别、分割和识别、实体影像立体视觉:来自两个摄像机的深度感知、运动跟踪、增强现实等
计算机视觉领域顶级会议和顶级期刊汇总 AdaCoding 论文阅读与写作计算机视觉人工智能
计算机视觉领域顶级会议和顶级期刊汇总一、计算机视觉顶会一档二档二、计算机视觉顶刊一、计算机视觉顶会一档1、ICCV，全称：IEEE/CVFInternationalConferenceonComputerVision国际计算机视觉会议，是公认的三个会议中级别最高的，收录率一般在20%左右，由IEEE主办。收录论文的内容：底层视觉与感知，颜色、光照与纹理处理，分割与聚合，运动与跟踪，立体视觉与运动结
立体视觉几何（三） dc爱傲雪和技术计算机视觉数码相机人工智能
立体视觉系统概述误差分析考虑对应于深度Z的视差d的匹配对。我们想要评估ΔZ，即视差误差引起的深度误差。将Z对d求导，得到：立体视觉中基线（baseline）、焦距（focallength）和立体重建的准确性之间的基本关系。“深度：立体重建的分辨率随着深度呈二次减小。这意味着立体视觉的适用性受到严重限制。”-这句话指出，随着物体距离相机的深度增加，立体重建的分辨率会二次减小。这意味着在较远的距离上，
双目视觉测宽仪系列模拟人眼高精测量！蓝鹏测控其他制造
双目视觉测宽仪系列基于机器视觉原理，两个工业相机就像人的双眼，可以形成立体视觉，这样就可以得到足够的信息判断被测物的距离，修正和消除距离变化对测量的影响，在线检测生产线上产品的宽度值。可广泛应用于轧制材料（热轧、冷轧）、机械部件、钢板、铁板、金属板、厚板等板材类产品的在线检测。具有非接触、实时测量、精度高等优点。技术参数：测量范围：500-3000mm（定制）测量方式：双工业相机，自发光/光源补光
科普类——进行基线设计、系统测试和优化的立体视觉软件与工具（七） JANGHIGH 科普类无人驾驶自动驾驶
科普类——进行基线设计、系统测试和优化的立体视觉软件与工具（七）在立体视觉领域，有许多立体视觉软件和工具可以帮助工程师进行基线设计、系统测试和优化。以下是一些常用的立体视觉软件和工具：Meshroom：这是一个基于AliceVision摄影测量计算机视觉框架的免费开源三维重建软件。Meshroom可以处理大规模的图像数据集，进行立体视觉重建。OpenMVG(OpenMultipleViewGeom
三维重建开源函数库或者工具冰清-小魔鱼遥感 GIS 计算机视觉目标检测人工智能
三维重建使用摄影测量、计算机视觉技术，利用立体视觉恢复真实相机姿态，获取现实物体的三维信息，并进行虚拟三维场景重现。1、OpenDroneMapODM是一个基于航空影像的三维重建集成工具箱，利用多幅航空影像恢复相机姿态和3D场景，可以生产点云、三维贴图模型、正射影像、数字表面模型、数字高程模型等，提供Web接口，支持CUDA加速，基础函数库使用OpenSfM,OpenMVS,PDAL,Entwin
【三维重建】双目立体视觉 Patrick star` 人工智能
通过极几何可以求得极线，现在我们需要将左边的图变成右边的平行视图。所有的极线都经过极点(e/e')，如果极点位于无穷远处，那所有的极线都平行。(极几何的基础知识可以参考这篇文章：【三维重建】对极几何-CSDN博客)平行视图中，可以利用视差就得深度，视差越小深度越深。如何得到平行视图呢？
[Python图像处理] 使用OpenCV创建深度图 AI technophile Python图像处理实战 python 图像处理计算机视觉
使用OpenCV创建深度图双目视觉创建深度图相关链接双目视觉在传统的立体视觉中，两个摄像机彼此水平移动，用于获得场景上的两个不同视图(作为立体图像)，就像人类的双目视觉系统：通过比较这两个图像，可以以视差的形式获得相对深度信息，该视差编码对应图像点的水平坐标的差异。两个立体图像中单个像素的位移量称为视差(disparity)，像素的视差与其在场景中的深度成反比。可以用灰度值对每个像素的视差进行编码
11. 双目视觉之立体视觉基础宛如新生 slam中的标定问题数码相机
目录1.深度恢复1.1单目相机缺少深度信息1.2如何恢复场景深度？1.3深度恢复的思路2.对极几何约束2.1直观感受2.2数学上的描述1.深度恢复1.1单目相机缺少深度信息之前学习过相机模型，最经典的就是小孔成像模型。我们知道相机通过小孔成像模型对世界点的观测是缺少深度信息的。我们得到的只是世界点在相机平面上的一个投影。如下图，世界点P只要是在那条红色线上，他在相机上的成像位置就是P‘，所以我们无
12. 双目视觉之极线矫正宛如新生 slam中的标定问题数码相机
目录1.为何要进行极线矫正？2.极线矫正过程。1.为何要进行极线矫正？之前的文章立体视觉基础中介绍单目相机无法获得深度信息，我们可以通过多个相机来实现立体视觉。通过两个相机对某场景同时观测时，当我们知道了相机的内（外）参以及两者之间的基线，然后通过某种方式找到两相机对同一世界点的观测的关联关系（类似特征匹配），就可以计算出视差，最终通过下列公式计算出观测到的世界点的深度。我们假设双目相机已经标定完
第六篇【传奇开心果系列】Python的OpenCV库技术点案例示例：摄像头标定传奇开心果编程 Python库OpenCV 技术点案例示例短博文 opencv 计算机视觉 python
传奇开心果博文系列系列博文目录Python的OpenCV库技术点案例示例系列博文目录一、前言二、OpenCV摄像头标定介绍三、摄像头内外参数标定示例代码和扩展四、立体视觉标定示例代码和扩展五、归纳总结系列博文目录Python的OpenCV库技术点案例示例系列博文目录一、前言OpenCV摄像头标定：包括摄像头内外参数标定、立体视觉标定等功能。二、OpenCV摄像头标定介绍OpenCV是一个广泛使用的
双目立体视觉——视差图（stereo matching）三种相似度算法实现 7lingqi7 1024程序员节 python 笔记学习
目录双目立体视觉的理解：平行视图的极几何（第二种实现视差图的思路）图像校正（cameracalibration）实现——相似度匹配，视差计算重要影响参数实验报告讨论部分SGBM算法示例，这个效果更好，速度也更快。【双目视觉】SGBM算法应用（Python版）_落叶随峰的博客-CSDN博客任务：生成视差图关键词：视差原理（平行视图的极几何），图像校正，相似度匹配，视差计算和匹配图片数据集：visio
立体视觉几何 (二) dc爱傲雪和技术计算机视觉
1.视差2.立体匹配立体匹配的基本概念:匹配目标:在立体匹配中，主要目标是确定左图像中像素的右图像中的对应像素。这个对应像素通常位于相同的行。视差（Disparity）:视差d是右图像中对应像素xr和左图像中像素xl之间的水平位置差。视差是深度信息的关键指标。匹配方法:方法涉及在左图像中以某个像素为中心取一个窗口W，然后将这个窗口沿水平方向平移视差d，并将其放置在右图像中。接着比较左图像中窗口W和
立体视觉几何（一） dc爱傲雪和技术计算机视觉
1.什么是立体视觉几何立体视觉=对应+重建：•对应：给定一幅图像中的点pl，找到另一幅图像中的对应点pr。•重建：给定对应关系(pl,pr)，计算空间中相应点的3D坐标P。立体视觉：从图像中的投影恢复场景中点的三维位置的过程类型：基于窗口/局部的算法和全局算法三角测量：给定pl，我们知道点P位于连接pl和左光心Cl的直线Ll上。**假设我们确切地知道相机的参数，我们可以显式计算Ll和Lr的参数。*
重大突破！单向结构光系统校准方法，平面测量精度提高2.5倍，球面测量精度提高2倍 3DCV 学习计算机视觉人工智能算法深度学习平面
作者：小柠檬|来源：3DCV在公众号「3DCV」后台，回复「原论文」获取论文本文提出了一种新颖的单向结构光系统标定方法，该方法利用白色平面作为标定目标，而不是具有圆点或方格方块等物理特征的传统目标。该方法通过采用具有投影随机图案和平面拟合的立体视觉来重建白色平面。为了促进校准过程，使用了辅助摄像机和辅助投影仪。实验结果表明，所提出的方法对于单向结构光系统具有较高的标定精度。原文链接：重大突破！单向
vslam论文24：ESVIO: 基于事件相机的双目VIO（RAL 2023） xsyaoxuexi 视觉SLAM论文阅读 c++人工智能学习笔记
摘要异步输出低延迟事件流的事件相机为具有挑战性的情况下的状态估计提供了很大的机会。尽管近年来基于事件的视觉里程测量技术得到了广泛的研究，但大多数都是基于单目的，而对立体事件视觉的研究很少。在本文中，我们介绍了ESVIO，这是第一个基于事件的立体视觉惯性里程计，它利用了事件流、标准图像和惯性测量的互补优势。我们建议的pipeline包括ESIO(纯基于事件的)和ESVIO(带有图像辅助的事件)，它们
OpenCV-Python(43):姿势估计图灵追慕者 opencv-python opencv calib3D模块姿势估计摄像机标定立体视觉 3D重构
目标学习了解calib3D模块学习在图像中创建3D效果calib3D模块OpenCV-Python的calib3D模块是OpenCV库中的一个重要模块，用于摄像头标定和三维重建等计算机视觉任务。该模块提供了一些函数和类，用于摄像头标定、立体视觉和三维重建等方面的操作。下面是一些calib3D模块常用的函数和类的介绍：1.findChessboardCorners()：用于在一张图片中查找棋盘格角点
工业相机相关概念词介绍：ISP算法、线阵相机、常用术语明月醉窗台应用工具使用介绍图像处理相关算法数码相机接口隔离原则算法计算机视觉图像处理
工业相机相关概念词介绍：ISP算法、线阵相机、常用术语ISP基本框架及算法介绍相机的常用设置50个常用术语关于立体视觉相关算法，可参考我的专栏：https://blog.csdn.net/yohnyang/category_11720857.html0.ISP基本框架及算法介绍ISP(ImageSignalProcessor)，即图像处理，主要作用是对前端图像传感器输出的信号做后期处理，主要功能有
使用opencv做双目测距（相机标定+立体匹配+测距） AAI机器之心 opencv 数码相机人工智能 pytorch 机器学习计算机视觉
最近在做双目测距，觉得有必要记录点东西，所以我的第一篇博客就这么诞生啦~双目测距属于立体视觉这一块，我觉得应该有很多人踩过这个坑了，但网上的资料依旧是云里雾里的，要么是理论讲一大堆，最后发现还不知道怎么做，要么就是直接代码一贴，让你懵逼。所以今天我想做的，是尽量给大家一个明确的阐述，并且能够上手做出来。一、标定首先我们要对摄像头做标定，具体的公式推导在learningopencv中有详细的解释，这
ZED使用指南（八）Depth Sensing Happy_Cabbage ZED2 计算机视觉人工智能
ZED立体相机再现了人类双目视觉的工作方式。通过比较左眼和右眼看到的两种视图，不仅可以推断深度，还可以推断空间中的3D运动。ZED立体相机可以捕捉到场景的高分辨率3D视频，通过比较左右图像之间的像素位移可以估计深度和运动。深度感知深度感知是指确定物体之间的距离，以三维的角度看世界。到目前为止，深度传感器仅限于近距离和室内的深度感知，限制了其在手势控制和身体跟踪方面的应用。ZED是第一个使用立体视觉
双目立体视觉进入“上车”时代，这家厂商如何“领跑”全球高工智能汽车汽车
车载双目立体视觉正在迎来爆发式增长的窗口期。《高工智能汽车》了解到，继大众、丰田、零跑等越来越多主机厂开始从单目切换为双目方案之后，小鹏汽车也已经布局双目立体感知方案，以提高L2及以上智能驾驶的安全性和可靠性。现阶段，以NOA为代表的高阶智能驾驶系统，已经成为了车企决战智能化下半场竞争的关键。根据高工智能汽车研究院最新发布数据显示，2023年1-9月，中国市场（不含进出口）乘用车前装标配（软硬件）
OpenCV 中 core, imgcodecs, imgproc, calib3d, highgui, dnn, features2d, flann, gapi, ml, objc等分别是什么？型者无疆 opencv 3d dnn
下面是关于这些OpenCV模块的简要说明：core:OpenCV核心功能模块，提供了基本的数据结构、图像处理函数和数学运算等常见功能。imgcodecs:图像编解码模块，用于读取、写入和编解码各种图像格式，如JPEG、PNG等。imgproc:图像处理模块，提供了图像处理和操作的函数，包括滤波、边缘检测、几何变换等。calib3d:相机标定和三维重建模块，用于相机标定、立体视觉、姿态估计和三维物体
Active Stereo Without Pattern Projector论文精读你不困我困论文精读深度学习计算机视觉
1.背景补充主动立体相机和被动立体相机的主要区别在于它们获取立体视觉信息的方式主动立体相机12：主动立体视觉是指寻找最佳的视角去重建目标或者场景1。主动视觉的实现方式通常有：改变环境中的光照条件、改变相机的视角、移动相机自身位置等，其目的是提高感知结果的质量1。主动立体视觉还包括没有先验的场景信息去主动识别或是跟踪，存在与环境的交互1。结构光法采用主动投射已知图案的方法来实现匹配特征点，达到较高的
RC-MVSNet：无监督的多视角立体视觉与神经渲染--论文笔记（2022年）知识推荐号 MVS论文笔记论文阅读图像处理 python 三维重建
RC-MVSNet：无监督的多视角立体视觉与神经渲染--论文笔记（2022年）摘要1引言2相关工作2.1基于监督的MVS2.2无监督和自监督MVS2.3多视图神经渲染3实现方法3.1无监督的MVS网络3.2参考试图合成3.3深度渲染一致性Chang,D.etal.(2022).RC-MVSNet:UnsupervisedMulti-ViewStereowithNeuralRendering.In:
PCL深度图像 RangeImage Ivy_daisy PCL PCL RangeImage
http://www.cnblogs.com/li-yao7758258/p/6474699.html目前深度图像的获取方法有激光雷达深度成像法，计算机立体视觉成像，坐标测量机法，莫尔条纹法，结构光法等等，针对深度图像的研究重点主要集中在以下几个方面，深度图像的分割技术，深度图像的边缘检测技术，基于不同视点的多幅深度图像的配准技术，基于深度数据的三维重建技术，基于三维深度图像的三维目标识别技术，深
【2021集创赛】基于ARM-M3的双目立体视觉避障系统 SOC设计极术社区 IC技术竞赛作品分享 arm开发
本作品参与极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动。团队介绍参赛单位：上海电力大学队伍名称：骇行队总决赛奖项：二等奖1.摘要随着信息技术的发展，AGV（AutomatedGuidedVehicle，AGV）无人自动导航小车已被广泛应用于智能制造、智慧物流等场景。AGV搬运车的导航系统主要利用视觉、激光雷达等传感器，其主控系统大多使用多个芯片及其复杂嵌入式系统实现，成
《视觉SLAM十四讲》-- 建图算法导航视觉SLAM十四讲 SLAM 算法计算机视觉
11建图11.1概述（1）地图的几类用处：定位：导航：机器人在地图中进行路径规划；避障重建交互：人与地图之间的互动（2）几类地图稀疏地图稠密地图语义地图11.2单目稠密重建11.2.1立体视觉（1）稠密重建中，我们需要知道每个像素（或大部分像素）的距离，对此有以下几种方案：使用单目相机，估计相机运动，并且三角化计算像素的距离；使用双目相机，利用左右目的视差计算像素的距离；使用RGB-D相机直接获取
halcon——缺陷检测常用方法总结（光度立体）明月清风_@ Halcon 计算机视觉人工智能深度学习 python 机器学习
引言机器视觉中缺陷检测分为一下几种：blob分析+特征模板匹配(定位)+差分光度立体特征训练测量拟合频域+空间域结合：halcon——缺陷检测常用方法总结(频域空间域结合)-唯有自己强大-博客园(cnblogs.com)深度学习前一篇总结了频域与空间域的结合使用，本篇就光度立体的缺陷检测做一个总结。光度立体在工业领域，表面检测是一个非常广泛的应用领域。在halcon中，使用增强的光度立体视觉方法，
Deep Learning for Monocular Depth Estimation: A Review.基于深度学习的深度估计 qaaaaaaz 计算机视觉深度学习人工智能
传统的深度估计方法通常是使用双目相机，计算两个2D图像的视差，然后通过立体匹配和三角剖分得到深度图。然而，双目深度估计方法至少需要两个固定的摄像机，当场景的纹理较少或者没有纹理的时候，很难从图像中捕捉足够的特征来匹配。所以最近单目深度估计发展的越来越快，但是由于单目图像缺乏可靠的立体视觉关系，因此在三维空间中回归深度本质上是一种不适定问题。单目图像采用二维形式来重新反射三维世界，然而，有一维场景叫
MVSNet论文笔记知识推荐号 MVS论文笔记论文阅读图像处理多视图三维重建深度学习
MVSNet论文笔记摘要1引言2相关基础2.1多视图立体视觉重建（MVSReconstruction）2.2基于学习的立体视觉（LearnedStereo）2.3基于学习的多视图的立体视觉（LearnedMVS）Yao,Y.,Luo,Z.,Li,S.,Fang,T.,Quan,L.(2018).MVSNet:DepthInferenceforUnstructuredMulti-viewStereo
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

深度相机（五）--Kinect v2.0

一 大纲

二 Kinect应用场景及开发环境

三 代码演示

四 Kinect数据源及应用

五 展望

你可能感兴趣的:(立体视觉)

一大纲

三代码演示

五展望