Robot-G

图像处理与计算机视觉：基础，经典以及最近发展（转）

图像处理与计算机视觉：基础，经典以及最近发展

https://blog.csdn.net/dcraw/article/details/7617891

图像处理与计算机视觉：基础，经典以及最近发展（1）序

图像处理与计算机视觉：基础，经典以及最近发展（2）图像处理与计算机视觉相关的书籍

图像处理与计算机视觉：基础，经典以及最近发展（3）计算机视觉中的信号处理与模式识别

图像处理与计算机视觉：基础，经典以及最近发展（4）图像处理与分析

图像处理与计算机视觉：基础，经典以及最近发展（5）计算机视觉

计算机视觉简介：历史、现状和发展趋势

https://blog.csdn.net/xiangz_csdn/article/details/78628521

本文由中国科学院自动化研究所胡占义研究员撰写，对计算机视觉40多年的发展历程进行了简要总结，包括：马尔计算视觉理论，主动视觉与目的视觉，多视几何与摄像机自标定，以及基于学习的视觉。在此基础上，对计算机视觉的未来发展趋势给出了一些展望。

1.1 什么是计算机视觉

正像其它学科一样，一个大量人员研究了多年的学科，却很难给出一个严格的定义，模式识别如此，目前火热的人工智能如此，计算机视觉亦如此。与计算机视觉密切相关的概念有视觉感知（visual perception）,视觉认知(visual cognition),图像和视频理解( image and video understanding). 这些概念有一些共性之处，也有本质不同。从广义上说，计算机视觉就是“赋予机器自然视觉能力”的学科。自然视觉能力，就是指生物视觉系统体现的视觉能力。一则生物自然视觉无法严格定义，在加上这种广义视觉定义又“包罗万象”，同时也不太符合40多年来计算机视觉的研究状况，所以这种“广义计算机视觉定义”，虽无可挑剔，但也缺乏实质性内容，不过是一种“循环式游戏定义”而已。实际上，计算机视觉本质上就是研究视觉感知问题。视觉感知，根据维科百基（Wikipedia）的定义, 是指对“环境表达和理解中，对视觉信息的组织、识别和解释的过程”。根据这种定义，计算机视觉的目标是对环境的表达和理解，核心问题是研究如何对输入的图像信息进行组织，对物体和场景进行识别，进而对图像内容给予解释。

计算机视觉与人工智能有密切联系，但也有本质的不同。人工智能更强调推理和决策，但至少计算机视觉目前还主要停留在图像信息表达和物体识别阶段。“物体识别和场景理解”也涉及从图像特征的推理与决策，但与人工智能的推理和决策有本质区别。应该没有一个严肃的计算机视觉研究人员会认为AlphaGo, AlphaZero 是计算机视觉，但都会认为它们是典型的人工智能内容。

简言之，计算机视觉是以图像（视频）为输入，以对环境的表达（representation）和理解为目标，研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。从目前的研究现状看，目前还主要聚焦在图像信息的组织和识别阶段，对事件解释还鲜有涉及，至少还处于非常初级的阶段。

这里需要强调的是，每个人由于背景不同，偏好不同，知识面不同，对同一问题的观点亦会不同，甚至出现大相径庭的局面。上面为笔者对计算机视觉的理解，也许是片面或错误的。如不少人认为“纹理分析”是计算机视觉的一个重要研究方向，笔者不敢苟同。另外，很多场合，人们把“图像处理”也认为是“计算机视觉”，这也是不恰当的。图像处理是一门独立的学科，图像处理研究图像去噪、图像增强等内容，输入为图像，输出也是图像。计算机视觉利用图像处理技术进行图像预处理，但图像处理本身构不成计算机视觉的核心内容。

这里顺便说一下，目前很多人对“感知”和“认知”不加区分，给读者带来不必要的困惑和误解。在不少场合下，经常会见到有些“视觉专家”把“认知”和“推理与决策”（reasoning and decision）作为平行概念使用，这事实上是不太严谨的。根据“维基百科”，“认知”是指通过感觉（senses）、经历 (experience)和思考(thoughts)来获取知识(knowledge)和进行理解(understanding)的思维过程（mental process）。认知包括：知识形成（knowledge），注视（attention），记忆（memory），推理（reasoning），问题求解（problem solving）、决策（ decision making）以及语言生成（language production）等。所以，“感知”与“认知”有区别，推理和决策是典型的认知过程，是认知的重要组成部分，它们之间是包含关系，不是平行关系。

1.2 计算机视觉发展的四个主要阶段

尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法，但应该说， 1982年马尔( David Marr )《视觉》（Marr, 1982）一书的问世，标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容，大体可以分为物体视觉（object vision）和空间视觉（spatial vision）二大部分. 物体视觉在于对物体进行精细分类和鉴别，而空间视觉在于确定物体的位置和形状，为“动作（action）” 服务。正像著名的认知心理学家J.J. Gibson 所言，视觉的主要功能在于“适应外界环境，控制自身运动”。适应外界环境和控制自身运动，是生物生存的需求，这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉40多年的发展中，尽管人们提出了大量的理论和方法，但总体上说，计算机视觉经历了4个主要历程。即：马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这4项主要内容进行简要介绍。

1.2.1 马尔计算视觉（Computational Vision）

现在很多计算机视觉的研究人员，恐怕对“马尔计算视觉”根本不了解，这不能不说是一件非常遗憾的事。目前，在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上，马尔的计算视觉的提出，不论在理论上还是研究视觉的方法论上，均具有划时代的意义。

马尔的计算视觉分为三个层次：计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果，所以，马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为，大脑的神经计算和计算机的数值计算没有本质区别，所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看，“神经计算”与数值计算在有些情况下会产生本质区别，如目前兴起的神经形态计算（ Neuromorphological computing），但总体上说，“数值计算”可以“模拟神经计算”。至少从现在看，“算法的不同实现途径”，并不影响马尔计算视觉理论的本质属性。

1）计算理论(Computational Theory)

计算理论需要明确视觉目的，或视觉的主要功能是什么。上世纪70年代，人们对大脑的认识还非常粗浅，目前普遍使用的非创伤型成像手段，如功能核磁共振（FMRI）等，还没有普及。所以，人们主要靠病理学和心理学结果来推断生理功能。即使目前，人们对“视觉的主要功能”到底是什么，也仍然没有定论。如最近几年，MIT的 DiCarlo等人提出了所谓的“目标驱动的感知信息建模”方法（Yamins &DiCarlo et al. 2016a）。他们猜测，猴子IT区（IT: interiortemporal cortex, 物体识别区）的神经元对物体的响应（neuronal responses）“可以通过层次化的卷积神经网络”（HCNN: Hierarchical Convolutional Neural Networks ）来建模。他们认为，只要对HCNN在图像物体分类任务下进行训练，则训练好的HCNN 可以很好定量预测IT 区神经元的响应（Yamins et al. 2014, 2016b）。由于仅仅“控制图像分类性能”对IT神经元响应（群体神经元对某一输入图像物体的响应，就是神经元对该物体的表达或编码）进行定量预测，所以他们将这种框架称之为“目标驱动的框架”。目标驱动的框架提供了一种新的比较通用的建模群体神经元编码的途径，但也存在很大的不足。能否真正像作者所言的那样，仅仅靠“训练图像分类的HCNN”就可以定量预测神经元对图像物体的响应，仍是一个有待进一步深入研究的课题。

马尔认为视觉不管有多少功能，主要功能在于“从视网膜成像的二维图像来恢复空间物体的可见三维表面形状”，称之为“三维重建”（3D reconstruction）。而且，马尔认为，这种重建过程不是天生就有的，而是可以通过计算完成的。J.J. Gibson 等心理学家，包括格式塔心里学学派( Gestalt psychology)，认为视觉的很多功能是天生就有的。可以想想，如果一种视觉功能与生具有，不可建模，就谈不上计算，也许就不存在今天的“计算机视觉”这门学科了。

那么，马尔的计算理论是什么呢？这一方面，马尔在其书中似乎并不是介绍得特别具体。他举了一个购买商品的例子，说明计算理论的重要性。如商店结账要用加法而不是乘法。试想如果用乘法结账，每个商品1元钱，则不管你购买多少件商品，你仅仅需要付一元钱。

马尔的计算理论认为，图像是物理空间在视网膜上的投影，所以图像信息蕴含了物理空间的内在信息，因此，任何计算视觉计算理论和方法都应该从图像出发，充分挖掘图像所蕴含的对应物理空间的内在属性。也就是说，马尔的视觉计算理论就是要“挖掘关于成像物理场景的内在属性来完成相应的视觉问题计算”。因为从数学的观点看，仅仅从图像出发，很多视觉问题具有“歧义性”，如典型的左右眼图像之间的对应问题。如果没有任何先验知识，图像点对应关系不能唯一确定。不管任何动物或人，生活的环境都不是随机的，不管有意识或无意识，时时刻刻都在利用这些先验知识，来解释看到的场景和指导日常的行为和行动。如桌子上放一个水杯的场景，人们会正确地解释为桌子上放了一个水杯，而不把他们看作一个新物体。当然，人类也会经常出错，如大量错觉现象。从这个意义上来说，让计算机来模仿人类视觉是否一定是一条好的途径也是一个未知的命题。飞机的飞行需要借助空气动力学知识，而不是机械地模仿鸟如何飞。

2）表达和算法（Representationand Algorithm）

识别物体之前，不管是计算机还是人，大脑（或计算机内存）中事先要有对该物体的存储形式，称之为物体表达（object representation）. 马尔视觉计算理论认为，物体的表达形式为该物体的三维几何形状。马尔当时猜测，由于人在识别物体时与观察物体的视角无关，而不同视角下同一物体在视网膜上的成像又不同，所以物体在大脑中的表达不可能是二维的，可能是三维形状，因为三维形状不依赖于观察视角。另外，当时病理学研究发现，有些病人无法辨认“茶杯”，但可以毫无困难地画出茶杯的形状，因此马尔觉得，这些病人也佐证了他的猜测。从目前对大脑的研究看，大脑的功能是分区的。物体的“几何形状”和“语义”储存在不同的脑区。另外，物体识别也不是绝对地与视角无关，仅仅在一个比较小的变化范围内与视角无关。所以，从当前的研究看，马尔的物体的“三维表达”猜测基本上是不正确的，至少是不完全正确的，但马尔的计算理论仍具有重要的理论意义和应用价值。

简言之，马尔视觉计算理论的“物体表达”，是指“物体坐标系下的三维形状表达”。注意，从数学上来说，一个三维几何形状，选取的坐标系不同，表达函数亦不同。如一个球体，如果以球心为坐标原点，则球面可以简单表达为：x^2+y^2+z^2=1。但如果观测者在x轴上2倍半径处观测，则可见球面部分在观测者坐标系下的方程为：x=2-sqrt(1-y^2-z^2)。由此可见，同一物体，选用的坐标系不同，表达方式亦不同。马尔将“观测者坐标系下的三维几何形状表达”称之为“2.5维表达”，物体坐标系下的表达为“三维表达”。所以，在后续的算法部分，马尔重点研究了如何从图像先计算“2.5维表达”，然后转化为“三维表达”的计算方法和过程。

算法部分是马尔计算视觉的主体内容。马尔认为，从图像到三维表达，要经过三个计算层次：首先从图像得到一些基元（primal sketch）, 然后通过立体视觉（stereopsis）等模块将基元提升到2.5维表达，最后提升到三维表达。

下图总结给出了马尔视觉计算理论的算法流程：

马尔计算理论中算法的三个计算层次

由上图所示，首先从图像提取边缘信息（二阶导数的过零点），然后提取点状基元（blob, 线状基元（edge）和杆状基元 (bar), 进而对这些初级基元（raw primal sketch）组合形成完整基元（full primal sketch），上述过程为视觉计算理论的特征提取阶段。在此基础上，通过立体视觉和运动视觉等模块，将基元提升到2.5维表达。最后，将2.5维表达提升到三维表达。在马尔的《视觉》一书中，重点介绍了特征提取和2.5维表达对应的计算方法。在2.5维表达部分，也仅仅重点介绍了立体视觉和运动视觉部分。由于当双眼（左右相机）的相互位置已知时（计算机视觉中称之为相机外参数），立体视觉就转化为“左右图像点的对应问题”（image point correspondence）, 所以，马尔在立体视觉部分重点介绍了图像点之间的匹配问题，即如何剔除误匹配，并给出了对应算法。

立体视觉等计算得到的三维空间点仅仅是在“观测者坐标系下的坐标”，是物体的2.5维表示。如何进一步提升到物体坐标系下的三维表示，马尔给出了一些思路，但这方面都很粗泛。如确定物体的旋转主轴等等，这部分内容，类似于后来人们提出的“骨架模型”（skeleton model）构造.

需要指出的是，马尔的视觉计算理论是一种理论体系。在此体系下，可以进一步丰富具体的计算模块，构建“通用性视觉系统”（general vision system）。只可惜马尔（Jan.15,1945 ~ Nov.17,1980 ）1980年底就因白血病去世，包括他的《视觉》一书，也是他去世后出版的。马尔的英年早逝，不能说不是计算机视觉界的一大损失。由于马尔的贡献，所以二年一度的国际计算机视觉大会（ICCV: International Conference on Computer Vision）设有马尔奖（MarrPrize），作为会议的最佳论文奖。另外，在认知科学领域，也设有马尔奖，因为马尔对认知科学也有巨大的贡献。以同一人名在不同领域设立奖项，实属罕见，可见马尔对计算机视觉的影响有多深远。正如S. Edelman 和 L. M. Vaina 在《 International Encyclopedia of the Social & Behavioral Sciences 》中对马尔的评价那样，“马尔前期给出的集成数学和神经生物学对大脑理解的三项工作，已足以使他在任何情况下在英国经验主义二个半世纪的科学殿堂中占有重要的一席，…, 然而，他进一步提出了更加有影响的计算视觉理论”。所以，从事计算机视觉研究的人员对马尔计算视觉不了解，实在是一件比较遗憾的事。

1.2.2 昙花一现的主动和目的视觉

很多人介绍计算机视觉时，将这部分内容不作为一个单独部分加以介绍，主要是因为“主动视觉和目的视觉”并没有对计算机视觉后续研究形成持续影响。但作为计算机视觉发展的一个重要阶段，这里还是有必要予以介绍一下。

上世纪80年代初马尔视觉计算理论提出后，学术界兴起了“计算机视觉”的热潮。人们想到的这种理论的一种直接应用就是给工业机器人赋予视觉能力，典型的系统就是所谓的“基于部件的系统”（parts-based system）。然而，10多年的研究，使人们认识到，尽管马尔计算视觉理论非常优美，但“鲁棒性”（Robustness）不够，很难想人们预想的那样在工业界得到广泛应用。这样，人们开始质疑这种理论的合理性，甚至提出了尖锐的批评。

对马尔计算视觉理论提出批评最多的有二点：一是认为这种三维重建过程是“纯粹自底向上的过程”（pure bottom-up process），缺乏高层反馈（top-down feedback）；二是“重建”缺乏“目的性和主动性”。由于不同的用途，要求重建的精度不同，而不考虑具体任务，仅仅“盲目地重建一个适合任何任务的三维模型”似乎不合理。

对马尔视觉计算理论提出批评的代表性人物有：马里兰大学的 J. Y. Aloimonos;宾夕法尼亚大学的R. Bajcsy和密西根州立大学的A. K. Jaini。 Bajcsy 认为，视觉过程必然存在人与环境的交互，提出了主动视觉的概念（active vision）. Aloimonos认为视觉要有目的性，且在很多应用，不需要严格三维重建，提出了“目的和定性视觉”（purpose and qualitative vision）的概念。 Jain 认为应该重点强调应用，提出了“应用视觉”（ practicing vision）的概念。上世纪80年代末到90年代初，可以说是计算机视觉领域的“彷徨”阶段。真有点“批评之声不绝，视觉之路茫茫”之势。

针对这种情况，当时视觉领域的一个著名刊物（CVGIP: Image Understanding）于1994年组织了一期专刊对计算视觉理论进行了辩论。首先由耶鲁大学的M. J. Tarr和布朗大学的M. J.Black写了一篇非常有争议性的观点文章（Tarr & Black, 1994），认为马尔的计算视觉并不排斥主动性，但把马尔的“通用视觉理论”（general vision）过分地强调“应用视觉”是“短见”（myopic）之举。通用视觉尽管无法给出严格定义，但“人类视觉”是最好的样板。这篇观点文章发表后，国际上20多位著名的视觉专家也发表了他们的观点和评论。大家普遍的观点是，“主动性”“目的性”是合理的，但问题是如何给出新的理论和方法。而当时提出的一些主动视觉方法，一则仅仅是算法层次上的改进，缺乏理论框架上的创新，另外，这些内容也完全可以纳入到马尔计算视觉框架下。所以，从1994年这场视觉大辩论后，主动视觉在计算机视觉界基本没有太多实质性进展。这段“彷徨阶段”持续不长，对后续计算机视觉的发展产生的影响不大，犹如“昙花一现”之状。

值得指出的是，“主动视觉”应该是一个非常好的概念，但困难在于“如何计算”。主动视觉往往需要“视觉注视”（visual attention），需要研究脑皮层（cerebral cortex）高层区域到低层区域的反馈机制，这些问题，即使脑科学和神经科学已经较20年前取得了巨大进展的今天，仍缺乏“计算层次上的进展”可为计算机视觉研究人员提供实质性的参考和借鉴。近年来，各种脑成像手段的发展，特别是 “连接组学”（Connectomics）的进展，可望为计算机视觉人员研究大脑反馈机制提供“反馈途径和连接强度”提供一些借鉴。

1.2.3 多视几何和分层三维重建（Multiple View Geometry and Stratified 3D Reconstruction）

上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”，主要得益于以下二方面的因素：首先，瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高，特别是仅仅需要“视觉效果”的应用领域，如远程视频会议（teleconference），考古，虚拟现实，视频监控等。另一方面，人们发现，多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

多视几何的代表性人物首数法国INRIA的O. Faugeras ( Faugeras O, 1993), 美国GE 研究院的R.Hartely （现已回到了澳大利亚国立大学）和英国牛津大学的 A. Zisserman。应该说，多视几何的理论于2000年已基本完善。 2000 年Hartley 和Zisserman 合著的书 (Hartley & Zisserman 2000) 对这方面的内容给出了比较系统的总结，而后这方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。大数据需要全自动重建，而全自动重建需要反复优化，而反复优化需要花费大量计算资源。所以，如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子，假如要三维重建北京中关村地区，为了保证重建的完整性，需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像（4000×3000），5 千幅高分辨率无人机图像（8000×7000）（这样的图像规模是当前的典型规模），三维重建要匹配这些图像，从中选取合适的图像集，然后对相机位置信息进行标定并重建出场景的三维结构，如此大的数据量，人工干预是不可能的，所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性，否则根本无法全自动三维重建。在鲁棒性保证的情况下，三维重建效率也是一个巨大的挑战。所以，目前在这方面的研究重点是如何快速、鲁棒地重建大场景。

1）多视几何（ Multiple View Geometry）

由于图像的成像过程是一个中心投影过程（perspective projection），所以“多视几何”本质上就是研究射影变换下图像对应点之间以及空间点与其投影的图像点之间的约束理论和计算方法的学科（注意：针孔成像模型（The pinhole camera model）是一种中心投影，当相机有畸变时，需要将畸变后的图像点先校正到无畸变后才可以使用多视几何理论）。计算机视觉领域，多视几何主要研究二幅图像对应点之间的对极几何约束（epipolar geometry）, 三幅图像对应点之间的三焦张量约束（tri-focal tensor），空间平面点到图像点，或空间点为平面点投影的多幅图像点之间的单应约束（homography）等。在多视几何中，射影变换下的不变量，如绝对二次曲线的像（The image of the absolute conic）,绝对二次曲面的像（Theimage of the absolute quadric）, 无穷远平面的单应矩阵（infinite homography），是非常重要的概念，是摄像机能够自标定的“参照物”。由于这些量是无穷远处“参照物”在图像上的投影，所以这些量与相机的位置和运动无关（原则上任何有限的运动不会影响无限远处的物体的性质），所以可以用这些“射影不变量”来自标定摄像机。关于多视几何和摄像机自标定的详细内容，可参阅Hartley 和Zisserman 合著的书（Hartley & Zisserman,2000）.

总体上说，多视几何就其理论而言，在射影几何中不能算新内容。Hartley, Faugeras, Zissermann等将多视几何理论引入到计算机视觉中，提出了分层三维重建理论和摄像机自标定理论，丰富了马尔三维重建理论，提高了三维重建的鲁棒性和对大数据的适应性，有力推动了三维重建的应用范围。所以，计算机视觉中的多视几何研究，是计算机视觉发展历程中的一个重要阶段和事件。

多视几何需要射影几何（projectivegeometry）的数学基础。射影几何是非欧几何，涉及平行直线相交，平行平面相交等抽象概念，表达和计算要在“齐次坐标”（homogeneous coordinates）下进行，这给“工科学生”带来不小的困难。所以，大家要从事这方面的研究，一定要先打好基础，至少要具备必要的射影几何知识。否则，做这方面的工作，无异于浪费时间。

2）分层三维重建（ Stratified 3D Reconstruction）

所谓的分层三维重建，如下图所示，就是指从多幅二维图像恢复欧几里德空间的三维结构时，不是从图像一步到欧几里德空间下的三维结构，而是分步分层地进行。即先从多幅图像的对应点重建射影空间下的对应空间点(即射影重建：projective reconstruction)，然后把射影空间下重建的点提升到仿射空间下(即仿射重建：affine reconstruction)，最后把仿射空间下重建的点再提升到欧几里德空间（或度量空间: metric reconstruction）（注：度量空间与欧几里德空间差一个常数因子。由于分层三维重建仅仅靠图像进行空间点重建，没有已知的“绝对尺度”，如“窗户的长为1米”等，所以从图像仅仅能够把空间点恢复到度量空间）。

这里有几个概念需要解释一下。以空间三维点的三维重建为例，所谓的“射影重建”，是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“射影变换”。所谓的“仿射重建”，是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“仿射变换”。所谓的“度量重建”，是指重建的点的坐标与该点在欧几里德空间下的坐标差一个“相似变换”。

由于任何一个视觉问题最终都可以转化为一个多参数下的非线性优化问题，而非线性优化的困难在于找到一个合理的初值。由于待优化的参数越多，一般来说解空间越复杂，寻找合适的初值越困难，所以，如果一个优化问题如能将参数分组分步优化，则一般可以大大简化优化问题的难度。分层三维重建计算上的合理性正是利用了这种“分组分步”的优化策略。以三幅图像为例，直接从图像对应点重建度量空间的三维点需要非线性优化16个参数（假定相机内参数不变，5个相机内参数，第二幅和第三幅图像相对于第一幅图像的相机的旋转和平移参数，去掉一个常数因子，所以5+2×(3+3)-1=16），　这是一个非常困难的优化问题。但从图像对应点到射影重建需要“线性”估计22个参数，由于是线性优化，所以优化问题并不困难。从射影重建提升到仿射重建需要“非线性”优化三个参数（无穷远平面的3个平面参数），而从仿射重建提升到度量重建需要“非线性”优化5个参数（摄像机的5个内参数）。因此，分层三维重建仅仅需要分步优化3个和5个参数的非线性优化问题，从而大大减小了三维重建的计算复杂度。

分层三维重建的另一个特点是其理论的优美性。射影重建下，空间直线的投影仍为直线，二条相交直线其投影直线仍相交，但空间直线之间的平行性和垂直性不再保持。仿射重建下可以保持直线的平行性，但不能保持直线的垂直性。度量重建既可以保持直线之间的平行线，也可以保持垂直性。在具体应用中，可以利用这些性质逐级提升重建结果。

分层三维重建理论可以说是计算机视觉界继马尔计算视觉理论提出后又一个最重要和最具有影响力的理论。目前很多大公司的三维视觉应用，如苹果公司的三维地图，百度公司的三维地图，诺基亚的Streetview, 微软的虚拟地球，其后台核心支撑技术的一项重要技术就是分层三维重建技术。

3）摄像机自标定（Cameraself-calibration）

所谓摄像机标定，狭义上讲，就是确定摄像机内部机械和光电参数的过程，如焦距，光轴与像平面的交点等。尽管相机出厂时都标有一些标准参数，但这些参数一般不够精确，很难直接在三维重建和视觉测量中应用。所以，为了提高三维重建的精度，需要对这些相机内参数（intrinsic parameters）进行估计。估计相机的内参数的过程，称为相机标定。在文献中，有时把估计相机在给定物体坐标系下的坐标，或相机之间相互之间的位置关系，称为相机外参数（extrinsic parameters）标定。但一般无明确指定时，相机标定就是指对相机内参数的标定。

相机标定包含二方面的内容：“成像模型选择”和“模型参数估计”。相机标定时首先需要确定“合理的相机成像模型”，如是不是针孔模型，有没有畸变等。目前关于相机模型选择方面，没有太好的指导理论，只能根据具体相机和具体应用确定。随着相机加工工艺的提高，一般来说，普通相机（非鱼眼或大广角镜头等特殊相机）一般使用针孔成像模型（加一阶或二阶径向畸变）就足以了。其它畸变很小，可以不加考虑。当相机成像模型确定后，进一步需要估计对应的模型参数。文献中人们往往将成像模型参数估计简单地认为就是相机标定，是不全面的。事实上，相机模型选择是相机标定最关键的步骤。一种相机如果无畸变而在标定时考虑了畸变，或有畸变而未加考虑，都会产生大的误差。视觉应用人员应该特别关注“相机模型选择”问题。

相机参数估计原则上均需要一个“已知三维结构”的“标定参考物”，如平面棋盘格，立体块等。所谓相机标定，就是利用已知标定参考物和其投影图像，在已知成像模型下建立模型参数的约束方程，进而估计模型参数的过程。所谓“自标定”，就是指“仅仅利用图像特征点之间的对应关系，不需要借助具体物理标定参考物，进行模型参数估计的过程”。“传统标定”需要使用加工尺寸已知的标定参考物，自标定不需要这类物理标定物，正像前面多视几何部分所言，使用的是抽象的无穷远平面上的“绝对二次曲线”和“绝对二次曲面”。从这个意义上来说，自标定也需要参考物，仅仅是“虚拟的无穷远处的参考物”而已。

摄像机自标定需要用到两幅图像之间的约束，如基础矩阵（fundamental matrix）, 本质矩阵（essential matrix）, 以及三幅图像之间的三焦张量约束等。另外，Kruppa 方程也是一个重要的概念。这些内容是多视几何的重要内容，后续章节将进行详细介绍。

1.2.4 基于学习的视觉（Learning based vision）

基于学习的视觉，是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究，文献中大体上分为二个阶段：本世纪初的以流形学习( manifold Learning)为代表的子空间法( subspace method)和目前以深度神经网络和深度学习（deep neural networks and deep learning）为代表的视觉方法。

1）流形学习（Manifold Learning）

正像前面所指出的，物体表达是物体识别的核心问题。给定图像物体，如人脸图像，不同的表达，物体的分类和识别率不同。另外，直接将图像像素作为表达是一种“过表达”，也不是一种好的表达。流形学习理论认为，一种图像物体存在其“内在流形”（intrinsic manifold）, 这种内在流形是该物体的一种优质表达。所以，流形学习就是从图像表达学习其内在流形表达的过程，这种内在流形的学习过程一般是一种非线性优化过程。

流形学习始于2000年在Science 上发表的二篇文章（ Tenenbaum et al., 2000） (Roweis & Lawrence 2000)。流形学习一个困难的问题是没有严格的理论来确定内在流形的维度。人们发现，很多情况下流形学习的结果还不如传统的PCA （Principal Component Analysis），LDA（ linear DiscriminantAnalysis ）， MDS（ Multidimensional Scaling）等. 流形学习的代表方法有：LLE（Locally Linear Embedding ）(Roweis & Lawrence 2000)，Isomap （ Tenenbaum et al., 2000）， Laplacian Eigenmaps (Belkin & Niyogi, 2001)等。

2）深度学习（Deep Learning）

深度学习( LeCunet al. 2015) 的成功，主要得益于数据积累和计算能力的提高。深度网络的概念上世纪80年代就已提出来了，只是因为当时发现“深度网络”性能还不如“浅层网络”，所以没有得到大的发展。目前似乎有点计算机视觉就是深度学习的应用之势，这可以从计算机视觉的三大国际会议：国际计算机视觉会议（ICCV），欧洲计算机视觉会议（ECCV）和计算机视觉和模式识别会议（CVPR），上近年来发表的论文可见一般。目前的基本状况是，人们都在利用深度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”，这实在是一种不正常的“群众式运动”。牛顿的万有引力定律，麦克斯韦的电磁方程，爱因斯坦的质能方程，量子力学中的薛定谔方程，似乎还是人们应该追求的目标。

关于深度网络和深度学习，详细内容可参阅相关文献，这里仅仅强调以下几点：

（1）深度学习在物体视觉方面较传统方法体现了巨大优势，但在空间视觉，如三维重建，物体定位方面，仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。在基于几何的三维重建中，RANSAC （Random Sample Consensus）等鲁棒外点（误匹配点）剔除模块可以反复调用，而在深度学习中，目前还很难集成诸如RANSAC等外点剔除机制。笔者认为，如果深度网络不能很好地集成外点剔除模块，深度学习在三维重建中将很难与基于几何的方法相媲美，甚至很难在空间视觉中得到有效应用；

（2）深度学习在静态图像物体识别方面已经成熟，这也是为什么在ImageNet上的物体分类竞赛已不再举行的缘故；

（3）目前的深度网络，基本上是前馈网络（feedforwardNetworks）.不同网络主要体现在使用的代价函数不同。下一步预计要探索具有“反馈机制”的层次化网络。反馈机制，需要借鉴脑神经网络机制，特别是连接组学的成果。

（4）目前对视频的处理，人们提出了RCNN (Recurrent Neural Networks). 循环( recurrent) 是一种有效的同层作用机制，但不能代替反馈。大脑皮层远距离的反馈（将在生物视觉简介一章介绍）可能是形成大脑皮层不同区域具有不同特定功能的神经基础。所以，研究反馈机制，特别具有“长距离反馈”（跨多层之间）的深度网络, 将是今后研究图像理解的一个重要方向；

（5）尽管深度学习和深度网络在图像物体识别方面取得了“变革性”成果，但为什么“深度学习”会取得如此好的结果目前仍然缺乏坚实的理论基础。目前已有一些这方面的研究，但仍缺乏系统性的理论。事实上，“层次化”是本质，不仅深度网络，其它层次化模型，如Hmax 模型（Riesenhuber & Poggio,1999） HTM （Hierarchical Temporal memory）模型（George & Hawkins, 2009）存在同样的理论困惑。为什么“层次化结构”（ hierarchical structure ）具有优势仍是一个巨大的迷。

1.3 计算机视觉的若干发展趋势

信息科学发展之迅速，对未来10年的发展趋势进行预测，有点“算命”的感觉。对计算机视觉而言，笔者有以下几点对未来发展的展望：

（1）基于学习的物体视觉和基于几何的空间视觉继续“相互独立”进行。深度学习在短时期内很难代替几何视觉。在深度网络中如何引入“鲁棒外点剔除模块”将是一个探索方向，但短时间内估计很难有实质性进展；

（2）基于视觉的定位将更加趋向“应用性研究”，特别是多传感器融合的视觉定位技术。

（3）三维点云重建技术已经比较成熟，如何从“点云”到“语义”是未来研究重点。“语义重建”将点云重建、物体分割和物体识别同时进行，是三维重建走向实用的前提。

（4）对室外场景的三维重建，如何重建符合“城市管理规范”的模型是一个有待解决的问题。室内场景重建估计最大的潜在应用是“家庭服务机器人”。　鉴于室内重建的应用还缺乏非常具体的应用需求和驱动，在加上室内环境的复杂性，估计在３－５年内很难有突破性进展。

（5）对物体识别而言，基于深度学习的物体识别估计将从“通用识别”向“特定领域物体的识别”发展。“特定领域”可以提供更加明确和具体的先验信息，可以有效提高识别的精度和效率，更加具有实用性；

（６）目前基于RCNN 对视频理解的趋势将会持续；

（7）解析深度网络机理的工作具有重大的理论意义和挑战性，鉴于深度网络的复杂性，估计近期很难取得突破性进展；

（8）具有“反馈机制”的深度网络结构（architecture）研究必将是下一个研究热点。

1.4 几种典型的物体表达理论（Object representation theories）

正像前面所述，物体表达是计算机视觉的一个核心科学问题。这里，“物体表达理论”与“物体表达模型”需要加以区别。“表达理论”是指文献中大家比较认可的方法。“表达模型”容易误解为“数学上对物体的某种描述”。计算机视觉领域，比较著名的物体表达理论有以下三种：

1）马尔的三维物体表达

前面已经介绍过，马尔视觉计算理论认为物体的表达是物体坐标系下的三维表达

2）基于二维图像的物体表达（View-basedobject representation）

尽管理论上一个三维物体可以成像为无限多不同的二维图像，但人的视觉系统仅仅可以识别“有限个图像”。鉴于神经科学对于猴子腹部通道（ventral pathway）(注：腹部通道认为是物体识别通道)的研究进展，T. Poggio 等提出了基于图像的物体表达（Poggio & Bizzi, 2004），即对一个三维物体的表达是该物体的一组典型的二维图像（view）。目前，也有人认为 Poggio等的”view”不能狭义地理解为二维图像，也包含以观测者为坐标系下的三维表示，即马尔的2.5维表示（Anzai & DeAngelis，2010）。

3）逆生成模型表达（Inversegenerative model representation ）

长期以来，人们认为物体识别模型为“鉴别模型”（ discriminative model），而不是“生成模型”（ generative model ）。近期对猴子腹部通道的物体识别研究表明，猴子大脑皮层的IT 区（ Inferior Temporal: 物体表达区域）可能在于编码物体及其成像参数（如光照和姿态，几何形状，纹理等）（Yildirim et al. 2015）（Yamins &DiCarlo，2016b.）。由于已知这些参数就可以生成对应图像，所以对这些参数的编码可以认为是逆生成模型表达。逆生成模型表达可以解释为什么深度学习中的Encoder-decoder 网络结( Badrinarayanan et al. 2015) 可以取得比较好的效果，因为Encoder本质上就是图像的逆生成模型。另外，深度学习中提出的“逆图形学”概念（ Inverse Graphic）( Kulkarniet al. 2015),从原理上也是一种逆生成模型。逆图形学是指先从图像学习到图像生成参数，然后把同一物体在不同参数下的图像归类为同一物体，通过这种“等变物体识别”(Equivariant recognition) 来达到最终的“不变物体识别”（invariantrecognition）。

总之，本文对计算机视觉的理论、现状和未来发展趋势进行了一些总结和展望，希望能给读者了解该领域提供一些帮助。特别需要指出的是，这里很多内容也仅仅是笔者的一些“个人观点”和“个人偏好”下总结的一些内容，以期对读者有所帮助但不引起误导。另外，笔者始终认为，任何一门学科的核心关键文献并不多，为了读者阅读方便，所以本文也仅仅给出了一些必要的代表性文献。

Computer Vision计算机视觉相关课程和书籍

https://blog.csdn.net/j_d_c/article/details/62416724

你可能感兴趣的:(图像处理,计算机视觉,计算机视觉)

目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
opencv对图像处理 syfirst1111 图像处理 opencv 计算机视觉
形态学转换：基于图像形状的操作，通常在二进制图像上执行。腐蚀、膨胀：腐蚀：求局部最小值，原图高亮部分被蚕食膨胀：求局部最大值，原图高亮部分部分扩张img=cv.imread(path)kenel=np.ones((5,5),np.uint8)#创建核结构img2=cv.erode(img,kenel)#腐蚀去噪img1=cv.dilate(img,kenel)#膨胀目标增大，填充孔洞图像平滑（去噪
OpenCV图像处理基础2 指尖下的技术 OpenCV opencv 图像处理计算机视觉
接着上一篇OpenCV图像处理基础1继续说。图像阈值处理1、简单阈值处理ret,thresholded_image=cv2.threshold(image,thresh,maxval,cv2.THRESH_BINARY)thresh是阈值，maxval是最大值。2、自适应阈值处理thresholded_image=cv2.adaptiveThreshold(image,maxval,cv2.ADA
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
【2017-2025】Adobe Photoshop【PS】软件下载安装 adkjcbqvblq adobe photoshop ui
获取安装包https://pan.baidu.com/s/1NLUthiAyC2chlSEwbf1LRQ?pwd=4ppq1.起源与发展1.1初试啼声AdobePhotoshop的历史可以追溯到1987年，当时由托马斯·诺尔（ThomasKnoll）和他的兄弟约翰·诺尔（JohnKnoll）共同开发。托马斯在父亲的帮助下，开始了图像处理的编程尝试。他们的初始产品是一个用于Mac系统的程序，最初名为
GStreamer —— 3.2、Qt+GStreamer+OpenCV制作图像处理播放器(对每帧图像处理)，支持本地mp4文件、rtsp流、usb摄像头等（可跨平台，附源码）信必诺 GStreamer Qt GStreamer Qt
运行效果介绍本项目是一个结合了Qt、GStreamer和OpenCV的跨平台图像处理播放器项目。该
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
并查集：从连通性检测到动态合并的算法艺术六七_Shmily 数据结构与算法分析算法
并查集：从连通性检测到动态合并的算法艺术（C++实现）一、并查集：算法世界的隐形支柱在算法竞赛和工程实践中，并查集（DisjointSetUnion，DSU）是解决动态连通性问题的终极武器。它能在近乎常数时间内完成集合的合并与查询操作，广泛应用于社交网络、图像处理、编译器优化等领域。本文将深入剖析并查集的核心原理，并通过实战案例揭示其精妙之处。二、并查集的三重核心1.数据结构设计classDSU{
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
实测 Gemini 2.0 Flash 图像生成：多模态 AI 的创作力边界 python
近日，Google发布了Gemini2.0Flash的实验性图像生成功能（Gemini2.0Flash(ImageGeneration)Experimental）。我也第一时间体验了这一功能，再次感受到AI技术对传统图像处理工具的颠覆性冲击。本文从主要功能、安装方法、应用场景，并通过实际测试展示其能力，希望帮助大家更好地了解和使用这一工具。引言Gemini2.0Flash的实验性图像生成功能于20
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s