wangzugenwy

计算机视觉笔记及资料整理（含图像分割、目标检测小方向学习）

前言
1、简单聊聊：

在我脑海中我能通过这些年听到的技术名词来感受到技术的更新及趋势，这种技术发展有时候我觉得连关注的脚步都赶不上。简单回顾看看，从我能听到的技术名词来感受，最开始耳闻比较多「云计算」这玩意，后来听到比较多的是「数据挖掘」，当时想着等考上研也要选数据挖掘这个方向（遗憾最后没考上…），然而本科毕业之后听到的最多便是「人工智能」，整个技术圈似乎完全被这个词所覆盖，怎么突然火起来这个？我觉得用 AlphaGo 这个可以去作个反应吧，找了下新闻资料：

2016年3月9日至15日，Google旗下的DeepMind智能系统——AlphaGo在韩国首尔对战世界围棋冠军、职业九段选手李世石（又译李世乭），这场人类与人工智能间的对决最终结果是AlphaGo以总比分4比1战胜李世石。2017年5月23日至27日，世界排名第一的中国选手柯洁和AlphaGo展开“人机大战2.0”三番棋较量，柯洁0:3败北。

这个人工智能应用的例子无疑是当下最振奋人心的事件。之后也经常听到谷歌研发无人驾驶相关新闻。我在想，无人驾驶？听上去就牛逼轰轰不得了啊，这得多难！

另外，记得去年（2017年）一个叫「区块链」的技术词在很多地方看到，这又是啥？后来去搜了下资料看看，才明白是啥玩意（有兴趣可以看阮一峰老师写的区块链入门教程）。一开始我们了解这个技术一般都是从比特币开始，比特币又是啥？想了解话网上资料很多，同时也推荐可以看看阮一峰老师写的比特币入门教程。

从上面自己的耳闻变化我能感受技术趋势的变化之快，科技发展速度真的很难想象，就比如手机 2G 到 3G 再到 4G 的变化，再过一两年不出意外 5G 也应该能体验到了，这种变化速度，真是苦逼了我们这些技术人。

上面瞎扯扯了一些，打住，说回来，还是回来人工智能这个话题来。下面来简单说说人工智能。

在开始介绍人工智能、机器学习、深度学习之前，我觉得很有必要需要先科普或者说找几篇文章了解下它们都是什么以及有什么区别：

推荐 | 机器学习经典总结，入门必读【17000字，可下载PDF】（看完该篇应该会有个全面认识了）
一图看懂| 人工智能知识体系大全
云计算、大数据和人工智能这么火，究竟是什么关系？
2、人工智能：

人工智能无疑是这几年最热门的话题和焦点。什么是人工智能？

人工智能（Artificial Intelligence），英文缩写为AI，是研究计算机来模拟人的思维过程和智能行为（如学习、推理、思考、规划等）的一门学科。主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。

人工智能是计算机科学的一个分支，它的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

总结：人工智能—给机器赋予人的智能。

人工智能的概念很宽，所以人工智能也分很多种，我们可以按照实力将人工智能分为以下三大类。（来源人工智能三个阶段弱人工智能强人工智能超人工智能即使神也要臣服于科学）

弱人工智能：擅长于单个方面的人工智能。比如有能战胜象棋世界冠军的人工智能，但是它只会下象棋，你要问它怎样更好地在硬盘上储存数据，它就不知道怎么回答你了。弱人工智能是能制造出真正地推理（Reasoning）和解决问题（Problem_solving）的智能机器，但这些机器只不过看起来像是智能的，但是并不真正拥有智能，也不会有自主意识。说到底只是人类的工具。即使是弱人工智能在古代语言还原中还是文物还原中都起到极大作用，长期困扰专家的西夏文现在已经可以人工智能识别。我们现在就处于弱人工智能转向强人工智能时代

强人工智能：人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能，人类能干的脑力活它都能干。创造强人工智能比创造弱人工智能难得多。这里的“智能”是指一种宽泛的心理能力，能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作。

强人工智能观点认为有可能制造出真正能推理（Reasoning）和解决问题（Problem_solving）的智能机器，并且，这样的机器能将被认为是有知觉的，有自我意识的。可以独立思考问题并制定解决问题的最优方案，有自己的价值观和世界观体系。有和生物一样的各种本能，比如生存和安全需求。在某种意义上可以看作一种新的文明。例如银翼杀手和人工智能中的大卫就已经是强人工智能。

超人工智能：牛津哲学家，知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多，包括科学创新、通识和社交技能”。超人工智能可以是各方面都比人类强一点，也可以是各方面都比人类强万亿倍的。当达到超过人类以后人工智能的发展将呈指数级爆发，人工智能将极大的推动科学进步，纳米技术和基因工程在人工智能的辅助下将得到极大提高，即使在弱人工智能时代，都已经可以识别西夏文和希伯来文。如果能达到超人工智能，以往逝去的人甚至都可以复活。甚至秦皇汉武，武安君白起。超人工智能想复刻多少，不过瞬间的事情。如果人类能达到这个阶段没有被强人工智能取代，人类自身说不定可以永生。电影出现的超人工智能例如人工智能电影结尾出现的透明人。

现在，人类已经掌握了弱人工智能。其实弱人工智能无处不在，人工智能革命是从弱人工智能，通过强人工智能，最终到达超人工智能的旅途。这段旅途中人类可能会生还下来，可能不会，但是无论如何，世界将变得完全不一样。不过，到目前为止，人类的大脑是我们所知宇宙中最复杂的东西。因此，从弱人工智能到强人工智能的发展之路任重而道远。

3、机器学习：

机器学习（Machine Learning，ML）是人工智能研究较为年轻的分支。是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

是一门专门研究计算机来模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的技术。简单来说，就是通过算法，使得机器能从大量的数据中学习到规律，从而对新的样本做出智能的识别或者预测未来。如现在的图像识别，语音识别，自然语言理解，天气预测等方面。

总结：「机器学习」不再通过规则行动，而是通过归纳、统计来进行结果改进，不再需要外部明确的知识，而是通过经验和数据进行结果改进。

机器学习不是万能的！

机器学习本质上还是一种统计方法，它只讲求统计意义未必考虑的是事情的本质。

对于机器学习模型来说。准确率和召回率都不可能是100%，极端case难以避免。

对于金融交易、自动驾驶等事关大笔资金安全、人身安全的场景中，不要盲目迷信 AI，不要把安全全部交给模型。正确的做法是？规则（经验）+模型融合。

机器学习算法有很多，可以从两个方面介绍。（来源：机器学习中常见4种学习方法、13种算法和27张速查表！）

1. 按学习方式：
   - 监督学习
   - 非监督学习
   - 半监督学习
   - 强化学习
2. 按功能和形式的类似性：
   - 1.回归算法
   - 2.正则化方法
   - 3.决策树学习
   - 4.基于实例的算法
   - 5.贝叶斯方法
   - 6.聚类算法
   - 7.降低维度算法
   - 8.关联规则学习
   - 9.遗传算法（genetic algorithm）
   - 10.人工神经网络
   - 11.深度学习
   - 12.基于核的算法
   - 13.集成算法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
学习算法是个非常头疼的事也是重要的学习内容（哎，数学是硬伤~），下面几本书得到很多好评，需要去看看：

周志华《机器学习》
李航《统计学方法》
Peter Harrington《Machine Learning in Action》（中文版《机器学习实战》）
需要掌握一些经典的机器学习算法，毕竟机器学习算法要列起来实在太多了，网上找了的一张图，瞧瞧o(╥﹏╥)o

下面我们还是来看看人工智能有哪些关注的点呢？

（图片来源：https://zhuanlan.zhihu.com/p/36554572 ）

像上图中提到的自然语言处理、计算机视觉、语言相关都是机器学习应用的方向，其中存在很多的研究小方向。本文主要基于计算机视觉资料做个整理及记录。

为了检验是否以及对相关内容有了认识，可以试着解释或回答如下一些问题。

Q1：机器学习、数据挖掘、模式识别、人工智能这些概念？

PR(模式识别)、DM(数据挖掘)属于 AI 的具体应用；人工智能是一种应用领域，机器学习是实现人工智能的一种手段，但是不限于此。

什么是模式识别？

模式识别是指对表征事物或现象的各种形式的（数值的、文字的和逻辑关系的）信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。

Q2：机器学习算法？

按学习的方式来划分，机器学习主要包括：

监督学习：输入数据带有标签。监督学习建立一个学习过程，将预测结果与 “训练数据”（即输入数据）的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率，比如分类和回归问题等。常用算法包括决策树、贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络等。

非监督学习：输入数据没有标签，而是通过算法来推断数据的内在联系，比如聚类和关联规则学习等。常用算法包括独立成分分析、K-Means 和 Apriori 算法等。

半监督学习：输入数据部分标签，是监督学习的延伸，常用于分类和回归。常用算法包括图论推理算法、拉普拉斯支持向量机等。

强化学习：输入数据作为对模型的反馈，强调如何基于环境而行动，以取得最大化的预期利益。与监督式学习之间的区别在于，它并不需要出现正确的输入 / 输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。
（参考：https://feisky.xyz/machine-learning/basic/ ）

（参考：https://jizhi.im/blog/post/machine-learning-types-01 ）

Q3：机器学习的应用有哪些？

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA 序列测序、语音和手写识别、战略游戏和机器人等领域。

4、学习资料：

待上面的介绍有个全局的认知，可以直接开干了！关于人工智能、机器学习、深度学习入门资料，可以参考以下资料：

①机器学习

GitBook：写给人类的机器学习
②深度学习

阮一峰：神经网络入门
零基础入门深度学习系列
Michael Nielsen：Neural Networks and Deep Learning （中文翻译版《神经网络与深度学习》）
GitHub：《深度学习》中文版（俗称“花书”）
【Videos】相关的学习视频资源链接直达：

莫凡：https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/

吴恩达_机器学习：

官网：https://www.coursera.org/learn/machine-learning
或者到 B 站观看：https://www.bilibili.com/video/av9912938/
这还有一份笔记 GitHub：Coursera-ML-AndrewNg-Notes（建议打印，边看视频边看该份笔记，效果更佳~）
台湾_林轩田《机器学习基石》：https://www.bilibili.com/video/av1624332/?p=10

台湾_林轩田《机器学习技法》：https://www.bilibili.com/video/av12469267/

台大_李宏毅：（有台湾口腔）

大家可能看过《一天搞懂深度学习》的PPT，作者是台湾大学的李宏毅老师。其实，李宏毅老师还有门
深度学习的课程，视频也挂在网上。这门课主要针对初学者，而且，不需要有经典的机器学习基础（其
实，深度学习入门，比经典的机器学习更容易）。课程的内容深入浅出，训练和预测样本都是各种数码
宝贝和二次元卡通人物，绝对让你耳目一新。好像没有字幕，中文授课（台湾腔）。课程链接：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

B 站：李宏毅《一天搞懂深度学习》https://www.bilibili.com/video/av16543434/
B 站：李宏毅_机器学习 https://www.bilibili.com/video/av10590361/
B 站：李宏毅_深度学习 https://www.bilibili.com/video/av9770302/
李飞飞_斯坦福 cs231n 课程：（深度学习计算机视觉课程）

B 站（中文字幕）：https://www.bilibili.com/video/av13260183/
B 站（英文字幕）：https://www.bilibili.com/video/av13260183/
5、本文目的：

本文其实没啥有价值的干货，也就是对看过的博客和资料的整理，记录下来，相当给自己梳理一遍，供参考~

（PS：深感文字能力真的好差，还好该文只是资料整理而已(＃￣～￣＃) 各位看官见谅… 写作真得需要经常锻炼才行QAQ…）

一、了解图像
学习计算机视觉，首先要了解图像是什么吧？

图像是指能在人的视觉系统中产生视觉印象的客观对象，包括自然景物、拍摄到的图片、用数学方法描述的图像等。图像的要素有几何要素（刻画对象的轮廓、形状等）和非几何要素（刻画对象的颜色、材质等）。<来源《数字图像处理与机器视觉》 >

我们带着问题来更多的认识吧！

1、什么是位图、矢量图？

百度知道：什么是位图？什么是矢量图？二者有何区别？

①位图就是点阵图，比如大小是1024*768的图片，就是有1024*768个像素点，存储每个像素点的颜色值。

矢量图是用算法来描述图形，比如一个圆，存储半径和圆心，当然还有颜色，具体到图片的某个像素点的位置是什么颜色是根据算法算出来的。

②矢量图是可以任意缩放的，比如上面说的圆，在1024*768的时候是一个圆，图片放大20倍看还是圆，如果是位图，放大20倍，看到的就是一个一个的方块了。

一般而言，使用数字摄像机或数字照相机得到的图像都是位图图像。

2、有哪些种图像？

详细理解RGB图像、全色图像、多光谱图像、高光谱图像
3、对图像处理的认识？

图像处理入门教程
4、什么是数字图像？

自然界中的图像都是模拟量，在计算机普遍应用之前，电视、电影、照相机等图像记录与传输设备都是使用模拟信号对图像进行处理。但是，计算机只能处理数字量，而不能直接处理模拟图像。

什么是数字图像？简单地来说，数字图像就是能够在计算机上显示和处理的图像，可根据其特性分为两大类——位图和矢量图。位图通常使用数字阵列来表示，常见格式有 BMP、JPG、GIF 等；矢量图由矢量数据库表示，接触最多的就是 PNG 图像。<来源《数字图像处理与机器视觉》 >

5、数字图像处理的主要研究内容有哪些？简要说明。

图像增强：用于改善图像视觉质量（主观的）；

图像复原：是尽可能地恢复图像本来面目（客观的）；

图像编码：是在保证图像质量的前提下压缩数据，使图像便于存储和传输；

图像分割：就是把图像按其灰度或集合特性分割成区域的过程；

图像分类：是在将图像经过某些预处理（压缩、增强和复原）后，再将图像中有用物体的特征进行分割，特征提取，进而进行分类；

图像重建：是指从数据到图像的处理，即输入的是某种数据，而经过处理后得到的结果是图像。

<来源百度知道>

6、数字图像处理与机器视觉？<来源《数字图像处理与机器视觉》第二版 P5>

从数字图像处理到数字图像分析，再发展到最前沿的图像识别技术，其核心都是对数字图像中所含有的信息的提取及与其相关的各种辅助过程。

图像处理 --> 图像分析 --> 图像识别技术。核心都是：对数字图像所含有的信息提取及与其相关的各种辅助过程。

数字图像处理：就是指使用电子计算机对量化的数字图像进行处理，具体地说就是对图像进行各种加工来改善图像的外观，是对图像的修改和增强…此时的图像处理作为一种预处理步骤，输出图像将进一步供其他图像进行分析、识别算法。

数字图像分析：是指对图像中感兴趣的目标进行检测和测量，以获得可观的信息。数字图像分析通常是指一副图像转化为另一种非图像的抽象形式，例如图像中某物体与测量者的距离。这一概念的外延包括边缘检测和图像分割、特征提取以及几何测量与计数等。

数字图像识别：主要是研究图像中各目标的性质和相互关系，识别出目标对象的类别，从而理解图像的含义。

延伸：图像处理和计算机视觉/机器视觉区别？

图像处理：输入的是 Image --> 输出的是 Image

计算机视觉/机器视觉：输入的是 Image --> 输出的是 Feature（大致理解：对图像的理解）

7、基本的图像操作？

按照处理图像的数量分类：单幅图像操作（如滤波）和对多幅图像操作（如求和、求差和逻辑运算等）
按照参与操作的像素范围的不同：点运算和邻运算
根据操作的数学性质：线性操作和非线性操作
点运算指的是对图像中的每一个像素逐个进行同样的灰度变换运算。点运算可以使用下式定义：s=T(r)，其中，T 为采用点运算算子，表示了再原始图像和输出图像之间的某种灰度映射关系。点运算常常用于改变图像的灰度范围及分布。点运算引其作用的性质有时也被称为对比度增强、对比度拉伸或灰度变换。

而如果讲点运算扩展，对图像的每一个小范围（领域）内的像素进行灰度变换运算，即称为领域运算或领域滤波。g(x,y)=T(f(x,y))

线性和非线性操作：若对于任意两幅（或两组）图像 F1 和 F2 及任意两个标量 a 和 b 都有：H(aF1+bF1)=aH(F1)+bH(F2)，则称 H 为线性算子。不符合上述定义的算子即为非线性算子，对应的的是非线性图像操作。
1
2
3
4
5
① 图像的点运算：

要点： <参考《数字图像处理与机器视觉》>
- 灰度直方图
- 灰度的线性变化
- 灰度的对数变化
- 伽马变化
- 灰度阈值变化
- 分段线性变化
- 直方图均衡化
- 直方图规定化（匹配）
1
2
3
4
5
6
7
8
9
灰度直方图：是个二维图，横坐标为图像中各个像素点的灰度级别，纵坐标表示具有各个灰度级别的像素在图像中出现的次数或概率。（而归一化直方图的纵坐标则对应着灰度级别在图像中出现的概率）

直方图均衡化：又称位灰度均衡化，是指通过某种灰度映射使输入图像转换为在每一灰度级上都有近似相同的像素点数的输出图像（即输出的直方图是均匀的）。

② 图像的几何变化：

要点：<参考《数字图像处理与机器视觉》>
- 图像平移
- 图像镜像
- 图像转置
- 图像缩放
- 图像旋转
- 插值算法
- 图像配准简介
1
2
3
4
5
6
7
8
图像几何变化又称为图像空间变化，它将一副图像中的坐标位置映射到另一副图像中的新坐标位置。学习几何变化的关键是要确定这种空间映射关系，以及映射过程中的变化参数。

几何变换不改变图像的像素值，只是在图像平面上进行像素的重新安排。

一个几何变换需要两部分运算：首先是空间变换所需的运算，还需要灰度插值算法。<参考《数字图像处理与机器视觉》P92>

实现几何运算时，有两种方法。第一种称为向前映射法，其原理是将输入图像的灰度一个像素一个像素地转移到输出图像中，即从原图像坐标计算出目标图像坐标。第二中是向后映射法，它是向前映射变换的逆，即输出像素一个一个地映射回输入图像中。（参考《数字图像处理与机器视觉》P106）

我们再来看看《数字图像处理与机器视觉》该书有关几个图像研究内容的解释：

图像配准：图像配准技术是站在几何失真归一化的角度，以一种逆变换的思路来阐述几何变换。百度百科：图像归一化

所谓图像匹配准就是讲同一场景的两幅或多幅图像进行对准，如人脸自动分析系统中的人脸归一化，即要使各张照片中的人脸具有近似的大小，尽量处于相同的位置。

图像增强：增强的目的是消除噪声，显现那些被模糊了的细节或简单地突出一副图像中读者感兴趣的特征。

增强是图像处理中非常主观的领域，这与图像复原技术刚好相反，图像复原也是改进图像外貌的一个处理领域，但它是客观的。

图像分割：

图像分割是指将图像中具有特殊意义的不同区域划分开来，这些区域是互不相交的，每个区域满足灰度、纹理、彩色等特征的某种相似性准则。图像分割是图像的分析过程中最重要的步骤之一，分割出来的区域可以作为后续特征提取的目标对象。<***《数字图像处理与机器视觉》P395*** >

更多内容还是得翻阅《数字图像处理与机器视觉》以及冈萨雷斯的《数字图像处理》。

8、什么是遥感图像？

地图与卫星影像图的区别
遥感图像处理和普通图像处理有哪些异同呢，本质区别是什么？
9、什么是滤波？

阮一峰：图像与滤波
二、计算机视觉
2.1 CV相关研究方向及区别
参考文章：

知乎：图像识别中，目标分割、目标识别、目标检测和目标跟踪这几个方面区别是什么？
计算机视觉领域不同的方向：目标识别、目标检测、语义分割等
computer vision一些术语-目标识别、目标检测、目标分割、语义分割等
图像分割算法及与目标检测、目标识别、目标跟踪的关系
计算机视觉四大基本任务(分类、定位、检测、分割)——Hao Zhang的知乎回答（这个解释的也很好）
-------------------------------------------稍微总结下-----------------------------------------

图像分类：根据图像的主要内容进行分类。

数据集：MNIST，CIFAR，ImageNet

目标检测：给定一幅图像，只需要找到一类目标所在的矩形框。

人脸检测：人脸为目标，框出一幅图片中所有人脸所在的位置，背景为非目标

汽车检测：汽车为目标、框出一幅图片中所有汽车所在的位置，背景为非目标

数据集：PASCAL，COCO

目标识别：将需要识别的目标，和数据库中的某个样例对应起来，完成识别功能。

人脸识别：人脸检测，得到的人脸，再和数据库中的某个样例对应起来，进行识别，得到人脸的具体信息

数据集：PASCAL，COCO

语义分割：对图像中的每个像素都划分出对应的类别，即对一幅图像实现像素级别的分类。

数据集：PASCAL，COCO

实例分割：对图像中的每个像素都划分出对应的类别，即实现像素级别的分类，类的具体对象，即为实例，那么实例分割不但要进行像素级别的分类，还需在具体的类别基础上区别开不同的实例。

比如说图像有多个人甲、乙、丙，语义分割结果都是人，而实例分割结果却是不同的对象。

PS：有几点需要说的！

目标检测和目标识别的区别？

在看到的某篇博客是这样写道的：

目标检测：就是在一张图片中找到并用box标注出所有的目标。（注意：目标检测和目标识别不同之处在于，目标检测只有两类，目标和非目标. ）

目标识别：就是检测和用box标注出所有的物体，并标注类别。

在后面我的查找资料下，发现上面的认识不算是正确理解，正确理解是，目标检测是从大图中框出目标物体并识别，注意，目标检测还得识别出来框出的是什么，可参考知乎许铁-巡洋舰科技回答，他在回答中提到 R-CNN，这个网络不仅可以告诉你分类，还可以告诉你目标物体的坐标，即使图片里有很多目标物体，也一一给你找出来。

关于图像分类、点位、检测等内容，可以看看李飞飞cs231课程提到的：CS231n第八课：目标检测定位学习记录

一些其他方面的研究：

CSDN专栏：图像配准（图像配准算法介绍及部分实现）
2.2 图像分割
2.2.1 图像分割传统方法
知乎这篇文章图像分割传统方法整理整理了一些图像分割传统的方法，当然也是来源于网络，下面小结下：

图片分割根据灰度、颜色、纹理、和形状等特征将图像进行划分区域，让区域间显差异性，区域内呈相似性。主要分割方法有：

基于阈值的分割
基于边缘的分割
基于区域的分割
基于图论的分割
基于能量泛函的分割
（有时间可以研读下相关传统方法怎么做的…）

2.2.2 图像分割深度学习方法（语义分割&实例分割）
重点关注的一些神经网络模型：

FCN、Unet、SegNet、DeconvNet、PSPnet、DeepLab(v1、v2、v3)等等。

这几篇文章有提到上面所说的很多神经网络模型：

语义分割(semantic segmentation) 常用神经网络介绍对比-FCN SegNet U-net DeconvNet
深度学习（十九）——FCN, SegNet, DeconvNet, DeepLab, ENet, GCN
这篇文章十分钟看懂图像语义分割技术把图像分割技术及发展介绍的很详细。

相关综述类/总结类文章参考：

从全连接层到大型卷积核：深度学习语义分割全指南
分割算法——可以分割一切目标（各种分割总结）
当前图像分割研究方向：

知乎：当前主流的图像分割研究方向都有哪些？
【总结】图像语义分割之FCN和CRF
ConvCRF：一种结合条件随机场与CNN的高效语义分割方法
相关视频：

B 站：深度学习语义分割Semantic Segmentation（英文字幕）（合辑）
图像分割方面论文汇集：

语义分割 - Semantic Segmentation Papers

图像分割相关论文可以在该博主整理的资料找找。

-------------------------------一些常见图像分割神经网络模型具体介绍-------------------------

在介绍图像分割神经网络模型之前，先引入下该文（分割算法——可以分割一切目标（各种分割总结））的一段话：

1、会有很多人问：什么是语义分割？

语义分割其实就是对图片的每个像素都做分类。其中，较为重要的语义分割数据集有：VOC2012 以及 MSCOCO 。

2、比较流行经典的几种方法

传统机器学习方法：如像素级的决策树分类，参考 TextonForest 以及 Random Forest based classifiers。再有就是深度学习方法。

深度学习最初流行的分割方法是，打补丁式的分类方法 (patch classification) 。逐像素地抽取周围像素对中心像素进行分类。由于当时的卷积网络末端都使用全连接层 (full connected layers) ，所以只能使用这种逐像素的分割方法。

但是到了 2014 年，来自伯克利的 Fully Convolutional Networks(FCN) 卷积网络，去掉了末端的全连接层。随后的语义分割模型基本上都采用了这种结构。除了全连接层，语义分割另一个重要的问题是池化层。池化层能进一步提取抽象特征增加感受域，但是丢弃了像素的位置信息。但是语义分割需要类别标签和原图像对齐，因此需要从新引入像素的位置信息。有两种不同的架构可以解决此像素定位问题。

第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征；译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。该类架构中 U-net 是最流行的。
第二种是膨胀卷积 (dilated convolutions) 【这个核心技术值得去阅读学习】，抛弃了池化层。
☛【2014】FCN：

Fully Convolutional Networks 是 Jonathan Long 和 Evan Shelhamer 于 2015 年提出的网络结构。

Fully convolutional networks for semantic segmentation 是 2015 年发表在 CVPR 上的一片论文，提出了全卷积神经网络的概念，差点得了当前的最佳论文，没有评上的原因好像是有人质疑，全卷积并不是一个新的概念，因为全连接层也可以看作是卷积层，只不过卷积核是原图大小而已。

论文：使用全卷积网络进行语义分割《Fully Convolutional Networks for Semantic Segmentation》 [Paper-v1] [Paper-v2] （最新提交时间：2015.03.08）

主要贡献：

推广端到端卷积网络在语义分割领域的应用
修改 Imagenet 预训练网络并应用于语义分割领域
使用解卷积层进行上采样
使用跳跃连接，改善上采样的粒度程度
代码：https://github.com/shelhamer/fcn.berkeleyvision.org

相关中文资料：

卷积神经网络CNN（3）—— FCN(Fully Convolutional Networks)要点解释
☛【2015】U-Net：

U-Net 是基于 FCN 的一个语义分割网络，适合用来做医学图像的分割。数据集下载并代码实战看这篇：全卷机神经网络图像分割(U-net)-keras实现

论文：生物医学图像分割的卷积神经网络《U-Net: Convolutional Networks for Biomedical Image Segmentation》[Paper] （最新提交时间：2015.05.18）

官网：https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

相关中文资料：

Unet神经网络为什么会在医学图像分割表现好？
☛【2015】SegNet：

SegNet 是 Vijay Badrinarayanan 于 2015 年提出的，它是一个 encoder-decoder 结构的卷积神经网络。

论文：用于图像分割的一种深度卷积编码器-解码器架构《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》[Paper-v1] [Paper-v2] [Paper-v3] （最新提交时间：2016.11.10）

主要贡献：

将最大池化索引（Maxpooling indices）转移到解码器，从而改善分割分辨率。
代码：https://github.com/alexgkendall/caffe-segnet

DEMO 网站：http://mi.eng.cam.ac.uk/projects/segnet/

相关中文资料：

☛【2015】Dilated Convolutions：

论文：使用空洞卷积进行多尺度背景聚合《Multi-Scale Context Aggregation by Dilated Convolutions》[Paper-v1] [Paper-v2] [Paper-v3] （最新提交时间：2016.04.30）

主要贡献：

使用空洞卷积，一种可进行稠密预测的卷积层。
提出「背景模块」（context module），该模块可使用空洞卷积进行多尺度背景聚合。
☛【2015】DeconvNet：

DeconvNet 是韩国的 Hyeonwoo Noh 于 2015 年提出的。

DeconvNet 是一个 convolution-deconvolution 结构的神经网络，和 SegNet 非常相似。是一篇 2015 年 ICCV 上的文章：Learning Deconvolution Network for Semantic Segmentation

论文：学习反卷积网络进行语义分割《Learning Deconvolution Network for Semantic Segmentation》[Paper] （最新提交时间：2015.05.17）

代码：https://github.com/HyeonwooNoh/DeconvNet

相关中文资料：

☛【2016】RefineNet：

论文：使用多路径精炼网络进行高分辨率语义分割《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》[Paper-v1] [Paper-v2] [Paper-v3] （最新提交时间：2016.11.25）

主要贡献：

具备精心设计解码器模块的编码器-解码器架构
所有组件遵循残差连接设计
相关中文资料：

☛【2016】PSPNet：

论文：金字塔场景解析网络《Pyramid Scene Parsing Network》[Paper-v1] [Paper-v2] （最新提交时间：2017.04.27）

主要贡献：

提出金字塔池化模块帮助实现背景聚合
使用辅助损失（auxiliary loss）。
相关中文资料：

语义分割论文-PSPNet
☛【2017】Large Kernel Matters：

论文：大型核的问题——通过全局卷积网络改善语义分割《Large Kernel Matters – Improve Semantic Segmentation by Global Convolutional Network》[Paper] （最新提交时间：2017.03.08）

主要贡献：

提出使用带有大型卷积核的编码器-解码器结构
☛【2014 、2016、2017】DeepLab（v1、v2、v3）：

【2014】v1：使用深度卷积网络和全连接 CRF 进行图像语义分割《Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》[Paper-v1] [Paper-v2] [Paper-v3] [Paper-v4] （最新提交时间：2016.06.07）

相关中文资料：

【2016】v2：使用深度卷积网络、带孔卷积和全连接 CRF 进行图像语义分割《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》[Paper-v1] [Paper-v2] （最新提交时间：2017.05.12）

相关中文资料：

v1 & v2 主要贡献：

使用带孔/空洞卷积。
提出金字塔型的空洞池化（ASPP）
使用全连接 CRF
【2017】v3：重新思考使用空洞卷积进行图像语义分割《Rethinking Atrous Convolution for Semantic Image Segmentation》[Paper-v1] [Paper-v2] [Paper-v3] （最新提交时间：2017.12.05）

v3 主要贡献：

改进了金字塔型的空洞池化（ASPP）
模型级联了多个空洞卷积
与 DeepLab v2 和空洞卷积论文一样，该研究也使用空洞/扩张卷积来改进 ResNet 模型。

相关中文资料：

☛【2017】Mask R-CNN：

论文：《Mask R-CNN》[Paper-v1] [Paper-v2] [Paper-v3] （最新提交时间：2018.01.24）

相关中文资料：

B 站视频：Mask R-CNN 深度解读与源码解析目标检测物体检测 RCNN object detection 语义分割
2.2.3 关于图像分割的比赛、数据集
比赛：

Kaggle新上比赛：地震图像的盐体分割
Kaggle新上比赛：空客公司卫星图像船体分割
图像分割数据集：

图像语义分割常用数据库
目前有一些常用于训练语义分割模型的数据集：（较为重要的语义分割数据集有：VOC2012 以及 MSCOCO）

Pascal VOC 2012：有 20 类目标，这些目标包括人类、机动车类以及其他类，可用于目标类别或背景的分割

这里是它的主页，这里是leader board，很多公司和团队都参与了这个挑战，很多经典论文都是采用这个挑战的数据集和结果发表论文，包括 RCNN、FCN等。关于这个挑战,有兴趣可以读一下这篇论文。

Cityscapes：50 个城市的城市场景语义理解数据集

Pascal Context：有 400 多类的室内和室外场景

Stanford Background Dataset：至少有一个前景物体的一组户外场景。

遥感、卫星图像常用数据集：

深度学习—遥感数据集及下载地址
SAR（遥感、卫星）图像常用数据集
高分遥感影像数据集的制作
遥感、卫星图像分割：

【Keras】基于SegNet和U-Net的遥感图像语义分割
图像分割方面的代码：

Image segmentation
2.2.4 关于图像分割的最新研究及关注点
最新的一些相关研究：（更新于 2018-09-12）

学界 | 上海交大卢策吾团队开源PointSIFT刷新点云语义分割记录
优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架
MIT提出精细到头发丝的语义分割技术，打造效果惊艳的特效电影
论文阅读 - Semantic Soft Segmentation
Polygon-RNN++ | 图像分割数据集自动标注
谷歌等祭出图像语义理解分割神器，PS再也不用专业设计师！
关注的一些大牛&实验室&期刊等：

南开大学媒体计算实验室：：http://mmcheng.net/zh/code-data/ （解压密码：mmcheng.net）

Facebook AI 实验室科学家&香港中文大学博士：何凯明

斯坦福人工智能研究院：李飞飞

等等…（以后在补充~）

顶级会议、期刊等

ICCV（IEEE International Conference on Computer Vision，国际计算机视觉大会）：由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。
CVPR（IEEE Conference on Computer Vision and Pattern Recognition，IEEE国际计算机视觉与模式识别会议）：该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。
ECCV（European Conference on Computer Vision，欧洲计算机视觉国际会议）：两年一次，是计算机视觉三大会议（另外两个是ICCV和CVPR）之一。每次会议在全球范围录用论文300篇左右，主要的录用论文都来自美国、欧洲等顶尖实验室及研究所，中国大陆的论文数量一般在10-20篇之间。ECCV2010的论文录取率为27%。
等其他…
2.2.5 图像分割学习与实践
1、李沫文章：语义分割和数据集 YouTube 视频：动手学深度学习第十课：语义分割

图片分类关心识别图片里面的主要物体，物体识别则进一步找出图片的多个物体以及它们的方形边界框。本小节我们将介绍语义分割（semantic segmentation），它在物体识别上更进一步的找出物体的精确边界框。换句话说，它识别图片中的每个像素属于哪类我们感兴趣的物体还是只是背景。下图演示猫和狗图片在语义分割中的标注。可以看到，跟物体识别相比，语义分割预测的边框更加精细。

在计算机视觉里，还有两个跟语义分割相似的任务。一个是图片分割（image segmentation），它也是将像素划分到不同的类。不同的是，语义分割里我们赋予像素语义信息，例如属于猫、狗或者背景。而图片分割则通常根据像素本身之间的相似性，它训练时不需要像素标注信息，其预测结果也不能保证有语义性。例如图片分割可能将上图中的狗划分成两个区域，其中一个嘴巴和眼睛，其颜色以黑色为主，另一个是身体其余部分，其主色调是黄色。

另一个应用是实例分割（instance segementation），它不仅需要知道每个像素的语义，即属于那一类物体，还需要进一步区分物体实例。例如如果图片中有两只狗，那么对于预测为对应狗的像素是属于地一只狗还是第二只。

2、雷锋网：浙大博士生刘汉唐：带你回顾图像分割的经典算法 | 分享总结

2.3 目标检测
需要关注的一些神经网络模型：

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
三年来，CNN在图像分割领域经历了怎样的技术变革？
Mask R-CNN实例分割通用框架，检测，分割和特征点定位一次搞定（多图）

论文下载：

【2014】R-CNN 论文地址: https://arxiv.org/abs/1311.2524
【2015】Fast R-CNN 论文地址: https://arxiv.org/abs/1504.08083
【2016】Faster R-CNN 论文地址: https://arxiv.org/abs/1506.01497
【2017】Mask R-CNN 论文地址: https://arxiv.org/abs/1703.06870
R-CNN：是将 CNN 用于物体检测的早期应用。

R-CNN 的目标是：导入一张图片，通过方框正确识别主要物体在图像的哪个地方。

输入：图像
输出：方框+每个物体的标签

Fast R-CNN：它加速、简化了 R-CNN。

Faster R-CNN：名字很直白，它加速了选区推荐。

Mask R-CNN：把 Faster R-CNN 拓展到像素级的图像分割。

Mask R-CNN：一种目标实例分割（object instance segmentation）框架。该框架较传统方法操作更简单、更灵活。研究人员把实验成果《Mask R-CNN》发布在了arXiv上，并表示之后会开源相关代码。

一般来说，目标分割的难点在于，它需要正确识别出图像中所有物体的方向，并且要将不同物体精准区分开。因此，这里面涉及到两个任务：

用物体识别技术识别物体，并用边界框表示出物体边界；
用语义分割给像素分类，但不区分不同的对象实例。
PS：知乎问答如何评价rcnn、fast-rcnn和faster-rcnn这一系列方法？也提到了目标检测涉及到的模型 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等，并且 B 站也有相关视频可以观看，比如 Mask R-CNN实战之蒙版弹幕黑科技实现 YOLO RCNN 目标检测

你可能感兴趣的:(计算机视觉)

使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
基于PyTorch和ResNet18的花卉识别实战（附完整代码）意.远 pytorch 人工智能 python 深度学习
一、项目背景与效果花卉分类是计算机视觉的经典任务。本文使用PyTorch框架，基于ResNet18模型实现了102种花卉的分类任务。完整代码可直接复制运行，最终验证集准确率达8.2%，文中同步分析性能瓶颈与优化方案。二、环境配置与数据准备1.环境要求#主要依赖库importtorchfromtorchimportnn,optimfromtorchvisionimporttransforms,dat
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
OpenCV多分辨率模板匹配与容错优化实战指南追寻向上 opencv 人工智能计算机视觉
第一章：问题背景与挑战1.1传统模板匹配的局限性模板匹配（TemplateMatching）是计算机视觉中基础且广泛使用的技术，其核心思想是通过滑动窗口在目标图像中寻找与模板最相似的位置。然而，传统方法（如OpenCV的cv2.matchTemplate）在实际应用中存在以下问题：尺寸敏感性当目标的实际尺寸与模板不一致时，匹配结果会严重偏离。例如，在工业检测中，摄像头与物体的距离变化会导致目标缩放
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线云梦优选计算机数据库大数据计算机视觉学习人工智能
一、基础准备1.数学基础线性代数深入矩阵运算，理解矩阵乘法、转置、逆等基本概念。掌握特征值与特征向量的几何意义，理解其在图像压缩、特征提取中的应用。学习奇异值分解（SVD）及其在降维和数据压缩中的具体应用。概率与统计熟悉贝叶斯定理及其在分类任务中的应用，如朴素贝叶斯分类器。理解常见概率分布（如正态分布、二项分布）及其性质。学习统计推断方法，如假设检验、置信区间估计，以评估模型性能。微积分掌握梯度、
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
解决OpenCV读取目标图像，cv2.imshow出现闪退的问题写python的鑫哥 OpenCV入门与进阶 opencv 人工智能计算机视觉 python 图像显示闪退
前言本文是该专栏的第17篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。最近有粉丝朋友询问到OpenCV读取目标图像出现的一个问题，在基于python语言“使用OpenCV读取目标图像的时候，利用cv2.imshow函数出现闪退”的情况。而本文，笔者将详细介绍针对上述问题，给出一个详细的应对思路以及解决方法。废话不多说，具体的细节部分以及详细的解决方案，跟着笔者直接往下看正文详细内容
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
计算机视觉算法实战——驾驶员玩手机检测（主页有源码）喵了个AI 计算机视觉实战项目计算机视觉算法智能手机
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域简介：玩手机检测的重要性与技术挑战驾驶员玩手机检测是智能交通安全领域的核心课题。根据NHTSA数据，美国每年因手机使用导致的交通事故超过3000起，中国公安部的统计显示开车使用手机的事故率是正常驾驶的23倍。该技术通过实时监测驾驶员手部动作和视线方向，识别非法使用手机行为，在以
目标检测中衡量模型速度和精度的指标：FPS和mAP asdfg1258963 目标检测_ai 目标检测人工智能
“FPS”和“mAP”分别衡量了模型的速度和精度。FPS（FramesPerSecond）定义：FPS是“每秒传输帧数”的缩写，用于衡量计算机视觉系统（如目标检测、图像识别等）的实时性能。它表示系统每秒钟能够处理的图像或视频帧的数量。重要性：在实时应用中，如自动驾驶、视频监控等，FPS是一个关键指标。高FPS意味着系统能够快速处理输入的图像数据，实现实时响应。计算方式：FPS可以通过以下公式计算：
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?