费马定理

计算机视觉学习建议

装载自：https://blog.csdn.net/gdengden/article/details/80369458#commentBox

简介

计算机视觉（Computer Vision）又称为机器视觉（Machine Vision），顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下，计算机视觉与自然语言处理（Natural Language Process， NLP）及语音识别（Speech Recognition）并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图（Histogram of Gradient， HOG）以及尺度不变特征变换（Scale-Invariant Feature Transform， SIFT）等传统的手办特征（Hand-Crafted Feature）与浅层模型的组合逐渐转向了以卷积神经网络（Convolutional Neural Network， CNN）为代表的深度学习模型。

方式	特征提取	决策模型
传统方式	SIFT，HOG， Raw Pixel …	SVM， Random Forest， Linear Regression …
深度学习	CNN …	CNN …

svm（Support Vector Machine）：支持向量机
Random Forest ：随机森林
Linear Regression ：线性回归
Raw Pixel ：原始像素

传统的计算机视觉对待问题的解决方案基本上都是遵循：图像预处理 → 提取特征 → 建立模型（分类器/回归器） → 输出的流程。而在深度学习中，大多问题都会采用端到端（End to End）的解决思路，即从输入到输出一气呵成。本次计算机视觉的入门系列，将会从浅层学习入手，由浅入深过渡到深度学习方面。

方向

计算机视觉本身又包括了诸多不同的研究方向，比较基础和热门的几个方向主要包括了：物体识别和检测（Object Detection），语义分割（Semantic Segmentation），运动和跟踪（Motion & Tracking），三维重建（3D Reconstruction），视觉问答（Visual Question & Answering），动作识别（Action Recognition）等。

物体识别和检测

物体检测一直是计算机视觉中非常基础且重要的一个研究方向，大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net， GoogLeNet， ResNet等等，每年在imagenet数据集上面都不断有新的算法涌现，一次次突破历史，创下新的记录，而这些新的算法或网络结构很快就会成为这一年的热点，并被改进应用到计算机视觉中的其它应用中去，可以说很多灌水的文章也应运而生。

物体识别和检测，顾名思义，即给定一张输入图片，算法能够自动找出图片中的常见物体，并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测（Face Detection），车辆检测（Viechle Detection）等细分类的检测算法。

近年代表论文

He, Kaiming, et al. “Deep residual learning for image recognition.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
Liu, Wei, et al. “SSD: Single shot multibox detector.” European Conference on Computer Vision. Springer International Publishing, 2016.
Szegedy, Christian, et al. “Going deeper with convolutions.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.
Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems. 2015.
Simonyan, Karen, and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition.” arXiv preprint arXiv:1409.1556 (2014).
Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. “Imagenet classification with deep convolutional neural networks.” Advances in neural information processing systems. 2012.

数据集

IMAGENET
PASCAL VOC
MS COCO
Caltech

语义分割

语义分割是近年来非常热门的方向，简单来说，它其实可以看做一种特殊的分类——将输入图像的每一个像素点进行归类，用一张图就可以很清晰地描述出来。

很清楚地就可以看出，物体检测和识别通常是将物体在原图像上框出，可以说是“宏观”上的物体，而语义分割是从每一个像素上进行分类，图像中的每一个像素都有属于自己的类别。

近年代表论文

Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.
Chen, Liang-Chieh, et al. “Semantic image segmentation with deep convolutional nets and fully connected crfs.” arXiv preprint arXiv:1412.7062 (2014).
Noh, Hyeonwoo, Seunghoon Hong, and Bohyung Han. “Learning deconvolution network for semantic segmentation.” Proceedings of the IEEE International Conference on Computer Vision. 2015.
Zheng, Shuai, et al. “Conditional random fields as recurrent neural networks.” Proceedings of the IEEE International Conference on Computer Vision. 2015.

数据集

PASCAL VOC
MS COCO

运动和跟踪

跟踪也属于计算机视觉领域内的基础问题之一，在近年来也得到了非常充足的发展，方法也由过去的非深度算法跨越向了深度学习算法，精度也越来越高，不过实时的深度学习跟踪算法精度一直难以提升，而精度非常高的跟踪算法的速度又十分之慢，因此在实际应用中也很难派上用场。
那么什么是跟踪呢？就目前而言，学术界对待跟踪的评判标准主要是在一段给定的视频中，在第一帧给出被跟踪物体的位置及尺度大小，在后续的视频当中，跟踪算法需要从视频中去寻找到被跟踪物体的位置，并适应各类光照变换，运动模糊以及表观的变化等。但实际上跟踪是一个不适定问题（ill posed problem），比如跟踪一辆车，如果从车的尾部开始跟踪，若是车辆在行进过程中表观发生了非常大的变化，如旋转了180度变成了侧面，那么现有的跟踪算法很大的可能性是跟踪不到的，因为它们的模型大多基于第一帧的学习，虽然在随后的跟踪过程中也会更新，但受限于训练样本过少，所以难以得到一个良好的跟踪模型，在被跟踪物体的表观发生巨大变化时，就难以适应了。所以，就目前而言，跟踪算不上是计算机视觉内特别热门的一个研究方向，很多算法都改进自检测或识别算法。

近年代表论文

Nam, Hyeonseob, and Bohyung Han. “Learning multi-domain convolutional neural networks for visual tracking.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
Held, David, Sebastian Thrun, and Silvio Savarese. “Learning to track at 100 fps with deep regression networks.” European Conference on Computer Vision. Springer International Publishing, 2016.
Henriques, João F., et al. “High-speed tracking with kernelized correlation filters.” IEEE Transactions on Pattern Analysis and Machine Intelligence 37.3 (2015): 583-596.
Ma, Chao, et al. “Hierarchical convolutional features for visual tracking.” Proceedings of the IEEE International Conference on Computer Vision. 2015.
Bertinetto, Luca, et al. “Fully-convolutional siamese networks for object tracking.” European Conference on Computer Vision. Springer International Publishing, 2016.
Danelljan, Martin, et al. “Beyond correlation filters: Learning continuous convolution operators for visual tracking.” European Conference on Computer Vision. Springer International Publishing, 2016.
Li, Hanxi, Yi Li, and Fatih Porikli. “Deeptrack: Learning discriminative feature representations online for robust visual tracking.” IEEE Transactions on Image Processing 25.4 (2016): 1834-1848.

数据集

OTB(Object Tracking Benchmark)
VOT(Visual Object Tracking)

视觉问答

视觉问答也简称VQA（Visual Question Answering），是近年来非常热门的一个方向，其研究目的旨在根据输入图像，由用户进行提问，而算法自动根据提问内容进行回答。除了问答以外，还有一种算法被称为标题生成算法（Caption Generation），即计算机根据图像自动生成一段描述该图像的文本，而不进行问答。对于这类跨越两种数据形态（如文本和图像）的算法，有时候也可以称之为多模态，或跨模态问题。

近年代表论文

Xiong, Caiming, Stephen Merity, and Richard Socher. “Dynamic memory networks for visual and textual question answering.” arXiv 1603 (2016).
Wu, Qi, et al. “Ask me anything: Free-form visual question answering based on knowledge from external sources.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
Zhu, Yuke, et al. “Visual7w: Grounded question answering in images.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

数据集

热点

随着深度学习的大举侵入，现在几乎所有人工智能方向的研究论文几乎都被深度学习占领了，传统方法已经很难见到了。有时候在深度网络上改进一个非常小的地方，就可以发一篇还不错的论文。并且，随着深度学习的发展，很多领域的现有数据集内的记录都在不断刷新，已经向人类记录步步紧逼，有的方面甚至已经超越了人类的识别能力。那么，下一步的研究热点到底会在什么方向呢？就我个人的一些观点如下：

多模态研究：目前的许多领域还是仅仅停留在单一的模态上，如单一分物体检测，物体识别等，而众所周知的是现实世界就是有多模态数据构成的，语音，图像，文字等等。 VQA 在近年来兴起的趋势可见，未来几年内，多模态的研究方向还是比较有前景的，如语音和图像结合，图像和文字结合，文字和语音结合等等。
数据生成：现在机器学习领域的许多数据还是由现实世界拍摄的视频及图片经过人工标注后用作于训练或测试数据的，标注人员的职业素养和经验，以及多人标注下的规则统一难度在一定程度上也直接影响了模型的最终结果。而利用深度模型自动生成数据已经成为了一个新的研究热点方向，如何使用算法来自动生成数据相信在未来一段时间内都是不错的研究热点。
无监督学习：人脑的在学习过程中有许多时间都是无监督（Un-supervised Learning）的，而现有的算法无论是检测也好识别也好，在训练上都是依赖于人工标注的有监督（Supervised Learning）。如何将机器学习从有监督学习转变向无监督学习，应该是一个比较有挑战性的研究方向，当然这里的无监督学习当然不是指简单的如聚类算法（Clustering）这样的无监督算法。而LeCun也曾说：如果将人工智能比喻作一块蛋糕的话，有监督学习只能算是蛋糕上的糖霜，而增强学习（Reinforce Learning）则是蛋糕上的樱桃，无监督学习才是真正蛋糕的本体。
最后，想要把握领域内最新的研究成果和动态，还需要多看论文，多写代码。
计算机视觉领域内的三大顶级会议有：
Conference on Computer Vision and Pattern Recognition （CVPR）
International Conference on Computer Vision （ICCV）
European Conference on Computer Vision （ECCV）
较好的会议有以下几个：
The British Machine Vision Conference （BMVC）
International Conference on Image Processing （ICIP）
Winter Conference on Applications of Computer Vision （WACV）
Asian Conference on Computer Vision (ACCV)

当然，毕竟文章的发表需要历经审稿和出版的阶段，因此当会议论文集出版的时候很可能已经过了小半年了，如果想要了解最新的研究，建议每天都上ArXiv的cv板块看看，ArXiv上都是预出版的文章，并不一定最终会被各类会议和期刊接收，所以质量也就良莠不齐，对于没有分辨能力的入门新手而言，还是建议从顶会和顶级期刊上的经典论文入手。

这是一篇对计算机视觉目前研究领域的几个热门方向的一个非常非常简单的介绍，希望能对想要入坑计算机视觉方向的同学有一定的帮助。由于个人水平十分有限，错误在所难免，欢迎大家对文中的错误进行批评和指正。

小白入门计算机视觉：这是最全的一份CV技术学习之路

2017年12月02日 00:00:00

阅读数：4377

菌

最近AI菌决定把自己的机器学习之路向计算机视觉方面发展。所以今天就来给大家分享一下AI菌收集到的资料以及心得

The M Tank 编辑了一份报告《A Year in Computer Vision》，记录了 2016 至 2017 年计算机视觉领域的研究成果，对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分

简介

第一部分

分类/定位

目标检测

目标追踪

第二部分

分割

超分辨率、风格迁移、着色

动作识别

第三部分

3D 目标

人体姿势估计

3D 重建

其他未分类 3D

总结

第四部分

卷积架构

数据集

不可分类的其他材料与有趣趋势

结论

有兴趣的同学可以读一读，完整 PDF 地址：http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf

下面是收集到的学习资料与心得的汇总：

（文中没有发的资源将在之后陆续放出）

01 掌握好相应的基础能力

计算机视觉的理念其实与很多概念有部分重叠，包括：人工智能、数字图像处理、机器学习、深度学习、模式识别、概率图模型、科学计算以及一系列的数学计算等。

所以在入门CV之前，同学们最好对基础的学术课程都有对应的了解，比如数学方面的微积分，概率学，统计学，线性代数这几门基础课程。

在编程语言方面，Matlab，Python，C++，最好熟悉其中2种，因为计算机视觉离开计算机编程是完全行不通的

02 需要的专业工具

工欲善其事，必先利其器。对于想要学好计算机视觉的同学来说，一个专业的工具，绝对是助攻的不二神器。

OpenCV（开源计算机视觉库）是一个非常强大的学习资料库，包括了计算机视觉，模式识别，图像处理等许多基本算法。

它免费提供给学术和商业用途，有C++，C，Python和java接口，支持Windows、Linux、Mac OS、iOS和Android。

而关于OpenCV的学习，AI菌推荐（其中第三本目前无中文版）：

学习OpenCV(Learning.OpenCV)

链接：

https://pan.baidu.com/s/1c2GrPEK 密码：7012

毛星云老师编著的OpenCV3编程入门

链接：

https://pan.baidu.com/s/1c2xuVFq 密码：2s4a

学习OpenCV3（

Learning OpenCV 3

）

链接：

https://pan.baidu.com/s/1geQeT0J 密码：cuco

而深度学习方面，有TensorFlow，PyTorch，Caffe等深度学习框架，它们也内置了OpenCV的API接口。而哪种框架好，就要看你自己的需要了

推荐资料：

莫凡教程系列之PyTorch :https://morvanzhou.github.io/tutorials/machine-learning/torch/

TensorFlow中文社区：

http://www.tensorfly.cn/

深度学习 21天实战Caffe

03 绕不开的数字图像处理与模式识别

数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。

入门的同学推荐

冈萨雷斯的《数字图像处理》《数字图像处理(第3版)(英文版)》和对应的Matlab版本

一本讲基础的理论，一本讲怎么用Matlab实现。

除此之外同学们还可以去YouTube上找到相关的课程信息，相信大家会有所收获的。

模式识别（Pattern Recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。

计算机视觉很多东西都是基于图像识别的，图像识别就是模式识别的一种。

模式识别通常是训练一个模型来拟合当前的数据，当我们拿到一堆数据或图片，需要从当中找到它们的关系，最便捷的便是用模式识别算法来训练一个模型。

AI菌推荐一本模式识别入门级的教材《模式分类》，相对于《模式识别》这本书来说可能比较难，但书中介绍了很多模式识别经典的分类器，还是很值得一读。

其中的一些思想在神经网络中也可以应用的

04 系统的学习下计算机视觉课程

对于CV新手来说，想要从小白到大神，最快的方法就是先系统的学习一下计算机视觉的课程，全面了解一下计算机视觉这个领域的背景及其发展、这个领域有哪些基本的问题、哪些问题的研究已经比较成熟了，哪些问题的研究还处于基础阶段。

在这里AI菌推荐3本经典教材：

《计算机视觉：一种现代方法》（Computer Vision: A Modern Approach）

《计算机视觉_算法与应用》

（Computer Vision: Algorithms and Applications）

《计算机视觉：模型学习和推理》

（Computer Vision: Models, Learning, and Inference）

这三本教材AI菌认为是计算机视觉最好的入门教材了，内容丰富，难度适中，其中第二本书涉及大量的文献，很适合对计算机视觉没什么概念的同学。

虽然其中的一些方法在现在看来已经过时了，但还是值得一读

05 深度学习与CNN

关于深度学习这几年讲的已经太多了，资料也非常多，AI菌在这里就不在赘述啦

计算机视觉里经常使卷积神经网络，即CNN，是一种对人脑比较精准的模拟。

什么是卷积？卷积就是两个函数之间的相互关系，然后得出一个新的值，他是在连续空间做积分计算，然后在离散空间内求和的过程。

同学们可以试着学习下CNN在计算机视觉当中的应用

推荐的资料：

斯坦福CS231n—深度学习与计算机视觉网易云课堂课程：http://study.163.com/course/introduction.htm?courseId=1003223001

斯坦福CS231n—深度学习与计算机视觉官方课程：http://cs231n.stanford.edu/

CS231n官方笔记授权翻译总集篇：https://www.52ml.net/17723.html

吴恩达 deeplearning.ai与网易云课堂的微专业深度学习工程师卷积神经网络

http://mooc.study.163.com/course/2001281004?tid=2001392030#/info

神经网络方面的经典教材

《深度学习》

（Deep Learning）

《神经⽹络与深度学习》

（Neural Networks and Deep Learning(Nielsen,2017)）

06 了解最新领域动态

很多同学做研究的时候，容易陷入自我封闭的“怪圈”，过于执着于埋头学习相关知识，有时候会忘记及时了解相关领域的最新动态，这是非常不科学的。

同学们在学习计算机视觉相关知识的时候，可以通过最新的paper来了解这个领域最新提出的一些概念以及发展的情况。

计算机视觉的期刊有两个PAMI（模式分析与机器智能汇刊）和IJCV（计算机视觉国际期刊）

顶级的学术会议有 CVPR、ICCV、 ECCV、 BMVC这四个，同学们可以跟着浏览这些期刊论文以及会议文章，相信一定可以学到不少有用的知识。

菌

听做视觉的师兄师姐硕：做好计算机视觉研究并不是一件容易的事情，在大多数情况下它甚至是一件很枯燥的事情。

研究成果毫无进展，研究方向不在明朗等等，这一切都会给你前所未有的压力

所以希望同学们在决定入这一行的时候，是出于自己的热爱，而不是出于当前的趋势。

因为热爱不会变，但趋势每一年都在变。

计算机视觉是人工智能技术的一个重要领域，打个比方（不一定恰当），我认为计算机视觉是人工智能时代的眼睛，可见其重要程度。计算机视觉其实是一个很宏大的概念，下图是有人总结的计算机视觉所需要的技能树。

如果你是一个对计算机视觉一无所知的小白，千万不要被这棵技能树吓到。没有哪个人能够同时掌握以上所有的技能，这棵树只是让你对计算机视觉有个粗浅的认识。

以下是我站在一个小白的视角给出一个入门计算机视觉的相对轻松的姿势。

一、宏观认识

小白通常看到这么多的细分方向大脑一片茫然，到底是学习人脸识别、物体跟踪，又或者是计算摄影，三维重建呢？不知道该怎么下手。其实这些细分方向有很多共通的知识，我的建议是心急吃不了热豆腐，只有对计算机视觉这个领域有了一个初步的全面了解，你才能够结合实际问题找到自己感兴趣的研究方向，而兴趣能够支持一个自学的小白克服困难持续走下去。

1、入门书籍

既然说是入门，这里就不推荐类似《 Multiple View Geometry in Computer Vision》这种虽然经典但是小白看了容易放弃的书了。

像素级的图像处理知识是计算机视觉的底层基础知识。不管你以后从事计算机视觉的哪个细分领域，这些基础知识都是必须要了解的。即使一个急切入门的小白，这一关也必须走的踏实。看到网上有人说直接从某个项目开始，边做边学，这样学的快。对此我表示部分赞成，原因是他忽略了基础知识的重要性，脑子里没有基本的术语概念知识打底，很多问题他根本不知道如何恰当的表达，遇到问题也没有思路，不知道如何搜索，这会严重拖慢进度，也无法做较深入的研究，欲速则不达。

入门图像处理的基础知识也不是直接去啃死书，否则几个公式和术语可能就会把小白打翻在地。这里推荐两条途径，都是从实践出发并与理论结合：一个是OpenCV，一个是MATLAB。

OpenCV以C++为基础，需要具备一定的编程基础，可移植性强，运行速度比较快，比较适合实际的工程项目，在公司里用的较多；MATLAB只需要非常简单的编程基础就可以很快上手，实现方便，代码比较简洁，可参考的资料非常丰富，方便快速尝试某个算法效果，适合做学术研究。当然两者搭配起来用更好啦。下面分别介绍一下。

用MATLAB学习图像处理

推荐使用冈萨雷斯的《数字图像处理（MATLAB版）》（英文原版2001年出版，中译版2005年）。不需要一上来就全部过一遍，只需要结合MATLAB学习一下基本原理、图像变换、形态学处理、图像分割，以上章节强烈建议按照书上手动敲一遍代码（和看一遍的效果完全不同），其他章节可快速扫描一遍即可。但这本书比较注重实践，对理论的解释不多，理论部分不明白的可以在配套的冈萨雷斯的《数字图像处理（第二版）》这本书里查找，这本书主要是作为工具书使用，以后遇到相关术语知道去哪里查就好。

用OpenCV学习图像处理

OpenCV（Open Source Computer Vision Library）是一个开源跨平台计算机视觉程序库，主要有C++预研编写，包含了500多个用于图像/视频处理和计算机视觉的通用算法。

学习OpenCV参考《学习OpenCV》或者《OpenCV 2 计算机视觉编程手册》都可以。这两本都是偏实践的书，理论知识较少，按照书上的步骤敲代码，可以快速了解到OpenCV的强大，想要实现某个功能，只要学会查函数（在https://www.docs.opencv.org/查询对应版本），调函数就可以轻松搞定。由于每个例子都有非常直观的可视化图像输出，所以学起来比较轻松有趣。

2、进阶书籍

经过前面对图像处理的基本学习，小白已经了解了图像处理的基础知识，并且会使用OpenCV或MATLAB来实现某个简单的功能。但是这些知识太单薄了，并且比较陈旧，计算机视觉领域还有大量的新知识在等你。

同样给你两种选择，当然两个都选更佳。一本书是2010年出版的美国华盛顿大学Richard Szeliski写的《Computer Vision: Algorithms and Application》；一本是2012年出版的，加拿大多伦多大学Simon J.D. Prince写的《Computer Vision: Models, Learning, and Inference》。两本书侧重点不同，前者侧重视觉和几何知识，后者侧重机器学习模型。当然两本书也有互相交叉的部分。虽然都有中文版，但是如果有一定的英语阅读基础，推荐看英文原版（见文末获取方式）。老外写的书，图和示例还是挺丰富的，比较利于理解。

《Computer Vision: Algorithms and Application》

这本书图文并茂地介绍了计算机视觉这门学科的诸多大方向，有了前面《数字图像处理》的基础，这本书里有些内容你已经熟悉了，没有那么强的畏惧感。相对前面的图像处理基础本书增加了许多新的内容，比如特征检测匹配、运动恢复结构、稠密运动估计、图像拼接、计算摄影、立体匹配、三维重建等，这些都是目前比较火非常实用的方向。如果有时间可以全书浏览，如果时间不够，你可以根据兴趣，选择性的看一些感兴趣的方向。这本书的中文版翻译的不太好，可以结合英文原版看。

《Computer Vision: Models, Learning, and Inference》

该书从基础的概率模型讲起，涵盖了计算机视觉领域常用的概率模型、回归分类模型、图模型、优化方法等，以及偏底层的图像处理、多视角几何知识，图文并茂，并辅以非常多的例子和应用，非常适合入门。在其主页：
http://www.computervisionmodels.com/
上可以免费下载电子书。此外还有非常丰富的学习资源，包括给教师用的PPT、每章节对应的开源项目、代码、数据集链接等，非常有用。

二、深入实践

当你对计算机视觉领域有了比较宏观的了解，下一步就是选一个感兴趣的具体的领域去深耕。这个时期就是具体编程实践环节啦，实践过程中有疑问，根据相关术语去书里查找，结合Google，基本能够解决你大部分问题。

那么具体选择什么方向呢？

如果你实验室或者公司有实际的项目，最好选择当前项目方向深耕下去。如果没有具体方向，那么继续往下看。

我个人认为计算机视觉可以分为两大方向：基于学习的方法和基于几何的方法。其中基于学习的方法最火的就是深度学习，而基于几何方法最火的就是视觉SLAM。下面就这两个方向给出一个相对轻松的入门姿势。

1、深度学习

深度学习（Deep Learning）的概念是Hinton等人于2006年提出的，最早最成功的应用领域就是计算机视觉，经典的卷积神经网络就是为专门处理图片数据而生。目前深度学习已经广泛应用在计算机视觉、语音识别、自然语言处理、智能推荐等领域。

学习深度学习需要一定的数学基础，包括微积分、线性代数，很多小白一听到这些课程就想起了大学时的噩梦，其实只用了非常基础的概念，完全不用担心。不过如果一上来就啃书本，可能会有强烈的畏难情绪，很容易早早的放弃。

Andrew Ng (吴恩达)的深度学习视频课程我觉得是一个非常好的入门资料。首先他本人就是斯坦福大学的教授，所以很了解学生，可以很清晰形象、深入浅出的从最基本的导数开始讲起，真的非常难得。

该课程可以在网易云课程上免费观看，有中文字幕，但没有配套习题。也可以在吴恩达自己创办的在线教育平台Coursera上学习，有配套习题，限时免费，结业通过后有相应证书。

该课程非常火爆，不用担心听不懂，网上有数不清的学习笔记可以参考。简直小白入门必备佳肴。

2、视觉SLAM

SLAM（Simultaneous Localization and Mapping）（详见《SLAM初识》），中文译作同时定位与地图创建。视觉SLAM就是用摄像头作为主传感器，用拍摄的视频流作为输入来实现SLAM。视觉SLAM广泛应用于VR/AR、自动驾驶、智能机器人、无人机等前沿领域。

视觉SLAM最好的入门资料是高翔（清华博士，慕尼黑理工博后）的《视觉SLAM十四讲-从理论到实践》。该书每章节都涵盖了基础理论和代码示例，深入浅出，非常注重理论与实践结合，大大降低了小白的学习门槛。

好了，入门介绍到此为止，你可以开始你的计算机视觉学习之旅了！

温馨提示：本文提到的部分书籍资料，公众号：“计算机视觉life” 已经为你准备好了，公众号下方回复“入门”即可获取。

以下内容整理自 2017 年 6 月 29 日由“趣直播–知识直播平台”邀请的嘉宾实录。
分享嘉宾: 罗韵

目前，人工智能，机器学习，深度学习，计算机视觉等已经成为新时代的风向标。这篇文章主要介绍了下面几点：
第一点，如果说你要入门计算机视觉，需要了解哪一些基础知识？

第二点，既然你要往这方面学习，你要了解的参考书籍，可以学习的一些公开课有哪些？

第三点，可能是大家都比较感兴趣的，就是计算机视觉作为人工智能的一个分支，它不可避免的要跟深度学习做结合，而深度学习也可以说是融合到了计算机视觉、图像处理，包括我们说的自然语言处理，所以本文也会简单介绍一下计算机视觉与深度学习的结合。

第四点，身处计算机领域，我们不可避免的会去做开源的工作，所以本文会给大家介绍一些开源的软件。

第五点，要学习或者研究计算机视觉，肯定是需要去阅读一些文献的，那么我们如何开始阅读文献，以及慢慢的找到自己在这个领域的方向，这些都会在本文理进行简单的介绍。

1.基础知识

接下来要介绍的，第一点是计算机视觉是什么意思，其次是图像、视频的一些基础知识。包括摄像机的硬件，以及 CPU 和 GPU 的运算。
在计算机视觉里面，我们也不可避免的会涉及到考虑去使用 CPU 还是使用 GPU 去做运算。然后就是它跟其他学科的交叉，因为计算机视觉可以和很多的学科做交叉，而且在做学科交叉的时候，能够发挥的意义和使用价值也会更大。另外，对于以前并不是做人工智能的朋友，可能是做软件开发的，想去转型做计算机视觉，该如何转型？需要学习哪些编程语言以及数学基础？这些都会在第一小节给大家介绍。

1.0 什么是计算机视觉

计算机视觉是一门研究如何使机器“看”的科学。
更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给一起检测的图像
作为一个科学学科，计算机视觉研究相关的理论和技术，视图建立能够从图像或者多维数据中获取“信息”的人工智能系统。
目前，非常火的VR、AR，3D处理等方向，都是计算机视觉的一部分。
计算机视觉的应用

无人驾驶
无人安防
人脸识别
车辆车牌识别
以图搜图
VR/AR
3D重构
医学图像分析
无人机
其他

了解了计算机视觉是什么之后，给大家列了一下当前计算机视觉领域的一些应用，几乎可以说是无处不在，而且当前最火的所有创业的方向都涵盖在里面了。其中包括我们经常提到的无人驾驶、无人安防、人脸识别。人脸识别相对来说已经是一个最成熟的应用领域了，然后还有文字识别、车辆车牌识别，还有以图搜图、 VR/AR，还包括 3D 重构，以及当下很有前景的领域–医学图像分析。
医学图像分析他在很早就被提出来了，已经研究了很久，但是现在得到了一个重新的发展，更多的研究人员包括无论是做图像的研究人员，还是本身就在医疗领域的研究人员，都越来越关注计算机视觉、人工智能跟医学图像的分析。而且在当下，医学图像分析也孕育了不少的创业公司，这个方向的未来前景还是很值得期待的。然后除此之外还包括无人机，无人驾驶等，都应用到了计算机视觉的技术。

1.1图像和视频，你要知道的概念

图像
一张图片包含了：维数、高度、宽度、深度、通道数、颜色格式、数据首地址、结束地址、数据量等等。
- 图像深度：存储每个像素所用的位数（bits）
  - 当一个像素占用的位数越多时，它所能表现的颜色就更多，更丰富。
  - 举例：一张400*400的8位图，这张图的原始数据量是多少？像素值如果是整型的话，取值范围是多少？
    1，原始数据量计算：400 * 400 * ( 8/8 )=160,000Bytes
    (约为160K)
    2，取值范围：2的8次方，0~255
- 图片格式与压缩：常见的图片格式JPEG，PNG，BMP等本质上都是图片的一种压缩编码方式
  - 举例：JPEG压缩
    1，将原始图像分为8*8的小块，每个block里有64pixels。
    2，将图像中每个8*8的block进行DCT变换（越是复杂的图像，越不容易被压缩）
    3，不同的图像被分割后，每个小块的复杂度不一样，所以最终的压缩结果也不一样
视频
原始视频=图片序列。
视频中的每张有序图片称为“帧（frame）”。压缩后的视频，会采取各种算法减少数据的容量，其中IPB就是最常见的。
- I帧：表示关键帧，可以理解为这一幅画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）
- P帧：表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧画面差别的数据）
- B帧表示双向差别帧，记录的本帧与前后帧的差别（具体比较复杂，有4种情况），换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，要通过前后画面与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码比较麻烦。
- 码率：码率越大，体积越大；码率越小，体积越小。
  码率就是数据传输时单位时间传送的数据位数，一般我们用的单位是kbps即千位每秒。也就是取样率（并不等同于采样率，采样率用的单位是Hz，表示每秒采样的次数），单位时间内取样率越大，精度就越高，处理出来的文件就越接近原始文件，但是文件体积与取样率是成正比的，所以几乎所有的编码格式重视的都是如何用最低的码率达到最少的失真，围绕这个核心衍生出来cbr（固定码率）与vbr（可变码率），码率越高越清晰，反之则画面粗糙而且多马赛克。
- 帧率
  影响画面流畅度，与画面流畅度成正比：帧率越大，画面越流畅；帧率越小，画面越有跳动感。如果码率为变量，则帧率也会影响体积，帧率越高，每秒钟经过的画面就越多，需要的码率也越高，体积也越大。
  帧率就是在一秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟刷新的次数。
- 分辨率
- 影响图像大小，与图像大小成正比；分辨率越高，图像越大；分辨率越低，图像越小。
- 清晰度
  在码率一定的情况下，分辨率与清晰度成反比关系：分辨率越高，图像越不清晰，分辨率越低，图像越清晰
  在分辨率一定的情况下，码率与清晰度成正比关系：码率越高，图像越清晰；码率越低，图像越不清晰
- 带宽、帧率
  例如在ADSL线路上传输图像，上行带宽只有512Kbps，但要传输4路CIF分辨率的图像。按照常规，CIF分辨率建议码率是512Kbps，那么照此计算就只能传一路，降低码率势必会影响图像质量。那么为了确保图像质量，就必须降低帧率，这样一来，即便降低码率也不会影响图像质量，但在图像的连贯性上会有影响。

1.2摄像机

摄像机的分类：

监控摄像机（网络摄像机和摸你摄像机）
不同行业需求的摄像机（超宽动态摄像机、红外摄像机、热成像摄像机等）
智能摄像机
工业摄像机

当前的摄像机硬件我们可以分为监控摄像机、专业行业应用的摄像机、智能摄像机和工业摄像机。而在监控摄像机里面，当前用的比较多的两个类型一个叫做网络摄像机，一个叫做模拟摄相机，他们主要是成像的原理不太一样。
网络摄像机一般比传统模拟摄相机的清晰度要高一些，模拟摄像机当前应该说是慢慢处于一个淘汰的状态，它可以理解为是上一代的监控摄像机，而网络摄像机是当前的一个主流的摄相机，大概在 13 年的时候，可能市场上 70% 到 80% 多都是模拟摄像机，而现在可能 60% 到 70% 都是的网络摄像机。
除此之外，不同的行业其时会有特定的相机，想超宽动态摄像机以及红外摄像机、热成像摄像机，都是在专用的特定的领域里面可能用到的，而且他获得的画面跟图像是完全不一样的。如果我们要做图像处理跟计算机视觉分析，什么样的相机对你更有利，我们要学会利用硬件的优势。
如果是做研究的话一般是可以控制我们用什么样的摄相机，但如果是在实际的应用场景，这个把控的可能性会稍微小一点，但是在这里你要知道，有些问题可能你换一种硬件，它就能够很好的被解决，这是一个思路。
还有些问题你可能用算法弄了很久也没能解决，甚至是你的效率非常差，成本非常高，但是稍稍换一换硬件，你会发现原来的问题都不存在了，都被很好的解决了，这个就是硬件对你的一个新的处境了。
包括现在还有智能摄像机、工业摄像机，工业摄像机一般的价格也会比较贵，因为他专用于各种工业领域，或者是做一些精密仪器，高精度高清晰度要求的摄像机。

1.3 CPU和GPU

接下来给大家讲一下 CPU 跟 GPU，如果说你要做计算机视觉跟图像处理，那么肯定跳不过 GPU 运算，GPU 运算这一块可能也是接下来需要学习或者自学的一个知识点。
因为可以看到，当前大部分关于计算机视觉的论文，很多实现起来都是用 GPU 去实现的，但是在应用领域，因为 GPU 的价格比较昂贵，所以 CPU 的应用场景相对来说还是占大部分。
而 CPU 跟 GPU 的差别主要在哪里呢？它们的差别主要可以在两个方面去对比，第一个叫性能，第二个叫做吞吐量。
性能，换言之，性能会换成另外一个单词叫做 Latency（低延时性）。低延时性就是当你的性能越好，你处理分析的效率越高，相当于你的延时性就越低，这个是性能。另外一个叫做吞吐量，吞吐量的意思就是你同时能够处理的数据量。
而 CPU 跟 GPU 的差别在哪里呢？主要就在于这两个地方，CPU 它是一个高性能，就是超低延时性的，他能够快速的去做复杂运算，并且能达到一个很好的性能要求。而 GPU是以一个叫做运算单元为格式的，所以他的优点不在于低延时性，因为他确实不善于做复杂运算，他每一个处理器都非常的小，相对来说会很弱，但是它可以让它所有的弱处理器，同时去做处理，那相当于他就能够同时处理大量的数据，那这个就意味着它的吞吐量非常大，所以 CPU重视的是性能，GPU重视的是吞吐量。
所以大部分时候，GPU 他会跟另外一个词语联系在一起，叫做并行计算，意思就是它可以同时做大量的线程运算，为什么图像会特别适合用 GPU 运算呢？这是因为 GPU 它最开始的设计就是叫做图形处理单元，它的意思就是我可以把每一个像素，分割为一个线程去运算，每一个像素只做一些简单的运算，这个就是最开始图形处理器出现的原理。
它要做图形渲染的时候，要计算的是每一个像素的变换。所以每一个像素变换的计算量是很小很小的，可能就是一个公式的计算，计算量很少，它可以放在一个简单的计算单元里面去做计算，那这个就是 CPU 跟 GPU 的差别。
基于这样的差别，我们才会去设计什么时候用 CPU，什么时候用 GPU。如果你当前设计的算法，它的并行能力不是很强，从头到尾从上到下都是一个复杂的计算，没有太多可并性的地方，那么即使你用了 GPU，也不能帮助你很好提升计算性能。

所以，不要说别人都在用 GPU 那你就用 GPU，我们要了解的是为什么要用 GPU ，以及什么样的情况下用 GPU，它效果能够发挥出来最好。

1.4计算机视觉与其他学科的关系

计算机视觉目前跟其他学科的关系非常的多，包括机器人，以及刚才提到的医疗、物理、图像、卫星图片的处理，这些都会经常使用到计算机视觉，那这里呢，最常问到的问题无非就是有三个概念，一个叫做计算机视觉，一个叫做机器视觉，一个叫做图像处理，那这三个东西有什么区别呢？
这三个东西的区别还是挺因人而异的，每一个研究人员对它的理解都不一样。
首先，Image Processing更多的是图形图像的一些处理，图像像素级别的一些处理，包括 3D 的处理，更多的会理解为是一个图像的处理；而机器视觉呢，更多的是它还结合到了硬件层面的处理，就是软硬件结合的图形计算的能力，跟图形智能化的能力，我们一般会理解为他就是所谓的机器视觉。
而我们今天所说的计算机视觉，更多的是偏向于软件层面的计算机处理，而且不是说做图像的识别这么简单，更多的还包括了对图像的理解，甚至是对图像的一些变换处理，当前我们涉及到的一些图像的生成，也是可以归类到这个计算机视觉领域里面的。
所以说计算机视觉它本身的也是一个很基础的学科，可以跟各个学科做交叉，同时，它自己内部也会分的比较细，包括机器视觉、图像处理。

1.5 编程语言AND数学基础

这一部分的内容可以参见《非计算机专业，如何学习计算机视觉》

2.参考书籍和公开课

参考书
第一本叫《Computer Vision：Models, Learning and Inference》written by Simon J.D. prince，这个主要讲的更适合入门级别的，因为这本书里面配套了非常多的代码，Matlab 代码，C 的代码都有，配套了非常多的学习代码，以及参考资料、文献，都配得非常详细，所以它很适合入门级别的同学去看。

第二本《Computer Vision：Algorithms and Applications》written by Richard Szeliski，这是一本非常经典，非常权威的参考资料，这本书不是用来看的，是用来查的，类似于一本工具书，它是涵盖面最广的一本参考书籍，所以一般会可以当成工具书去看，去查阅。

第三本《OpenCV3编程入门》作者：毛星云，冷雪飞，如果想快速的上手去实现一些项目，可以看看这本书，它可以教你动手实现一些例子，并且学习到 OpenCV 最经典、最广泛的计算机视觉开源库。

公开课：
Stanford CS223B
比较适合基础，适合刚刚入门的同学，跟深度学习的结合相对来说会少一点，不会整门课讲深度学习，而是主要讲计算机视觉，方方面面都会讲到。

Stanford CS231N
这个应该不用介绍了，一般很多人都知道，这个是计算机视觉和深度学习结合的一门课，我们上 YouTube 就能够看到，这门课的授课老师就是李飞飞老师，如果说不知道的话可以查一下，做计算机视觉的话，此人算是业界和学术界的“执牛耳”了。

3.需要了解的深度学习知识

深度学习没有太多的要讲的，不是说内容不多，是非常多，这里只推荐一本书给大家，这本书是去年年底才出的，是最新的一本深度学习的书，它讲得非常全面，从基础的数学，到刚才说的概率学、统计学、机器学习以及微积分、线性几何的知识点，非常的全面。

4.需要了解和学习的开源软件

OpenCV
它是一个很经典的计算机视觉库，实现了很多计算机视觉的常用算法。可以帮助大家快速上手。
Caffe
如果是做计算机视觉的话，比较建议 Caffe。Caffe 更擅长做的是卷积神经网络，卷积神经网络在计算机视觉里面用的是最多的。
所以无论你后面学什么样其它的开源软件， Caffe 是必不可免的，因为学完 Caffe 之后你会发现，如果你理解了 Caffe，会用 Caffe，甚至是有能力去改它的源代码，你就会发现你对深度学习有了一个质的飞跃的理解。
TensorFlow
TensorFlow 最近很火，但是它的入门门槛不低，你要学会使用它需要的时间远比其他所有的软件都要多，其次就是它当前还不是特别的成熟稳定，所以版本之间的更新迭代非常的多，兼容性并不好，运行效率还有非常大的提升空间。

5.如何阅读相关的文献

先熟悉所在方向的发展历程，然后精读历程中的里程碑式的文献。
例如：深度学习做目标检测，RCNN，Fast RCNN，Faster RCNN，SPPNET，SSD和YOLO这些模型肯定是要知道的。又例如，深度学习做目标跟踪，DLT，SO-DLT等。

计算机视觉的顶会：
ICCV：International Conference on Computer Vision，国际计算机视觉大会
CVPR：International Conference on Computer Vision and Pattern Recognition，国际计算机视觉与模式识别大会
ECCV：European Conference on Computer Vision，欧洲计算机视觉大会
除了顶会之外呢，还有顶刊。像 PAMI、IJCV，这些都是顶刊，它代表着这个领域里面最尖端最前沿以及当下的研究方向。

你可能感兴趣的:(计算机视觉)

探索OpenCV 3.2源码：计算机视觉的架构与实现轩辕姐姐
本文还有配套的精品资源，点击获取简介：OpenCV是一个全面的计算机视觉库，提供广泛的功能如图像处理、对象检测和深度学习支持。OpenCV3.2版本包含了改进的深度学习和GPU加速特性，以及丰富的示例程序。本压缩包文件提供了完整的OpenCV3.2源代码，对于深入学习计算机视觉算法和库实现机制十分宝贵。源码的模块化设计、C++接口、算法实现、多平台支持和性能优化等方面的深入理解，都将有助于开发者的
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
计算机视觉算法实战——关键点检测
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言关键点检测（KeypointDetection）是计算机视觉领域中的一个重要研究方向，旨在从图像或视频中检测出具有特定语义信息的关键点。这些关键点通常代表了物体的特定部位或特征，例如人体的关节、面部特征点、车辆的轮子等。关键点检测在姿态估计、动作识别、目标跟踪、三维重建等任务中
复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

计算机视觉学习建议

目录

简介

方向

物体识别和检测

近年代表论文

数据集

语义分割

近年代表论文

数据集

运动和跟踪

近年代表论文

数据集

视觉问答

近年代表论文

数据集

热点

小白入门计算机视觉：这是最全的一份CV技术学习之路

一、宏观认识

1、入门书籍

用MATLAB学习图像处理

用OpenCV学习图像处理

2、进阶书籍

《Computer Vision: Algorithms and Application》

《Computer Vision: Models, Learning, and Inference》

二、深入实践

1、深度学习

2、视觉SLAM

1.基础知识

1.0 什么是计算机视觉

1.1图像和视频，你要知道的概念

1.2摄像机

1.3 CPU和GPU

1.4计算机视觉与其他学科的关系

1.5 编程语言AND数学基础

2.参考书籍和公开课

3.需要了解的深度学习知识

4.需要了解和学习的开源软件

5.如何阅读相关的文献

你可能感兴趣的:(计算机视觉)