浅析深度学习与计算机视觉

目录

第一章 深度学习与计算机视觉

        1.1 图像基础

        1.2深度学习与神经网络基础

第一章 深度学习与计算机视觉

        1.1 图像基础

        在计算机中,图像的最基本组成单元为像素,图片是包含很多像素的集合。像素一般就是图片中某个位置的颜色,很多个像素点排列起来,就可以组成一个二维平面点阵,这就是图像。例如:电脑桌面背景,如果是1920px×1080px的大小,那就意味着有1920×1080(即2073600)个像素:1920列,1080行。通常图像表达会用色彩空间的概念,常见的有RGB、LAB、HSL和灰度等,这里主要介绍RGB和灰度两种,其他的我们之后再慢慢讨论。RGB图像又称为三通道彩色图,灰度图又可以相应的称为单通道图。通道数可以简单理解为表示单个像素所需要的数字的个数。

        图像分两类:模拟图像和数字图像。两者之间最大的区别就是像素的值域,模拟图像像素的值域是连续的,是人眼所认识到的;而数字图像像素的取值是离散的、有限的,是计算机所理解的。这里主要讨论的是计算机所认识的图像,即数字图像,也是计算机视觉的主要任务。

        在计算机中,灰度图像中的像素通常用0~255之间的一个整数数字表示,0表示黑色,255表示白色,数字从0变到255 表示颜色由黑变白的一个过程。颜色越黑越接近0,颜色越白越接近255

        RGB彩色空间则使用三个整数数字来表示一个像素,如(0,100,200),分别表示红色部分的颜色值是0,绿色部分为100,蓝色部分为200。RGB分别表示英文单词Red,Green,Blue,其对应的取值范围都是0~255,数值越大表示颜色越浅,数值越大则表示越饱和。所以RGB像素不同的组合总数为256×256×256=16777216,其中(0,0,0)表示黑色,(255,255,255)表示白色。

         基于以上认识,像素点阵就可以用矩阵来表示,差异就是不同空间表示像素的方法不同。灰度图可以简单的理解为一个二维矩阵,里面填满了0~255间的整数;而彩色图则是三维矩阵,其维度分别代表高、宽和通道数。

        1.2深度学习与神经网络基础


你可能感兴趣的:(计算机视觉,深度学习,人工智能)