[108]计算机视觉的图像基础

背景

本文档为计算机机器学习相关笔记,探讨了计算机视觉的应用。

视觉应用分类

应用分类具体有两种:

  1. 语义感知
    语义感知有:分类(一幅图中猫、狗划分出来)、检测(检测人脸、行人)Detection、识别-Recognition(识别出运动或静止中人)、检索-Retrieval(看相似度有多高,以图搜索图,比如搜狗图片搜索)、分割(?)
  2. 几何属性(什么是几何属性?)
    3D建模、双目视觉、增强现实

颜色空间

颜色空间有RGB和HSV

  1. RGB空间:
    RGB以red green blue,3种颜色组合成的颜色空间。
  2. HSV/HSL(I)空间:
    3通道为: H/Hue通道(颜色种类),Saturation(颜色浓淡)、value(颜色明亮度)、Lightness(I/Intensity)(亮度、光照亮度)
    在两个空间中都可以表示一个像素的颜色值,在RGB空间终究是(b,g,r),在hsv空间中表示为(h,s,v/l/i),请看如下图:


    image.png

亮度适应和鉴别(人眼是有误判)

下图中中间一小块的亮度是一样的,但是人眼由于有周围背景的对比,我们会感觉3个小图的亮度是不一样的。(这方面机器检测比人眼强多了)


image.png

图像的取样和量化

我们知道电脑中的图片都是以数字的形式存放,那么这个数字图片是如何生成的呢?
数字图像的生成包括取样和量化,下面图描述了一幅图如何从模拟信号转换为数字信号及其取样和量化的过程。


image.png

计算机都是通过0,1离散的值来表示信息,同样图像表示中我们把图像分成一个一个像素,像素越大精度越大。如下图,图像被分割成很多像素,每个像素有一个灰度值。右边小图由于像素精度太低所以出现马赛克的式样,如果像素越来越大越能够平滑真实的表示图像信息。


图像像素描述

实际过程中我们有均匀采用和非均匀采用,非均匀采样就是图片不同区域采样的精度不一样,比如电影夜晚画面,依据注意力引导机制,对人就高精度采样,背景就低精度采样。

图像在电脑中就是以矩阵形式存储,坐标可以有多种(直角的、矩阵的、像素的),矩阵里面的值可以是灰度值/RGB值。
坐标的精度就是空间分辨率,坐标里的一格表示物理图像中尺寸多大即采样间隔值,用3维坐标来说就是X,Y坐标的采样间隔值。
而灰度分辨率就是竖坐标H的精度,如果 A(Xa,ya)区域 的灰度值为4.56,B(Xb,yb)区域 的灰度值为4.57,此时如果H轴的分辨率如果是0.01,那么A,B区域灰度值就区分开来了;如果H轴分辨率是0.1那么A,B区域的H轴值一样,这样图片表示不细腻。当H轴分辨率低到一定程度会出现断层,无中生有的轮廓。

像素内的值如何填充

我们知道一个像素是一个小方块且这一小方块的值是一样的,更细节的观察这个小方块 有4个顶点。那么这个小方块的值该取哪个顶点的值呢,还是4个顶点平均一下。
关于像素内值如何取的问题我们叫做图像内插值,最常见的插值方法有:
1).最近领域
2).双线性差值
3).双3次插值 (又叫双立方插值,具体参考:https://baike.baidu.com/item/%E5%8F%8C%E4%B8%89%E6%AC%A1%E6%8F%92%E5%80%BC)

image.png

图像放大

假设我们分辨率不变,如果图像放大那么屏幕上展示的图像放大。意味着图像覆盖的像素点变大的,但由于是放大操作所以是机遇存储在电脑中以后像素进行放大。那么放大后的各像素如何填充呢?
具体见如下图所示:


放大图像像素填充

图像的运算

图像在计算机中是以矩阵形式存储的,我们对图像进行点对点的加减乘除计算,每个运算都有其各自的场景和特点。
1.加法:去除“叠加性”噪音,g(m,n)= af(m,n) + bh(m,n)
2.减法:检测两幅图像之间的变化,比如监控器中查看任务运动轨迹。

  1. 乘法:图像局部显示,比如用二值蒙板图像与原图像做乘法,利用类似0*任何数=0 特性。

其他一些概念及疑问

1).置信度:https://baike.baidu.com/item/%E7%BD%AE%E4%BF%A1%E5%BA%A6 这个需要查看概率论的书。
2).图像减法可以得出固定背景下某个运动物体的轨迹,那么如果背景也是动的情况如何处理呢?

你可能感兴趣的:([108]计算机视觉的图像基础)