计算机视觉(computer vision,CV)

文章目录

  • 0 写在前面
  • 1 基本任务
    • 1.1 图像识别(Image Recognition)
    • 1.2 目标检测(Object Detection)
    • 1.3 语义分割(Semantic Segmentation)
    • 1.4 图片转换
    • 1.5 看图说话/看图问答
    • 1.6 定位
  • 2 改进的算法
    • 2.1 R-CNN
    • 2.2 Fast R-CNN
  • 3 人脸识别
    • 3.1 人脸验证问题和一次学习(One-Shot Learning)
      • 3.1.1 Siamese网络
      • 3.1.2 Triplet(三元组) 损失函数
      • 3.1.3 面部验证和二分类
    • 3.2 活体检测
  • 4 深度学习与艺术
    • 4.1 神经风格转换

0 写在前面

1 基本任务

1.1 图像识别(Image Recognition)

也叫图像分类(Image Classification),利用常规CNN即可。

1.2 目标检测(Object Detection)

目标定位:输出包括类别对象框的位置(x,y,h,w),x和y表示框的坐标、h和w表示高度和宽度。
特征点检测:比如检测4个眼角的位置可以用 l 1 x , l 1 y , l 2 x , . . . l_{1x},l_{1y},l_{2x},... l1x,l1y,l2x,...等8个特征表示(l为landmark),同样的检测嘴巴的形状也可以用多个特征表示。

基于滑动窗口的目标检测算法
计算机视觉(computer vision,CV)_第1张图片
缺点一:计算成本大
解决方法:实际上不需要每个小方框训练一次卷积神经网络,而是对整个图像训练卷积神经网络即可一次得到所有结果。

缺点二:难以得到合适的边界框
引入了YOLO算法:划分原始图像,并对每个窗口进行目标定位(同样只需要对整个图像计算卷积)。
缺点三:一个对象检测多次
非极大值抑制:首先选择最大概率为目标的框,让它高亮,并删除和它高交并比的框,重复选择和删除即可。
计算机视觉(computer vision,CV)_第2张图片
缺点四:对于重叠物体难以识别
Anchor Boxes:在输出中加入了形状,如下图有两个Anchor Boxes,则输出变成两倍长。
计算机视觉(computer vision,CV)_第3张图片
目标检测的评价指标:
交并比函数(Intersection over Union,IoU):交集和并集的面积比。
I o u ≥ 0.5 Iou \ge0.5 Iou0.5表示检测正确。

1.3 语义分割(Semantic Segmentation)

也叫语义识别(Speech Recognition)
计算机视觉(computer vision,CV)_第4张图片

1.4 图片转换

计算机视觉(computer vision,CV)_第5张图片

1.5 看图说话/看图问答

Image2seq
计算机视觉(computer vision,CV)_第6张图片

1.6 定位

2 改进的算法

2.1 R-CNN

带区域的CNN,regions + convnets
选出有价值的区域

运用图像分割算法,然后对各类色块分别进行识别
计算机视觉(computer vision,CV)_第7张图片

2.2 Fast R-CNN

  1. 用对整个图像进行卷积替代了对色块逐个卷积。
  2. 用CNN获取色块。

3 人脸识别

3.1 人脸验证问题和一次学习(One-Shot Learning)

人脸识别中的第一个问题就是人脸验证问题,即验证两张照片是否是同一个人。
只需学习距离(distance)函数d(img1,img2),表示两张照片的差异程度。
因为当一个人脸与数据库中的某一张照片差异程度< τ \tau τ,则说明该人脸是数据库中的员工,反之若与数据库中的所有照片的差异程度都> τ \tau τ则说明该人脸不是数据库中的员工。

3.1.1 Siamese网络

用于学习函数d。

计算机视觉(computer vision,CV)_第8张图片
用相同参数的卷积神经网络。

3.1.2 Triplet(三元组) 损失函数

通过学习CNN的参数来得到优质的人脸图片编码的方法之一就是定义三元组损失函数然后应用梯度下降。
三元组(A,P,N)
计算机视觉(computer vision,CV)_第9张图片
检测对象(Anchor)和正例(Positive)的距离要比检测对象和反例(Negative)的距离小的多,距离之差要超过一个超参数 α \alpha α
在这里插入图片描述

对于选择三元组,需要尽量让 d ( A , P ) ≈ d ( A , N ) d(A,P)\approx d(A,N) d(A,P)d(A,N),才能达到训练目的。

3.1.3 面部验证和二分类

看作是分类问题,用最后的特征向量作为输入,是否为同一个人作为label,应用逻辑回归学习CNN参数。
计算机视觉(computer vision,CV)_第10张图片

3.2 活体检测

用机器学习就可以实现

4 深度学习与艺术

4.1 神经风格转换


定义损失函数然后应用梯度下降
在这里插入图片描述
选择第l层网络
计算机视觉(computer vision,CV)_第11张图片
计算机视觉(computer vision,CV)_第12张图片
计算机视觉(computer vision,CV)_第13张图片

你可能感兴趣的:(深度学习)