1,人脸图像与特征基础
人脸图像的特点
规律性: 人的两只眼睛总是对称分布在人脸的上半部分,鼻子和嘴唇中心点的连线基本与两眼之间的连线垂直,嘴绝对不会超过眼镜的两端点(双眼为d,则双眼到嘴巴的垂直距离一般在0.8-1.25)
唯一性
非侵扰与便利性
可扩展性
人脸图像的应用
身份认证: 门禁,支付
视觉监控系统: 监控
协助犯罪侦查: 追捕,寻找
表情分析: 游戏,远程教育,司机提醒
脸型分析: 发型设计,眼镜行业,美容行业,虚拟化妆
生理分析: 年龄,性别,种族,颜值
人物换脸: 影视传媒
人脸美容: 美颜相机
人脸特效: 社交,直播平台
图像智能分类: 终端图集整理分类
人脸特征基础
几何特征
肤色特征
YCbCr颜色空间: 能够将亮度信息与色度信息从空间中有效地分离
区域模型: 取决于阈值的设定
统计直方图模型: 依赖训练数据
高斯模型: 根据概率公式得到改像素点是肤色的概率值
混合高斯模型: 准确率高,计算复杂度更高,算法运算时间较长
纹理特征
LBP特征(在特定窗口内的像素属性值的分布和大小关系来反映局部纹理信息)
基于图像自身的局部差值,有效对抗光照变化
HOG特征(经过灰度化,归一化后统计图像的梯度信息)
将图像进行灰度化处理
利用各类变换对图像进行全局归一化
对图像计算梯度大小和梯度方向
将图像划分成许多小的细胞单元
统计每个cell的梯度直方图
haar特征(简单的矩阵特征,对相邻图像块进行灰度比较)
gabor特征(基于图像频率域的一种特征,用于图片的局部纹理信息)
变换的多方向性和多尺度性可以描绘人脸图像不同方向的纹理分布信息,具有空间局部性和方向选择性的优点
eigenfaces特征
fisherfaces特征
人脸图像工程常用的机器学习算法
svm(基于统计学习vc维理论与结构风险极小化原理的算法,将基于最大化间隔获得的分类超平面思想与基于核技术的方法结合在一起,通过部分数据构建模型,对新的数据进行预测并做出分类)
adaboost(通过不断训练来提高模型对数据的分类能力)
本质上是一种迭代算法,其核心思想是使用弱分类器对样本进行检测,将这些弱分类器组合起来,生成一个强分类器
在强分类器中,误差率低的分类器占的权重较大,误差率高的分类器占的权重较小,经常与adaboost算法一起使用的特征为haar型特征
深度学习基础
神经网络
神经元模型
感知机
BP算法(多层感知机)
容易陷入局部最优解,梯度消失现象严重
卷积神经网络基础
语音,图像,自然语言,得益于海量数据
卷积操作
卷积就是一种运算
反卷积
双线性插值法
转置卷积
得到了上采样倍率后,再根据步长的大小和边界补充的方式,对初始输入进行变换,然后使用与卷积一样的方法进行参数的学习
卷积神经网络的基本概念
传统的bp神经网络中,前后层之间的神经元是全连接的,而卷积中的神经元与上一层的部分神经元相连
感受野(就是视觉感受区域的大小)
cnn中的某一层输出结果的一个元素对应输入层的一个映射,即特征平面上的一个点所对应的输入图上的区域
池化
对输入的特征平面进行压缩,一方面使特征平面变小,简化网络计算复杂度,另一方面可以实现特征抽象,提取主要特征
平均池化
最大池化
卷积神经网络的核心思想
稀疏连接与权重共享
能建模图像结构信息
卷积神经网络基本结构配置
数据输入层(原始图像)
卷积神经网络是一个无监督的特征学习网络
主要对原始图像数据进行预处理,基础的操作包括去均值,灰度归一化
卷积层
网络的特征提取层
一个卷积层可以有多个不同的卷积核,图像通过多个不同的卷积核进行处理并提取出特征,每个卷积核映射出一个新的特征平面,再将卷积输出结果进行非线性激活函数的处理
激活层
relu
池化层
用于压缩网络参数和数据大小,降低过拟合,主要作用就是压缩图像的同时保证该图像特征的不变性
全连接层
全连接层在卷积神经网络结构的最后,它也有卷积核和偏移量两个参数
损失层
损失函数(SGD)
精度层
输入就是网络的输出和真实的标签
深度学习优化基础
激活模型与常用的激活函数
线性模型与阈值模型
sigmoid函数