线性回归、感知机、逻辑回归、SVM

线性回归

线性回归是一个回归问题,即用一条线去拟合训练数据。
模型:根据训练数据学习一个特征的线性组合,作为预测函数。
这里写图片描述
学习策略:最小化均方误差损失函数,求解参数w;(注意与感知机的区别,此处误分类点与坐标轴垂直)
这里写图片描述
这里写图片描述
求解方法: 最小二乘法,梯度下降法(两者的区别)
最小二乘法:对目标损失函数求导,导数为零的点对应的参数,就是待求参数:
均方误差函数:
这里写图片描述
目标函数对参数的偏导:
线性回归、感知机、逻辑回归、SVM_第1张图片
导数为零的点,就是极值点:
线性回归、感知机、逻辑回归、SVM_第2张图片
梯度下降法:
曲面上沿着梯度的方向是函数值变化(增大)最快的方向,因此要得到J(w)最小值,应该沿着梯度的反方向,使用沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。
这里写图片描述
更新过程:
这里写图片描述
梯度下降(batch gradent):W的每一次更新,使用所有的样本。计算得到的是一个标准梯度。更新一次的幅度较大,样本不大的情况,收敛速度可以接受;但是若样本太大,收敛会很慢。
随机梯度下降(stochastic gradient decsent ):随机 — 每次使用训练数据中的一个样本更新,因而随机梯度下降是会带来一定的问题,因为计算得到的并不是准确的一个梯度,容易陷入到局部最优解中。一直不会收敛,只是在最小值附近波动。
批量梯度下降(mini-batch):批量的梯度下降就是一种折中的方法,他用了一些小样本来近似全部的样本。即:每次更新w使用一批样本。
步长太小,收敛速度太慢
步长太大,会在最佳收敛点附近徘徊
最小二乘法与梯度下降法的异同:
实现实现不同:最小二乘法是直接对 Δ Δ 求导找出全局最小,是非迭代法。而梯度下降法是一种迭代法,先给定一个 β β ,然后向 Δ Δ 下降最快的方向调整 β β ,在若干次迭代之后找到局部最小。
梯度下降法的缺点是到最小点的时候收敛速度变慢,并且对初始点的选择极为敏感,其改进大多是在这两方面下功夫。

感知机

感知机是一个二分类问题。
模型:这里写图片描述
线性回归的输出作为阶跃函数的输入,最终的输出便是分类的结果。
学习策略:误分类点到分类超平面的总距离。(注意与线性回归的区别,此处误分类点与超平面垂直)
对于超平面wx+b=0,w是垂直于超平面的法向量。
点到超平面的距离:这里写图片描述
误分类点到超平面的距离:这里写图片描述
对于误分类点,函数距离为负,需要乘以-1,变成距离。
损失函数:误分类点到超平面(wx+b=0)的总距离(1/|w|不影响求最优值)
这里写图片描述
当损失函数L(w,b)最小时的参数(w1,w2, … , wn,b),便是最终模型中的参数。这里写图片描述
优化方法:梯度下降法
梯度:这里写图片描述
更新过程:这里写图片描述

逻辑回归

逻辑回归是一个二分类问题。
模型:这里写图片描述
将线性回归的输出作为sigmoid函数的输入,最终的输出便是分类的结果即是输入的条件概率。
感知器算法存在跳跃,在0点不可导,且在0附近模型容易受到干扰,采用logistic函数代替阶跃函数。
线性回归、感知机、逻辑回归、SVM_第3张图片
学习策略:最大似然函数:存在即合理:求所有训练样本的条件概率之积的最大值。
损失函数:对数似然损失函数
这里写图片描述
这里写图片描述
损失函数原始形式:这里写图片描述
L表示所有训练样本的条件概率之积。
对数损失函数:这里写图片描述
目标是求得损失函数的最大值,即:最大似然估计。
这里写图片描述,将最大值优化问题转换成最小值优化问题:这里写图片描述
梯度:这里写图片描述
更新:这里写图片描述

SVM

在感知器分类选分类超平面时,我们可以选择很多个平面作为超平面,而选择哪个超平面最好呢,我们可以选择距离正样本和负样本最远的超平面作为分类超平面,基于这种想法人们提出了SVM算法。SVM的损失函数为合页函数,当分类错误时,函数间隔越大,则损失函数值越大。当分类正确且样本点距离超平面一定距离以上,则损失函数值为0。误分类的点和与分类超平面距离较近的点会影响损失函数的值。

[1y(wTx+b)]+ [ 1 − y ( w T x + b ) ] +

线性回归用于解决回归问题;
其他三类解决分类问题,且都是对线性回归的输出做了一些处理,logistic和svm是由感知器发展改善而来的。区别在于三者的损失函数不同。后两者的损失函数的目的都是增加对分类影响较大的数据点的权重。
SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。考虑局部最优化,如何让靠近中间线的点尽可能的远离中间线会占用更高的权值,远离中间线的值,权重为零。
逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重,在所有样本上最优。
线性回归、感知机、逻辑回归、SVM_第4张图片

你可能感兴趣的:(detection)