Mechanical learning-Lecture4

Lecturer: Liming

1 统计机器学习

2 深度学习->连接主义（暗箱，易学，但解释）调包侠

拟合（连续）eg，横坐标：面积，纵坐标：房价，找到一条回归函数
分类（离散）eg，垃圾邮件分类，垃圾分类
Hypothesis，h(x)=sign(W”T”+b) = {1, W”T”+b>0
{0, W”T”+b<0
注：T是转置

感知机，SVM，逻辑回归的本质一样，只是最优分界面不一样。
优的标准：不好的尽量小

1感知机

分错到分界面的加和距离min，对0xx0误解
W”T转置”+b=0的一条线，法向量是W(->),

点到直线的距离=向量A·向量B/|向量B|=|向量A||向量B|cos<向量A , 向量B>/|向量B|=|向量A| cos<向量A , 向量B>
所以，
O是线外一点，P是线上的某点，点O到这条线的距离=<向量PO>乘<法向量W>/||法向量W||=（x01-x11, x02-y12）(W1,W2)/( W1,W2)

| W”T”+b|/ ||向量W||
Min求和{ | W”T”+b|/ ||法向量W|| }
优化目标化简，min-求和 { | W”T”+b| y}， y∈（-1，1）
梯度是导数，gradient decent梯度下降
求导梯度△W =偏导数J/偏导数W = 求和xy

普通的梯度下降再求解时是有问题的：只获得局部最优解，找到的是半山谷

解决方法：批量梯度下降，当目标函数为凸函数时，BGD一定能够得到全局最优解。
随机梯度下降。步子大一点，增加解的不确定性和震荡性，所以可能跳出局部最优解。
相关数学背景，参考：https://www.cnblogs.com/lliuye/p/9451903.html

感知机只能做线性的，不能求解析解（只能通过迭代完成）。

2 SVM支持向量机

斜率是w算的，取离这条线最近的左右2点,来使margin尽可能大，在两个最近点的中间
几何间隔r=max（r（i））=max{ | W”T”+b|/ ||法向量W|| }
函数间隔r^（i）=| W”T”+b|

几何间隔=Max{函数间隔/ ||法向量W||}
函数间隔=||W||几何间隔

使||W||>1，r（i））=（W”T”+b）y，即（W”T”+b）y >1, 即max=1/|w|，即min1/2||W||

多分类，是多个二分类。
多个不等约束

扩展--拉格朗日：

假设模型：求原点到y=1/x 曲线的距离
等高线理论，f(x,y)=x^2+y2
根据等高线理论，相切这一点（○和曲线），方向一致。
▽梯度
▽f(x,y)= λ▽g(x,y)，这样就把方向一致的信息描述进去了。

偏导数的值=0
满足s.t（subject to）g（x，y）=0
优化m，约束n，转变成无约束，但是需要优化的变量是m+n个，没有约束，就可以求导求解析解。

So，用拉格朗日求解min1/2||W||

对偶问题，KKT问题

逻辑回归

原始的阶跃函数不连续，不可导，所以转换成概率的拟合，使用sigmoid function分选，早期机器学习activation function
P（y=1|x）和P（y=0|x）可以整合在一起。
P（y|x）=h(x)^y*(1- h(x))^(1-y)
累乘
机器学习的人喜欢min，所以加了一个负号
根据链式求导法则，求导，化简特别简单的▽W=求和x（i）（h(x)-y(i)）

找到好的模型，最具有样本代表性，联合概率分布尽可能大。累乘形式的优化目标，对数化，累乘变累加，链式求导法则求导，好看的结果，梯度下降，得到最优解。

逻辑回归是后验概率。

H（x）拟合的是判别为1的概率，如果大于0.5，说明可以判别的1类。这是分的开，分的好不好取决于你相信的阈值，0.2-0.8。用验证集去验证。
概率的cutoff，是根据样本的两种已知情况的比例。

数据处理，理解数据，特征向量找的好，决定了结果的上限。方法决定了结果的下限。

AUC分类问题评估。0.7以上入门，0.8可以接受，0.9好

补充

Q：SVM 离群点处理问题？
A：https://www.jianshu.com/p/81eee8b1d374

2019-07-24