机器学习笔记(二) 线性模型

1.基本概念

正定矩阵:设M是n阶方阵,如果对任何非零向量z,都有zTMz> 0,其中zT 表示z的转置,就称M正定矩阵

对数几率函数(logistic function),替代单位阶跃函数,是一种Sigmoid函数,对应的模型是对数几率回归模型,但实际上是一种分类方法

极大似然估计的计算:(1)写出似然函数。(2)求对数并整理。(3)求偏导。(4)求解方程

2.线性回归

机器学习笔记(二) 线性模型_第1张图片

3.对数几率回归

极大似然估计法求解参数值,

牛顿法或者梯度下降法求解似然估计的方程

牛顿法比梯度下降法更容易收敛

4.线性判别分析(LDA)

线性判别分析是设法将样本投影到一条直线上。使得同一类的投影点足够接近,不同类的投影点尽量远离。LDA也被视为一种经典的监督降维技术。

机器学习笔记(二) 线性模型_第2张图片

5.多分类问题

将多分类问题拆分成若干个二分类问题

一对一(OvO):产生n*(n-1)/2个线性模型,最终结果可以通过投票产生

一对其余(OvR):产生N个模型,将其中一类设为正例,其他所有设为反例。若分类结果中只有一个分类器将显示为正,则该样本属于该类。若有多个分类器显示为正,则选择置信度最大的作为分类结果。

多对多(MvM)每次将若干个类作为正例,其他若干个类作为反类。最后通过纠错输出码(ECOC)来计算欧氏距离或者汉明距离,从而确定样本所属的类。

6.样本不均衡问题

解决办法:
假设正样本少,负样本多
1.欠采样,去除一些反例是正负样本比例接近
2.过采样,增加一些正例使得正反例数目接近
3.阈值移动。
y为样本为正例的概率
m+为正样本数量,m-是负样本数量
y/(1-y)>(m+/m-)


你可能感兴趣的:(机器学习)