机器学习之线性模型

机器学习之线性模型

  • 1. 线性模型
  • 2. 对数几率模型(Logistic回归)
  • 3. 线性判别分析(LDA)
  • 4. 多分类学习
  • 5. 类别不平衡问题

1. 线性模型

线性模型是一类统计模型的总称,包括线性回归模型,方差分析模型,常应用于生物、医学、经济、管理。
一般线性模型或多元回归模型是一个统计线性模型,公式:Y=WX+U,说白了就是用线性的函数去模拟样例的分布,在整个模拟过程中,我们希望线性模型的MSE最小,关于线性模型的MSE具体可详见另一篇文章:回归评估参数
在模拟过程中存在一元线性函数,还有多元线性函数,对应的模型就叫线性回归和多元线性回归。

2. 对数几率模型(Logistic回归)

与线性回归相比,Logistic回归结构只是在其基础上多了一个激活的过程。线性回归模型产生的预测值是实际预测的值,而对数几率韩式是一种Sigmoid函数,将实际预测值转化为一个接近0或者1的值,
在这里插入图片描述
对数几率实际上将原来的模拟值转换成分类问题了

3. 线性判别分析(LDA)

线性判别分析是一种经典的线性学习方法,给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到这条直线上,再根据投影点的位置来确定新样本的类别。
机器学习之线性模型_第1张图片

4. 多分类学习

多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。这里的关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成。
最经典的拆分策略有三种:一对一(One vs. One, 简称OvO),一对其余(One vs. Rest, 简称OvR),多对多(Many vs. Many, 简称MvM)。
具体的可详见多分类学习原理

5. 类别不平衡问题

类别不平衡是指分类任务中不同类别的训练样例数目差别很大的情况,常用解决类别不平衡的方法有:欠采样(即去除一些样例,使得正反样例数目接近,然后再进行学习);过采样(增加一些样例使得正反样例数目接近,然后进行学习);使用新评价指标。准确度这个评价指标在类别不均衡的分类任务中并不适用,甚至进行误导。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。

来源:机器学习【周志华】

你可能感兴趣的:(数据分析,机器学习)