线性模型(线性回归、Logistics回归、LDA)

线性回归

1、单一属性线性回归

单一属性的线性回归目标:

线性模型(线性回归、Logistics回归、LDA)_第1张图片
  • 最小二乘法

线性模型(线性回归、Logistics回归、LDA)_第2张图片
线性模型(线性回归、Logistics回归、LDA)_第3张图片
2、 多元线性回归
线性模型(线性回归、Logistics回归、LDA)_第4张图片
线性模型(线性回归、Logistics回归、LDA)_第5张图片
线性模型(线性回归、Logistics回归、LDA)_第6张图片
线性模型(线性回归、Logistics回归、LDA)_第7张图片
3、 线性模型的特点

形式简单、易于建模,可解释性强,是非线性模型的基础。

对异常点鲁棒性差。

线性并不指对输入变量的线性,而是指对参数空间的线性。对于输入来说,可以对先对其进行非线性变换,再进行线性组合。从这个角度来说,线性模型完全具有描述非线性的能力。


Logistic回归

    • 二分类任务

单位阶跃函数:不连续

对数几率函数:单调可微、任意阶可导

线性模型(线性回归、Logistics回归、LDA)_第8张图片
线性模型(线性回归、Logistics回归、LDA)_第9张图片
线性模型(线性回归、Logistics回归、LDA)_第10张图片
线性模型(线性回归、Logistics回归、LDA)_第11张图片
线性模型(线性回归、Logistics回归、LDA)_第12张图片
2. 对数几率回归优点
线性模型(线性回归、Logistics回归、LDA)_第13张图片

线性判别分析(LDA)

    • 思想

欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小。

欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大。

2. 二分类任务
线性模型(线性回归、Logistics回归、LDA)_第14张图片
线性模型(线性回归、Logistics回归、LDA)_第15张图片
线性模型(线性回归、Logistics回归、LDA)_第16张图片
3. 多分类任务
线性模型(线性回归、Logistics回归、LDA)_第17张图片
线性模型(线性回归、Logistics回归、LDA)_第18张图片

多分类学习

    • 一对一

对N个类别两两配对,得到N(N-1)/2 个二类任务,训练出N(N-1)/2 个二类分类器。

把新样本提交给所有分类器预测,得到N(N-1)/2 个分类结果。

投票产生最终分类结果,被预测最多的类别为最终类别。

2. 一对其余

将某一类作为正例,其他反例,得到N 个二类任务,学习出N 个二类分类器。

新样本提交给所有分类器预测,得到N 个分类结果。

比较各分类器预测置信度,置信度最大类别作为最终类别。

3. 两种策略比较

OvO的存储开销和测试时间开销通常比OvR大:OvR只需训练N个分类器,而OvO需训练N(N-1)/2个分类器。

类别多时,OvO的训练时间开销通常比OvR小:训练时,OvR的每个分类器均使用全部训练样本,而OvO的每个分类器仅用到两个类样本

预测性能差不多:至于预测性能,则取决于具体的数据分布,在多数情形下两者差不多。

4. 多对多

●编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集,可训练出 M 个分类器。

●解码: M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。

ECOC编码对分类器错误有一定容忍和修正能力,编码越长、纠错能力越强。对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强。


类别不平衡问题

不同类别训练样例数相差很大情况(正类为小类)

  • 欠采样:去除一些反例使正反例数目接近

  • 过采样:增加一些正例使正反例数目接近

  • 阈值移动

你可能感兴趣的:(回归,逻辑回归)