西瓜书 第三章线性模型 学习笔记

经典线性模型

1.线性回归
性能度量:均方差(对应欧几里得距离)

2.对数几率回归:一种分类学习方法
对数几率函数:y=1/(1+e的-z次方),将z值转化俄日一个接近0或1的y值。
优点:直接对分类可能性建模,无须事先假设数据分布,可避免假设分布不准确带来的问题;可得到近似概率预测;可用于求解最优解。

3.线性判别分析(Linear Discriminant Analysis ,简称 LDA)
基本思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、 异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新的样本的类别。

4.多分类学习
基本思路:“拆解法”,将多分类任务拆为多个二分类任务求解。
拆分策略:
(1)“一对一” (One vs. One ,简称 OvO),将N个类别两两配对。
(2)“一对其余” (One vs. Rest ,简称 OvR),每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。
(3)“多对多” (Many vs. Many,简称 MvM),每次将若干个类作为正类,若干个其他类作为反类。OvO和
OvR是MvM 的特例。

5.类别不平衡问题:分类任务中不同类别的训练样例数目差别很大
基本策略:“再缩放”
分类器决策规则:
(1)真实正反例可能性相同:若y/1-y > 1,预测为正例。
(2)正反例数目不同时,令m+表示正例数目,m-表示反例数目,若y/1+y > m+/m-,预测为正例。
三类做法:
(1)去除一些反例使得正反样例数目接近,然后再进行学习。
(2)增加正例。
(3)基于原始训练集学习,但在用训练好的分类器预测时,进行“阈值移动”:令y’/1-y’ = (y/1-y )* (m-/m+)

你可能感兴趣的:(学习,机器学习,分类)