周志华机器学习读后总结 第三章

线性模型


基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+…+wdxd+b,w和b学得之后,模型就得以确定,而w直观表达了各属性在预测中的重要性。

线性回归
线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记。线性回归试图学得f(xi)=wxi+b,使得f(xi)约等于yi。要确定w和b,关键在于如何衡量f(x)与y之间的差别,而均方误差是回归任务中最常用的性能度量,因此我们可试图让均方误差最小化。
均方误差对应了常用的欧氏距离,基于均方误差最小化来进行模型求解的方法称为最小二乘法,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

对数几率回归
如何使用线性模型进行分类学习,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型模型的预测值联系起来。这就需要我们将单位阶跃函数与对数几率函数联系起来。用线性回归模型的预测结果去逼近真实标记的对数几率,因此其对应的模型称为对数几率回归。它不仅预测出类别,还可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用。

线性判别分析
线性判别分析(LDA)是一种经典的二分类问题上的线性学习方法:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小;欲使异类样例的投影点尽可能远离,可以让类中心的距离尽可能大。同时考虑二者可得到欲最大化的目标J,由类内散度矩阵和类间散度矩阵可重写J。

多分类学习
多分类学习就是利用二分类学习器来解决多分类问题。我们一般将多分类任务拆分为若干个二分类任务来求解,即拆分为多个二分类任务训练多个分类器,再将多个分类器进行集成。
拆分策略:一对一(OvO),一对其余(OvR),多对多(MvM).
OvO把被预测的最多的类别作为最终分类结果,OvR选择置信度最大的类别标记作为分类结果。OvO和OvR是MvM的特例。一种最常用的MvM技术是纠错输出码,需要编码和解码。

类别不平衡问题
类别不平衡是指分类任务中不同类别的训练样例数目差别很大的情况。
类别不平衡学习的一个基本策略是再缩放,再缩放三类做法:1.欠采样。2.过采样。3.阀值移动。

你可能感兴趣的:(数据挖掘,机器学习,算法)