ML笔记——CH3 线性模型

仅个人读书笔记.

本章介绍了机器学习中的用于预测的线性回归模型和用于分类的对数几率回归模型。
1.通过线性回归模型进行准确预测的方法:最小二乘法;
2.分类的方法:线性判别分析、多分类学习策略。

第3章 线性模型

  • 3.1 基本形式
  • 3.2 线性回归
  • 3.3 对数几率回归
  • 3.4 线性判别分析
  • 3.5 多分类学习
  • 3.6 类别不平衡问题

3.1 基本形式

线性模型:试图学得一个通过属性的线性组合来进行预测的函数
离散属性:对离散属性, 若属性值间存在"序" 关系,可通过连续化将其转化为连续值,例如二值属性"身高"的取值"高" “矮"可转化为 {1.0,0.0},三值属性"高度” 的取值"高" “中” “低"可转化为 {1.0,0.5,0.0}; 若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量,例如属性"瓜类"的取值"西 瓜” “南瓜” "黄瓜"可转化为 (0, 0, 1) , (0, 1 ,0),(1 , 0, 0)。(这一步在编程里对应着数据预处理环节)

3.2 线性回归

线性回归:试图学得一个线性模型以尽可能准确地预测实值输出标记.

如何尽可能准确:关键在于衡量输出值和真实值之间的差别,确定w和b,让均方误差最小化

最小二乘法:基于均方误差最小化来进行模型求解的方法
(在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小.)

最小二乘"参数估计":求解线性方程E(w,b)=∑(yi-wxi-b)²中的w和b的过程最小化的过程,分别对w和b求偏导,当两个偏导数均为0时(极值点处),得到的w和b为最优解。

多元线性回归:数据集中的样本由多个属性描述.
多元线性回归中,w最优解由于涉及矩阵逆的计算,比单变量情形要复杂一些.
(1)当 XTX 为满秩矩阵或正定矩阵时,最终学到的多元线性回归模型为:
在这里插入图片描述
(2)现实任务中,XTX往往不是满秩矩阵。例如在许多任务中我们会遇到大量的变量,其数目甚至超过样例数,导致X的列数多于行数,XTX显然不满秩,此时可解出多个w, 它们都能使均方误差最小化,选择哪一个解作为输出, 将由学习算法的归纳偏好决定, 常见的做法是引入正则化项.

线性回归模型:当我们希望线性模型的预测值逼近真实标记时,就得到了线性回归模型
在这里插入图片描述
非线性函数映射:假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标。在形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射
在这里插入图片描述
广义线性模型:更一般地,考虑单调可微函数,这样的模型称为广义线性模型
在这里插入图片描述

3.3 对数几率回归

(吴恩达视频中的“逻辑回归”)
以上是用线性模型进行回归学习,若要做的是分类任务,采用广义线性模型,只需找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来

Sigmoid 函数:最理想的是"单位阶跃函数",但是单位阶跃函数不连续,于是我们希望找到能在一定程度上近似单位阶跃函数的"替代函数",采用对数几率函数Sigmoid

对数几率回归模型:用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为"对数几率回归"

3.4 线性判别分析

线性判别分析(LDA):给定训练样例集设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、 异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.

线性判别分析(LDA)基本原理及实现

3.5 多分类学习

基于一些基本策略,利用二分类学习器来解决多分类问题.

多分类学习的基本思路拆解法,即将多分类任务拆为若干个二分类任务求解.具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。这里的关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成

拆分策略:最经典的拆分策略有三种. “一对一” (One vs. One,简称 OvO) 、 “一对其余” (One vs. Rest,简称 OvR)和"多对多" (Many vs. Many,简称 MvM).

3.6 类别不平衡问题

类别不平衡:就是指分类任务中不同类别的训练样例数目差别很大的情况。 如果不同类别的训练样例数目稍有差别,通常影响不大,但若差别很大,则会对学习过程造成困扰。解决办法(基本策略):再缩放

你可能感兴趣的:(#,【周志华,机器学习】学习笔记)