关于线性分类 - 从线性回归到其他机器学习模型到线性分类

关于线性分类 - 从线性回归到其他机器学习模型到线性分类

  • 线性分类
    • 一、频率派 - 统计机器学习
      • 1、线性回归:
        • 从三个方面来打破:属性、全局、系数
          • ①属性非线性:
          • ②全局非线性 :
          • ③系数非线性:
        • 全局性:
        • 数据未加工:
      • 2、线性分类
        • 线性分类有两种
          • ①硬分类:
          • ②软分类:
      • 3、感知机模型(硬分类)
      • 4、线性判别分析(硬分类 - fisher判别分析)
      • 5、线性回归和线性分类的关系
        • 从回归到分类
    • 二、贝叶斯派 - 概率图模型
      • 概率图
    • 参考


线性分类

要解决的问题分为两大类:分类和回归
模型分类:生成式和判别式

从两个角度来看机器学习(点击此处 - 频率派和贝叶斯派)

一、频率派 - 统计机器学习

1、线性回归:

关于线性分类 - 从线性回归到其他机器学习模型到线性分类_第1张图片

f ( w , b ) = w T x + b , x ∈ R p f(w,b)=w^Tx+b,x \in R^p f(w,b)=wTx+b,xRp

  • 为什么要从线性回归来讲:在统计机器学习中占据了核心地位:是最基础的、最简单的模型
  • 怎么能占据核心地位,有3个特点:线性全局性数据未加工
  • 其他模型线性回归模型关系:其他的模型就是为了打破线性回归的这一个或多个特点,从而形成了统计机器学习的整个体系架构

从三个方面来打破:属性、全局、系数

①属性非线性:

特征转换
类似于引进了一个二次方的概念
x 1 2 + x 1 2 + x 1 x 2 x_1^2+x_1^2+x_1x_2 x12+x12+x1x2

x是p维的,f关于特征x是线性的

②全局非线性 :

全局非线性是针对线性分类来讲的

  • 全局非线性的方法:是通过对函数的运算结果增加一个函数,来将线性函数改造成非线性函数,比如,神经网络中的激活函数,进行了一个硬编码,从而导致的非线性,如图:
    关于线性分类 - 从线性回归到其他机器学习模型到线性分类_第2张图片
③系数非线性:
  • 所谓系数(w)非线性,就是系数的生成结果并不是单一的。就像神经网络算法一样,算法的收敛结果是一个分布,也就是位于一个区间之中,这样的算法结果一定不是线性的,这种通过了不确定的方法来引入非线性。
  • 对于模型来讲,系数是会变化的:例如
    感知机,系数w是不固定的,根据选取的不同的初始值可能会得到不同的结果

全局性:

  • 所谓全局性,也就是将所有的数据看成一个整体来进行拟合,而打破的方法很简单,就是将数据之间分隔开,分段进行拟合。代表有 :
    线性样条回归(把输入空间截成一段一段的,对于每一段都有一个模型,即对样本空间进行局部化);
    决策树(对样本空间进行分割,每次选出来一个节点,相当于对特征空间进行了一次划分,)等方法;

数据未加工:

  • 就是输入数据不经过加工直接的输入模型中,那么我们就用新的方法将这个打破,比如:主成分分析PCA,流形等方法来对输入数据进行预处理

2、线性分类

关于线性分类 - 从线性回归到其他机器学习模型到线性分类_第3张图片

线性分类有两种

①硬分类:

关于线性分类 - 从线性回归到其他机器学习模型到线性分类_第4张图片比如感知机,对样本进行二分类,在超平面上方的是A类,在超平面下方的是B类,这是一种比较强硬的分类,常见代表:1、感知机;2线性判别;

②软分类:

属于生成式的,是对结果的分类有概率式的可能,比如说这个点划分为A类是0.7,划分为B类是0.3,我们并没有非常笃定这个点具体是哪个分类,典型代表:1、逻辑斯蒂回归;2、朴素贝叶斯,贝叶斯学派下的生成式

3、感知机模型(硬分类)

  • 是什么:找到一条分界线把点进行分类
  • 原理:错误驱动的模型
  • 迭代:
    关于线性分类 - 从线性回归到其他机器学习模型到线性分类_第5张图片

4、线性判别分析(硬分类 - fisher判别分析)

3、4详见-《感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯》

5、线性回归和线性分类的关系

在这里插入图片描述

  • 线性回归和线性分类之间有着很大的联系,从某种意义上来说,线性分类就是线性回归函数使用激活函数的结果。同时也可以看成是线性回归降维的结果。对于一个线性回归函数,我们可以通过添加全局函数的形式来将其转换为线性分类函数,
    y = w T x + b → y = f ( w T x + b ) y = w T x + b → y = f ( w T x + b ) y=wTx+by=f(wTx+b)

注: f ( w T x + b ) f(w^Tx+b) f(wTx+b)为激活函数,y的值域为{0,1}或者[0,1];这里我们区分两个,如果只有0,1这两个数值,那么就是硬分类,如果是区间[0,1],那么就是软分类;可以看出 f f f函数将 w T x + b ⟼ { 0 , 1 } w^Tx+b⟼{\{0,1}\} wTx+b{ 0,1};所以 f 是激活函数;而 f − 1 f^{-1} f1被称为链接函数,将 { 0 , 1 } ⟼ w T x + b {\{0,1}\} ⟼ w^Tx+b { 0,1}wTx+b

从回归到分类

  • 激活函数

  • 降维
    把数据从p维映射到1维,即将多个特征投影到一条直线上,再设置一个阈值,阈值下方为0,上方为1等

二、贝叶斯派 - 概率图模型

概率图

参考

CSDN Blog:《5-线性分类-总体概述》
Bilibili:《机器学习 - 白板推导系列》

你可能感兴趣的:(机器学习算法,其他,机器学习)