机器学习专栏——(五)线性模型之基础概念

线性模型——基本概念

    线性模型是机器学习中应用最广泛的模型,是通过样本特征的线性组合累进行预测的模型。假设有一个 D D D维的样本 x = { x 1 , x 2 , . . . , x D } \bf{x} = \{x_1,x_2,...,x_D\} x={x1,x2,...,xD},其线性组合表示为 f ( x ; w ) = w 1 x 1 + w 2 x 2 + . . . + w D x D = w T x + b f({\bf x; w}) = w_1x_1+w_2x_2+...+w_Dx_D = {\bf w^Tx + b} f(x;w)=w1x1+w2x2+...+wDxD=wTx+b
其中 w T = { w 1 , w 2 , . . . , w D } {\bf w^T} = \{w_1,w_2,...,w_D\} wT={w1,w2,...,wD}为权重向量, b b b为偏置。
    在分类问题中,不能用上述模型直接预测,这是因为线性模型输出的为连续值,而分类问题的标签为离散的。因此,为了实现分类问题,需要通过一些特殊的函数将连续值转换为离散值。接下来将介绍几种常用的线性分类器:逻辑(Logistic)回归、SoftMax回归、感知器与支持向量机,它们的区别在于使用了不同的损失函数。

  • 二分类(Binary Classification):二分类问题中,标签只有两种取值,即两种分类。通常二分类中标签取{-1,+1}或者{0,1},常用正例和负例来区别。

  • 判别函数:在分类问题中,由于输出的目标都是一些离散的标签,然而模型的输出是连续的值,因此需要引入非线性的决策函数来预测输出目标,决策函数也被称为判别函数。在二分类问题中,判别函数可以是符号函数。

  • 决策边界(决策平面):在二分类问题中,实际上是找到一个线性函数 f f f,特征空间中,在该函数上满足 f = 0 f=0 f=0的所有特征组成了一个超平面,该平面将特征空间分为两个部分,每个部分分别为一类。这个平面就是决策边界。

  • 两类线性可分:对于数据集 D = { ( x ( n ) , y ( n ) ) } n = 1 N \mathcal{D}=\{(\bf x^{(n)}, y^{(n)})\}_{n=1}^N D={(x(n),y(n))}n=1N,如果存在权重向量 w ∗ \bf w^* w,对所有样本满足 y f ( x x ( n ) ; w ∗ ) > 0 yf(x^{x(n)};w^*)> 0 yf(xx(n);w)>0,那么数据集 D \mathcal{D} D是两类线性可分的,上述条件还可翻译为: f ( x x ( n ) ; w ∗ ) > 0 , if   y ( n ) = 1 f(x^{x(n)};w^*)> 0, \text{if} \ \ y^{(n)} =1 f(xx(n);w)>0,if  y(n)=1
    f ( x x ( n ) ; w ∗ ) < 0 , if   y ( n ) = − 1 f(x^{x(n)};w^*)< 0, \text{if} \ \ y^{(n)} =-1 f(xx(n);w)<0,if  y(n)=1

  • 多分类(Multi-Class Classification):多分类是指类别数量 C C C大于2的分类,多分类一般需要多个判别函数,但判别函数的设计方法多种多样。

  • 假设一个多分类问题,共有 C C C个类别,表示为 { 1 , 2 , . . . , C } \{1, 2,...,C\} {1,2,...,C},常用的方式有以下三种:一对其余,一对一,argmax。
    (1)一对其余:将多分类问题转换为 C C C个一对其余的二分类问题,这种方式共需要 C C C个判别函数,其中第 c c c个判别函数 f c f_c fc将属于类别 c c c的和不属于的样本分割开来。
    (2)一对一:将分类问题转换为 C ( C − 1 ) 2 \frac{C(C-1)}{2} 2C(C1)个一对一的二分类问题,共需要 C ( C − 1 ) 2 \frac{C(C-1)}{2} 2C(C1)个判别函数。
    (3)argmax:是一对其余的改进形式,共需要 C C C个判别函数,对于样本 x \bf x x,存在一个类别 c c c,对任意类别 c ,     c ‾ ≠ c c ,\ \ \ \overline{c} \ne c c,   c=c,使得满足 f c ≥ f c ‾ f_c \ge f_{\overline c} fcfc,那么该样本就属于类别 c c c
        一对其于和一对一存在一个问题,那就是可能会出出现有一些不知道如何分类的区域,然而argmax不会,如下图。
    机器学习专栏——(五)线性模型之基础概念_第1张图片

  • 多类线性可分:两类线性可分:对于数据集 D = { ( x ( n ) , y ( n ) ) } n = 1 N \mathcal{D}=\{(\bf x^{(n)}, y^{(n)})\}_{n=1}^N D={(x(n),y(n))}n=1N,如果存在 C C C个权重向量 w 1 ∗ , w 2 ∗ , . . . , w C ∗ \bf w_1^*, \bf w_2^*,...,\bf w_C^* w1w2...,wC,使得任意类别 c ,    c ∈ C c , \ \ c\in C c,  cC,满足 f c ≥ f c ‾ f_c \ge f_{\overline c} fcfc,其中 c ‾ ≠ c \overline{c} \ne c c=c。那么数据集 D \mathcal{D} D是线性可分的。

你可能感兴趣的:(机器学习,机器学习,人工智能,算法)