监督学习

文章目录

    • 1.监督学习特点
    • 2、线性模型
      • 2.1 线性回归
      • 2.2 逻辑回归
    • 3. 支持向量机 SVM
      • 3.1 最优间隔分类器
      • 3.2 核函数
    • 4.贝叶斯分类器
      • 4.1 极大似然估计 MLE
      • 4.2 朴素贝叶斯分类器
    • 5. 集成学习
      • 5.1 装袋算法bagging
      • 5.2 自适应分类器 Adaboost


1.监督学习特点

  • 监督学习的数据集一般含有很多特征和属性,数据集中的样本都有对应标签或者目标值。
  • 监督学习的任务就是根据这些标签,学习调整分类器的参数,使其达到所要求的性能的过程,就是由已知推出未知

2、线性模型

线性模型一般用于线性可分集

2.1 线性回归

线性一般用于预测

一维线性回归 f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
代价函数 l o s s f u n c t i o n ( w , b ) = 1 2 ∑ i = 1 m ( f ( x i ) − y i ) 2 \displaystyle lossfunction(w,b)=\frac{1}{2}\sum_{i=1}^m(f(x^i)-y^i)^2 lossfunction(w,b)=21i=1m(f(xi)yi)2
上述拟合直线问题转化为求 m i n   l o s s f u n c t i o n min\ lossfunction min lossfunction利用迭代法可逐步靠近收敛点

2.2 逻辑回归

逻辑回归一般用于分类

sigmoid函数 f ( z ) = 1 1 + e − z \displaystyle f(z)=\frac{1}{1+e^{-z}} f(z)=1+ez1

f ( x ) f(x) f(x)将输入数据x通过f(x)转化为(0,1)之间的一个概率问题来处理

l o s s f u n c t i o n ( w , b ) = log ⁡ ( ∏ i = 1 m p ( y i ∣ x i ; w , b ) ) lossfunction(w,b)=\log(\prod_{i=1}^mp(y^i|x^i;w,b)) lossfunction(w,b)=log(i=1mp(yixi;w,b))

3. 支持向量机 SVM

3.1 最优间隔分类器

监督学习_第1张图片
  • 分类器是一个超平面,数据集是二维,超平面为直线;数据集为三维,超平面为平面

  • 需要使正例和反例之间间隔最大,间隔越大,泛化能力越强

  • 分类算法的优化目标通常是最小化分类误差,SVM的优化目标是最大化分类间隔

  • 最靠近超平面的训练样本称为支持向量(support vector)(如上图的 H 1 H_1 H1 H 2 H_2 H2),间隔是指两个分离的超平面之间的距离

3.2 核函数

  • 将低维度线性不可分数据转换为高维线性可分数据
    监督学习_第2张图片

    左边是一个线性不可分集,中间为一个核函数 ψ \psi ψ

    ψ ( x 1 , x 2 ) = ( z 1 , z 2 , z 3 ) = ( x 1 , x 2 , x 1 2 + x 2 2 ) \psi(x_1,x_2)=(z_1,z_2,z_3)=(x_1,x_2,x_1^2+x_2^2) ψ(x1,x2)=(z1,z2,z3)=(x1,x2,x12+x22)

    就是将二维线性不可分集映射到三维平面可分集

  • 多项式核 k ( x , y ) = ( x T y + c ) d \displaystyle k(x,y)=(x^Ty+c)^d k(x,y)=(xTy+c)d

    径向核函数,又称为高斯核: k ( x , y ) = e − ∥ x − y ∥ 2 2 σ 2 \displaystyle k(x,y)= e^{-\displaystyle \frac{\Vert x-y \Vert^2}{2\sigma^2}} k(x,y)=e2σ2xy2

    sigmoid核 k ( x , y ) = tanh ⁡ ( α x T + c ) k(x,y)=\tanh(\alpha x^T+c) k(x,y)=tanh(αxT+c)

  • sigmoid添加核函数相当于神经网络中添加了隐含层,由于SVM核函数比较难选择,目前已被神经网络深度学习超越

4.贝叶斯分类器

4.1 极大似然估计 MLE

设数据集 X = { x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) } X=\{x^{(1)},x^{(2)},\cdots,x^{(n)}\} X={x(1),x(2),,x(n)}

  • 参数对数据集X的似然函数为 ∏ i = 1 m p ( x ( i ) ∣ θ ) \prod_{i=1}^mp(x^{(i)}|\theta) i=1mp(x(i)θ)

  • y = l o g x y=log x y=logx单增,因此求出 m a x   l o g x max\ log x max logx即求出 m a x   x max\ x max xs

  • 对似然函数取对数

log ⁡ ∏ i = 1 m p ( x ( i ) ∣ θ ) = ∑ i = 1 m log ⁡ p ( x ( i ) ∣ θ ) \log \prod_{i=1}^mp(x^{(i)}|\theta)=\sum_{i=1}^m\log p(x^{(i)}|\theta) logi=1mp(x(i)θ)=i=1mlogp(x(i)θ)

  • 利用梯度下降法,求解参数 θ \theta θ

    θ ^ = arg ⁡ m a x θ ∑ i = 1 m log ⁡ p ( x ( i ) ∣ θ ) \hat \theta=\displaystyle \arg max_\theta \sum_{i=1}^m\log p(x^{(i)}|\theta) θ^=argmaxθi=1mlogp(x(i)θ)

4.2 朴素贝叶斯分类器

  • 假设各个特征之间相互独立是称其朴素的重要原因

  • 给定输入数据x即类别c,求出 p ( c ∣ x ) = p ( x ∣ c ) p ( c ) p ( x ) \displaystyle p(c|x)=\frac{p(x|c)p(c)}{p(x)} p(cx)=p(x)p(xc)p(c)

  • 贝叶斯分类的基本思想是求取 p ( x ∣ c ) p(x|c) p(xc) p ( c ) p(c) p(c), p ( x ) p(x) p(x)对所有类别是相同的

    输入数据一般有多个特征或者多个属性,假设有n个特征,即 x = ( x 1 , x 2 , x 3 , ⋯   , x n ) x=(x_1,x_2,x_3,\cdots,x_n) x=(x1,x2,x3,,xn),那么计算p(x|c)比较麻烦
    p ( x ∣ c ) = p ( x 1 , x 2 , x 3 , ⋯   , x n ∣ c ) = p ( x 1 ∣ c ) p ( x 2 ∣ c ) ⋯ p ( x n ∣ c ) = ∏ i = 1 n p ( x i ∣ c ) p(x|c)=p(x_1,x_2,x_3,\cdots,x_n|c) =p(x_1|c)p(x_2|c)\cdots p(x_n|c) =\prod_{i=1}^np(x_i|c) p(xc)=p(x1,x2,x3,,xnc)=p(x1c)p(x2c)p(xnc)=i=1np(xic)
    假设类别集合为 Y Y Y p ( x ) p(x) p(x)对所有类别都相同,因此在给定输入数据x的条件下,最优分类可以表示为 a r g   m a x c ∈ Y p ( c ) ∏ i = 1 m p ( x i ∣ c ) arg\ \displaystyle max_{c\in Y}p(c)\prod_{i=1}^mp(x_i|c) arg maxcYp(c)i=1mp(xic)

5. 集成学习

对一个比较复杂的任务,综合许多人的意见来进行决策往往比一家独大好,集思广益

5.1 装袋算法bagging

(1):每次从原始样本集中多次重复抽样抽取n个训练样本,共进行k次得到k个训练集
(2):每次使用一个训练集得到一个模型,k个训练集得到k个模型
(3):对分类问题,对上述得到的k个模型采取投票的方式得到分类结果,对回归问题取上述模型的均值

5.2 自适应分类器 Adaboost

核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,
构成一个更强的最终分类器(强分类器);其算法本身是通过改变数据分布来实现的,它根据每次训练集中
每个样本的分类是否正确,以及上次总体分类的准确率来确定每个样本的权值,将修改过权值的新数据集送给
下层分类器进行训练,最后将每次得到的分类器融合起来,作为最后的决策分类器

你可能感兴趣的:(深度学习笔记)