浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)

1.统计学概论(三要素:模型,策略,算法):

关于计算机基于数据结构概率统计模型并运用模型对数据进行预测与分析的学科

特点:

1.以计算机为平台

2.以数据为研究对象,数据驱动学科

3.目的是对数据进行预测和分析

4.以方法为中心,构建模型并运用模型。

5.多领域交叉

回归问题:输入和输出变量均为连续变量的预测问题。

标注问题:。。。。。。。。。变量序列的预测问题。

分类问题:输出变量为有限个离散变量的预测问题。

概率模型--生成模型(决策树,朴素贝叶斯,隐马尔可夫,条件随机场)

非概率模型--判别模型(感知机,支持向量机,kNN,神经网络)

  

2.感知机:二类分类的线形分类模型,其输入为实例的特征向量,输出为实例的类别。

例子:

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第1张图片

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第2张图片

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第3张图片 

2.k近邻(kNN)--分类与回归方法(只讨论分类)

K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。(这就类似于现实生活中少数服从多数的思想)根据这个说法,咱们来看下引自维基百科上的一幅图:

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第4张图片

 

如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。这也就是我们的目的,来了一个新的数据点,我要得到它的类别是什么?好的,下面我们根据k近邻的思想来给绿色圆点进行分类。

 

  • 如果K=3,绿色圆点的最邻近的3个点是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。
  • 如果K=5,绿色圆点的最邻近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。

 

3.朴素贝叶斯--是基于贝叶斯定理特征条件独立假设分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x ,利用贝叶斯定理求出后验概率最大的输出 y ,即为对应的类别。

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第5张图片

 

 

4.决策树--基本分类和回归方法,主要讨论分类

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第6张图片

 

 

5.逻辑斯蒂回归与最大熵模型-----分类模型

sigmoid函数,形式如下:

 

它有一个非常好的性质,即当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0,这非常适合于我们的分类概率模型。另外,它还有一个很好的导数性质:

g′(z)=g(z)(1−g(z))

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第7张图片

 

这里的逻辑斯蒂分布看起来和sigmoid函数不一样,是因为sigmoid函数中的z进行了去均值和归一化处理

F(x)和f(x)函数图像如下:

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第8张图片

 

长得是不是像高斯分布啊,F(x)关于(u,1/2)对称。形状参数γ越小,曲线在中心处上升得越快。

最大熵原理

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第9张图片

 

满足约束条件的模型集合中-;选取熵最大的模型,下图是几何解释:

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第10张图片

6.支持向量机--二类分类模型

7.提升树:

提升方法:在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。

提升方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。实际上,就是“三个臭皮匠顶个诸葛亮”的道理。

提升树是以分类树或回归树为基本分类器的提升方法。

以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。

提升树模型可以表示为决策树的加法模型:

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第11张图片  

由于树的线性组合可以很好地拟合训练数据,即使数据中的输入与输出之间的关系很复杂也是如此,所以提升树是一个高功能的学习算法。

 

8.隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model,HMM),和回归、分类那些处理相互独立的样本数据的模型不同,它用于处理时间序列数据,即样本之间有时间序列关系的数据。隐藏变量是HMM里的关键概念之一,可以理解为无法直接观测到的变量,即HMM中Hidden一词的含义;与之相对的是观测变量,即可以直接观测到的变量;HMM的能力在于能够根据给出的观测变量序列,估计对应的隐藏变量序列是什么,并对未来的观测变量做预测。

比如输入法:

 

“cong”是观测变量,“从”是隐藏变量,对未来做预测“从此”,“从今”。

浅析李航老师-统计学习之有监督学习模型问题(本篇无深入)_第12张图片

 

9.条件随机场:标注问题,不深究

条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型(即判别模型)

 

10.总结

 

你可能感兴趣的:(算法,人工智能,自然语言处理)