机器学习概述



 机器学习应用较多的分类为以下三种:

(1)监督学习 supervised learning,通过已有的一部分输入数据和输出数据之间的对应关系,生成一个函数,将输入映射给合适的输出。如分类。

(2)非监督学习 unsupervised learning,直接对输入数据进行建模,例如聚类

(3)半监督学习 semi-supervised learning,综合利用有类标的数据和没有类标的数据,来生成合适的分类函数

 

1.监督学习

监督学习是训练神经网络和决策树最常见的技术,因为他们高度依赖事先确定的分类系统给出的信息。对于神经网络来说,分类系统用于判断网络的错误,然后调整网络适应他,决策树,分类系统用来判断哪些属性提供了更多的信息,这样可以用它来解决分类的问题。

同时,使用隐马尔科夫模型和的语音设别系统也依赖某些监督要素,但通常是为了调节系统额参数以便于最小化给定输入中的错误。

给出一个数据集合D,包含属性值集合A和分类集合C,机器学习的任务是产出一个联系属性值集合A和分类集合C的分类/预测函数(classification/prediction function)。这个函数可以用来预测新的属性集合。这个函数被称为分类模型(classification model)、预测模型(predictive model)或者简称分类器(classifier)。并且,分类模型可以是任何形式的,如决策树,规则集、贝叶斯模型或者一个平面等。

 

决策树算法

决策树学习算法的分类模型是一个树的形式,我们称之为决策树 decision tree ,包含两种节点,决策节点(decision node)和叶子节点(leaf node),一个决策节点内包含针对数据实例某个属性的一些测试,而叶子节点则代表一个类表。

 

机器学习概述

如上图,根节点提出问题,这个问题可能有三个答案,这三个可能的答案构成了根节点下面的三个分支,其它内部节点也以类似方式工作。叶子节点代表一个类标。

一个决策树的构建过程是不断的分割训练数据,以使得最终分割所得到的各个子集尽可能的纯,一个纯的子集(pure subset)中的数据实例类标一致。

 

 

2.非监督学习

 

unsupervised learning seems much harder,the goal is to have the computer learn how to do something that we don't tell it how do do!两种思路,第一种,不告诉agent明确的分类,但是在成功时采用激励制度。第二种,称为聚类,这类学习类型的目标不是让效用函数最大化,而是找到训练数据的近似点。

 

 

3.半监督学习

半监督学习研究的主要内容就是如何高效的利用少量标记数据和大量的未标记数据来训练分类器。相比
监督学习半监督学习能够得到更高的性价比,因此半监督学习在理论和实际在运用中均受到了广泛关注。最
早在训练中运用未标记数据的想法(Self-Training)是:首先利用标记数据集训练出初始分类器,使用该分
类器对一些未标记数据进行标记,将可信度最高的一些标记新示例放入到标记数据集中再在新标记数据集上
进行下一次训练直到满足截止条件为止(e.g.,Scudder(1965);Fralick(1967);Agrawala(1970))。在这里未标记数据被用来修正和提高分类器的准确率。由于初始分类器总是一个弱分类器,self-training 不断地利用上次迭代过程中训练得到的分类器来对未标记数据进行分类并将分类结果加入下次迭代的训练过程中的做法,将会导致 self-training 算法不断累积自身的分类错误最终造成分类器分类效率不高。

 

 

你可能感兴趣的:(机器学习)