机器学习--概述

         何谓机器学习,简单地说,就是把无序的数据转换成有用的信息

         机器学习算法可以归纳为两类:监督学习无监督学习。监督学习,是指这类算法必须知道预测什么,即目标变量的分类信息。而无监督学习,是指数据没有类别信息,也不会给定目标值。在机器学习算法中,分类和回归属于监督学习,聚类和密度估计属于无监督学习。

         分类算法作为机器学习的主要任务之一,目标是将实例数据划分到合适的分类中。首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。回归与分类的不同,就在于其目标变量是连续数值型

         聚类算法,是指将数据集合分成由类似的对象组成的多个簇的过程。密度估计算法,是指在聚类的基础上,还需要估计数据与每个分组的相似程度。

         常见的监督学习算法有:k-近邻、决策树、朴素贝叶斯、Logistic回归、支持向量机和AdaBoost元、线性回归、局部加权线性回归、收缩和树回归。除了朴素贝叶斯只适用标称型数据类型外,其他算法既适用标称型又适用数值型。

         常见的无监督学习算法有:k-均值、Apriori和FP-growth。其中,Apriori能同时适用数值型和标称型数据类型,其他两种只适用于标称型数据类型。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习)