统计算法

  统计学习算法概述:

统计学习(statistical learning)是关于计算机基于数据构建概率模型并运用模型对数据进行预測与分析的一门学科。从中可见,统计学习中有两个重要的点:数据,概率模型。  算法就是学习时用的详细方法。

统计学习方法里边有三个要素:模型,策略。算法。模型即指所要进行学习的概率函数或者决策函数。策略就是我们定义的一个标杆或准则,然后才干此学习或者选择最优的模型(没有策略我们无法对模型进行评判、作出选择)。

  以下主要介绍统计学习中的常用方法:

                                                                    1。k近邻法

1.1.近邻法的思想:K近邻法是一种主要的分类方法,当时也可用于回归。

这样的方法用数据解释了“人以群分,物以类聚”所蕴涵的道理:假设一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别。则该样本也属于这个类别。在你的K个朋友中,多数是有钱人,那么你也是有钱人(当然还存在准确率问题)。  

1.2.三个要素:从k近邻法思想中也体现出其三个要素:距离度量,即以什么样的标准定义一个人距离你关系的远近。进而判定是不是你的朋友。k值的选择。即看几个朋友来猜測你的情况;分类决策,一般选择多数表决法。即大部分有钱。则就判定你是有钱人(还要其他分类策略吗?k个朋友中有一个有钱,那么就判定这个属于有钱,也能够啊)。

                                                               2,聚类

2.1.分级聚类:通过连续不断地将最为相似的的群组合并,来构造出一个群组的层级结构。在每次迭代的过程中。分级聚类算法都会计算两两群组间的距离,并将距离近期的两个群组合并,最张形成一个群组。 

2.2.k均值法:k-means 算法的工作过程说明:首先从n个数据对象随意选择 k 个对象作为初始聚类中心。而对于所剩下其他对象。则依据它们与这些聚类中心的相似度(距离)。分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后再计算每一个所获新聚类的聚类中心(该聚类中全部对象的均值);不断反复这一过程直到标准測度函数開始收敛为止。一般都採用均方差作为标准測度函数. k个聚类具有下面特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

 

 

 

 

你可能感兴趣的:(新技术)