文件分类算法-----KNN、决策树、支持向量机、K-mean(非文件分类算法)

分类:

1.积极学习:在给定的训练元组之后、接受到测试元组之前就构造好分类模型。

           算法:贝叶斯、基于规则的分类(决策树)、向后传播分类、SVM(支持向量机)、基于关联规则挖掘的分类

2.消极学习:推迟建模,当给定训练元组时,简单的存储训练数据或简单处理,一直等到给定一个测试元组,再建立分类模型。

           算法:邻近算法

KNN(K-Nearest Neighbors Alorithms):邻近算法,计算一个点A与其他所有点之间的距离,取出与该点最近的K个点,然后统计这K个点里面所属分类比例最大的,则点A属于该分类

参考文献:http://wenku.baidu.com/link?url=T0NyamxxQ2IYtqwRc3-anrF89FlygVLrp9PaZR6-Y5jvCGh9nKEYbRLx0KaC0zMPfMtYOSl7cUFKl77jKbsmyfpuxHJ5liosS6Q0jpzuKZm

决策树:一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

参考文献:http://baike.baidu.com/link?url=exqjgGB1fwMgMQlgo8hjTwYCAK0Liw-FsSCcjU2bRnylTuD_BwBE_bA_545niLMgE3EaYOBmetmF9ZUbxgEYz_

支持向量机(SVM):解决小样本、非线性及高维模式识别。基于统计学,以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是基于结构风险最小化准则的学习方法。SVM的解是全局唯一的最优解。其实就是使用超平面将不同类别分开,如果是线性的就直接只用超平面,如果是非线性的就转化为多维来处理,也就是多个线性,最后实现最优分类面(由多维超平面组成)

参考文献:http://wenku.baidu.com/view/aef47518964bcf84b9d57bbf.html?re=view

                    http://www.chinakdd.com/article-W82k0g2822JE712.html

Kmean:很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

文件分类算法-----KNN、决策树、支持向量机、K-mean(非文件分类算法)_第1张图片

参考文献:http://baike.baidu.com/link?url=9ntDoVsY4xQz-c_7crAQj_vSPCFQF62p1cdsGS_AQ1tTOAlO5qJ6NZqj6bj1388cgETkALcgI_rHK_mfShs5XK

你可能感兴趣的:(算法)