一个简单介绍
纯属个人理解记录,若有纰漏,望见谅:
一、决策树C4.5,是ID3算法的一个改进型。
这里先简单地描述一个概念:信息熵。意思是说信息的不确定性。
信息量的大小不在于一个信息数据的大小,而是其将一个本来不确定事物确定下来的量的大小!比如今天大家都知道你是男的,你突然跟我说“我是男的。”对于一个已确定的事情,其发生概率为1,那么你跟我说了一个概率为1的事件就是一个对我毫无作用,没有新信息。如果你跟我说“我是男的而且喜欢男的。。”那这个信息量就大了哈。
那信息熵就是描述一个事件不确定的一个度。比如1、一个综合性大学,学生性别这个属性的信息熵就很大,因为男女比例均衡。随便抽一个学生,男女的可能性都很大,不确定性大;2、但是如果在一所理工性的和尚庙大学,学生性别属性这个信息熵就小很多了,因为不再具有那么强的不确定性,男生比例会大很多;3、来到一所女子学院的话,学生性别这个属性的信息熵基本就等于零了。因为除了一些小概率事件,学生是女生的概率就基本等于1了。
决策树就是利用数据的信息熵这个性质,将数据根据一个节点属性的不同取值情况分成各个枝。直到最后情况确定,就是信息熵为0的时候就是结束点了!而C4.5是用信息增益率来选择属性,而其前身ID3是用信息增益值来选择。这是两者最大的不同,而C4.5可以说是ID3的改进版。
二、K-Means——K均值聚类的聚类过程可以描述如下:
一片地区,有很多散落在随机地方的很多小混混(数据点)。一开始很混乱,乱世出英雄。
1、 这时便在人群中出现了K个草根领袖(初始聚类中心),形成以这些领袖为中心的帮派(不同帮派表示不同类)。这时,小混混就挑离他们最近的领袖为目标加入相应的帮 派。此时第一次聚类就完成了,各个帮派的格局也就有了个雏形。
2、 好景不长,建业容易守业难。各个帮派的人发现初始领袖其实并不是帮派的绝对重心,便不服输。于是经过一轮新的选举,推选出已成帮派的派内混混们(类内数据)的重心作为新的领袖。于是各大帮派又产生了各自新的领袖(新的聚类中心)。
3、 这是问题就来了,有些小混混发现离自己所在帮派的新领袖远了,而离另外一个帮派的新领袖近了。为了寻求更好的庇护,这部分小混混又叛逃到离自己最近的领袖的帮派。于是,由新的领袖,又完成了一次帮派间成员的重组。
4、 此时又要内战了。帮派内又出现了内乱,回到步骤2,继续朝代的更迭。一直到格局稳定下来后,天下K分,K足鼎立!
三、SVM(Support Vector Machine)
支持向量机是个强大的分类器,当然也有做回归的SVR。其简单的思路如下,两个派别抢地盘,可是有一个区域是两方争执不下的灰色地带。但是双方在前线都有人马。不管后方有多少人马,毕竟远水救不了近火,所以划地盘这条线就全由双方在前线的成员们来定了。于是乎,支持向量机就找到离双方前线的这些兄弟们最为中间的线来划分地盘。这种划分法不理会后方有多少兵马,而完全取决双方前线的人马,这就是支持向量机的协调作用。前线上那些起作用的点就叫做支持向量。具体详细过程请参照标题三的链接博文。包括超平面的定义,最大间隔的优化,转化为二次规划,到最后进一步转化为对偶变量的优化问题。对于非线性问题,还涉及到映射至高维线性可分的支持向量机的核函数问题。
四、Apriori算法八、k-nearest neighbour classification算法:
此处的K不是K均值聚类中要聚合的类的数目。K最近邻分类算法的描述可类似于K-means算法。目标是将一个新的数据点归类。前提是已知有标签的点:
在已经诸侯割据的一个地区,每个小混混所混的帮派是已经确定的了。这是来了一位打算在本地长期混下去的外来者。那么加入哪个帮派对自己的定位至关重要。所谓远亲不如近邻,谁跟自己近的对自己的影响当然也就更大了。于是,这个仁兄选了K个与他最近的邻居来比较。于是他随大众,这K个邻居中哪个帮派的人占的比例大他就去那个帮派。要是在家里被其他帮派的欺负,附近的人多也就当然好照应咯。至此,这个仁兄的终身大事确定下来,新数据的分类也就完成!
九、贝叶斯分类器http://blog.csdn.net/xxinliu/article/details/7408742
其他算法:PCA,Gaussian Mixture Model