分类:把一个东西分到一个明确的类中。是细分。(监督学习)细分
聚类:把一些东西分到具有一定相似度点组中。物以类聚,是汇总(无监督学习)
分类算法:
1)决策树分类法
2)朴素贝叶斯分类法
3)基于支持向量机(SVM)的分类器
4)神经网络发
5)K-最近邻法
6)模糊分类法
聚类算法:
1)K均值聚类
2)K中心点算法
3)Clarans算法
4)层次算法:
Birch算法
Cure算法
Chameleon算法
5)基于密度的算法:
Dbscan算法
Optics算法
Denclue算法
6)基于网格的方法
Sting算法
Clique算法
Wave-Cluster算法
if的合集
划分好坏:划分条件的选择。
划分条件的好坏的标准:信息增益(ID3)、增益率(c4.5)、基尼指数(CART)
例子:
data=
[
(专一, 上进, 好男人),
(不专一, 上进,坏男人),
(专一, 不上进, 好男人),
(不专一, 不上进, 坏男人)
]
熵:
假如一个随机变量X的取值为X={x1,x2,...,xn},每一种取到的概率分别为{p1,p2,...,pn},那么X的熵定义为
如果一个分类系统中,类别的标识是cc,取值情况是c1,c2,⋯,cnc1,c2,⋯,cn,n为类别的总数。那么此分类系统的熵为:
如果是个二分类系统,那么此系统的熵为:
其中p(c0)p(c0)、p(c1)p(c1)分别为正负样本出现的概率。
条件熵:
1.当特征x被固定为值xixi时,条件熵为: H(c|x=xi)H(c|x=xi)
2.当特征X的整体分布情况被固定时,条件熵为:H(c|X)
信息增益(IG)为:
上面的例子:
系统熵:
一共两个结论:好男人=2, 坏男人=2
H(c)= -2/4log2(2/4)-2/4log2(2/4)=1
专一和不专一的信息熵:
专一=2, 好男人=2,坏男人=0 ;H(专一)=-2/2log2(2/2)-0/2log2(0/2)=0
不专一=2, 好男人=0,坏男人=2;H(不专一)=-0/2log2(0/2)-2/2log2(2/2)=0
上进和不上进的信息熵:
上进=2, 好男人=1,坏男人=1 ;H(上进)=-1/2log2(1/2)-1/2log2(1/2)=1
不上进=2, 好男人=1,坏男人=1;H(不上进)=-1/2log2(1/2)-1/1log2(1/2)=1
信息增益
专一 = 不专一 = 1-0=1
上进 = 不上进 = 1-1=-0