PPT正文:
SAS中的分类与聚类
分类(classification)
找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
分类
聚类(clustering)
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。
分类的方法
简单向量距离分类法
贝叶斯分类
KNN(K 近邻)算法
极大似然法
逻辑回归
贝叶斯分类
贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)
条件概率公式:
P(A|B) = P(AB)/P(B)
贝叶斯分类
现有两个容器,在容器一里分别有 7 个红球和 3 个白球,在容器二里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器一的概率是多少?
假设已经抽出红球为事件 B,从容器一里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)*(20/8)=7/8
分类—SAS实现
Discrim:对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集,确定一个判别准则把每个观测分入其中一组。
例子
用卫星遥感可以分辨作物的种类。CROPS是训练数据集,其中包含了作物的实际种类(CROP)和四种遥感指标变量(X1-X4)。
例子
data crops;
title '五种作物遥感数据的判别分析';
input crop $ 1-10 x1-x4 xvalues $ 11-21;
cards;
CORN 16 27 31 33
CORN 15 23 30 30
CORN 16 27 27 26
CORN 18 20 25 23
CORN 15 15 31 32
CORN 15 32 32 15
CORN 12 15 16 73
SOYBEANS 20 23 23 25
SOYBEANS 24 24 25 32
SOYBEANS 21 25 23 24
SOYBEANS 27 45 24 12
SOYBEANS 12 13 15 42
SOYBEANS 22 32 31 43
COTTON 31 32 33 34
...
例子
proc discrim data=crops outstat=cropstat
method=normal pool=yes
list crossvalidate;
class crop;
priors proportional;
id xvalues;
var x1-x4;
title2 '使用线性判别函数';
run;
例子
Class Level Information
Prior
CROP Frequency Weight Proportion Probability
CLOVER 11 11.0000 0.305556 0.305556
CORN 7 7.0000 0.194444 0.194444
COTTON 6 6.0000 0.166667 0.166667
SOYBEANS 6 6.0000 0.166667 0.166667
SUGARBEETS 6 6.0000 0.166667 0.166667
例子
CROP
CLOVER CORN COTTON SOYBEANS SUGARBEETS
CONSTANT -10.98457 -7.72070 -11.46537 -7.28260 -9.80179
X1 0.08907 -0.04180 0.02462 0.0000369 0.04245
X2 0.17379 0.11970 0.17596 0.15896 0.20988
X3 0.11899 0.16511 0.15880 0.10622 0.06540
X4 0.15637 0.16768 0.18362 0.14133 0
比如,观测了X1-X4后到CLOVER(苜蓿)类的线性判别函数就可以用 -10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4 来计
例子
Posterior Probability of Membership in
CROP:
XVALUES From Classified
CROP into CROP CLOVER CORN COTTON SOYBEANS SUGARBEETS
16 27 31 33 CORN CORN 0.0894 0.4054 0.1763 0.2392 0.0897
15 23 30 30 CORN CORN 0.0769 0.4558 0.1421 0.2530 0.0722
16 27 27 26 CORN CORN 0.0982 0.3422 0.1365 0.3073 0.1157
18 20 25 23 CORN CORN 0.1052 0.3634 0.1078 0.3281 0.0955
15 15 31 32 CORN CORN 0.0588 0.5754 0.1173 0.2087 0.0398
15 32 32 15 CORN SOYBEANS * 0.0972 0.3278 0.1318 0.3420 0.1011
12 15 16 73 CORN CORN 0.0454 0.5238 0.1849 0.1376 0.1083
20 23 23 25 SOYBEANS SOYBEANS 0.1330 0.2804 0.1176 0.3305 0.1385
24 24 25 32 SOYBEANS SOYBEANS 0.1768 0.2483 0.1586 0.2660 0.1502
21 25 23 24 SOYBEANS SOYBEANS 0.1481 0.2431 0.1200 0.3318 0.1570
27 45 24 12 SOYBEANS SUGARBEETS * 0.2357 0.0547 0.1016 0.2721 0.3359
12 13 15 42 SOYBEANS CORN * 0.0549 0.4749 0.0920 0.2768 0.1013
22 32 31 43 SOYBEANS COTTON * 0.1474 0.2606 0.2624 0.1848 0.1448
31 32 33 34 COTTON CLOVER * 0.2815 0.1518 0.2377 0.1767 0.1523
29 24 26 28 COTTON SOYBEANS * 0.2521 0.1842 0.1529 0.2549 0.1559
34 32 28 45 COTTON CLOVER * 0.3125 0.1023 0.2404 0.1357 0.2091
26 25 23 24 COTTON SOYBEANS * 0.2121 0.1809 0.1245 0.3045 0.1780
53 48 75 26 COTTON CLOVER * 0.4837 0.0391 0.4384 0.0223 0.0166
逻辑回归
聚类
如果一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。
二、聚类—— 2.方法
系统聚类法是最常用的一种聚类方法,它包含最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法、可变法和可变类平均法等。
其他聚类法,如动态聚类法、分解法、加入法
聚类
二、聚类——3.SAS实现
SAS软件主要有以下4个聚类过程,即cluster,fastclus,varclus和tree过程。
聚类-SAS实现
本文原创自无线技术运营空间: http://wireless.qzone.qq.com 及 http://blog.csdn.net/wireless_tech (专注无线技术运营——无线技术(操作系统/数据库/WEB前端/负载均衡/系统容灾/系统安全/短信接入/WAP接入/3G等)、无线业务运营、无线开放平台、统计分析(用户行为分析/数据挖掘)、CP合作,联系我们:[email protected])