【统计技术】SAS中聚类和分类

【统计技术】SAS中聚类和分类_第1张图片




【统计技术】SAS中聚类和分类_第2张图片





【统计技术】SAS中聚类和分类_第3张图片

【统计技术】SAS中聚类和分类_第4张图片

【统计技术】SAS中聚类和分类_第5张图片

【统计技术】SAS中聚类和分类_第6张图片



【统计技术】SAS中聚类和分类_第7张图片

【统计技术】SAS中聚类和分类_第8张图片

【统计技术】SAS中聚类和分类_第9张图片

【统计技术】SAS中聚类和分类_第10张图片

【统计技术】SAS中聚类和分类_第11张图片

【统计技术】SAS中聚类和分类_第12张图片

【统计技术】SAS中聚类和分类_第13张图片



【统计技术】SAS中聚类和分类_第14张图片

 

 

PPT正文:

 

SAS中的分类与聚类

分类(classification)

 找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

分类

聚类(clustering)

 聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。

分类的方法

简单向量距离分类法

贝叶斯分类

KNN(K 近邻)算法

极大似然法

逻辑回归

贝叶斯分类

贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)

条件概率公式:

  P(A|B) = P(AB)/P(B)

贝叶斯分类

现有两个容器,在容器一里分别有 7 个红球和 3 个白球,在容器二里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器一的概率是多少?

假设已经抽出红球为事件 B,从容器一里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)*(20/8)=7/8

 

分类—SAS实现

Discrim:对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集,确定一个判别准则把每个观测分入其中一组。

 

例子

用卫星遥感可以分辨作物的种类。CROPS是训练数据集,其中包含了作物的实际种类(CROP)和四种遥感指标变量(X1-X4)。

例子

data crops;

   title '五种作物遥感数据的判别分析';

   input crop $ 1-10 x1-x4 xvalues $ 11-21;

   cards;

CORN      16 27 31 33

CORN      15 23 30 30

CORN      16 27 27 26

CORN      18 20 25 23

CORN      15 15 31 32

CORN      15 32 32 15

CORN      12 15 16 73

SOYBEANS  20 23 23 25

SOYBEANS  24 24 25 32

SOYBEANS  21 25 23 24

SOYBEANS  27 45 24 12

SOYBEANS  12 13 15 42

SOYBEANS  22 32 31 43

COTTON    31 32 33 34

...

例子

proc discrim data=crops outstat=cropstat

             method=normal pool=yes

             list crossvalidate;

   class crop;

   priors proportional;

   id xvalues;

   var x1-x4;

   title2 '使用线性判别函数';

run;

例子

                         Class Level Information                      

                                                                Prior           

CROP           Frequency        Weight     Proportion     Probability           

CLOVER                11       11.0000       0.305556        0.305556           

CORN                     7        7.0000       0.194444        0.194444           

COTTON                 6        6.0000       0.166667        0.166667           

SOYBEANS              6        6.0000       0.166667        0.166667           

SUGARBEETS          6        6.0000       0.166667        0.166667

例子

                                        CROP                                 

 

                  CLOVER           CORN         COTTON       SOYBEANS     SUGARBEETS

 

 

 

 CONSTANT      -10.98457       -7.72070      -11.46537       -7.28260       -9.80179

 

 X1              0.08907       -0.04180        0.02462      0.0000369        0.04245

 

 X2              0.17379        0.11970        0.17596        0.15896        0.20988

 

 X3              0.11899        0.16511        0.15880        0.10622        0.06540

 

 X4              0.15637        0.16768        0.18362        0.14133        0

比如,观测了X1-X4后到CLOVER(苜蓿)类的线性判别函数就可以用 -10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4 来计

例子

                                       Posterior Probability of Membership in

 CROP:                

 XVALUES      From        Classified                                         

 

              CROP        into CROP         CLOVER        CORN      COTTON    SOYBEANS  SUGARBEETS  

 

 

 16 27 31 33  CORN        CORN              0.0894      0.4054      0.1763      0.2392      0.0897  

 15 23 30 30  CORN        CORN              0.0769      0.4558      0.1421      0.2530      0.0722  

 16 27 27 26  CORN        CORN              0.0982      0.3422      0.1365      0.3073      0.1157  

 18 20 25 23  CORN        CORN              0.1052      0.3634      0.1078      0.3281      0.0955  

 15 15 31 32  CORN        CORN              0.0588      0.5754      0.1173      0.2087      0.0398  

 15 32 32 15  CORN        SOYBEANS   *      0.0972      0.3278      0.1318      0.3420      0.1011  

 12 15 16 73  CORN        CORN              0.0454      0.5238      0.1849      0.1376      0.1083  

 20 23 23 25  SOYBEANS    SOYBEANS          0.1330      0.2804      0.1176      0.3305      0.1385  

 24 24 25 32  SOYBEANS    SOYBEANS          0.1768      0.2483      0.1586      0.2660      0.1502  

 21 25 23 24  SOYBEANS    SOYBEANS          0.1481      0.2431      0.1200      0.3318      0.1570  

 27 45 24 12  SOYBEANS    SUGARBEETS *      0.2357      0.0547      0.1016      0.2721      0.3359  

 12 13 15 42  SOYBEANS    CORN       *      0.0549      0.4749      0.0920      0.2768      0.1013  

 22 32 31 43  SOYBEANS    COTTON     *      0.1474      0.2606      0.2624      0.1848      0.1448  

 31 32 33 34  COTTON      CLOVER     *      0.2815      0.1518      0.2377      0.1767      0.1523  

 29 24 26 28  COTTON      SOYBEANS   *      0.2521      0.1842      0.1529      0.2549      0.1559  

 34 32 28 45  COTTON      CLOVER     *      0.3125      0.1023      0.2404      0.1357      0.2091  

 26 25 23 24  COTTON      SOYBEANS   *      0.2121      0.1809      0.1245      0.3045      0.1780  

 53 48 75 26  COTTON      CLOVER     *      0.4837      0.0391      0.4384      0.0223      0.0166  

逻辑回归

聚类

如果一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。

二、聚类—— 2.方法

系统聚类法是最常用的一种聚类方法,它包含最短距离法、最长距离法、中间距离法、类平均法、重心法、离差平方和法、可变法和可变类平均法等。

其他聚类法,如动态聚类法、分解法、加入法

聚类

 

二、聚类——3.SAS实现

SAS软件主要有以下4个聚类过程,即cluster,fastclus,varclus和tree过程。 

聚类-SAS实现

 

 

本文原创自无线技术运营空间: http://wireless.qzone.qq.com 及 http://blog.csdn.net/wireless_tech (专注无线技术运营——无线技术(操作系统/数据库/WEB前端/负载均衡/系统容灾/系统安全/短信接入/WAP接入/3G等)、无线业务运营、无线开放平台、统计分析(用户行为分析/数据挖掘)、CP合作,联系我们:[email protected]

你可能感兴趣的:(负载均衡,数据挖掘,tree,Class,开放平台,classification)