数据挖掘笔记


关联规则:

购物篮分析  -》频繁项集挖掘和关联规则frequent patterns-》支持度与阈值 比较  频繁x项集

                            强关联规则:大于等于最小支持度和最小可信度

                            x-》y的关联规则:支持度即x,y同时出现的概率,可信度为x发生时y发生条件概率

apriori算法:发现关联规则的算法。1,发现所有的频繁项集2,从中产生强关联规则。已知最小支持度

                            1:找出所有频繁1项集;2:由长度为k的频繁项集生成长度k+1的候选项集;3:扫描长度为k+1的频繁项集;4:迭代23步至没有新的生成。

                            缺点:1,扫描数据库多次

                                       2,候选项集巨大  

                                       3,支持度计算量大

                            改进:数据库划分,仅扫描2次即可;哈希;取样法;动态项集计数

Lift提升度:两个项集并行的出现概率除以两个项集单独出现概率的乘积。小于1负相关,大于1正相关

 

分类算法:

有监督学习:对具有类标签的训练集进行学习建立模型,然后对新数据进行标签预测。典型的是分类

无监督学习:对没有类标签的数据发现其结构性特征进行不同类的区分。典型的是聚类。

分类:1建立模型2使用模型

决策树算法:内部决策节点和终端叶结点组成,决策节点表示在一个属性上的测试,叶结点存放一个类标签,弧或边表示由测试结果的输出,路径表示一系列测试,从根节点开始沿分支追踪到叶子结点,即可做出最终决策。贪婪思想,一般用过自顶向下、递归、分而治之的方法构造。

过拟合的剪枝:前剪枝与后剪枝。

简单贝叶斯分类:假定属性影响是独立的。

 

聚类算法:

步骤:1特征选择:选择任务相关信息,并有最小的信息冗余度2相似性度量:采取什么方法去计算相似性3聚类标准:通过聚类函数或者规则表达4聚类算法:选择合适算法5结果校验:验证测试6对结果的解释:确定如何集成到应用当中。

关注点:1划分准则是什么2簇的分离性如何3采用的相似性度量4聚类空间是什么

面临的挑战:1可伸缩性2处理不同类型属性的能力3基于约束的聚类4聚类的结果要可解释和可用5其他

主要聚类方法:1划分方法:构建不同的划分,然后用一些准则来评估。K-means、k-mediods                                   2层次方法:创建给定数据集的数据分解。

                              3:基于密度的方法:根据连接性和密度函数进行评估。DBSCAN、OPTICS

                              4基于网格的方法:基于多层的粒度函数。STING、CLIQUE

                              5基于模型的方法:模型为对簇的假设。EM

                              6基于频繁模式的方法:发现频繁模式来进行聚类。P-cluster

                              7用户指定的或基于约束的方法。Cod

                              8基于链接的聚类:数据对象通过各种方式相互联系,通过这些link聚类。SimRank

K-means算法:d个数据分到k个簇里,使误差的平方和最小。

                            四步骤:1将对象划分到k个非空子集2计算种子节点作为簇心3将每个数据对象分配到距离最近的簇4回到第二步进行迭代,直到稳定。

                            优缺点:复杂度O(tkn)有优势,可伸缩,但经常局部最优,无法保证全局最优,只能处理数值型数据,需要指定k,对噪声数据和离群点敏感,不适合非凸形状簇,K均值算法对离群点很敏感。

K-mediods算法:任意选择代表点,然后用其他点替换看是否能提高质量。不可伸缩。

你可能感兴趣的:(数据挖掘,笔记)