近日在解决一组定性数据的聚类问题,看文献时觉得论文中“基于属性重要性的定性数据聚类方法“举例不太容易理解(尤其是对我这种不喜欢看数学公式的人),所以写了这篇以备忘。
1.基础知识
粗糙集和等价关系可参考:
https://blog.csdn.net/windmxf/article/details/2288540(粗糙集理解之一:基本概念)点击打开链接2.属性重要性
对于一个信息系统S={U,Q,V,f},一个属性C对于总属性Q的重要性体现在没有这个属性,由等价关系划分出的类族有多大差异。差异越大,属性C越重要。
3.例子
考虑所有属性时得到聚类结果为:{1, 23, 30, 31}、{2, 28}、{3}、{4, 15, 29, 33}、{5, 21}、{6, 16}、{7, 8}、{9, 10, 11, 22, 32}、{12, 17, 25}、{13, 27}、{14, 29}、{18, 20, 34}、{24}、{26}。基数一共是cardU=34
计算属性I的属性重要性:
对除属性I外其他属性进行聚类 ,得到结果与考虑所有属性时相同,此时的cardPOSQ-{I}(Q)=34
属性重要性=γQ(Q)-γQ-{I}(Q)=1-cardPOSQ-{I}(Q)/cardU=0
计算属性II的属性重要性:
对除属性I外其他属性进行聚类 ,得到结果为:{1, 3, 18, 20, 23, 30, 31, 34}、{2, 28}、{4}、{5, 21}、{6}、{7, 8}、{9, 10, 11, 22, 24, 32}、{12, 17, 25}、{13, 27}、{14, 19}、{15, 29, 33}、{16}、{26}。加粗为聚类结果与上面相同的。相同集合的基数为14
cardPOSQ-{II}(Q)=34-14=20
属性重要性=γQ(Q)-γQ-{II}(Q)=1-cardPOSQ-{II}(Q)/cardU=1-20/34=0.412
参考文献:
基于属性重要性的定性数据聚类分析及应用_朱建平
定性数据的聚类方法及其应用探析_曾玉钰