进入网络信息时代,随着计算机技术和网络技术的飞速发展,使得各个行业
领域的信息急剧增加,如何从大量的、杂乱无章的数据中发现潜在的、有价值的、简洁的知识呢?数据挖掘(Data Mining)和知识发现(KDD)技术应运而生。
粗糙集理论作为一种数据分析处理理论,在1982年由波兰科学家Z.Pawlak创立[1]。最开始由于语言的问题,该理论创立之初只有东欧国家的一些学者研究和应用它,后来才受到国际上数学界和计算机界的重视。1991年,Pawlak出版了《粗糙集—关于数据推理的理论》这本专著,从此粗糙集理论及其应用的研究进入了一个新的阶段,1992年关于粗糙集理论的第一届国际学术会议在波兰召开。1995年ACM将粗糙集理论列为新兴的计算机科学的研究课题。
粗糙集理论作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备的信息有效的工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论)。
目前,粗糙集理论的研究方向主要是三个方面:
理论上,①利用抽象代数来研究粗糙集代数空间这种特殊的代数结构[2~7]。②利用拓扑学描述粗糙空间[8]。③还有就是研究粗糙集理论和其他软计算方法或者人工智能的方法相接合,例如和模糊理论、神经网络、支持向量机、遗传算法等[9~19]。④针对经典粗糙集理论框架的局限性,拓宽粗糙集理论的框架,将建立在等价关系的经典粗糙集理论拓展到相似关系甚至一般关系上的粗糙集理论[20~23]。
应用上,粗糙集理论在许多领域得到了应用,①临床医疗诊断[24~26];②电力系统和其他工业过程故障诊断[27~34];③预测与控制[35~37];④模式识别与分类[38~47, 61];⑤机器学习和数据挖掘[48~52]; ⑥图像处理[53~56];⑦其他[57~60]。
算法上,一方面研究了粗糙集理论属性约简算法和规则提取启发式算法,例如基于属性重要性、基于信息度量的启发式算法[20~23, 62~64],另一方面研究和其他智能算法的结合,比如:和神经网络的结合,利用粗糙集理论进行数据预处理,以提高神经网络收敛速度[9, 13, 36];和支持向量机SVM结合[12, 65];和遗传算法结合;特别是和模糊理论结合,取得许多丰硕的成果[10, 14~20, 23],粗糙理论理论和模糊理论虽然两者都是描述集合的不确定性的理论,但是模糊理论侧重的是描述集合内部元素的不确定性,而粗糙集理论侧重描述的是集合之间的不确定性,两者互不矛盾,互补性很强,是当前国内外研究的一个热点之一。
[1] Pawlak Z.Rough sets [J].International Journal of Information and Computer Science,1982,11(5):314~356.
[2] 祝峰,何华灿.粗集的公理化[J].计算机学报,2000,23(3):330~333.
[3] 陶鲜花,郝志峰.粗糙群的性质[J].计算机工程与应用,2002(10):221~225.
[4] 陶鲜花 郝志峰.粗糙群相容同态的性质[J].华南理工大学学报(自然科学版),2004,32(3):74~76.
[5] 于佳丽, 舒兰.粗糙商半群的性质[J].模糊系统与数学,2003,17 (4):25~27.
[6] 张燕平,张铃,吴涛.不同粒度世界的描述法—商空间法[J].计算机学报,2004,27(3):328~333.
[7] 张金玲,张振良.粗糙子群和粗糙子环[J].纯粹数学与应用数学,2004,20(1):92~96.
[8] 陈德刚,张文修.粗糙集和拓扑空间[J]. 西安交通大学学报,2001,35 (12):1313~1315.
[9] 侯媛彬.基于RSNN的煤自燃预测方法[J].信息与控制,2004,33(1):93~96.
[10] W.C.Chena,Ni-Bin Changb,Jeng-Chung Chen.Rough set-based hybrid fuzzy -neural controller design for industrial wastewater treatment[J].Water Research,2003 (37):95~107.
[11] R.Yasdi. Combining Rough Sets Learning- and Neural Learning-method to deal with uncertain and imprecise information[J].Neurocomputing,1995(7),61~84.
[12] 张明,龙鹏飞.基于聚类、粗糙集和支持向量机的故障诊断[J].微机发展,2004,14(8):53~58.
[13] 郝丽娜,徐心和.粗糙集神经网络系统在故障诊断中的应用[J].控制理论与应用,2001,18(5):1855~1858.
[14] Kankana Chakrabarty,Ranjit Biswas,Sudarsan Nanda. Fuzziness in rough sets [J].Fuzzy Sets and Systems,2000 (110):247~251.
[15] 李兵,吴孟达.粗糙集研究中的模糊集方法[J].模糊系统与数学,2002,16(2):69~73.
[16] 吴伟志,张文修,徐宗本.粗糙模糊集的构造与公理化方法[J].计算机学报,2004,27 (2):197~203.
[17] 刘贵龙.模糊近似空间上的粗糙模糊集的公理系统[J].计算机学报,2004,27(9):1187~1191.
[18] 陈奇南,梁洪峻.模糊集和粗糙集[J].计算机工程,2002,28(8):137~139.
[19] 莫智文等.模糊粗糙集及粗糙模糊集的模糊度[J].模糊系统与数学,2001,15 (3):15~18.
[20] 张文修,吴伟志等.粗糙集理论和方法[M].北京:科学出版社,2000.
[21] 刘清.Rough集及Rough推理[M].北京:科学出版社,2001.
[22] 王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001.
[23] 张文修,吴伟志等.信息系统与知识发现[M].北京:科学出版社,2003.
[24] 秦中广,毛宗源,邓兆智.基于RoughSet的中医类风湿诊断知识抽取.华南理工大学学报(自然科学版),2000,28(4):30~34.
[25] 王向阳,崔 林,褚玉林.基于粗糙集理论的医院院内感染数据挖掘[J].洛阳工学院学报,2002,23(2):61~64.
[26] 刘惠,邱天爽.知识发现及其在临床医学上的应用[J].生物医学工程学杂志,2004,21 (4):677~680.
[27] 王俊海,伊旭日.Rough集理论及其在汽车故障诊断中的应用[J].交通与计算机,2000,18(3):14~16.
[28] 郝丽娜,徐心和.粗糙集理论在故障诊断规则获取中的应用[J].信息与控制,2001,30(7):586~590.
[29] 袁小宏,赵仲生,屈梁生.粗糙集理论在机械故障诊断中的应用研究[J].西安交通大学学报,2001,35(9):954~957.
[30] 王加成,戴华平,黄方,孙优贤.粗糙集理论在生物发酵过程补料控制及故障诊断中的应用研究[J].计算机工程与应用2004(16):203~206.
[31] 倪远平,周建华,李彬华,邹金慧.基于粗糙集理论的电力变压器故障诊断方法研究[J],控制与决策,2004,19(8):943~947.
[32] 刘宜平,沈毅,童树鸿,刘志言.一种基于粗糙集理论的容错网络实现及其在故障诊断中的应用[J].电机与控制学报,2000,4(2):117~121.
[33] 袁保奎,郭基伟,唐国庆,卢毅.基于粗糙集理论的变压器故障分类[J].电力系统及其自动化学报,2001,13(5):1~4.
[34] Francis E.H.Taya,Lixiang Shen.Fault diagnosis based on Rough Set Theory[J]. Engineering Applications of Artificial Intelligence,2003 (16):39~43.
[35] 征峥,束金龙.基于粗糙集与层次分析法的组合预测方法[J].经济数学,2003,20(4):70~76.
[36] 钟波,周家启,肖智.基于粗糙集与神经网络的电力负荷新型预测模型[J].系统工程理论与实践,2004(6):113~119.
[37] Lixiang Shena,Han Tong Loh.Applying rough sets to market timing decisions[J]. Decision Support Systems,2004 (37):583~597.
[38] 徐捷,徐从富,耿卫东,潘云鹤.基于粗糙集理论的动态目标识别及跟踪[J].电子学报,2002(4):605~607.
[39] 徐从富.基于粗糙集理论的通信电台及其装载平台识别[J].计算机工程与应用,2002(10):221~225.
[40] 李继良,朱维彰. 基于粗糙集理论的物体与相似灯光的辨识[J].杭州电子工业学院学报,2001,21(6):13~18.
[41] Roman W. Swiniarskia,Andrzej Skowron.Rough set methods in feature selection and recognition[J].Pattern Recognition Letters,2003 (24):833~849.
[42] Pawlak Z.Rough Classification.InterJMan-Machine Studies,1984,20:469~483.
[43] S.Asharaf,M. Narasimha Murty.A rough fuzzy approach to web usage catego-
rization[J].Fuzzy Sets and Systems,2004 (148):119~129.
[44] Sushmita Mitra.An evolutionary rough partitive clustering[J].Pattern Recogni-
tion Letters,2004 (25):1439~1449.
[45] F.Questier a,I.Arnaut-Rollier b,B.Walczak a,D.L.Massart.Application of rough set theory to feature selection for unsupervised clustering[J].Chemometrics and Intelligent Laboratory Systems,2002(63):155~167.
[46] Amitava Roy,Sankar K.Pal.Fuzzy discretization of feature space for a rough set classifier[J].Pattern Recognition Letters,2003 (24):895~902.
[47] James F. Peters. Approximation space for intelligent system design patterns[J].
Engineering Applications of Artificial Intelligence,2004(17):393~400.
[48] 刘清,黄兆华,刘少辉,姚力文.带Rough算子的决策规则及数据挖掘中的软计算[J].计算机研究与发展,1999,36(7):800~804.
[49] 林毅,梁家荣.基于粗糙集的规则的挖掘[J].微机发展,2004,14 (9):92~94.
[50] 黄沛,李剑.基于粗糙集理论的续保规则挖掘模型[J].上海交通大学学报,2004,38(4):641~646.
[51] 周勇,毛宇光,王建东.中介粗集及其在数据挖掘中的应用[J].南京航空航天大学学报,2000, 32(6):609~613.
[52] 张文宇,薛惠锋,张洪才,彭文祥.粗糙集在数据挖掘分类规则中的应用研究[J]. 西北工业大学学报,2002,20(3).
[53] 徐立中,王慧敏,刘美林,杨锦堂.粗糙集理论在图像增强中的应用[J] .数据采集与处理,1999,14(3):307~310.
[54] 徐立中,王慧斌,杨锦堂.基于粗糙集理论的图像增强方法[J].仪器仪表学报,2000,21(5):514~516.
[55] 陈添丁.图像颜色与纹理特征的粗糙集分类模型[J].计算机工程与应用,2004(19):68~71.
[56] 韩培友,郝重阳,张先勇,樊养余.基于模糊粗糙集、数学形态学和分形理论的医学图像分类研究[J].计算机应用研究,2004,241~246.
[57] 高飞,孙济洲.基于粗糙集的聚类算法在入侵检测系统中的应用[J].微型机与应用,2004(6):36~38.
[58] Yaxin Bi,Terry Anderson,Sally McClean.A rough set model with ontologies for discovering maximal association rules in document collections[J]. Knowledge
Based Systems,2003(16):243~251.
[59] Salvatore Greco,Zdzisaw Pawlak,Roman Sowinski.Can Bayesian confirmation measures be useful for rough set decision rules?[J].Engineering Applications of Artificial Intelligence,2004(17),345~361.
[60] Salvatore Greco a,Benedetto Matarazzo,Roman Slowinski.Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research,2001 (129) :1~47.
[61] 彭健,汪同庆,居琰,叶俊勇等.粗糙集理论在字符识别中的应用[J].计算机工程,2002,28(11):193~195.
[62] 徐德友,胡寿松.一种基于粗糙集的近似质量求取属性约简的决策算法[J]. 控制与决策,20031,8(3):313~316.
[63] 王庆东,马昕,戴华平,孙优贤.基于粗糙集属性量度的数据库分解方法[J].浙江大学学报(工学版),2004,38(9):1196~1200.
[64] 叶红,唐彬,李龙澍.一种新的完全决策表属性约简的高效算法[J].微机发展,2004,14(5):63~65.
[65] 李元诚,方廷健.一种基于粗糙集理论的SVM 短期负荷预测方法[J].系统工程与电子技术,2004,26(2):187~190.
[66] 曾黄麒.粗集理论及其应用[M].重庆:重庆大学出版社,1998.
[67] 都志辉.高性能计算并行编程技术—MPI并行程序设计[M].北京:清华大学出版社,2001.
[68] 陈志平,徐宗本.计算机数学[M].北京:科学出版社,2000.
[69] 盛德成.抽象代数[M].北京:科学出版社,2000.
[70] 洪帆,付小青.离散数学[M].武汉:华中科技大学出版社,2002.
[71] 严藯敏,吴伟民.数据结构(C语言版) [M].北京:清华大学出版社,1997.
[72] 殷人昆,陶永雷等.数据结构(用面向对象方法与C++描述) [M].北京:清华大学出版社,1999.
[73] Jiawei Han,Micheline Kamber著,范明,孟小峰译.数据挖掘概念与技术[M].北京:机械出版社,2001.
[74] Hu X H,Cercone N.Learning in Relational Databases: A Rough Set Approach[J]. Int. J.of Computational Intelligence,1995,11(2):323~338.
[75] Lenarcik A,Piasta Z.Discretization of Condition Attribute Space[J].Intelligent Decision Support,1992:373~389.
[76] Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[J].Intelligent Decision Support: Handbook of Application and Advances of the Rough Sets Theory,1992:331~362.
[77] Ziarko W.Variable Precision Rough Set Model[J].Journal of Computer and System Sciences,1993,46:39~59.
[78] Kryszkiewicz M.Rough Set Approach to Incomplete Information Systems[J].J. of Information Sciences,1998,112:39~49.
[79] 韩祯祥,张琦,文福拴.粗糙集理论及其应用[J],信息与控制,1998,27(1):37~44.
[80] 刘建勤.粗糙集理论及其最新进展[J],计算机与自动化,1998,17(1):43~48.
[81] 韩祯祥,张琦,文福拴.粗糙集理论及其应用综述[J].控制理论与应用,1999,16(4):153~156.
[82] 张文修,吴伟志.粗糙集理论介绍与研究综述[J].模糊系统与数学,2000,39(4):1~12.
[83] 胡可云,陆玉昌,石纯一.粗糙集理论及其应用进展[J],清华大学学报(自然科学版),2001,41(1):64~68.
[84] 刘树安, 杜红涛, 王晓玲.粗糙集理论与应用发展[J].系统工程理论与实践,2001(10):77~82.
[85] 许中卫,李龙.基于粗糙集理论的数据挖掘算法研究[J].微机发展,2001(1):6~9.
[86] 石红,沈毅,刘志言,付晋宗.关于粗糙集理论及应用问题的研究[J].计算机工程,2003,29(3):1~3.