粗糙集

下面的信息:依次来自于:
1.  http://blog.csdn.net/chl033/archive/2008/11/06/3240500.aspx[概念]
2.  http://www.hudong.com/wiki/%E7%B2%97%E7%B3%99%E9%9B%86 [上下近似]
3.  http://www.bbker.com/D9143.html [实例]


粗糙集理论和方法是一种能有效的分析和处理不一致 , 不精确 , 不完备等各种信息的数据分析工具 . 该理论和方法已经在模式识别 , 机器学习 , 决策支持 , 知识发现 , 预测建模等领域得到成功的应用 . 相对属性约简算法和决策方法是粗糙集理论和应用的关键技术 .
粗糙集理论的特点:
(1)粗糙集理论假定知识是一种对对象进行分类的能力
(2)粗糙集理论的主要优势之一是不需要任何预备的或额外的有关数据信息。
(3)可以应用于数据约简,特征提取,特征抽取,决策规则,模式识别等。

粗糙集基本概念:
(1)信息系统/决策系统:Information/Decision System
(2)不可区分关系:Indiscernibility
(3)集合近似:Set Approximation
(4)约简与核:Reducts and Core
(5)粗糙隶属度:Rough Membership
(6)属性依赖性:Dependency of Attributes

信息系统(Information System)
(1)形式上,四元组S=(U,A,V,F)是一个信息系统。其中
U:为论域,即对象的非空有限集合
A:属性的非空有限集合
V:属性A的值域
F:是一个信息函数

以下为一实例:

  Age  LEMS 
 x1 16-30   50
 x2  16-30  0
 x3  31-45  1-25
 x4  31-45  1-25
 x5  46-60  26-49
 x6  16-30  26-49
 x7  46-60  26-49

决策表(Decision Table):
(1)决策表是一类特殊而重要的信息系统
(2)设S=(U,A,V,F)为一信息系统,A=C并D,C交D=空,则C称为条件属性集,D为决策属性集。
(3)具有条件属性集和决策属性集的信息系统S称为决策表。
如下是实例:
   Age LEMS  Walk 
 x1  16-30 50   yes
 x2  16-30  0  no
 x3  31-45  1-25  no
 x4  31-45  1-25  yes
 x5  46-60  26-49  no
 x6  16-30  26-49  yes
 x7  46-60  26-49  no

约简:
  S=(U,A,V,ρ) ,其中 U={x1,x2,…,x8} V1=V2=V3={1 2 3} V4={1 2} ,信息函数 ρ 见如下 :
 U c1  c2  c3  c4 
 x1
 x2 1
 x3 1
 x4
 x5
 x6
 x7
 x8

从上图可以知道:
U/c1={{x1,x2,x3,x4},{x5,x6},{x7,x8}}
U/c2={{x1,x3},{x2,x4,x5,x6},{x7,x8}}
U/c3={{x1,x2,x5,x6},{x2,x4},{x7,x8}}
U/c4={{x1,x2,x3,x4,x5,x6},{x7,x8}}
U/c={{x1,x3},{x2,x4},{x5,x6},{x7,x8}}
  压缩后的信息表
 U/c c1   c2  c3  c4
 {x1,x3}  1
 {x2,x4}  1
 {x5,x6}  2
 {x7,x8}  3

决策表抽取规则的一般方法:

(1)在决策表中将信息相同的对象及其信息删除只留其中一个得到压缩后的信息表,即删除多余事例;
(2)删除多余属性
(3)对每一对象及其信息中将多余的属性值删除
(4)求出最小约简
(5)根据最小约简,求出逻辑规则。

实例1:
下面用一个具体的实例说明粗糙集的概念. 在粗糙集中使用信息表( info rm at ion tab le) 描述论域中的数据集合. 根据学科领域的不同, 它们可能代表医疗,金融,军事,过程控制等方面的数据. 信息表的形式和大家所熟悉的 关系数据库中的关系数据模型很相似, 是一张二维表1 期韩祯祥等: 粗糙集理论及其应用39
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 格, 如表一所示. 表格的数据描述了一些人的教育程度以及是否找到了较好工作, 旨在说明两者之间的关系. 其中王治,马丽, 赵凯等称为对象(ob ject s) , 一行描述一个对象. 表中的列描述对象的属性. 粗糙集理论中有两种属性: 条件属性(condit ion at t ribu te) 和决策属性(decisionat t ribu te). 本例中"教育程度"为条件属性;"是否找到了好工作"为决策属性. 
姓名教育程度是否找到了好工作 
王治高中否 
马丽高中是 
李得小学否 
刘保大学是 
赵凯博士是 
设O 表示找到了好工作的人的集合, 则O = {马丽, 刘保, 赵凯}, 设I 表示属性"教育程度"所构成的一个等效关系, 根据教育程度的不同, 该论域被分割为四个等效类: {王治,马丽},{李得},{刘保},{赵凯}. 王治和马丽在同一个等效类中, 他们都为高中文化程度, 是不可分辨的. 则:
集合O 的下逼近(即正区) 为 I 3 (O ) = PO S (O ) = {刘保,赵凯} 
集合O 的负区为 N EG (O ) = {李得} 
集合O 的边界区为 BND (O ) = {王治, 马丽} 
集合O 的上逼近为 I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马丽}
根据表1, 可以归纳出下面几条规则, 揭示了教育程度与是否能找到好 工作之间的关系. 
RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作) 
RUL E 2: IF (教育程度= 小学) THEN (找不到好工作) 
RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作) 
从这个简单的例子中, 我们还可以体会到粗糙集理论在数据分析,寻找规律方面的作用.

实例2.
粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:

A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)
A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)
A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类)

上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。

下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是 我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。


这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似 ,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。

整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:
元素 颜色 形状 大小 稳定性 
x1 红 三角 大 稳定 
x2 红 三角 大 稳定 
x3 黄 圆 小 不稳定 
x4 黄 圆 小 不稳定 
x5 兰 方块 大 稳定 
x6 红 圆 中 不稳定 
x7 兰 圆 小 不稳定 
x8 兰 方块 中 不稳定 
可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定?下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合{x1,x2,x5},它在知识系统A/R中的上下近似都是{x1,x2,x5}本身,“不稳定”的集合{x3,x4,x6,x7,x8},在知识系统A/R中的上下近似也都是{x3,x4,x6,x7,x8}它本身。说明该知识库能够对这个概念进行很好的描述。下面考虑是否所有的基本知识:颜色、形状、大小都是必要的?如果我们把这个集合在知识系统中去掉颜色这个基本知识,那么知识系统变成A/(R-R1)={{x1,x2},{x3,x4,x7},{x5},{x6},{x8}}以及这些子集的并集。如果用这个新的知识系统表达“稳定”概念得到上下近似仍旧都是:{x1,x2,x5},“不稳定”概念的上下近似也还是{x3,x4,x6,x7,x8},由此看出去掉颜色属性我们表达稳定性的知识不会有变化,所以说颜色属性是多余的可以删除。如果再考虑是否能去掉大小属性呢?这个时候知识系统就变为:
A/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}}。同样考虑“稳定”在知识系统A/R2中的上下近似分别为:{x1,x2}和{x1,x2,x5,x8},已经和原来知识系统中的上下近似不一样了,同样考虑“不稳定”的近似表示也变化了,所以删除属性“大小”是对知识表示有影响的故而不能去掉。同样的讨论对于“形状”属性也一样,它是不能去掉的。最后我们得到化简后的知识库R2,R3,从而能得到下面的决策规则:大三角->稳定,大方块->稳定,小圆->不稳定,中圆->不稳定,中方块->不稳定,利用粗集的理论还可以对这些规则进一步化简得到:大->稳定,圆->不稳定,中方块->不稳定。这就是上面这个数据表所包含的真正有用的知识,而这些知识都是从数据库有粗糙集方法自动学习得到的。因此,粗糙集是数据库中数据挖掘的有效方法。

从上面这个例子中我们不难看出,实际上我们只要把这个数据库输入进粗糙集运算系统,而不用提供任何先验的知识,粗糙集算法就能自动学习出知识来,这正是它能够广泛应用的根源所在。而在模糊集、可拓集等集合论中我们还要事先给定隶属函数。

目前,粗糙集理论已经广泛的应用于知识发现、数据挖掘、智能决策、电子控制等多个领域.

你可能感兴趣的:(职场,休闲,粗糙集)