7. 数据(data)、信息(information)和知识(knowledge)是人们认识和利用数据的三个不同阶段,数据挖掘技术是如何把它们有机的结合在一起的?
数据是形成知识的源泉,不断的利用知识来获得信息,具体表现如下:
客观世界—(收集)—》数据—(分析)—》信息—(深入分析)—》知识—(决策与行动)—》客观世界。
11. 你认为应该如何来理解KDD和Data mining的关系?说明理由?
在某些时候可以认为Data mining就是KDD,KDD在人工智能界更流行,而Data mining在数据库界使用更多,但Data mining所包含的范围相对比较小一点。Data mining简单地讲就是从大量数据中挖掘或抽取出知识,而KDD是一个更广义的范畴,它是一个从大量数据中抽取挖掘出未知的,有价值的模式或规律等知识的复杂过程。
12. 解释Data mining理解为KDD整个过程的一个关键步骤的合理性?
数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。KDD是一个更广义的范畴,它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤,而数据挖掘则是这个系统中的一个关键的部分。源数据经过清洗和转换等成为适合于挖掘的数据集,数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。将数据挖掘作为KDD的一个重要步骤看待,可以使我们更容易聚焦研究重点,有效解决问题。
15. 粗糙集的知识形成主要是基于什么思想的?简述粗糙集理论中的信息系统、近似空间、下近似、上近似、约简等概念。
粗糙集的知识形成基于不精确、不确定性知识数学问题的研究,粗糙集的知识形成思想可以概括为:一种类别对应于一个概念(类别一般表示为外延即集合,而概念常以如规则描述这样的内涵形式表示),知识由概念组成;如果某知识中含有不精确概念,则该知识不精确。
粗糙集把客观世界抽象为一个信息系统,一个信息系统S是一个四元组,S=:
U是对象(或事例)的有限集合,记为U={ x 1 , x 2 , ⋯ , x n x_1,x_2,⋯,x_n x1,x2,⋯,xn};
A是属性的有限集合,记为A={ A 1 , A 2 , ⋯ , A n A_1,A_2,⋯,A_n A1,A2,⋯,An};
V是属性的值域集,记为V={ V 1 , V 2 , ⋯ , V n V_1,V_2,⋯,V_n V1,V2,⋯,Vn},其中是 V i V_i Vi属性 A i A_i Ai的值域;
f是信息函数,即f:U×A→V,f: ( x i , A j ) ∈ V j (x_i,A_j)∈V_j (xi,Aj)∈Vj。
近似空间由一个二元组给出:
U是对象(或事例)的有限集合,记为U={ x 1 , x 2 , ⋯ , x n x_1,x_2,⋯,x_n x1,x2,⋯,xn};
B是A的一个属性集,R(B)是U上的二元等价关系,即: R ( B ) R(B) R(B)={ ( x 1 , x 2 ) ∣ f ( x 1 , b ) = f ( x 2 , b ) (x_1,x_2)|f(x_1,b)=f(x_2,b) (x1,x2)∣f(x1,b)=f(x2,b)} , b ∈ B ,b∈B ,b∈B
对任意一个概念(或集合)O,B是A上的一个子集,对其进行如下定义:
O的下近似定义为: B ‾ O = x ∈ U | [ x ] R ( B ) ⊂ O \left. \underline{B}O = x \in U \middle| \lbrack x\rbrack_{R(B)} \subset O \right. BO=x∈U∣∣[x]R(B)⊂O
O的上近似定义为: B ‾ O = x ∈ U | [ x ] R ( B ) ∩ O ≠ ∅ \left. \overline{B}O = x \in U \middle| \lbrack x\rbrack_{R(B)} \cap O \neq \varnothing \right. BO=x∈U∣∣[x]R(B)∩O=∅,其中, [ x ] R ( B ) \lbrack x\rbrack_{R(B)} [x]R(B)表示 x x x在 R ( B ) R(B) R(B)上的等价类。
设有两个属性集 B 1 B_1 B1、 B 2 B_2 B2, B 1 B_1 B1是 B 2 B_2 B2的真子集,如果 R ( B 1 ) = R ( B 2 ) R(B_1 )=R(B_2) R(B1)=R(B2),则称 B 2 B_2 B2可归纳为 B 1 B_1 B1。如果属性集B不可进一步归纳,则称B是U的一个约简或归纳子。
16. 简述粗糙集知识形成的主要过程。为什么说它和数据挖掘技术在解决问题空间上有很大的重合性?
1982年,以波兰数学家Pawlak为代表的研究者首次提出了粗糙集理论,并于1991年出版第一本关于粗糙集的专著,接着1992年Slowinski R 主编论文集的出版,推动了国际上对粗糙集理论与应用的深入研究。1992年在波兰Kiekrz召开了第一届国际粗糙集合研讨会。这次会议着重讨论了集合近似定义的基本思想及其应用和粗糙集合环境下的机器学习基础研究,从此每年都会召开一次以粗糙集理论为主题的国际研讨会,从而推动了粗糙集理论的拓展和应用。我国RS研究起步较晚,所能搜索到的最早发表的论文时间是1990年,直到1998年由曾黄麟教授编著了国内最早的RS专著。粗糙集理论已成为国内外人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。
粗糙集在数据挖掘中是一个有用的理论和技术,从KDD的角度来看,粗糙集方法中的决策表可以视为关系型数据库中的关系表。