《数据挖掘基础》习题二

3.简述在数据挖掘前要进行数据预处理的理由及其解决的主要问题。
数据预处理是KDD的重要阶段,而且花费可能很大。有一种“3:7”的说法,就是指数据抽取和预处理工作一般可能占到整个KDD过程的70%,在开始一个知识发现项目之前必须清晰地定义挖掘目标,而盲目性地挖掘是没有任何意义的。
数据预处理主要对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性,包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值型数据转换为离散型的数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便应用于神经网络)等。

5.阶梯处理过程模型是知识发现的基本模型,画出它的基本处理流程,并简要说明各阶段的任务。《数据挖掘基础》习题二_第1张图片
图2-1中处理模型的突出特点是阶梯状递进的。按照 Usama M. Fayyad的最初设计,主要有九个处理阶段,这九个处理阶段分别是数据准备、数据选择、数据预处理、数据缩减、KDD目标确定、挖掘算法确定、数据挖掘、模式解释及知识评价。
■数据准备:了解KDD相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求,确定挖掘的总体目标和方法。了解相关的源数据结构并加以分析,确定数据选择的原则。
■数据选择:根据用户的要求从数据库中提取与KDD目标相关的数据。在此过程中,KDD系统将从备选的源数据中进行知识提取。这种数据选择工作可以借助于数据库操作语言或专门的工具来进行。
■数据预处理:主要是对上一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪声数据进行处理,对丢失的数据可以利用统计方法进行填补。对一些不适合于操作的数据进行必要的处理等。
■数据缩减:对经过预处理的数据,根据知识发现的任务对数据进行必要的再处理,使数据集中在用户的挖掘目标上。此过程对KDD系统的精度和效率起着至关重要的作用。它也可以通过数据库中的投影等相关操作或专门的工具来完成。
■KDD目标确定:根据挖掘的目标和用户的要求,确定KDD所发现的具体知识模式和类型,为选择或开发适合用户要求的数据挖掘算法提供模式或模板。
■挖掘算法确定:根据上一阶段所确定的模式,选择合适的数据挖掘算法,这包括选取合适的参数、知识表示方式,并保证数据挖掘算法与整个KDD的评判标准相一致。
■数据挖掘:运用选定的算法,从数据中提取出用户所需要的知识。这些知识可以用一种特定的方式表示或使用一些常用的表示方式,如产生式规则等。
■模式解释:对发现的模式进行解释。在此过程中,为了取得更为有效的知识,可能会返回前面处理步骤中的某些步以改进结果,保证提取出的知识是有效的和可用的。
■知识评价:将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性的检查,以确信本次发现的知识与以前发现的知识不相抵触。

8.联机KDD模型需要解决哪些主要问题?
完善可视化技术;对可视化数据挖掘的统一框架进行探索,也需要对某一个方面的问题探索不同的解决方法。

9.知识发现软件或工具的发展经历哪三个主要阶段?简述它们的主要特点。
知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具和纵向的知识发现解决法案三个主要阶段。
(1)独立的知识发现软件:这类软件要求用户必须对具体的数据挖掘技术和算法有相当了解,还要手工负责大量的数据预处理工作。
(2)橫向的知识发现工具:这些集成软件属于通用辅助工具范畴,可以帮助用户快速完成知识发现的不同阶段处理工作。使用这些工具,用户可以在数据挖掘和知识发现专家的指导和参与下开发对应的应用,起到了加速应用研制的作用。比如:DBMiner, Quest, IBM
(3)纵向的知识发现解决方案:这种方法的核心是对特定的商业领域和商业逻辑提供完整的数据挖掘和知识发现解决方案。

12.简述强度挖掘的I-MIN过程模型的主要阶段和任务。
主要分成IM1、IM2、…、IM6等步骤处理任务:
IM1:是KDD项目的计划阶段,需要确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到元数据。
IM2:是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。
IM3:是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。IM4:是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。
IM5:是KDD的知识表示阶段,按指定要求形成规格化的知识。
IM6:是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。

13简述数据挖掘语言的三种基本类型和特点。
根据功能和侧重点不同,数据挖掘语言可以分为三种类型:数据挖掘查询语言、数据挖掘建模语言、通用数据挖掘语言。
1)数据挖掘查询语言:遵循类似SQL的语法,通过数据挖掘任务、功能以及其他约束指定、知识形成和展示等系列工作,以类似于查询的形式输入到数据挖掘系统,通过数据挖掘系统产生对应的结果。
2)数据挖掘建模语言:是对数据挖掘模型进行描述和定义语言。数据挖掘系统在模型定义和描述方面有标准可以遵循,那么各系统之间可以共享模型,既可以解决目前各数据挖掘系统之间封闭性的问题,又可以在其他应用系统中嵌入数据挖掘模型,解决统一的知识发现描述问题。
3)通用数据挖掘语言:通用数据挖掘语言合并上了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘。

你可能感兴趣的:(数据挖掘原理,数据挖掘,人工智能,python,数据分析)