《数据挖掘概念与技术》第二版 中文版 第一章答案

引言

1.1 什么是数据挖掘?在你的回答中,针对以下问题:

 a. 它是又一种广告宣传吗?
 b. 它是一种从数据库、统计学和机器学习发展的技术的简单转换吗?
 c. 解释数据库技术发展如何导致数据挖掘
 d. 当把数据挖掘看作知识发现过程时,描述挖掘所涉及的步骤。

回答:

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。

  a. 数据挖掘不是另一种广告宣传,大规模数据的可利用性以及将大规模数据转化为有用信息的迫切性导致了数据挖掘的兴起,因此数据挖掘可以被看作是信息技术自然演变的结果。
  b.数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换。从数据库的观点来看,数据挖掘可以看做联机分析处理(OLAP)的高级阶段,通过结合多学科知识(例如统计学、机器学习等)达到更高级的数据分析能力。数据挖掘涉及多学科技术的集成,包括数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、信息检索等等。
  c.数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。随着计算机技术的发展,推动了数据库和信息产业的发展,快速增长的海量数据收集、存放在大型和大量数据存储库中,没有强有力的工具,理解他们已经远远超出了人的能力,数据挖掘工具应运而生。
  d.当把数据挖掘视为知识发现过程的一个基本步骤时,涉及步骤如下: 数据清理(一个删除或消除噪声和不一致的数据的过程); 数据集成(多种数据源可以组合在一起); 数据选择(从数据库中提取与分析任务相关的数据); 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作); 数据挖掘(基本步骤也是**最重要的步骤**,使用智能方法提取数据模式); 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式); 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

  其实,在真正的工程中数据挖掘主要包括:数据的预处理(去重、消噪等)、特征选择(目的为降维等等)、建模方法选择(数据分析方法的选择,根据具体的任务选择不同的分类器或者聚类器或者预测模型等)、模型评估(根绝具体的项目要求选择不同的模型评估方法,比如精确率、召回率等等)、模型的调整(例如调参等等)、模型的确定以及应用。

1.2 给出一个例子,其中数据挖掘对于商务的成功是至关重要的。该商务需要什么数据挖掘功能?它们能够用数据查询处理或这简单的统计技术完成吗?

 回答:

例如捆绑销售(啤酒喝尿布的故事)可以利用关联规则挖掘,找出顾客经常一起购买的商品,那么零售商在安排货物摆放的时候将频繁一起购买的商品摆放在一起,可以有效的提高销售效益。数据查询处理主要应用于数据的查询和信息检索方面,无法实现频繁项集发现功能。同样的,简单的统计技术无法完成大规模数据的分析。

1.3

你可能感兴趣的:(【算法】数据挖掘概念与技术)