数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第一章课后习题答案

  • 第一章答案

第一章答案


该答案为重庆大学计算机学院Jack Channy所作,由于本人水平有限,难免有错误和不当之处,如有意见请评论或者发邮件至[email protected]

1.1 什么是数据挖掘?在你的回答中,强调以下问题:
(a)它是又一种广告宣传吗?
(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。

  • 数据挖掘不是一种广告宣传,它是一个应用驱动的领域,数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。它是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态的流入系统的数据等。当其被看作知识发现过程时,其基本步骤主要有:(1).数据清理:清楚噪声和删除不一致数据;(2).数据集成:多种数据源可以组合在一起;(3).数据选择:从数据库中提取与分析任务相关的数据;(4).数据变换:通过汇总或者聚集操作,把数据变换和统一成适合挖掘的形式;(5).数据挖掘:使用智能方法或者数据挖掘算法提取数据模式;(6).模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式。(7).知识表示:使用可视化和知识表示技术,将已经挖掘到的有用知识给用户呈现出来。

1.2 数据仓库与数据库有什么不同?它们有哪些相似之处?

  • 数据仓库是多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。数据库系统也称数据库管理系统,由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。它们的相似之处:都是通过某个数据库软件,基于某种数据模型来组织、管理数据。

1.4 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?

  • 首先概括一下可以挖掘什么类型的模式:特征化与区分、频繁模式、分类与回归、聚类、离群点分析。以航空公司为例,为提高用户体验度,最大限度提高乘客登机时的效率,减少登机所用时间。这就需要进行回归分析,比如以近几个月登机时的数据进行回归分析,来判断某时刻客户登机时的人流量符合哪种分布情况,以预测未来人流量从而提前做出相应改进措施提高用户登机效率。在这种情况下,简单的查询统计是满足不了该航空公司的。

1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。

  • 区分和分类:数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较;而分类则是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测。
  • 特征化和聚类:数据特征化是目标类数据的一般特性或特征的汇总,即在进行数据特征化时很清楚特征化的这些数据的特点是什么;而聚类则只是分析数据对象,按照“最大化类内相似度、最小化类间相似度”的原则进行聚类或分组。
  • 分类在第一点时已经说过;回归主要是建立连续值的函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。

1.6 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?

  • 比如对文本进行分类时往往需要进行某类的高频特征提取,而在某个分类下面拥有众多文档,文档中又往往包含众多特征词汇,此时就需要进行数据挖掘从而找出可以代表该类的特征词,这就涉及到特征降维,我们可以用卡方统计等方法进行特征提取。该方法并未在本章中列出。

1.7 离群点经常被当做噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。例如,信用卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。

  • 就目前所掌握的第一章的知识来讲,检测离群点的方法可以通过聚类和分类两种方法来检测。首先来讲聚类,通过聚类可以把具有一定相似度的数据对象聚集在一起,而对于是离群点的这些数据来说,往往离通过聚类得到的这些簇比较远,并且表现的比较分散,因此通过聚类之后,观察这些离簇比较远的数据对象则可以很方便的找到离群点。本人认为还可以通过分类来检测离群点。因为在清楚了需要把数据对象分成几个大类时,我们可以通过合适的分类算法对数据进行分类,比如最简单的通过相似度去分类,那么当其相似度小于某一个阈值时,我们把这些数据认为是离群点,然后把这些数据单独进行分析从而检测离群点。分类方法用于离群点检测时,往往需要很清楚的知道这些数据能够分成几个大类,而对于庞大的数据量来说,根据不用的特征可能可以划分出好多大类,这样在进行数据预处理时可能会比较麻烦,而聚类则相对来说要简单一些,并且通过聚类之后,采用一定的可视化技术可以很清楚的将离群点显示出来,以便研究人员、用户等可以很方便的观测离群点。因此,就这两种方法来说,聚类对于离群点的检测更加可靠。

1.8 描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。

  • 涉及数据挖掘挑战自然是比较有深度、难度的数据挖掘,诸如交通拥堵、环境恶化、能耗增加等三个领域。首先来讲交通拥堵,对于交通拥堵,每辆车都会有传感器,而对于每辆车的定位则可以通过GPS、北斗导航的定位系统进行定位,在解决交通拥堵问题时,可以将以上已知数据信息进行融合即多源数据融合,加之一定的数据挖掘算法从而去解决交通拥堵问题。在实时的解决交通拥堵问题时,将拥堵情况动态的展现给司机则涉及到了数据可视化,那么如何将这些实时的车流情况以及解决方式动态的呈现给司机则又是一大挑战。
  • 环境恶化、能耗增加:这两大难题在现实生活中同样表现的比较突出,但是仅从单方面来讲,我们可以获取的信息也是比较充足的,比如气象条件、环境各项指标的检测数据、各燃油的销售量等等,那么如何将这些数据有效的融合并且提出有效的解决方案或者说是建立良好的数学模型则是摆在众多科研人员面前的一大挑战。

1.9 与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(例如,数十亿个元组)的主要挑战是什么?

  • 在挖掘海量数据时,如何去保护人们的隐私;
  • 海量数据一般存储在云上,如何保证数据的安全性;
  • 如何在海量数据中快速的挖掘出感兴趣的模式;
  • 在海量数据中挖掘出有趣的、有价值的模式之后,如何以可视化形式展现出来。

1.10 概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战?

  • 这几个领域有一个共同的特点就是有可能有多源数据的存在,当存在多源数据时,如何对多源数据进行整合则是我们所面临的一大挑战;其次,对于多远数据的预处理也是比较困难,因为多源数据之间可能会相互影响;最后,对于这种复杂对象的挖掘,在数据挖掘领域也是研究人员所面临的一大挑战。

如果您觉得该篇博客写的不错,请随意打赏一下哦 ,博客栏目左侧有支付宝和微信二维码,您的支持将鼓励我进行更好的创作。


如果读者朋友想转载该文章,请尊重版权,转载须注明出处,谢谢合作。

你可能感兴趣的:(数据挖掘,机器学习与数据挖掘)