数据挖掘的实际工作是对大规模数据进行自动或半自动的分析,以提取过去未知的有价值的潜在信息,例如数据的分组(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联式规则挖掘)。这通常涉及到数据库技术,例如空间索引。这些潜在信息可通过对输入数据处理之后的总结来呈现,之后可以用于进一步分析,比如机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后可以使用决策支持系统以获得更加精确的预测结果。不过数据收集、数据预处理、结果解释和撰写报告都不算数据挖掘的步骤,但是它们确实属于“数据库知识发现”(KDD)过程,只不过是一些额外的环节。
历史
数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。
因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据统计分析和人工智能搜索技术。
定义
数据挖掘有以下这些不同的定义:
- “从数据中提取出隐含的过去未知的有价值的潜在信息”[9]
- “一门从大量数据或者数据库中提取有用信息的科学。”[10]
尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。 它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。 事实上,在现今的文献中,这两个术语经常不加区分的使用。
过程
数据库知识发现(KDD)过程通常定义为以下阶段:
-
(1) 选择
-
(2) 预处理
-
(3) 变换
-
(4)
数据挖掘
-
(5) 解释/评估。
[4]
预处理
在运用数据挖掘算法之前,必须收集目标数据集。由于数据挖掘只能发现实际存在于数据中的模式,目标数据集必须大到足以包含这些模式,而其余的足够简洁以在一个可接受的时间范围内挖掘。常见的数据源如数据集市或数据仓库。在数据挖掘之前,有必要预处理来分析多变量数据。然后要清理目标集。数据清理移除包含噪声和含有缺失数据的观测量。
数据挖掘
数据挖掘涉及六类常见的任务: [4]
- 异常检测(异常/变化/偏差检测)– 识别不寻常的数据记录,错误数据需要进一步调查。
- 关联规则学习(依赖建模)– 搜索变量之间的关系。例如,一个超市可能会收集顾客购买习惯的数据。运用关联规则学习,超市可以确定哪些产品经常一起买,并利用这些信息帮助营销。这有时被称为市场购物篮分析。
- 聚类 – 是在未知数据的结构下,发现数据的类别与结构。
- 分类 – 是对新的数据推广已知的结构的任务。例如,一个电子邮件程序可能试图将一个电子邮件分类为“合法的”或“垃圾邮件”。
- 回归 – 试图找到能够以最小误差对该数据建模的函数。
- 汇总 – 提供了一个更紧凑的数据集表示,包括生成可视化和报表。
结果验证
数据挖掘的价值一般带着一定的目的,而这目的是否得到实现一般可以通过结果验证来实现。验证是指“通过提供客观证据对规定要求已得到满足的认定”,而这个“认定”活动的策划、实施和完成,与“规定要求”的内容紧密相关。数据挖掘过程中的数据验证的“规定要求”的设定,往往与数据挖掘要达到的基本目标、过程目标和最终目标有关。验证的结果可能是“规定要求”得到完全满足,或者完全没有得到满足,以及其他介于两者之间的满足程度的状况。验证可以由数据挖掘的人自己完成,也可以通过其他人参与或完全通过他人的项目,以与数据挖掘者毫无关联的方式进行验证。一般验证过程中,数据挖掘者是不可能不参与的,但对于认定过程中的客观证据的收集、认定的评估等过程如果通过与验证提出者无关的人来实现,往往更具有客观性。通过结果验证,数据挖掘者可以得到对自己所挖掘的数据价值高低的评估。
隐私问题及伦理
与数据挖掘有关的,还牵扯到隐私问题,例如:一个雇主可以通过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。然而,这种做法会导致伦理和法律问题。
对于政府和商业数据的挖掘,可能会涉及到的,是国家安全或者商业机密之类的问题。这对于保密也是个不小的挑战。[11]
数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命;但这当中还是存在着数据库可能被滥用的问题。
数据挖掘实现了用其他方法不可能实现的方法来发现信息,但它必须受到规范,应当在适当的说明下使用。
如果数据是收集自特定的个人,那么就会出现一些涉及保密、法律和伦理的问题。[12]
方法
数据挖掘的方法包括监督式学习、非监督式学习、半监督学习、增强学习。监督式学习包括:分类、估计、预测。非监督式学习包括:聚类,关联规则分析。
例子
数据挖掘在零售行业中的应用:零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时数据挖掘系统就在此客户和真丝衬衣之间创建关系。销售部门就会看到此信息,直接发送真丝衬衣的当前行情,以及所有关于真丝衬衫的资料发给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息,并且扩大经营范围。
数据捕捞
通常作为与数据仓库和分析相关的技术,数据挖掘处于它们的中间。然而,有时还会出现十分可笑的应用,例如发掘出不存在但看起来振奋人心的模式(特别的因果关系),这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关系,在统计学文献里通常被戏称为“数据捕捞”(Data dredging, data fishing, or data snooping)。
数据挖掘意味着扫描可能存在任何关系的数据,然后筛选出匹配的模式,(这也叫作“过度匹配模式”)。大量的数据集中总会有碰巧或特定的数据,有着“令人振奋的关系”。因此,一些结论看上去十分令人怀疑。尽管如此,一些探索性数据分析 还是需要应用统计分析查找数据,所以好的统计方法和数据数据的界限并不是很清晰。
更危险是出现根本不存在的关系性。投资分析家似乎最容易犯这种错误。在一本叫做《顾客的游艇在哪里?》的书中写道:“总是有相当数量的可怜人,忙于从上千次的赌轮盘的轮子上查找可能的重复模式。十分不幸的是,他们通常会找到。”[13]
多数的数据挖掘研究都关注于发现大量的数据集中,一个高度详细的模式。在《大忙人的数据挖掘》一书中, 西弗吉尼亚大学和不列颠哥伦比亚大学研究者讨论了一个交替模式,用来发现一个数据集当中两个元素的最小区别,它的目标是发现一个更简单的模式来描述相关数据。[14]
参见
-
方法
- 异常/变化检测
- 关联式规则
- 分类问题
- 聚类分析
- 决策树
- 因子分析
- 遗传算法
- 意图挖掘
- 多线性子空间学习
- 人工神经网络
- 回归分析
- 序列挖掘
- 结构化数据分析
- 支持向量机
- 文本挖掘
- 代理挖掘
-
应用领域
- 解析学
- 行为信息学
- 大数据
- 生物信息学
- 商业智能
- 数据分析
- 数据仓库
- 决策支持系统
- 领域驱动的数据挖掘
- 药物发现
- 探索性数据分析
- 预测分析
- 网络挖掘
-
应用实例
参见: Category:应用数据挖掘。
- 客户分析
- 农业数据挖掘
- 气象中的数据挖掘
- 教育数据挖掘
- 美国国家安全局
- 定量构效关系
- 监视 / 大规模监控 (e.g., 恒星风 (情报活动代号))
-
相关主题
数据挖掘是关于分析数据的;有关从数据中提取信息的信息,参见:
- 数据集成
- 数据变换
- 电子发现
- 信息抽取
- 信息融合
- 命名实体识别
- 资料搜集
- 网页抓取
参考文献
- ^ 跳转至:1.0 1.1 1.2 1.3 Data Mining Curriculum. ACM SIGKDD. 2006-04-30 [2014-01-27].
- 跳转^ Clifton, Christopher. Encyclopædia Britannica: Definition of Data Mining. 2010 [2010-12-09].
- 跳转^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2009 [2012-08-07]. (原始内容存档于2009-11-10).
- ^ 跳转至:4.0 4.1 4.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases (PDF). 1996 [17 December 2008].
- 跳转^ Han, Jiawei; Kamber, Micheline. Data mining: concepts and techniques. Morgan Kaufmann. 2001: 5. ISBN 978-1-55860-489-6.
Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long
- 跳转^ See e.g. OKAIRP 2005 Fall Conference, Arizona State University 互联网档案馆的存档,存档日期2014-02-01. About.com: Datamining
- 跳转^ Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0.
- 跳转^ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. WEKA Experiences with a Java open-source project. Journal of Machine Learning Research. 2010, 11: 2533–2541.
the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.
- 跳转^ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.
- 跳转^ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
- 跳转^ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
- 跳转^ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.
- 跳转^ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
- 跳转^ T. Menzies, Y. Hu (November 2003). "Data Mining For Very Busy People". IEEE Computer: pp. 18-25. ISSN 0018-9162.
延伸阅读
- Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, ISBN 0-13-743980-6
- M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
- Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, ISBN 978-0-521-83657-9
- Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
- Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
- Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
- Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, ISBN 3-540-37881-2
- Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB). 16 May 2011: 12.
- Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, ISBN 978-0-12-374765-5
- Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, ISBN 978-1-59904-162-9
- Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, ISBN 0-321-32136-7
- Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, ISBN 978-1-59749-272-0
- Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
- Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. (See also Free Weka software)
- Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum
外部链接
|
维基共享资源中相关的多媒体资源:数据挖掘 |
- 开放式目录计划中和知识发现软件相关的内容
- 开放式目录计划中和数据挖掘工具供应商相关的内容
[隐藏]
计算机科学的主要领域
|
|
注:该模板大致遵循ACM-2012计算分类系统。 |
|
电脑硬件 |
- 印刷电路板
- 外部设备
- 集成电路
- 超大规模集成电路
- 绿色计算
- 电子设计自动化
|
|
系统架构组织 |
|
|
网络 |
|
|
软件组织 |
|
|
软件符号和工具 |
- 编程范型
- 编程语言
- 编译器
- 领域特定语言
- 软件框架
- 集成开发环境
- 软件配置管理
- 库
|
|
软件开发 |
- 软件开发过程
- 需求分析
- 软件设计
- 软件部署
- 软件维护
- 开源模式
|
|
计算理论 |
- 自动机
- 可计算性理论
- 计算复杂性理论
- 量子计算
- 数值计算方法
- 计算机逻辑
- 形式语义学
|
|
算法 |
|
|
计算数学 |
离散数学 ·
概率 ·
统计学 ·
数学软件 ·
数理逻辑 ·
集合论 ·
数论 ·
图论 ·
类型论 ·
范畴论 ·
信息论 ·
数值分析 ·
数学分析
|
|
信息系统 |
- 数据库管理系统
- 电脑数据
- 企业信息系统
- 社会性软件
- 地理信息系统
- 决策支持系统
- 过程控制
- 数据挖掘
- 数字图书馆
- 系统平台
- 数字营销
- 万维网
- 信息检索
|
|
安全 |
- 密码学
- 形式化方法
- 入侵检测系统
- 网络安全
- 信息安全
|
|
人机交互 |
计算机辅助功能 ·
用户界面 ·
可穿戴计算机 ·
普适计算 ·
虚拟现实 ·
聊天机器人
|
|
并发性 |
|
|
人工智能 |
自动推理 ·
计算语言学 ·
计算机视觉 ·
进化计算 ·
专家系统 ·
自然语言处理 ·
机器人学
|
|
机器学习 |
|
|
计算机图形学 |
- 计算机动画
- 可视化
- 渲染
- 修饰照片
- 图形处理器
- 混合现实
- 虚拟现实
- 图像处理
- 图像压缩
- 实体造型
|
|
应用计算 |
- 电子商务
- 企业级软件
- 计算数学
- 计算物理学
- 计算化学
- 计算生物学
- 计算社会科学
- 医学信息学
- 数字艺术
- 电子出版
- 网络战
- 电子游戏
- 文字处理器
- 运筹学
- 教育技术学
- 生物信息学
- 认知科学
- 文件管理系统
|
|
|
|
规范控制 |
- GND: 4428654-5
- NDL: 00948240
|
|