【数据挖掘】数据挖掘简介

简介

  人类正被数据淹没,却饥渴于知识。随着数据库技术的应用越来越普及,人们正逐步陷入“数据丰富,知识贫乏”的尴尬境地。知识信息的“爆炸”给人类带来莫大益处,但也带来不少弊端,造成知识信息的“污染”。面临浩瀚无际而被污染的数据,人们呼唤从数据汪洋中来一个去粗取精、去伪存真的技术。在这种形势下,数据挖掘应运而生。数据挖掘就是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的,目标明确、 针对性强、精炼准确的信息和知识的过程。 数据与知识贫乏导致了知识发现和数据挖掘的出现,当人们进入 21 世纪以后,可 以预计知识发现与数据挖掘的研究又将形成一个新的高潮。

  数据挖掘是一门多学科交叉的领域。一方面,数据挖掘以计算技术的发展为首要条件,没有数据的有效组织,从一堆数据垃圾中发现有用的知识是痴人说梦;没有大量计算算法的支持,即使是简单的查询也会耗时巨大,更不用说发现有用的模式。另一方面,即使数据得到有效的组织,计算算法足够先进,要想发现数据中隐藏的有用信息,还必须综合利用统计学、模式识别、人工智能、机器学习、神经网络等学科的专业知识。比如数据挖掘使用的分析方法,有相当大比重是靠统计学中的多元分析来支撑的,由统计理论衍生出来的。当然,所有这些学科的发展必然会从不同的角度关 注数据分析技术的进展,数据挖掘也为这些学科的发展提供了新的机遇和挑战。

  数据挖掘是用于数据处理的一种新的思维方法和技术手段,它是在现实生活中各种数据量不断增长,以及以数据库技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现隐藏在数据库中的规律和模式,它融合了人工智能、统计、机器学习、模式识别和数据库等多种学科的理论、方法与技术,通过对数据的归纳、分析和推理,从中发掘出潜在的模式,帮助决策者调整策略,进行正确的决策。

  但是,我们也必须看到,要研究数据挖掘,必须强调所用方法的概念和属性,而不是机械的应用不同的数据挖掘工具。对方法、模型以及它们怎样运转及运转原理的 深入理解是有效和成功运用数据挖掘技术的先决条件。任何在数据挖掘领域的研究者和实践者都要意识到这些问题,以便成功地应用一种特定的方法,理解一种方法的 局限性,或者开发新技术。

概念

  我们来从技术和商业的角度给出数据挖掘的定义[14]。 从技术角度,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道但又是潜在的有用的信息或知识的过程,提取的知识一般表示为概念、规则、规律、模式等形式。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识可接受、可理解、可运用;这些知识是相对的,是有特定前提和约束条件的,在特定的 领域中具有实际的应用价值。 数据挖掘是一门交叉性学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持,它涉及到机器学习、模式识别、归纳推理、统计学、数据库技术、数据可视化、高性能计算、神经网络、信息检索、图像与信号处 理和空间数据分析等多个领域。 从商业角度,数据挖掘是一种新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性知识,即从一个数据库中发现相关商业模式。 数据挖掘是利用统计学和机器学习等技术,探求那些符合市场、客户行为的模式。如今数据挖掘已经可以使挖掘技术自动化,将数据挖掘与商业数据仓库相结合,以适当的形式将挖掘结果展示给企业经营管理人员。对于数据挖掘的应用不仅依靠良好的算法建立模型,而且更重要的是解决如何将数据挖掘技术集成到信息技术应用环境中。

  同时,还要有数据挖掘分析人员参与,因为数据挖掘技术不具备人所特有的经验和直 观,不能区分哪些挖掘出的模式在现实中是有意义的,哪些是无意义的。 因此,数据挖掘可以描述为:按企业既定业务目标,对企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法。 而常用的一些数据挖掘的定义,还有: 数据挖掘是一个确定数据中有效的,新的,可能有用的并且终能被理解的模式 的重要过程。 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用 它来进行关键的商业决策的过程。 数据挖掘是用在知识发现过程以辨识存在于数据中的未知关系和模式的一些方 法。 数据挖掘是发现数据中有益模式的过程。 数据挖掘是为那些未知的信息模式而研究数据集的一个决策支持过程。 数据挖掘的另一个称呼是数据库中的知识发现。何谓知识?从广义上理解,数据、 信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据 挖掘这一新兴的研究领域,形成许多新的技术热点。

应用

  数据挖掘已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得 了非常广泛的应用。 但是,我们也必须看到,要研究数据挖掘,必须强调所用方法的概念和属性,而不是机械的应用不同的数据挖掘工具。对方法、模型以及它们怎样运转及运转原理的 深入理解是有效和成功运用数据挖掘技术的先决条件。任何在数据挖掘领域的研究者和实践者都要意识到这些问题,以便成功地应用一种特定的方法,理解一种方法的 局限性,或者开发新技术。

参考资料:

  • 【学术论文】半监督学习及其应用研究

你可能感兴趣的:(基础:数据挖掘)