数据挖掘概念与技术

数据挖掘又称知识发现(KDD:Knowledge Discovery in Database),即“从数据中挖掘知识”。

丰富的数据以及对强有力的数据分析工具的需求,这种情况被描述为“数据丰富,但信息匮乏”。数据挖掘可以看作信息技术自然进化的结果。数据库和数据管理产业在一些关键功能的开发上不断发展:

  • 数据收集和数据库创建
  • 数据管理(包括数据存储和检索、数据库事务处理)
  • 高级数据分析(数据仓库和数据挖掘)

许多人把数据挖掘视为另一个流行术语数据中的知识发现(KDD),而另一些人只是把数据挖掘视为知识发现过程中的一个基本步骤。知识发现过程由以下:

  • 数据清洗(清除噪音和删除不一致的数据)
  • 数据集成(多种数据源组合在一起)
  • 数据选择(从数据库中提取与分析任务相关的数据)
  • 数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
  • 数据挖掘
  • 模式评估(根据某种兴趣度量值,识别代表知识的真正有趣的模式)
  • 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

一、可以挖掘的数据类型

1) 数据库数据

数据库系统,又称数据库管理系统(DBMS),由一组内部相关的数据(乘坐数据库)和一组管理和存取数据的软件程序组成;关系数据库是表的汇集,表名唯一且包含一组特定的属性(列或字段),表中存放大量元组(记录或行),其中每个元组代表一个对象,被唯一的关键字 标识,并被一组属性值描述;通常为关系数据库构建语义数据模型,如 实体-联系(ER) 数据模型。
关系数据可以通过 数据库查询 访问。数据库查询使用如SQL这样的关系查询语句,或借助于图形界面书写。当数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式。关系数据库是数据挖掘的最常见、最丰富的信息源。

2)数据仓库

数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。其中数据仓库通过数据清洗、数据变换、数据集成、数据装入和定期数据刷新来构造。
为了便于决策,数据仓库中的数据围绕主题(如顾客、商品、供应商和活动)组织。数据存储从 历史的角度 (如过去的6~12个月)提供信息,并且通常是汇总的。例如,数据仓库不是存放每个销售事务的细节,而是存放每个商店、每类商品的销售事务的汇总,或汇总到较高层次,每个销售地区、每类商品的销售事务的汇总。
通常数据仓库被称为 “数据立方体” 的多维数据结构建模。其中,每个维度对应模式中的一个或一组属性,而每个单元存放某种聚集度量值,如 count 或 sum 。
通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理。多维数据挖掘(又称探索式多维数据挖掘)以OLAP风格在多维空间进行数据挖掘。

3)事务数据

一般来说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。某商店的事务数据每行可能为一个事务标识号和一个组成事务的项(如交易中购买的商品)的列表。

4)其他类型的数据

时间相关或序列数据(例如历史记录、股票交易数据、时间序列和生物学序列数据);
● 数据流(例如视频监控和传感器数据,它们连续播送);
● 空间数据(如地图);
● 工程设计数据(如建筑数据、系统部件或继承电路);
● 超文本和多媒体数据(包括文本、图像、视频和音频数据);
● 图和网状数据(如社会和信息网络);
● 万维网(由Internet提供的巨型、广泛分布的信息存储库);

二、可以挖掘什么类型的模式

1)类/概念描述:特征化与区分

数据可以与类或概念相关联。例如,商店销售的商品类包括计算机和打印机,顾客概念包括 bigSpenders 和 budgetSpenders。用汇总的、简洁的、精确的表达方式描述每个类和概念,这种类或概念的描述成为类/概念描述。这种描述方式可以通过下述方式得到:(1)数据特征化,一般地汇总所研究类(目标类)的数据;(2)数据区分,将目标类与一个或多个可比较类(对比类)进行比较;(3)数据特征化和区分。
数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。例如为研究上一年销售增加10%的软件产品的特征,可以通过在销售数据库上执行一个SQL来收集关于这些产品的数据。例如,挖掘任务“汇总一年内在某商店话费5000美元以上的顾客特征”,统计结果可能是顾客的概况,如年龄在40~50、有工作、有很好的信用等级。
数据特征化的输出可以用多种形式提供,例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述可以用广义关系或规则(称作特征规则)形式提供。
数据区分(data discrimination)是将目标类数据对象的一般特性与一个或多个对比类对象的一般性进行比较。例如,比较两组顾客——定期购买计算机产品的顾客和不经常购买这种产品的顾客。结果描述提供这些顾客比较的概况,例如频繁购买计算机产品的顾客80%在20-40岁之间,受过大学教育;而不经常购买这些产品的顾客60%或者年龄太大或太年轻或没有大学学位。

2)频繁模式、关联和相关性挖掘

频繁模式(frequent pattern)是在数据中频繁出现的模式,存在多种类型的频繁模式,包括频繁项集、频繁子序列(序列模式)和频繁子结构。频繁项集一般是指频繁地在事务数据中一起出现的商品的集合,如小卖部中被许多顾客频繁一起购买的牛奶和面包。频繁子序列类似如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡这样的模式。子结构可能涉及不同的结构形式(例如,图、树或格),可以与项集或子序列结合在一起。如果一个子结构频繁的出现,则称之为频繁结构模式。
关联分析 比如想知道那些商品经常一块被购买,从事务数据库中挖掘出来的这种规则的一个例子是 buys(X, “computer”) --> buys(X, “software”) [support = 1%, confidence = 50%] 。其中,X是标识顾客的变量。50%的置信度或确信性意味,即一个顾客买computer后,再买software的可能性为50%。1%的支持度,意味所分析的所有事务中1%显示计算机与软件一起被购买。这个关联规则涉及单个重复的属性或谓词(即buys),包含单个谓词的关联规则称为单维关联规则;另一个例子,数据挖掘系统还可以发现如下形式:age(X, “20…29”)∧income(X, “40K…49K”) --> buys(X, “laptop”)[support = 2%, confidence = 60%],该规则指出2%的顾客年龄为20-29,年收入为40K-49K,且购买了便携式计算机。此例中涉及多个属性或谓词(age, income, buys)的关联。采用多维数据库使用的术语,每个属性称作一个维,上面的规则可称为多维关联规则(multidimensional association rule)。通常一个关联规则被认为无趣的而被抛弃,即当它不能满足最小支持度阈值和最小置信度阈值的时候。还可以进一步分析,发现相关联的属性-值对之间的有趣的统计相关性。
频繁项集挖掘是频繁模式挖掘的基础

3)分类与回归

分类:它找出描述和区分数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即类标号已知的数据对象)的分析。导出的模型可以有多种形式,如a: 分类规则(即IF-THEN规则)、b: 决策树、c: 数学公式或神经网络,具体如下图所示。

数据挖掘概念与技术_第1张图片

决策树是一种类似于流程图的树结构,其中每个节点代表在一个属性值上的测试,每个分支代表测试的一个结果,而树叶代表类或类分布;当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连;还有许多构造分类模型的其他方法,如朴素贝叶斯分类支持向量机K最近邻分类。
分类预测类别(离散的、无序的)标号,而回归建立连续值函数模型。即,回归用来预测缺失或难以获得的数值数据值,而不是(离散的)类标号。
回归分析是一种常用的数值预测的统计学方法。回归也包含基于可用数据的分布趋势识别。相关分析(relevance analysis)可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著“相关”的属性。那么将对这些相关的属性进行分类和回归过程,其他属性则不必考虑。

4)聚类分析

与分类和回归分析标记类的(训练)数据集,聚集(clustering)分析数据对象,不考虑类标号。在许多情况下,开始并不存在标记类的数据。可以使用聚类产生数据组群的类标号。对象根据"最大化类内相似性、最小化类间相似性"的原则进行聚类或分组。也就是说,对象的簇(cluster)这样形成,是的相比之下在同一个簇中对象具有很高的相似性,而与其他的簇中的对象很不相似。所形成的每一个簇都可以看作一个对象类,由它可以到处规则。聚类也便于分类法形成,即将观测组织成类分层组织,把类似的事件组织在一起。如下图显示了一个城市内顾客位置的二维图,且图中的数据点形成的三个簇是显而易见的。

数据挖掘概念与技术_第2张图片

5)离群点分析

数据集中可能存在一些数据对象,他们与数据的一般行为或模型不一致,这些数据对象被称为离群点(outlier)。大部分数据挖掘方法将离群点视为噪音或异常而丢弃。然而,在一些应用中(如欺诈检测),罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称作离群点分析或异常挖掘。
离群点分析。通过检测一个给定账号与正常的付费相比付款数额特别大,离群点分析可以发现信用卡欺骗性使用。离群点还可以通过购物地点和类型或购物频率来检测。

三、所有模式都是有趣的吗

如果一个模式是有趣的(interesting),则

(1)容易被人理解;
(2)在某种确信度上,对于新的或检验数据是有效的;
(3)是潜在有用的;
(4)是新颖的;且该模式证实了用户寻求证实的某种假设。有趣的模式代表知识。

1、存在一些模式兴趣度的客观度量

  • (1)这些度量基于所发现模式的结构和关于他们的统计量。对于形如X – > Y的关联规则,一种客观度量是规则的支持度(support)。规则的支持度表示事务数据库中满足规则的事务所占百分比。支持度可以取概率P(X∪Y),其中X∪Y表示同时包含X和Y两个事务,即项集X和Y的并。
  • (2)关联规则另外一种客观度量是置信度(confidence),它评估规则的确信程度。置信度可以取条件概率P(X | Y),即包含X的事务也包含Y的概率。更形象化地,支持度和置信度定义为
support ( X = > Y ) = P ( X ∪ Y ) support(X=>Y) = P (X∪Y)
support(X => Y) = P(X ∪ Y)
c o n f i d e n c e ( X = > Y ) = P ( X ∣ Y ) confidence(X => Y)  =  P (X ∣ Y)
confidence(X => Y) = P(X ∣ Y)

一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制。例如不满足置信度阈值50%的规则都可以认为是无趣的。低于阈值的规则可能反映噪音、异常或少数情况,可能无太多价值。

  • (3)其他兴趣度度量
    包括分类(IF-THEN)规则的准确率与覆盖率。一般而言,准确率告诉我们被一个规则正确分类的数据所占的百分比。覆盖率类似于“支持度”,告诉我们规则可以作用的数据所占百分比。

2、主观兴趣度度量

主观兴趣度度量基于用户对数据的信念。如果该度量是出乎意料的(与用户的信念相矛盾),或者提供用户可以采取行动的至关重要的信息,则该度量发现模式是有趣的。后种情况下,这样的模式称为可行动的(actionable),即证实了用户希望证实的假设,或与用户的预感相似。

3、数据挖掘系统

(1)能够产生所有有趣的模式吗?

能否产生所有有趣的模式,涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实的和低效的。实际上,应当根据用户提供的约束和兴趣度度量对搜索聚焦。对于某些挖掘任务(如关联)而言,通常能够确保算法的安全性。关联规则挖掘就是一个例子,它使用约束和兴趣度度量可以确保挖掘的安全性。

(2)能够仅产生有趣的模式吗?

能否仅产生有趣的模式,是数据挖掘的优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的,因为通过这样不需要搜遍所产生的模式来识别真正有趣的模式。

四、技术

数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算 和许多应用领域的大量技术。

1、统计学

统计学研究数据的收集、分析、解释 和 表示。统计模型是一组数学函数,广泛用于对数据和数据类建模,它们用随机变量及其概率分布刻画目标类对象的行为。

  • 例如,在像数据特征化和分类这样的数据挖掘任务中,可以建立目标类的统计模型。换言之,这种统计可以是数据挖掘任务的结果。反过来,数据挖掘任务也可以建立在统计模型之上。例如,我们可以使用统计模型对噪音和缺失的数据值建模。于是,在大数据集中挖掘模式时,数据挖掘过程可以使用该模型来帮助识别数据中的噪音和缺失值。
  • 统计学研究开发一些使用数据和统计模型进行预测和预报的工具。统计学方法可以用来汇总或描述数据集。推理统计学(或预测统计学)用某种方式对数据建模,解释观测中的随机性和确定性,并用来提取关于所考察的过程或总体的结论。
  • 统计学方法也可以验证数据挖掘结果。例如,建立分类或预测模型之后,应该使用统计假设检验来验证模型。统计假设检验(有时称作证真实数据分析)使用实验数据进行统计判决。如果结果不大可能随机出现,则称它为 统计显著 的。如果分类或预测模型有效,则该模型的描述统计量将增强模型的可能性。
  • 在数据挖掘中使用统计学方法并不简单。通常,一个巨大的挑战是如何把统计学方法用于大型数据集。许多统计学方法都具有很高的计算复杂度。当这些方法应用于分布在多个逻辑或物理站点上的大型数据集时,应该小心地设计和调整算法,以降低计算开销。对于联机应用而言,如Web搜索引擎中的联机查询建议,数据挖掘必须连续处理快速、实时的数据流,这种挑战变得更加难以应对。

1、机器学习

机器学习考察计算机如何 如何基于数据学习(或提高它们的性能)。主要研究领域是,计算机程序基于数据自动地学习识别复杂的模式,并做出智能的决断。例如,一个典型的机器学习问题是为计算机编制程序,使之从一组实例学习之后,能够自动地识别邮件上的手写体邮政编码。
机器学习是一个快速成长的学科。这里,我们介绍一些与数据挖掘高度相关的、经典的机器学习问题。

监督学习(supervised learning) 基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。例如,邮政编码识别问题中,一组手写邮政编码图像与其对应的机器可读的转换物用作训练实例,监督分类模型的学习。

无监督学习(unsupervised learing)本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有标记。典型的,我们可以使用聚类发现数据中的类。例如,一个无监督学习方法可以取一个手写数字图像集合作为输入。假设它找出了10个数据簇,这些模型分别对应于 0~9 这10个不同的数字。然而,由于训练数据并无标记,因此学习到的模型并不能告诉我们所发生的簇的语义。

半监督学习(semi_supervised learning)是一类机器学习技术,在学习模型时,它使用标记和未标记的实例,在一种方法中,标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。对于两类问题,我们可以把属于一个类的实例看做正实例,而属于另一个类的实例为负实例。在下图中,如果我们不考虑未标记的实例,则虚线是分隔正实例和负实例的最佳决策边界。使用未标记的实例,我们可以把该决策边界改进为实线边界。此外,我们能够检测出右上角的两个正实例可能是噪点或离群点,尽管他们被标记了。

数据挖掘概念与技术_第3张图片

主动学习(active learning)是一种机器学习方法,它让用户在学习过程中扮演主动角色。主动学习方法可能要求用户(例如领域专家)对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。给定可以要求标记的实例数量的约束,目的是通过主动地进从用户获取知识来提高模型质量。

1、数据库系统与数据仓库

数据库系统研究关注为单位和最终用户创建、维护和使用数据库。特别是,数据库系统研究者们已经建立数据建模、查询语言、查询处理与优化方法、数据存储以及索引和存取方法的公认规则。数据库系统因其在处理非常的、相对结构化的数据集方面的高度可伸缩性而闻名。
许多数据挖掘任务都需要处理大型数据集,甚至是处理实时的快速流数据。因此数据挖掘可以很好地利用可伸缩的数据库技术,以便获得在大型数据集上的高效率和可伸缩性。此外,数据挖掘任务也可以用来扩充已有数据库系统的能力,以便满足高端用户复杂的数据分析需求。
新的数据库系统使用数据仓库和数据挖掘机制,已经在数据库的数据上建立了系统的数据分析能力。数据仓库集成来自多种数据源和各个时间段的数据。它在多维空间合并数据,形成部分物化的数据立方体。数据立方体不仅有利于多维数据库的OLAP,而且推动了多维数据挖掘。

2、信息检索

信息检索(IR) 是搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在Web上。传统的信息检索与数据库系统之间的差别有两点:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构(不同于数据库系统中的SQL查询)。
信息检索的典型方法采用概率模型。例如,文本文档可以看做词的包,即出现在文档中的词的多重集。文档的语言模型是生成文档中词的包概率密度函数。两个文档之间的相似度可以用对应的语言模型之间的相似性度量。
此外,一个文本文档集的主题可以用词汇表上的概率分布概率,称作主题模型。一个文本文档可以设计多个主题,可以看做多主题混合模型。通过集成信息检索名和数据挖掘技术,我们可以找出文档集中的主要主题,对集合中的每个文档,找出所涉及主要主题。
由于Web和诸如数字图书馆、数字政府、卫生保健系统等应用的快速增长,大量文本和多媒体数据日益累积并且可以联机获得。他们的有效搜索和分析对数据挖掘提出了许多挑战性问题。因此,文本挖掘和多媒体与信息检索方法集成,已经变得日益重要。

五、面向应用类型

数据挖掘扮演关键角色的应用很多,例如,知识密集应用领域中的生物信息学和软件工程,数据挖掘更需要深入处理。下面简略讨论两个数据挖掘非常成功和流行的应用例子:商务智能和搜索引擎。

1、智能商务

对于商户而言,较好地理解它的诸如顾客、市场、供应和资源以及竞争对手等商务背景是至关重要的。商务智能(BI)技术提供商务运作的历史、现状和预测视图,例子包括报告、联机分析处理、商务业绩管理、竞争情报、标杆管理和预测分析。
“商务智能有多么重要?”没有数据挖掘,许多工商企业都不能进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。
显然,数据挖掘是商务智能的核心。商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。分类和预测技术是商务智能预测分析的核心,在分析市场、供应和销售方面存在需多应用。此外,在客户关系管理方面,聚类起主要作用,它根据顾客的相似性把顾客分组。使用特征挖掘技术,可以更好地理解每组顾客的特征,并开发定制的顾客奖励计划。

2、Web搜索引擎

Web搜索引擎是一种专门的计算机服务器,在Web上搜索信息。通常,用户查询的搜索结果用一张表返给用户(有时称作采样——hit)。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录,因为网络目录是人工编辑管理的,而搜索引擎是按算法运行的,或者是算法和人工输入的混合。
Web搜索引擎本质上是大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术,包括爬虫(crawler)、索引和搜索(例如,确定如何排列各个页面、加载何总广告、如何把搜索结果个性化或使之“环境敏感”)。
搜索引擎对数据挖掘提出了巨大挑战。首先,它们必须 处理大量并且不断增加的数据 。通常,这种数据不可能使用一台或几台机器处理。搜索引擎需要使用数以千计乃至数以万计的计算机组成的计算机云,协同挖掘海量数据。把数据挖掘方法升级到计算机云和大型分布数据集上是一个需要进一步研究的领域。
其次,Web搜索引擎通常需要处理在线数据。搜索引擎也许可以在海量数据集上离线构建模型。为了做到这一点,它可以构建一个查询分类器,基于查询主题(例如,搜索查询“apple”是指检索关于水果的信息,还是关于计算机品牌的信息),把搜索查询指派到预先定义的类别。无论模型是否是离线构建的,模型的在线应用都必须足够快,以便回答实时用户查询。
第三,Web搜索引擎常常需要处理出次数不多的查询。假设搜索引擎想要提供环境敏感的推荐。也就是说,当用户提交一个查询时,搜索引擎视图使用用户的简况和他的查询历史推断查询的环境,但是大部分查询都只是提问一次或几次。对于数据挖掘和机器学习方面而言,这种严重倾斜的数据都是一个挑战。

六、数据挖掘的主要问题

数据挖掘是一个动态的、强势快速扩展的领域。这里,我们简要概述数据挖掘研究的主要问题,把他们划分成五组:挖掘方法、用户交互、有效性与可伸展性、数据类型的多样性、数据挖掘与社会。这些问题中,许多问题在某种程度上已经解决,并且被看做数据挖掘需求;其他问题处于研究阶段。这些问题将继续激励数据挖掘的进一步研究与改进。

1、挖掘方法

精力充沛的研究者们已经开发了一些数据挖掘方法,设计新的知识类型的研究、多维空间挖掘、集成其他领域的方法以及数据对象之间语义捆绑的考虑。此外,挖掘方法应该考虑诸如数据的不确定性、噪声和不完全性等问题。有些数据挖掘方法探索如何使用用户指定度量评估所发现的模式的兴趣度,同时指导挖掘过程。让我们来考察数据挖掘方法的这些方面。

  • 挖掘各种新的知识类型: 数据挖掘广泛涵盖数据分析和知识发现的任务,从数据特征化与区分到关联与相关性分析、分类、回归、聚类、离群点分析、序列分析以及趋势和演变分析。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。由于应用的多样性,新的数据挖掘任务持续出现,使得数据挖掘成为动态、快速成长的领域。例如,对于信息网络的有效知识发现而言,集成聚类和排位可能导致大型网络中的高质量聚类和对象排位。
  • 挖掘多维空间中的知识: 在大型数据集中搜索知识时,我们可能探索多维空间中的数据。也就是说,我们可能在不同抽象层的多维(属性)组合中搜索有趣的模式。这种挖掘称做(探索式)多维数据挖掘。在许多情况下,可以聚集数据,或把数据看做多维数据立方体。在数据立方体空间中挖掘知识可以显著地提高数据挖掘的能力和灵活性。
  • 数据挖掘——跨学科的努力: 通过集成来自多学科的新方法可以显著增强数据挖掘的能力。例如,为了挖掘自然语言文本数据,把数据挖掘方法与信息检索和自然语言处理的方法融合在一起是明智之举。再比如大型程序中的软件故障挖掘——这种形式的挖掘称做鼓掌挖掘,就得益于把软件工程知识结合到数据挖掘过程中。
  • 提升网络环境下的发现能力: 大部分数据对象驻留在链接或互连的环境中,无论是Web、数据库关系、文件还是文档。多个数据对象之间的语义链接可以用来促进数据的挖掘。一个数据集中导出的知识可以用来提升“相关”或语义连接的对象集中的发现知识。
  • 处理不确定性、噪声或不完全数据: 数据常常包含噪声、错误、异常、不确定性,或者是不完全的。错误和噪声可能干扰数据挖掘过程,导致错误的模式出现。数据清理、数据预处理、离群点检测与删除以及不确定推理都是需要与数据挖掘过程集成的技术。
  • 模式评估或约束指导的挖掘: 数据挖掘过程产生的所有模式并非都是有趣的。认定哪些模式有趣可能因用户而异。因此,需要一种技术来评估基于主观度量所发现的模式的兴趣度。这种评估关于给定用户类,基于用户的确信或期望,评估模式的价值。此外,通过使用兴趣度度量或用户指定的约束指导发现过程,可以产生更有趣的模式,压缩搜索空间。

2、用户界面

  • 交互挖掘: 数据挖掘过程应该是高度交互的。因此重要的是构建灵活的用户界面和探索式挖掘环境,以便用户与系统交互。用户可能先看到数据集的一个实例,探查数据的一般特性,并评估可能的数据挖掘结果。交互式挖掘允许用户在挖掘过程中动态地改变搜索的聚集点,根据返回的结果提炼挖掘请求,并在数据和知识空间交互地进行下钻、切块和旋转,动态地探索“立方体空间”。
  • 结合背景知识: 应当把背景知识、约束、规则和关于所研究领域的其他信息结合到发现过程中。这些知识可以用于模式评估,指引搜索有趣的模式。
  • 特定的数据挖掘和数据挖掘查询语言: 查询语言(如SQL)在灵活的搜索中扮演了重要角色,因为它允许用户提出特定的查询。类似地,高级数据挖掘查询语言或其他高层灵活的用户界面将给用户很大自由度来定义特定的数据挖掘任务。这种语言应该便于说明分析任务的相关数据集、领域知识、所挖掘的知识类型、被发现的模式必须满足的条件和约束。这种灵活的挖掘请求处理的优化是一个充满希望的研究方向。
  • 数据挖掘结果的表示和可视化: 数据挖掘系统如何生动、灵活地提供数据挖掘结果,使得所发现的知识容易理解,能够直接被人们使用?如果数据挖掘系统是交互的,这一点尤其重要。这要求系统采用有表达能力的知识表示,以及友好的用户界面和可视化技术。

3、有效性和可伸缩性

在比较数据挖掘算法时,总是需要考虑有效性与可伸缩性。随着数据量持续增加,这两个因素尤其重要。

  • 数据挖掘算法的有效性和可伸缩性: 为了有效地从多个数据库或动态数据流的海量数据中提取信息,数据挖掘算法必须是有效的和可伸缩的。换句话说,数据挖掘算法的运行时间必须是可预计的、短的和可以被应用接受的。有效性、可伸缩性、性能、优化以及实时运行能力是驱动许多数据挖掘新算法开发的关键标准。
  • 并行、分布式和增量挖掘算法: 许多数据集的巨大容量、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据密集型挖掘算法的因素。这种算法首先把数据划分成若干“片段”,每个片段并行处理,搜索模式。并行处理可以交互,来自每部分的模式最终合并在一起。
  • 云计算和集群计算使用分布和协同的计算机处理超大规模计算任务,它们也是并行数据挖掘研究的活跃主题。此外,有些数据挖掘过程的高开销和输入的增量特点推动了增量数据挖掘。增量挖掘与新的数据更新结合在一起,而不是“从头开始”挖掘全部数据。这种算法增量地进行知识修改,修正和加强先前已发现的知识。

4、数据库类型的多样性

数据库类型的多样性为数据挖掘带来了一些挑战,这些挑战包括:

  • 处理复杂的数据类型:多样化的应用产生了形形色色的新数据集,从诸如关系数据库和数据仓库数据这样的结构化数据到半结构化数据,从静态的数据库到动态的数据流,从简单的数据对象到时间数据、生物序列数据、传感器数据、空间数据、超文本数据、多媒体数据、软件程序代码、Web数据和社会网络数据。由于数据类型的多样性和数据挖掘的目标不同,期望正在构建面向领域或应用的数据挖掘系统。为多种多样的应用构建有效的数据挖掘工具任然是一个挑战,并且是活跃的研究领域。
  • 挖掘动态的、网络的、全球的数据库:众多数据源被国际互联网和各种网络连接在一起,形成一个庞大的、分布的和异构的全球信息系统和网络。从具有不同数据语义的结构化的、半结构化的和非结构化的不同数据源发现知识,对数据挖掘提出了巨大挑战。与从孤立的数据库的小数据集可以发现的知识相比,挖掘这种庞大的、多源数据挖掘和信息网络可能帮助在异种数据集中发现更多的模式和知识。互联网挖掘、多源数据挖掘和信息网络挖掘已经成为数据挖掘的一个非常具有挑战性和快速发展的领域。

5、数据挖掘与社会

数据挖掘对社会的影响?数据挖掘可以采用什么步骤来保护个人隐私?我们可以甚至不知道在做什么,而在日常生活中使用数据挖掘吗?这些问题提出了以下议题:

  • 数据挖掘的社会影响:由于数据挖掘渗透到我们的日常生活,因此研究数据挖掘对社会的影响是重要的。怎样使用数据挖掘技术才能有益于社会?怎么才能防止它被滥用?数据的不适当披露和使用、个人隐私和数据保护权的潜在违反都是需要关注的研究领域。
  • 保护隐私的数据挖掘:数据挖掘将帮助科学发现、商务管理、经济恢复和安全保护(如入侵计算机攻击的实时发现)。然而,它也带来了泄露个人信息的风险。保护隐私的数据发布和数据挖掘的研究正在进行,其宗旨是在进行成功的数据挖掘的同时,注意数据的敏感性,保护人们的隐私。
  • 无形的数据挖掘:我们不可能期望社会上的每个人都学习和掌握数据挖掘技术。越来越多的系统将把数据挖掘功能构建其中,使得人们不需要数据挖掘算法的任何知识,只需要简单地点击鼠标就能进行数据挖掘或使用数据挖掘结果。智能搜索引擎和基于国际互联网的商店都在进行这种无形的数据挖掘,把数据挖掘合并到他们的组件中,提高其功能和性能。这些在做的事情用户通常并不知晓。例如,在线购买商品时,用户并未察觉商店可能正在收集顾客的购买模式数据,这些可能用来为将来的购物推荐其他商品。

小结

需要是发明之母
  • 数据挖掘是从海量数据中发现有趣模式的过程。通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。
  • 一个模式如果是有趣的,则它在某种确信程度上对于检验数据是有效的、新颖的、潜在有用的(例如,可以据之行动,或者验证了用户关注的某种预感),并且容易被人理解。有趣的模式代表知识。模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程。
  • 我们提供了一个数据挖掘的多维视图。主要是数据、知识、技术和应用。
  • 只要数据对于目标应用是有意义的,数据挖掘可以在任何类型的数据上进行,如数据库数据、数据仓库数据、事务数据和高级数据类型等。高级数据类型包括时间相关的或序列数据、数据流、空间和时空数据、文本和多媒体数据、图和网络数据、Web数据。
  • 数据仓库是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理
  • 多维数据挖掘(又称探索式多维数据挖掘)把数据挖掘的核心技术与基于OLAP额多维分析结合在一起。它在不同的抽象层的多维(属性)组合中搜索有趣的模式,从而探索多维数据空间。
  • 数据挖掘功能用来指定数据挖掘任务发现的模式或知识类型,包括特征和区分,频繁模式、关联和相关性挖掘,分类和回归,聚类分析和离群点检测
  • 作为一个应用驱动的领域,数据挖掘融汇了来自其他一些领域的技术。这些领域技术包括统计学、机器学习、数据库和数据仓库系统,以及信息检索。数据挖掘研究与开发的多学科特点大大促进了数据挖局的成功和广泛应用。
  • 数据挖掘有许多成功的应用,如商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府。
  • 数据挖掘研究存在许多挑战性问题。领域包括挖掘方法、用户交互、有效性与可伸缩性,以及处理多种多样的数据类型。

原文链接:https://blog.csdn.net/lanhui_1996/article/details/77835942


1.1 什么是数据挖掘?在你的回答中,强调以下问题:

(a)它是又一种广告宣传吗?
(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。

数据挖掘不是一种广告宣传,它是一个应用驱动的领域,数据挖掘吸纳了诸如统计学习、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。它是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态的流入系统的数据等。当其被看作知识发现过程时,其基本步骤主要有:(1).数据清理:清楚噪声和删除不一致数据;(2).数据集成:多种数据源可以组合在一起;(3).数据选择:从数据库中提取与分析任务相关的数据;(4).数据变换:通过汇总或者聚集操作,把数据变换和统一成适合挖掘的形式;(5).数据挖掘:使用智能方法或者数据挖掘算法提取数据模式;(6).模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式。(7).知识表示:使用可视化和知识表示技术,将已经挖掘到的有用知识给用户呈现出来。

1.2 数据仓库与数据库有什么不同?它们有哪些相似之处?

数据仓库是多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。数据库系统也称数据库管理系统,由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。它们的相似之处:都是通过某个数据库软件,基于某种数据模型来组织、管理数据。

1.4 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?

首先概括一下可以挖掘什么类型的模式:特征化与区分、频繁模式、分类与回归、聚类、离群点分析。以航空公司为例,为提高用户体验度,最大限度提高乘客登机时的效率,减少登机所用时间。这就需要进行回归分析,比如以近几个月登机时的数据进行回归分析,来判断某时刻客户登机时的人流量符合哪种分布情况,以预测未来人流量从而提前做出相应改进措施提高用户登机效率。在这种情况下,简单的查询统计是满足不了该航空公司的。

1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。

区分和分类:数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较;而分类则是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测。
特征化和聚类:数据特征化是目标类数据的一般特性或特征的汇总,即在进行数据特征化时很清楚特征化的这些数据的特点是什么;而聚类则只是分析数据对象,按照“最大化类内相似度、最小化类间相似度”的原则进行聚类或分组。
分类在第一点时已经说过;回归主要是建立连续值的函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。

1.6 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?

比如对文本进行分类时往往需要进行某类的高频特征提取,而在某个分类下面拥有众多文档,文档中又往往包含众多特征词汇,此时就需要进行数据挖掘从而找出可以代表该类的特征词,这就涉及到特征降维,我们可以用卡方统计等方法进行特征提取。该方法并未在本章中列出。

1.7 离群点经常被当做噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。例如,信用卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。

就目前所掌握的第一章的知识来讲,检测离群点的方法可以通过聚类和分类两种方法来检测。首先来讲聚类,通过聚类可以把具有一定相似度的数据对象聚集在一起,而对于是离群点的这些数据来说,往往离通过聚类得到的这些簇比较远,并且表现的比较分散,因此通过聚类之后,观察这些离簇比较远的数据对象则可以很方便的找到离群点。本人认为还可以通过分类来检测离群点。因为在清楚了需要把数据对象分成几个大类时,我们可以通过合适的分类算法对数据进行分类,比如最简单的通过相似度去分类,那么当其相似度小于某一个阈值时,我们把这些数据认为是离群点,然后把这些数据单独进行分析从而检测离群点。分类方法用于离群点检测时,往往需要很清楚的知道这些数据能够分成几个大类,而对于庞大的数据量来说,根据不用的特征可能可以划分出好多大类,这样在进行数据预处理时可能会比较麻烦,而聚类则相对来说要简单一些,并且通过聚类之后,采用一定的可视化技术可以很清楚的将离群点显示出来,以便研究人员、用户等可以很方便的观测离群点。因此,就这两种方法来说,聚类对于离群点的检测更加可靠。

1.8 描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。

涉及数据挖掘挑战自然是比较有深度、难度的数据挖掘,诸如交通拥堵、环境恶化、能耗增加等三个领域。首先来讲交通拥堵,对于交通拥堵,每辆车都会有传感器,而对于每辆车的定位则可以通过GPS、北斗导航的定位系统进行定位,在解决交通拥堵问题时,可以将以上已知数据信息进行融合即多源数据融合,加之一定的数据挖掘算法从而去解决交通拥堵问题。在实时的解决交通拥堵问题时,将拥堵情况动态的展现给司机则涉及到了数据可视化,那么如何将这些实时的车流情况以及解决方式动态的呈现给司机则又是一大挑战。
环境恶化、能耗增加:这两大难题在现实生活中同样表现的比较突出,但是仅从单方面来讲,我们可以获取的信息也是比较充足的,比如气象条件、环境各项指标的检测数据、各燃油的销售量等等,那么如何将这些数据有效的融合并且提出有效的解决方案或者说是建立良好的数学模型则是摆在众多科研人员面前的一大挑战。

1.9 与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(例如,数十亿个元组)的主要挑战是什么?

在挖掘海量数据时,如何去保护人们的隐私;
海量数据一般存储在云上,如何保证数据的安全性;
如何在海量数据中快速的挖掘出感兴趣的模式;
在海量数据中挖掘出有趣的、有价值的模式之后,如何以可视化形式展现出来。

1.10 概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战?

这几个领域有一个共同的特点就是有可能有多源数据的存在,当存在多源数据时,如何对多源数据进行整合则是我们所面临的一大挑战;其次,对于多远数据的预处理也是比较困难,因为多源数据之间可能会相互影响;最后,对于这种复杂对象的挖掘,在数据挖掘领域也是研究人员所面临的一大挑战。

原文链接:https://blog.csdn.net/u013272948/article/details/71024949

你可能感兴趣的:(数据挖掘概念与技术)