转自:http://blog.csdn.net/zhucanxiang/article/details/9843901
之前看过经典的《数据挖掘导论》,然后又看了韩家炜的《数据挖掘概念与技术》这本数据挖掘入门书籍,对数据挖掘也有了一个初步的了解,特此写篇文章总结一下自己读这两本书后对数据挖掘的认识。
1. 定义:
又称数据中的知识发现,从大量的数据中挖掘有趣模式和知识的过程。
知识发现的过程:
1). 数据清理: 除噪声和删除不一致数据
2). 数据集成: 多种数据源的组合
3). 数据选择: 取和分析与任务相关的数据
4). 数据变换: 数据变换和统一成适合挖掘的形式
5). 数据挖掘: 使用智能方法提取数据格式
6). 模式评估: 识别代表知识的有趣模式
7). 知识表示: 使用可视化和知识表示技术,向用户提供挖掘的知识
2. 为什么要进行数据挖掘
未来将是大数据时代,IDC(国际数据公司)研究报告指出2012年全球信息资料量为2.8ZB(2的40次方GB),而在2020年预计会达到40ZB,平均每人拥有5247GB的数据。庞大的数据量背后隐藏着巨大的潜在价值,人们手握巨量的数据却没有很好的手段去充分挖掘其中的价值,因此对数据挖掘的研究可以帮助我们将数据转化成知识。
3. 数据挖掘的知识体系
数据挖掘作为一个应用驱动的领域,吸纳了许多应用领域的技术,包括:
统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。
数据挖掘的任务分类:
描述性任务: 刻画目标数据的一般性质
预测性任务: 归纳及做出预测
数据挖掘功能:
1). 数据特征化与数据区分
2). 频繁模式
3). 关联和相关性挖掘
4). 分类和回归
5). 聚类分析
6). 离群点分析
4. 数据挖掘应用领域
1. 金融数据分析
2. 零售与电信业: 例如分析零售数据有利于做出正确的决策;产品推荐;顾客保有及促销策略
3. 科学与工程数据挖掘
4. 网络数据挖掘: 社交网络用户行为分析,多媒体、文本和web数据分析
5. 信息检索: 搜索引擎、云计算、数据仓库
1. 属性总结:
标称属性:一些符号和事物的名称,如头发颜色和学历是描述人的属性。
二元属性:只有0、1两种状态
序数属性: 可能的值具有有意义的序,如教师职称
数值属性: 定量的,用实数值表示
2. 度量数据的相似性和相异性(即数据的邻近性)
非对称二元属性: Jaccard属性
数值属性:欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离
相似性评估:余弦相似性(用于比较文档)、Tanimoto系数
3. 数据预处理
1). 数据清理:填补缺失值、光滑噪声、识别离群点、纠正数据不一致性,通常是一个两步迭代过程,包括偏差检测盒数据变换
处理缺失值:有忽略元组、人工填写、全局常量填充、
均值或中位数填充、同类均值或中位数填充、最可能值填充六种方法。
噪声数据处理:分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑方法)
回归、离群点分析
2). 数据集成: 将来自多个数据源的数据整合成一致的数据存储
实体识别问题:模式集成和对象匹配。如在一个系统中discount用于订单,而在另一个系统中用于商品,集成不正确导致商品不正确打折
冗余和相关分析:
冗余指一个属性能由另一个或另一组属性导出,则这个属性是冗余的,可用相关分析检测到。
标称数据使用卡方检验,数值属性用相关系数和协方差
3). 数据规约:简化数据集的表示,包括维规约和数值规约
维规约:数据压缩技术(如小波变换和主成分分析), 属性子集选择,属性构造
数值规约: 参数模型(如回归),非参数模型(聚类、抽样、直方图)
4). 数据变换:将数据变换成适于挖掘的形式
变换策略包括: 光滑,属性构造,聚集,规范化,离散化,由标称数据产生概念分层。
1. 数据仓库基本概念:
1). 数据仓库定义:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。
2). 数据库与数据仓库的区别:
主要区别在于数据库是面向事务操作处理的,而数据仓库是面向分析信息处理的。
数据库的用户为数据库专业人员、处理日常操作,而数据仓库为主管和分析人员,为决策提供支持。
3). 数据仓库体系架构: 底层数据,中间层OLAP服务器,顶层前端工具
4). 数据仓库模型:
企业仓库:提供企业范围内的数据集成,企业范围的
数据集市:包含企业范围数据的一个子集,对特定的用户群,咸鱼选定的主题,部门范围的。
虚拟仓库: 操作数据库上视图的集合
2. 数据仓库建模
数据立方体: 允许以多维数据建模和观察,由维(属性)和事实(数值)定义
方体:给定诸维的每个可能的自己产生一个方体,结果形成方体的格,方体的格称作数据立方体。
多维模型:
星形模式:包括一个大的中心表(事实表)、一组小的附属表(维表),维表围绕中心表
雪花模式:是星形的表变种,某些维表被规范化费解到附加的表中,用于数据集市
事实星座:多个事实表分享维表,用于复杂的应用,常用于企业数据仓库
3. 典型OLAP操作:
上卷:沿一个维的概念分层向上攀升或通过维规约进行聚集,如由city上卷到country
下钻:沿维的概念分层向下或引入附加的维来实现,如由季度数据到更详细的月数据
切片:在立方体的一个维上进行选择,定义一个子立方体,如选择季度一的数据
切块:在立方体的两个或多个维上进行选择,定义子立方体, 如选择季度为一和商品类型 为计算机的数据
转轴:转动数据视角,或将3D立方变换成2D平面序列
物化:
完全物化(完全立方体):计算定义数据立方体的格中所有的方体,需要过多存储空间,导 致维灾难
部分物化:选择性计算子立方体
冰山立方体: 一个数据立方体,只存放其聚集值大于某个最小支持度阈值的立方体单元。
立方体外壳: 只预计算涉及少数维的方体,这些方体形成对应的数据立方体。
4. 数据立方体的计算方法:
1). 多路数组聚焦:
基本思想:使用多维数组作为基本数据结构,使用数组直接寻址,其中维值通过位置或对应数组位置的下标访问。可能产生稀疏数组结构,可以采用chunkID+ offset 作为单元寻址机制来压缩数组。
优点:比传统的基于关系记录的计算方法快
缺点:因为维数增长,计算的方体数指数增长,因此该方法仅对具有较少维的立方体有效;
不能计算冰山立方体,因为该方法从基本方体开始计算,逐步向上泛化,因而不能利用先验剪枝,导致即时单元不满足冰山条件指定的最小支持度,也无法剪掉。
2). BUC:
基本思想:以相反的次序观察方体的格,顶点方体在底部,而基本方体在顶部,因而实际上市自底向上的,BUC可以分担数据划分开销,在构造立方体是可以使用先验性质进行剪枝。
优点:可以计算冰山立方体,可以分担数据划分开销
缺点:易受维的次序和倾斜数据影响。理想地,应该先处理最有区分能力的为,维应当以基数递减序处理。
3).Star-Cubing:
基本思想:利用自底向上和自顶向下模式的计算模式。在全局计算次序上,使用自底向上,而它下面有一个基于自顶向下模式的子层,利用共享维的概念。这种集成允许算法在多个维上聚集,而仍然划分父母分组并剪裁不满足冰山条件的子女分组。
如果共享维上的聚集值不满足冰山条件,则沿共享维向下的所有单元也不满足冰山条件,这样的单元和它们所有的后代都可以剪枝。
优点:计算完全立方体,速度比BUC快,可以与MultiWay相媲美;计算冰山立方体速度比BUC快。
4). 外壳片段立方体:
冰山立方体的计算和存储开销虽然比完全立方体小,但是仍然很高,一个可能的解决方案是计算一个很薄的立方体外壳,但是这种立方体外壳不支持高维OLAP,它不支持在4维或更多维上的OLAP,并且它甚至不支持沿3个维下钻,因此取代计算立方体外壳可以只计算它的一部分或片段。
外壳片段立方体基本思想:给定一个高维数据集,把维划分成互不相交的维片段,把每个片段转换成倒排索引表示,构造立方体外壳片段,使用预计算立方体外壳片段,计算所需要的数据立方体的方体单元,这可以通过倒排索引上的集合交操作完成。