1 数据挖掘的发展趋势和研究前沿
1.1 挖掘复杂的数据类型
1.1.1 挖掘序列数据:时间序列、符号序列和生物学序列
序列是事件的有序列表。
在时间序列数据(time-seriesdata)中,序列数据由相等时间间隔记录的的数值数据的长序列组成。
符号序列数据(symbolic sequence data)由事件或标称数据的长序列组成,通常不是相等的时间间隔观测。
生物学序列(biological)包括DNA序列和蛋白质序列。
1. 时间序列数据的相似性搜索
时间序列数据集包含不同时间点重复测量得到的数值序列。
相似性搜索找出稍微不同于给定查询序列的数据序列。
子序列匹配
2. 时间序列数据的回归和趋势分析
趋势分析也可以用于时间序列预测,即找出一个数学函数,它近似地产生时间序列的历史模式,并使用它对未来的数据进行长期或短期预测。
3. 符号序列中的序列模式挖掘
符号序列由元素或事件的有序集组成,记录或未记录具体时间。
序列模式挖掘广泛地关注挖掘符号序列模式。序列模式是一个存在于单个序列或一个序列集中的频繁子序列。
4. 序列分类
序列分类方法可以分为三类:①基于特征的分类,它们把序列转换成特征向量,然后用传统的分类方法;②基于序列距离的分类,其中度量序列之间相似性的距离函数决定分类的质量;③基于模型的分类,如使用隐马尔科夫模型或其他统计学模型来对序列分类。
5. 生物学序列比对
生物学序列分析比较、比对、索引和分析生物学序列。
6. 生物学序列分析的隐马尔科夫模型
1.1.2 挖掘图和网络
1. 图模式挖掘
2. 网络的统计建模
3. 通过网络分析进行数据清理、集成和验证
4. 图和同质网络的聚类与分类
5. 异质网络的聚类、秩评定和分类
6. 信息网络中的角色发现和链接预测
7. 信息网络中的相似性搜索和OLAP
8. 社会与信息网络的演变
1.1.3 挖掘其他类型的数据
1. 挖掘空间数据
2. 挖掘时空数据和移动对象
3. 挖掘信息物理系统(Cyber-Physical System, CPS)数据
4. 挖掘多媒体数据
5. 挖掘文本数据
6. 挖掘Web数据
7. 挖掘数据流
1.2 数据挖掘的其他方法
1.2.1 统计学数据挖掘
回归:一般地说,这些方法用来由一个或多个预测变量预测一个响应变量的值,其中变量都是数值的。
广义线性模型(generalized linear models)
方差分析(analysis of variance)
混合效应模型(mixed-effect model)
因素分析(factor analysis)
判别式分析(discriminant analysis)
生存分析(survival analysis)
质量控制(quality control)
1.2.2 关于数据挖掘基础的观点
数据规约(data reduction)
数据压缩(data compression)
概率统计理论(probability and statistical theory)
微观经济学观点(microeconomic view)
模式发现和归纳数据库(pattern discovery and inductive databases)
1.2.3 可视和听觉数据挖掘
可视数据挖掘(visual data mining)使用数据和知识可视化技术,从大型数据集中发现隐含的和有用的知识。
数据可视化
数据挖掘结果可视化
数据挖掘过程可视化
交互式可视数据挖掘
听觉数据挖掘(audio data mining)
1.3 数据挖掘应用
1.3.1 金融数据分析的数据挖掘
为多维数据分析和数据挖掘设计和构造数据仓库
贷款偿还预测和顾客信用政策分析
针对定向促销的顾客分类与聚类
洗黑钱和其他金融犯罪的侦破
1.3.2 零售和电信业的数据挖掘
零售数据挖掘可以帮助识别顾客购买行为,发现顾客购物模式和趋势,改进服务质量,去的更好的顾客保持度和满意度,提高货品消费比,设计更好的货品运输与分销策略,降低企业成本。
数据仓库的设计与构造
销售、顾客、产品、时间和地区的多维分析
促销活动的效果分析
顾客保有——顾客忠诚度分析
产品推荐和商品的交叉推荐
欺骗分析与异常模式识别
1.3.3 科学与工程数据挖掘
收集和存储数据,挖掘新的假设,通过数据或实验证实
数据仓库和数据预处理
挖掘复杂的数据类型
基于图和网络的挖掘
可视化工具和特定领域的知识
工程上的数据挖掘
社会科学和社会研究数据挖掘
计算科学中的数据挖掘可以用来帮助监测系统状态、提高系统性能、隔离软件错误、检测软件剽窃、分析计算机系统缺陷、发现网络入侵和识别系统故障。
1.3.4 入侵检测和预防数据挖掘
多数入侵检测和预防系统都使用基于特征的检测或基于异常的检测。
基于特征的检测(signature-based detection):这种检测方法利用特征。
基于异常的检测(anomaly-based detection):这种方法构造正常网络行为的模型,用来检测显著地偏离该轮廓的新模式。
1.3.5 数据挖掘与推荐系统
推荐系统帮助消费者,向用户推荐他们可能感兴趣的产品。推荐系统可能使用基于内容的方法、协同方法或者结合基于内容和协同方法的混合方法。
推荐系统的主要挑战包括可伸缩性和确保推荐质量。另一个挑战是如何处理尚无购物史的新用户。
1.4 数据挖掘与社会
1.4.1 普适的和无形的数据挖掘
1.4.2 数据挖掘的隐私、安全和社会影响
1.5 数据挖掘的发展趋势
有效的数据挖掘方法、系统和服务的开发,交互的和集成的数据挖掘环境的构建是关键的研究领域。
应用探索
可伸缩的和交互的数据挖掘方法
与搜索引擎、数据库系统、数据仓库系统和云计算系统的集成
挖掘社会和信息网络
挖掘时间空间数据、移动对象和信息物理系统
挖掘多媒体、文本和Web数据
挖掘生物学和生物医学数据
数据挖掘与软件工程和系统工程
可视和听觉数据挖掘
分布式数据挖掘和实时数据流挖掘
数据挖掘中的隐私保护和信息安全