认识数据挖掘

数据挖掘的方向

数据库技术角度
统计学角度
机器学习角度

一,数据挖掘的发展动力

1,数据量的增长

  • 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。

2,数据量繁多,缺乏寻找有用的信息

3,数据仓库技术金额数据挖掘技术

  • 数据仓库(Data Warehouse)和在线分析处理(OLAP)
  • 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
数据库技术的演化
  • 文件系统(1960s和以前)
  • 层次数据库和网状数据库(1970s)
  • 关系数据模型,关系数据库管理系统(RDBMS)的实现(1980s早期)
  • 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等)
  • 面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)(1980s晚期)
  • 数据挖掘,数据仓库,多媒体数据库和网络数据库(1990s)
  • 流数据管理和挖掘
    基于各种应用的数据挖掘
    XML数据库和整合的信息系统

二,什么是数据挖掘

数据挖掘(从数据中发现知识)
  • 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
  • 挖掘的不仅仅是数据,知识挖掘。
数据挖掘的引申
  • 数据库中的知识挖掘(KDD)
    知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获

数据挖掘的应用

  • 数据分析和决策支持
1 市场分析和管理
(1) 数据从哪里来
  • 信用卡交易,会员卡,商家优惠,客户服务,用户行为记录
(2) 目标市场
  • 构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等
  • 确定顾客的购买模式
(3) 交叉市场分析

货物销售之间的相互联系和相关性,以及基于这种联系上的预测

(4) 顾客分析
  • 哪类顾客购买那种商品
  • 聚类分析或分类预测
(5) 客户需求分析
  • 确定适合不同顾客的最佳商品,用户购买商品分类
  • 预测何种因素能够吸引新顾客,分析顾客购买产品的特征
(6) 概要信息提供
  • 多维度的综合报告
  • 统计概要信息(数据的集中趋势和变化)
2 公司风险分析和管理
(1)财务计划
  • 现金流转分析和预测
  • 交叉区域分析和时间序列分析(财务资金比率,趋势分析等)
(2) 资源计划
  • 总结和比较资源花费
(3) 市场竞争
  • 对竞争者和市场趋势的监控
  • 将顾客按等级分组和基于等级的定价过程
  • 将定价策略应用于竞争更激烈的市场中
3 欺诈行为检测和异常模式的发现
(1)方法
  • 对欺骗行为进行聚类和建模,并进行孤立点分析
(2) 应用
  • 卫生保健、零售业、信用卡服务、电信等
    汽车保险:相撞事件的分析
    非法交易

  • 医疗保险
    职业病人,医生以及相关数据分析
    不必要的或相关的测试

  • 电信 :电话呼叫欺骗行为
    电话呼叫模型 :呼叫目的地,持续时间,日或周呼叫次数。分析该模型发现与期待标准的偏差

  • 零售行业

  • 欺骗检测和异常模式的监测(孤立点)

3 其他应用
  • 文本挖掘(新闻组,电子邮件,文档)和WEB挖掘
    数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络销售的有效性。
  • 流数据挖掘
  • DNA和数据分析

数据挖掘的步骤

业务模式识别
  • 了解应用的领域,应用的目标和相关的知识
创建目标数据集
  • 选择数据
数据清理和预处理
数据缩减和变换
  • 找到有用的特征,维数缩减/变量缩减,不变量的表示。
选择数据挖掘的功能
  • 数据总结、分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等。
数据挖掘算法
模式评估和知识表示
  • 可视化,转换,消除冗余
运用发现的知识

你可能感兴趣的:(认识数据挖掘)