数据挖掘的TO-DO-LIST

数据挖掘的流程与方法

1.任务:

  • 关联分析
  • 聚类分析
  • 分类分析
  • 异常分析
  • 特异组群分析
  • 演变分析

2.方法:

  • 统计
  • 在线处理分析
  • 情报检索
  • 机器学习

    • 分类

      • 实际应用: 应用分类/趋势预测/推荐关联类商品
    • 回归分析

      • 实际应用: 预测销售趋势
    • 聚类

      • 实际应用: 分类
    • 关联规则

      • 包括两个阶段: 从海量数据中找到高频项目组/产生关联规则
      • 实际应用: 预测客户需求
    • Web数据挖掘

      • 常用算法: PageRank算法/HITS算法/LOGSOM算法
      • 问题: 用户分类/用户页面停留时间/内容时效性/页面链入链出/
  • 专家系统
  • 模式识别
  • 神经网络方法

    • 神经网络模型的种类:

      • 用于分类预测和模式识别的前馈式: 函数型网络/感知机
      • 用于联想记忆和优化算法的反馈式: 离散模型/连续模型
      • 用于聚类的自组织映射: ART模型

3.步骤:

one.业务理解

  • 阶段目标

    • 明确商业问题和数据挖掘目标
    • 制定项目计划
  • 工作任务

    • 业务需求调研,问题背景
    • 项目资源评估,确定资源需求
    • 明确业务目标和成功的标准
    • 挖掘目标确定,可行性,明确数据挖掘目标和成功标准
    • 项目计划制定,指导项目实施
  • 实施要点

    • 充分的需求调研和沟通交流
    • 合理的资源、约束条件假设
    • 合适的挖掘结果应用场景设定

two.数据理解

  • 阶段目标

    • 确定建模所需用的数据
    • 探索建模需要的目标变量
  • 工作任务

    • 数据字典编制,梳理内外部数据类型
    • 明确数据业务指标含义
    • 质量校验,确保数据全面性和可用性
    • 目标变量探索,为模型构建做准备

      • 数据的数据量(维度和样本大小)
      • 数据的质量(缺失值、异常值、不一致性等)
      • 数据的分布规律(各种统计指标)
  • 实施要点

    • 必备的内外部数据可获取和可干预
    • 数据一致性、完整性、准确性
    • 目标因子初步分析确定

three.数据准备

  • 阶段目标

    • 建立数据集市或宽表
  • 工作任务

    • 数据集市或宽表设计

      • 将多个表信息进行整合:表之间的联接/明细数据的汇总加工
      • 处理数据质量问题: 缺失值/异常值
    • 数据清洗、加载、转换

      • 数据的字段进行变换: 规范化/标准化
      • 或都将数据进行映射变换,如Log变化
      • 数值型按区间转换成名词型字段
    • 特征工程

      • 从业务角度加工新的计算指标
      • 进行自动特征构建、特征选择、特征降维
    • 数据质量校验
    • 数据标准化
  • 实施要点

    • 高效的数据保障项目进度和质量

four.建立模型

  • 阶段目标

    • 选择合适的技术建模
    • 实现数据挖掘目标
  • 工作任务

    • 技术选型,选择合适的模型算法
    • 样本选取,确定训练样本、测试样本和验证样本
    • 模型建立,筛选变量、模型训练、模型测试
    • 模型评估,评估模型是否满足数据挖掘目标
  • 实施要点

    • 合适的技术帮助实现挖掘目标
    • 样本数据真实反映业务需求
    • 全面评估模型数据挖掘效果

five.检验模型

  • 阶段目标

    • 进行模型的业务应用测试(A/B测试)
    • 判断是否实现商业目标
  • 工作任务

    • 模型试用,确定业务场景,进行模型应用测试,收集反馈效果
    • 效果评价,对测试效果进行评估分析,判断模型是否满足商业目标
  • 实施要点

    • 合适的业务场景试用方案
    • 全面科学的效果评价

six.结果部署

  • 阶段目标

    • 把数据挖掘成果部署到商业环境,应用于生产
  • 工作任务

    • 规划部署,制定部署计划和方案
    • 监控与维护,实时跟踪,验证商业目标达成情况
    • 总结报告,经验积累
  • 实施要点

    • 科学规划,保障无缝部署
    • 即时监控及维护响应,保障运营
    • 全面的总结分析,积累经验

你可能感兴趣的:(模型,数据清洗,机器学习,python,数据挖掘)