数据挖掘概述

文章目录

  • 一、数据准备
    • 1.1 原始维度指标
    • 1.2 异常值处理
    • 1.3 类别不均衡处理
  • 二、特征工程
    • 2.1 构造新复合的指标
    • 2.2 数据转化
    • 2.3 平滑处理
    • 2.4 归一化
    • 2.5 降维
  • 三、建模
    • 3.1 无监督模型
      • 3.2.1 方法 (分界值确定)
      • 3.2.2 效果评价 (高内聚,低耦合)
      • 3.2.3 应用场景
    • 3.2 监督模型
      • 3.2.1 方法
      • 3.2.2 效果评价
      • 3.2.3 应用场景
    • 3.3 因果推断模型

一、数据准备

1.1 原始维度指标

1.2 异常值处理

缺失值填充

1.3 类别不均衡处理

随机采样(过采样、欠采样)、错分样本采样

二、特征工程

2.1 构造新复合的指标

时间窗口+目标行为+指标,更好的区分用户行为

2.2 数据转化

 时间衰退处理:时间t,衰减函数s(t),t时刻的值y,y_new = s(t)*y

2.3 平滑处理

 平滑处理:长尾数据取对数可以看到,平滑处理后的数据的range明显变宽。函					 
 注:数中底数 α 的选择会影响最后的分布——太小的话偏线性,太大的话则过分压缩、无法体现差异,需要选择合适的值。

2.4 归一化

 最大最小归一
 标准化去量纲

2.5 降维

1、加权计算综合分
	主成分分析
	变异系数加权 

三、建模

建模关键因素:数据 - 模型 - 损失函数 - 最优化

3.1 无监督模型

3.2.1 方法 (分界值确定)

函数刻画(累积分布函数、价值贡献率),找函数的交点、拐点
聚类模型(k-means、)

3.2.2 效果评价 (高内聚,低耦合)

内聚性:类内聚合度和类间分离度的指标——轮廓系数	
稳定性:不同分层的用户表现是稳定的,离散系数等于样本的标准差除以均值,它的值越大代表波动越大、稳定性越低。

3.2.3 应用场景

 人群圈选、榜单、生命周期划分(策略标签沉淀)

3.2 监督模型

3.2.1 方法

 1 树模型
 	  决策树
      gbdt 
      xgb 
      lgb
 2 回归模型
	  线性回归:线性映射+均方误差
      逻辑回归LR 线性映射+ 激活函数 + 交叉熵
	  神经网络:线性映射+ 非线性映射 + 激活函数 + 交叉熵

3.2.2 效果评价

评价指标名称 原理
查准率
查全率
F1值
AUC
均方误差

3.2.3 应用场景

数据挖掘场景:

3.3 因果推断模型

你可能感兴趣的:(聚类,python)