特征工程阅读笔记(第一章)

特征工程–思维导图

  • 1.3 特征工程是什么
  • 1.4 特征工程评估的步骤和指标
  • 1.5 从数据集中找重点(GET)
  • 1.6 清洗数据的方法
  • 1.7 删除数据中的属性(DELETE)
  • 1.8 增加新特征(POST)
  • 1.9 特征的转换(PUT)
  • 1.10 人工智能方法

特征工程定义

是一个过程:将数据转换为能更好地表示潜在问题地特征,从而提高机器学习性能。

约定术语

  • 观察值:数据地每行
  • 属性:数据地每列
  • 特征:属性中对于机器学习问题有帮助的列
  • 监督学习:含标签的分析,目标是预测
  • 无监督学习:从数据中提取结构,提取新的特征

特征工程的步骤和指标

  1. 在应用任何特征工程之前,得到机器学习模型的基准性能
  2. 用用一种或多种特征工程
  3. 对于每种特征工程,获得一个性能指标,并与基准性能进行对比
  4. 如果幸能的增量大于某个阈值,则认为是有益的
  5. 幸能的改变一般以百分比计算(如果基准性能从40%提高到76%,则认为改变是90%)

评估方法

  • 回归–预测定量数据(定量数据)
  • 分类–预测定性数据(定性数据)
  • 聚类–将数据按特征作为测量指标
  • 统计检验
类型 测量指标
回归 均方误差
分类 准确性
聚类 轮廓系数
统计方法 相关系数、t检验、卡方检验

轮廓系数

使用场景
  1. 判断单个样本的聚类是否合理
  2. 作为聚类完成后评价其性能
计算方法
  1. 设a(i)为第m簇中第i个观察值与该簇中其他观察值的平均距离;
  2. 设b[i, j]为第m簇中第i个观察值与其他第j个簇中观察值的平均距离。例如:b[i, m+1]即m簇中的观察值i和m+1簇中的每个观察值的距离,然后取平均。所以b(i)的定义为: b ( i ) = m i n { b [ i , 1 ] , b [ i , 2 ] , . . . , b [ i , j ] , . . . , b [ i , k ] } 且 j ≠ m b(i) = min\{b[i, 1], b[i, 2],...,b[i, j],...,b[i, k]\} 且 j≠m b(i)=min{ b[i,1]b[i,2]...b[i,j]...b[i,k]}j=m.
  3. 观察值i的轮廓系数为:
    s ( i ) = b ( i ) − a ( i ) m a x { a ( i ) , b ( i ) } s(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}} s(i)=max{ a(i),b(i)}b(i)a(i)
评估方法

轮廓系数的取值范围未[-1,1],越接近于1说明聚类性能越好;
相反,越接近于-1说明聚类性能越差。

研究数据集

  • 结构化数据与非结构化数据
  • 数据的4个等级
  • 识别数据的缺失值
  • 探索性数据分析
  • 描述性统计
  • 数据可视化

特征增强:清洗数据

  • 对非结构化数据进行结构化
  • 数据填充–在原先没有数据的位置填充缺失值
  • 数据归一化
    • 标准化(z分数标准化)
    • 极差法(min-max标准化)
    • L1和L2正则化(投影到数据空间)

特征选择

  • 相关系数
  • 识别并移除多重共线性
  • 卡方检验
  • 方差分析
  • 理解p值
  • 迭代特征选择
  • 用机器学习测量熵和信息增益

特征转换

  • 主成分分析法
  • 因子分析法

特征学习

  • 受限玻尔兹曼机
  • Word2Vec/GloVe等词嵌入算法

你可能感兴趣的:(特征工程,数据分析,机器学习)