特征工程/数据预处理超全面总结(持续更新ing...)

诸神缄默不语-个人CSDN博文目录

本文比较适宜于那种结构化数据的传统机器学习。但是深度学习的话,那也有很大概率会用到特征工程。因此在此做出总结,以资借鉴。
本文仅考虑结构化数据,不对使用图像、文本等非结构化数据进行表征、特征提取的工作进行介绍。
特征工程是玄学。本文仅作收集及按照本人理解做出讲解,具体的丹能不能炼出来还是要靠命。

最早更新时间:2022.12.1
最近更新时间:2022.12.1

文章目录

  • 1. 特征选择
  • 2. 数值型特征处理
    • 2.1 无量纲化/归一化/正则化
  • 3. 分类型特征处理
    • 3.1 哑编码/独热编码
  • 4. 特征创建
  • 5. 特征变换
  • 6. 降维
  • 7. 缺失值、异常值处理
  • 8. 数据不平衡问题处理
  • 9. 聚类
  • 10. 参考资料

1. 特征选择

  1. 相关系数:分类变量-数值变量用斯皮尔曼系数,数值变量-数值变量用皮尔森系数
    示例代码:
s_ce=y.corr(x,method='spearman')  #spearman coefficient
p_ce=y.corr(x)  #pearson coefficient
  1. SelectKBest
    示例代码:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
K=20
bestfeatures = SelectKBest(score_func=f_regression, k=K)
bestfeatures.fit(x,y)
selected_feature_columns=list(bestfeatures.get_support(True))

2. 数值型特征处理

2.1 无量纲化/归一化/正则化

3. 分类型特征处理

3.1 哑编码/独热编码

4. 特征创建

5. 特征变换

6. 降维

SVD
PCA

7. 缺失值、异常值处理

8. 数据不平衡问题处理

9. 聚类

10. 参考资料

  1. 使用sklearn做单机特征工程:还没补完
  2. 待补
    1. Machine Learning — Singular Value Decomposition (SVD) & Principal Component Analysis (PCA) | by Jonathan Hui | Medium

你可能感兴趣的:(人工智能学习笔记,sklearn,人工智能,特征工程,数据预处理)