天池二手车拍卖赛题理解之特征工程

天池二手车交易价格预测赛题理解之特征分析常见操作

原文链接:Datawhale 零基础入门数据挖掘-Task3 特征工程
本文为个人阅读笔记,仅记录阅读过程中遇到的新知识。

数据归一化实现:
天池二手车拍卖赛题理解之特征工程_第1张图片
(截图中的代码虽然定义了实现归一化的函数,但并没有调用。)
对特征进行one-hot编码:
在这里插入图片描述
删除不需要的数据:
在这里插入图片描述
特征的筛选:
1)通过相关性分析进行过滤
天池二手车拍卖赛题理解之特征工程_第2张图片
2)通过包裹式过滤(没看懂)
天池二手车拍卖赛题理解之特征工程_第3张图片

文字总结:

特征工程的主要目的是将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等。

特征构造也属于特征工程的一部分,其目的是为了增强数据的表达。

匿名特征:装箱,groupby,agg 等,对特征进行进一步的 log,exp 等变换,或者对多个特征进行四则运算,多项式组合等然后进行筛选。NN 提取特征。

非匿名特征:基于信号处理,频域提取,丰度,偏度等构建更为有实际意义的特征,深入分析背后的业务逻辑或者物理原理。

特征工程是和模型结合在一起的, LR NN 需要做分桶和特征归一化,而对于特征的处理效果和特征重要性等则需要通过模型来验证。

常见特征工程:

  1. 异常处理:
    通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断。
  2. 特征归一化/标准化:
    标准化(转换为标准正态分布);归一化(转换到 [0,1] 区间);针对幂律分布,可以采用公式。
    在这里插入图片描述
  3. 数据分桶:
    等频分桶;等距分桶;Best-KS 分桶(类似利用基尼指数进行二分类);卡方分桶。
  4. 缺失值处理:
    不处理(针对类似 XGBoost 等树模型);删除(缺失数据太多);插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;分箱,缺失值一个箱。
  5. 特征构造:
    构造统计量特征,报告计数、求和、比例、标准差等;时间特征,包括相对时间和绝对时间,节假日,双休日等;地理信息,包括分箱,分布编码等方法;非线性变换,包括 log/ 平方/ 根号等;特征组合,特征交叉。
  6. 特征筛选
    过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法。
    包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper)。
    嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归。
  7. 降维
    PCA/ LDA/ ICA;特征选择。

问题

天池实验室挂载了比赛相关数据,但是在代码中直接读取总是报错,路径似乎也没有问题,但总提示文件不存在。不知道是不是我对天池实验室文件目录构造不明了的原因,目前也不好意思问人,显得自己好弱智。还是自己慢慢想办法解决吧。。。
天池二手车拍卖赛题理解之特征工程_第4张图片
天池二手车拍卖赛题理解之特征工程_第5张图片
天池二手车拍卖赛题理解之特征工程_第6张图片

你可能感兴趣的:(深度学习)