机器学习小目标--数据表示与特征工程

知识点描述:简单的数据预处理和特征工程

我们的学习目标有四个:

  • 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler

  • 缺失值处理

  • 处理分类型特征:编码与哑变量

  • 处理连续型特征:二值化与分段

一种特征常见的特征类型就是分类特征(categorical feature),也叫离散特征(discrete feature)。

one-hot编码(虚拟变量):将一个分类变量替换为一个或多个新特征。分类特征通常用整数进行编码:一个整数特征应该视为连续的还是离散的(one-hot编码),有时并不明确。对同时包含训练数据和测试数据的数据框调用get_dummies后训练集和测试集。分箱、离散化、线性模型与基于树的模型(比如决策树、梯度提升树和随机森林)。

分类编码:通常用整数进行编码为字符串,如果在被编码的语义之间没有顺序关系,那么特征必须被视为离散特征。

交互特征与多项式特征 用来表示数据点所在箱子以及数据点在x轴上的位置。

自动化特征选择:单变量统计:计算每个特征和目标值之间的关系是否存在统计显著性,然后选择具有最高置信度的特征。对于分类问题,这也被称为方差分析。这些测试的一个关键性质就是它们是单变量。即它们只单独考虑每个特征。因此,如果一个特征只有与另一个特征合并时才具有信息量,那么这个特征将被舍弃。基于模型的选择:使用一个监督学习模型来判断每个特征的重要性,并且仅保留最重要的特征。特征选择模型需要为每个特征提供某种重要性度量,以便用这个度量对特征进行排序。基于决策树的模型提供feature_importances_属性,可以直接编码每个特征的重要性。线性模型系数的绝对值也可以用于表示特征重要性。SelectFromModel类选出重要性度量(由监督模型提供)大于给定阈值的所有特征。迭代特征选择:1、开始时没有特征,然后逐个添加特征,直到满足某个终止条件;2、或者从所有特征开始,然后逐个删除特征,直到满足某个终止条件。其中一种特殊方法是递归特征消除RFE,从所有特征开始构建模型,并根据模型舍弃最不重要的特征,然后使用除被舍弃特征之外的所有特征来构建一个新模型。利用专家知识:利用这种方法可以将关于任务属性的先验知识编码到特征中,以辅助机器学习算法。添加一个特征并不会强制机器学习算法使用它,即使最终发现假日信息不包含关于机器价格的信息,用这一心想来扩充数据也不会有什么害处。

 

你可能感兴趣的:(self-总结)