百面机器学习读书笔记-第一章

数值型特征归一化

Q:为什么需要对数值类型的特征做归一化?

A:对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。常用的归一化方法

(1)线性归一化(min-max)

(2)零均值归一化(z-score)  z=(x-均值)/标准差

注:在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归,逻辑回归,支持向量机,神经网络等

类别型特征

类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归,支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。

Q:在对数据进行预处理时,应该怎样处理类别型特征

A:(1)序号编码:处理类别间具有大小关系的数据。例如成绩分为低,中,高三挡;并且存在“高>中>低”的排序关系。因此可以转换高=3,中=2,低=1.

(2)独热编码:处理类别间不具有大小关系的数据

(3)二进制编码

高维组合特征的处理

Q:什么是组合特征?如何处理高维组合特征?

A:为了提高复杂问题的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高维组合特征。以广告点击预估问题为例,原始数据有语言和类型两种离散特征。为了提高拟合能力,语言和类型可以组成二阶特征

 

你可能感兴趣的:(机器学习)