百面机器学习笔记

一、特征工程
1、归一化
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m)和千克(kg)作为单位,那么身高特征会在1.6~1.8m的数值范围内,体重特征会在50~100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的 体重 特征。想要得到更为准确的结果,就需要进行特征归一化
1.1、归一化方法:线性函数归一化、零均值归一化
1.2、在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比(详见第3章第3节),而信息增益比跟特征是否经过归一化是无关的,因为归一化并不会改变样本在特征x上的信息增益

2、类别型特征
主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作
2.1、在对数据进行预处理时,应该怎样处理类别型特征?:
序号编码:序号编码会按照大小关系对类别型特征赋予一个数值ID,转换后依然保留了大小关系。
独热编码:略
二进制编码:先转为序号编码,再转为二进制

3、组合特征:如果简单地两两组合,依然容易存在参数过多、过拟合等问题,而且并不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合

4、

你可能感兴趣的:(人工智能,机器学习,人工智能,神经网络)