机器学习三把斧
某一列的特征缺失值达到40%左右,删除这个特征值;或者某一个样本的缺失值过大,那么删除这个样本。
而当某个特征的缺失值较少的时候,不能删除这个特征。
建模预测:把缺失值当做模型的预测值,用预测的值填充缺失值
多重插补:前向填充,后项填充
高维映射:就是把缺失值作为一个新的类,只对分类的变量比较好,在广告CTR(点击率)
异常:真实的异常,记录的异常。
真实的异常:本来就是这个值,只是和其他样本偏移较大
记录的异常:本来是10,记录成100
数据分桶主要就是连续数据离散化,比如年龄,0-10,10-20,20-30等,然后编号1,2,3
数据分桶可能提升树模型的鲁棒性
回归中标准化使用较多,分类中大部分也使用,但是分类中的决策数就不需要标准化
对时间的处理
比赛中要看训练集和测试集的特征分布是否一致,删去不一致的特征
可能经过特征构造后,你的特征变成成百上千,这时候就需要先进行特征过滤,用集成学习如XGboost等算出每个特征的权重。
调参的时候首先要理解你使用的模型,了解模型的优点和特性,比如线性回归模型基于标签是高斯分布的
评估函数不同,模型的性能可能不一样,比如MSE对异常值很敏感,如果A模型误差为0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,5 ;B模型误差为1,1,1,1,1,1,1,1,1,1。用MSE判断A=25.09,B=10。而用MAE,A=5.9,B=10 。
所以如果使用MSE评估,那么就需要特别对异常值进行精确的处理。不同的评估函数重点考虑的方面是不一样的
有个评估函数后,接下来就是验证方法,比如交叉验证,留一验证,以及时间序列的切分一个时间段去预测。交叉验证是目前比较好的验证方式,但是当你的数据特别大比如几个G,预测一次都需要好久,非常需要内存的话可以考虑切分验证(80%训练,20评估)。
时间序列样本是不能做交叉验证和留一验证的,可能会存在数据信息的泄露。往往是根据时间进行切分构造一个和测试区间类似的区间预测
网格搜索特别花费时间,比如按上图如果是五折交叉验证就需要计算36*5=180次的计算。
前面的特征工程和模型调参在比赛过程中会反复的进行,反复测试。而模型的集成一般是在比赛的后期进行
模型融合的基础是你的单模型要好,
加权平均时模型的权重最好不要小于0.1,否则这个模型对整体的融合产生不了什么模型收益。
在线提交的时候分数差不多,但是模型的数据差异较大,融合后效果会好(比赛经验)
把结果放到另一个简单模型如线性模型再次进行筛选。
以上的适用于数据挖掘比赛,和(cv)图像处理的有所不同
ID一般不作为特征,以上数据已经经过脱敏
类别编码一般不直接使用,因为red,blue,black本身是没有大小的,变成3,1,2后如果使用的是决策树,那么可能直接会把>2 的区分为一类
使用one-hot编码可以避免上面引入大小的问题,但是不适用于类别特别多的(如果有100个类)会导致特征分布特别稀疏
Frequency编码是数据竞赛中使用最为广泛的技术,在90%以上的数据建模的问题中都可以带来提升。因为在很多的时候,频率的信息与我们的目标变量往往存在有一定关联,例如:
前面说Label encoder一般不直接用,但是下面这种情况可以使用,年龄段有相对大小的区分,你可以编码为1,2,3,4
二值化,阈值threshold=n, 小于等于n的数值转为0, 大于n的数值转为1
指/对数变换对决策树没有意义,因为进行对数变化后数据的相对大小不变,小的还是小,大的还是大
交互特征是灵活性最高的,好的交互特征往往可以对模型起到很大的优化(比如020的)
index_ture = (offline_train['Date']-offline_train['Date_received']).apply(lambda x: x.days <= 15)
# 反例索引
index_false_1 = (offline_train['Date']-offline_train['Date_received']).apply(lambda x: x.days > 15)
index_false_2 = offline_train['Date_received'].notnull() & offline_train['Date'].isnull()
比赛中常用的模型(基于决策树的集成学习)
XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型,并对模型中的算法进行了诸多优化,在取得高精度的同时又保持了极快的速度。
XGBoost相对于GBDT(梯度提升树)有以下好处
官方文档
过拟合的时候加大r(gamma)的值
XGBoost的调用
比较费时间,一般只在后期进行一次,把参数固定下来
使用方法1
使用方法2
硬投票,软投票
用第一层的训练结果作为特征,放到第二层(模型四)进行训练,
样本有偏的时候,比如负样本:正样本=10:1
那么,模型可能会更偏向于预测为负样本,这时候就要调节阈值,比如0.5改成0.3