task3 数据的特征工程

针对本次任务中遇到的问题,进行一些资料的补充。

针对xgb等模型的理解

lightgbm,xgboost,gbdt的区别与联系

LR和树模型基础概念

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

个人的理解是,这些模型大致分为两类,一类是线性模型(逻辑回归也算广义的线性),一类是树模型。这两类都可以处理回归问题,但是由于线性模型对数据更加敏感,而树模型具有更强的鲁棒性,所以比赛中常见的都是树模型。

像lgb,xgb,catboost都是树模型,它们都是由gbdt发展而来(不知道能不能这么理解)。

另外,需要注意特征筛选环节,lgb等都是嵌入式的,即模型自己就可以筛选;而lr需要通过正则L1,L2等方式筛选。总之,现在不用再蠢到自己动手筛特征了。当然,对特征的深入理解,是有助于优化模型的。

pandas一些小操作

pandas聚合和分组运算之groupby

python pandas中 inplace 参数理解

Pandas DataFrame连接表,Merge, Join, Concat的对比

pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置

都是实践中会遇到的,值得收藏哦~

说回特征处理

首先,针对task3里的分桶,个人觉得还是有必要补充一些知识点。

如何对数值型特征进行分桶

另外,实操中发现power的分桶会出现缺失值,这点需要想办法解决。

其次,针对one hot问题,也有一些额外的知识点可以补充。

着重看part3.1

这里提到了one hot的一些隐患

最后,针对聚合特征构造,除了task里的brand统计量,还有其它手段。

特征工程系列:聚合特征构造以及转换特征构造

你可能感兴趣的:(task3 数据的特征工程)