XGBOOST实例学习
以kaggle一道题sales predict为对象,kerners里面这道题的特征工程有个老外的一套流程简单易懂https://www.kaggle.com/dlarionov/feature-engineering-xgboost ,感觉一遍流程完整理解下来能学习到很多东西。下面是整个逻辑和处理过程的大白话描述有问题的地方欢迎指出:
(1)特征的含义:①训练集包含:date_block_num为了方便计算月份从13年1月计为0到15年10月计为33,则将要预测的月份计为34;shop_id,商店的唯一代码;item_id商品的唯一代码,范围从0-22169不等,实际训练集中的商品只有21807种;item_price单一商品的价格;item_cnt_day商品在该商店销售的数量,后面会将其归纳成item_cnt_month
②items的数据集:item_name商品的名字;item_id商品的唯一代码;item_category_id每种商品所属类的代码
③shop的数据集:商店名字和商店的唯一代码
④categories的数据集:item_category_name商品所属类的名字;item_category_id每种商品所属类的代码
⑤测试集:shop_id和item_id两两配对预测第34个月份的销量,并不是所有商品在每个商店都有售所以每个商店只有其中一些商品需要预测
(2)①先找到单品售价和单品日常销量的异常点,对于售价小于0的不正常值采取平均值赋值
②有几个商店的名称更其他商店重复了需要修改,0和57、1和58、10和11
(3)商店、商品分类、单品的处理:
①每个商店的名字首项是城市名,取出城市后作为一列新特征,并对其因子化
②商品类别是每个商品的小类别,在类别名里还可分出两种大类别,作为两个新的特征type和subtype。有两种情况,一种第一个有‘-’分割成两个元素第一个元素就是首选类别,第二个元素就是代替类别;没有‘-’则首选类别和代替类别都一样。并将这两个特征因子化。
(4)将单品日销售量按月求和得出单品月销售量item_cnt_months:
①求出测试集中单品的不重复数目与训练集测试集共有的单品不重复数目的差,即想知道测试集中要预测的商品在训练集中是否全有;求出测试集单品不重复数目;求出测试集的长度,既测试集的商品与商店配对的行数
②建立一个新的数据集matrix里面包含三个特征:date_block_num、shop_id、item_id,三个特征数据来源于训练集且三个特征都不重复
③对train训练集建立新的特征revenue,通过训练集的单品价格和日销量相乘获得
④在训练集中对date_block_num,shop_id,item_id进行groupby,并对groupby后的item_cnt_day进行求和(agg)产生新的特征列,并对新的特征列进行命名item_cnt_month。然后将这一特征leftjoin进matrix数据集中。
(5)对测试集进行处理:
①将测试集的date_block_num设为34,并将date_block_num、shop_id的数据类型转换为int8,item_id的数据类型转换为int16
②将matrix和test两张表行首尾连接起来
(6)商店,单品和类别进行特征处理:
将shops、items、cats等数据集leftjoin至matrix数据集中。此时matrix多了city_code item_category_id type_code subtype_code等四个特征。
(7)目标延后处理(作者直觉认为重要的就做1,2,3,6,12五个时间点的处理,不重要的就一个月)
def lag_feature(df, lags, col):
tmp = df[[‘date_block_num’,’shop_id’,’item_id’,col]]
for i in lags:
shifted = tmp.copy()
shifted.columns = [‘date_block_num’,’shop_id’,’item_id’, col+’lag‘+str(i)]
shifted[‘date_block_num’] += i
df = pd.merge(df, shifted, on=[‘date_block_num’,’shop_id’,’item_id’], how=’left’)
return df
①构造商店和单品两两配对后在1,2,3,6,12月后item_cnt_month的特征值(这里作者的意思是如果有时间序列的稳定性足够强,那么可能存在着我这个月的销量在1个月两个月三个月半年一年后还是这个销量,例如date_block_num=1;shop_id=1;item_id=1时的销量是10,那么在其1,2,3,6,12月后也为10,以方便后面寻求规律)
②同理,构造在过了一月后item_cnt_month的平均值的特征值
③构造不重复单品和月份在过了1,2,3,6,12月后item_cnt_month的平均值的特征值
④构造不同的商店和月份在过了1,2,3,6,12月后item_cnt_month的平均值的特征值
⑤构造不同的item_category_id和月份在过了1月后item_cnt_month的平均值的特征值
⑥构造不同的item_category_id和不同的商店、月份在过了1月后item_cnt_month的平均值的特征值
⑦构造不同的type_code和不同的商店、月份在过了1月后item_cnt_month的平均值的特征值
⑧构造不同的subtype_code和不同的商店、月份在过了1月后item_cnt_month的平均值的特征值
⑨构造不同的citycode和月份在过了1月后item_cnt_month的平均值的特征值
⑩构造不同的citycode和不重复单品、月份在过了1月后item_cnt_month的平均值的特征值
⑪构造不同的type_code和月份在过了1月后item_cnt_month的平均值的特征值
⑫构造不同的subtype_code和月份在过了1月后item_cnt_month的平均值的特征值
(8)构造价格趋势特征delta_price_lag
①对不重复单品算出它的价格均值item_avg_item_price,然后leftjoin入matrix数据集中
②对不同月份的不重复单品算出它的价格均值date_item_avg_item_price,然后leftjoin入matrix数据集中
③同(7)原理,构造date_item_avg_item_price构造1,2,3,4,5,6 月后的date_item_avg_item_price特征值
④通过③求出了6个特征值与item_avg_item_price相减后再与item_avg_item_price相比,获得6列趋势变化作为新的特征值,这6列对应的值是相同的。
⑤因为单品的date_item_avg_item_price_lag_。。不会在每个月都出现或者从头到尾都出现所以作者做了个循环从1-6只要最近月份出现就将他作为最终的delta_price_lag,又称为’price_trend’特征。
构造每个月的商店收益趋势特征delta_revenue_lag_1
①通过每天的revenue求出每月不同商店的revenue总和date_shop_revenue
②通过date_shop_revenue求出不同的商店在所有月份的均值shop_avg_revenue’
③delta_revenue收益趋势为date_shop_revenue减去shop_avg_revenue除以shop_avg_revenue,然后构造过了一月后的趋势
(9)特殊特征
①求出每一行对应月份month,然后转换为天数获得特征days。
②通过缓存机制构造特殊特征item_shop_last_sale,这个特征意思是相邻两次售出时间的间隔。具体方法是将shop_id,item_id组合从行顶部和item_cnt_month!=0开始循环与cache进行匹配,没有的就将这行对应的date_block_num放进cache里;当第二次出现时就将date_block_num指定为last_date_block_num,然后将相邻的date_block_num相减赋予新特征item_shop_last_sale。
③同理将单独item_id以与②同样的方法构造item_last_sale
④构造某次与第一次售出的时间间隔item_shop_first_sale和item_first_sale
(10)最终准备
①因为求的延后最多是12所以从0-11的date_block_num是没用的
②填空值
③转换为PKL格式然后将内存内几个数据集删掉释放内存
(1)xgboost部分
①导入数据,通过列表选择最终需要特征
②第34月作为测试集,33月作为验证集13-33作为训练集
③构造模型参数,然后建模预测查看特征重要性导出预测结果