类似用户画像预测的特征工程技巧总结

一 情景
给定一批原始训练数据,这些数据有各个用户(user_id)多条历史记录。根据这些原始训练数据预测当中的部分或全部的用户(user_id)的可能行为。例如识别羊毛党项目:http://www.dcjingsai.com/common/cmpt/2018年甜橙金融杯大数据建模大赛_赛体与数据.html

二 类似问题的特征工程技巧总结
单特征处理(统计单特征)
1 对于离散特征单特征处理时,引出”广义特征”概念
例如:交易类型这个离散特征,交易类型有"01",“02”,“03"三种,某一UID在历史数据集中"01"有16次,“02"有0次,“03"有45次,那么这个UID的"广义交易类型"就为"160045”(可对交易次数分段再编码以减少类型)。
还有count,nunque,max_val(比如出现次数最多的值),min_val
2 对于连续值特征单特征处理时,某个UID的对应特征可通过统计这个UID这个特征历史数据的sum,mean,max,min,media,nunique,count等来代表这个单特征。
组合特征处理
一般情况是UID与某一离散特征以及另外一个连续特征的组合。
例如:card_id、city_id与purchase_amount的组合,其中card_id是被描述对象。组合不同卡在不同城市的购买情况特征。
t = df.groupby([“card_id”, “city_id”])[“purchase_amount”].mean()
u=pd.DataFrame(t).reset_index().groupby(“card_id”)[“purchase_amount”].agg([“mean”, “min”, “max”])
u.columns = [“city_id”+“purchase_amount”+”_”+ col for col in u.columns.values]
u = u.reset_index()
其他特征处理,比如时间特征等根据实际数据。

你可能感兴趣的:(技术分享,项目比赛)