总结笔记-《天猫推荐算法大赛总结》

【本文是对《天猫推荐算法大赛总结》的笔记,同时加了少部分心得,感谢该文章的作者的贡献】

【参考】:http://closure.blog.ustc.edu.cn/?p=117点击打开链接


1、特征工程

1)特征集三个部分:

第一是用户对品牌的直接特征体系,包括点击购买收藏和购物车,第一次点击购买,最后一次点击购买等;

第二是用户的特征体系,包括用户总购买,总点击,点击转化比等;

第三是品牌的特征体系,包括品牌购买用户,购买次数,点击转化比等等。

2)时间维度:按照时间分片,每个分片里提取相应的特征体系。

基于一种观察,用户对品牌的购买行为和他最近的行为较为相关,所以时间片的划分应该满足最近的时间分片较细,较远的时间片划分粗粒度一些;这样就把时间这一张量的信息粗糙构建到feature中。

3)优化的点:

第一点:(user和item独立特征挖掘,如例子中对品牌的特征深入挖掘)关于品牌或者用户的特征挖掘,简单的统计虽然对整个结果的准确性有一定提升,但是绝对不是最大的提升,一个很简单的例子:A和B两个品牌都被买了1000次,但是A品牌中很多人买了再买,然后再买,但是B品牌大部分买了一次都不再买了,这是个很大的区别,也就是说在对品牌进行特征建模的时候,把用户的因素更加深刻的结合到品牌中挖掘更加本质的特征,有点类似于寻找最优解一样,总有个方向最快通向最优解,但是如何找到这个最优方向,需要我们深层去思考,这可能就是业务吧。

第二点:(对新客或新商品有价值,考虑历史消费相似item)A用户对B1和B2两个品牌都产生过一次操作,并且这两个品牌的特征体系基本相同,那如何判断对哪个品牌买的可能性更大呢?这个基于简单统计的可能就难以去做,但是我们深层的考虑下,通过协同过滤,我们发现A用户曾经买的品牌中很多和B1产生一种联系,但是和B2品牌没啥联系,这样明显的A用户买B1的可能性就更大一些。

所以在做特征工程的时候,除了简单的数学统计外,我们还是要深入思考整个业务场景,挖掘更加本质的特性,才会有更大的提升。


2、模型选择和优化

主要用到:逻辑回归、随机森林、梯度增强回归树。

优化点,特征处理

1)逻辑回归,利用log变换,使特征具有线性可比性

逻辑回归要求特征具有线性可比较,一个简单的例子,一个用户对一个品牌点击了10次和100次,是不是点击100次的那个品牌一定比点击10的那个品牌要买的可能性大10倍,我想肯定不是,可能买的可能性就大那么一点点而已;所以我们要对特征进行一些变换,让其具有线性可比较性,我们采取的措施是进行log变换,效果比原始数据要好很多。

2)随机森林,利用等距等频分箱离特征离散化

随机森林,虽然它可以适应与连续和离散的特征,且不需要特征具有线性化特征,但是连续特征给模型的训练带来很大的开销,且易出现过拟合,如果对特征进行离散化,效果更好,常见的就是等距和等频分箱,进行离散化处理。

3)逻辑回归正则化调整

4)随机森林和GBRT的参数调优


3、模型融合

gbrt和随机森林本身就是两个融合模型,一个是基于boosting的集成学习,一个是基于bagging的集成学习。

1)第一是模型内部的融合;

第一是多次采样,进行结果融合;

第二是不同特征子空间进行训练,结果进行融合;

第三是简单模型级联融合,以线性回归为例,构建级联的线性model,每个新的线性model是以前一个线性model的误差为目标,做到误差的级联消除。

2)关于模型之间的融合,利用加权方式融合目标:寻找最优的模型权重系数方法:优化算法,如最小二乘等


4、其他

1)特征组合,形成一定富特征。方法:自动化组合学习、人工组合。

2)四维张量到二维特征矩阵的提取,是不是有更加自动的方法去做自动特征提取

第一个是张量分解,把高维转化为几个低维的乘积;

第二个是深度学习,无监督自学习特征。

3)gbrt,最小二乘的回归模型,转化为分类模型。比如mlr(多分类逻辑回归)实际上就是一种gradient boosting的分类模型。

你可能感兴趣的:(技术——数据挖掘)