阿里天池_优秀策略答辩PPT和相关博客

简介
前段时间想熟悉下机器学习完整项目,选择了阿里之前的一个相对实际的移动推荐项目(实际是分类,并非推荐),有兴趣自己研究。将本人参考借鉴的blog和ppt做了简单整理回顾。加深下印象

阿里天池大数据之移动推荐算法大赛总结及代码全公布
地址:http://blog.csdn.net/datuqiqi/article/details/46834579#
1,    找规则,买过不会再买,加购物车买过的也不会再买等
2,    找特征,商品相关,人相关
3,    正负样本采样(采样比例尝试,选择F1较大的)
4,    LR模型训练
5,    附的有特征的sql(都写入文件的)
代码块1:
统计,人,商品,人+商品在一定时间内的“1,2,3,4”的次数
代码块2:
创建特征,连为大表。
特征归一化。
正反例表拆开,反例表采样,正和反采样合成一表。
合成的一表拆为2表,p1,p2
P1用训练LR分类器,分类后得到模型来预测P2得到结果的正例反例分离,假设为P21,P22
分别P21,P22再次采样,采样结果合并为,假设P3
P3用来训练gbdt
预测时先用LR预测,结果的probility>0.1在用gbdt预测。
 
阿里移动推荐算法大赛总结
地址:http://blog.csdn.net/u014374284/article/details/49933487
1,    数据集,训练(预17),验证(预18),线上(预19)
2,    全集和子集,全集较好,数据较多
3,    特征观察,当日浏览当日购买,2/3这部分无法预测。
4,    用户特征,一定时间的dot信息(浏览,加购,购买,活跃)及比值加购购买比值等,时距(最后一次购买时间),用户属性二次购买率
5,    商品特征,一定时间的dot信息(浏览,加购,购买,活跃)及比值加购购买比值等,
时距(最大购买量据当前时长)
二次购买率
交互量占类比值,购买量占类比值。
6,    协同特征
首次接触,最后接触,最后加购,最后浏览,最后购买等距离预测日时长
用户对改商品浏览占总浏览比值,对该商品购买占总购买比值,活跃小时占总活跃小时比值。
7,    类别属性,和商品类似,扩展为类别即可。
8,    异常浏览数据处理(爬虫),缺失数据填充(分情况均值)
9,    模型,随机森林,gbdt(较好)
10,预测内容变更
用户只浏览
用户只收藏(有记录就一定有浏览)
用户只加购(收藏也并入加购)
用户购买过该商品
问题转为多分类问题
构造不同模型处理不同分类。在进行融合,效果并不理想
11,最后随机森林+gbdt,在采用LR进行调权融合
 
关于2015阿里移动推荐算法大赛的总结(三)——机器学习
地址:http://blog.csdn.net/sin_geek/article/details/45787309
1,    预处理,去噪声。双十一双十二
2,3周训练,1周预测

阿里移动推荐算法比赛赛后总结--特征篇
地址:http://www.voidcn.com/blog/a1805180411/article/p-2290997.html
1,    特征提取,较有特色的在
时间截距上考虑到了减法规则,用户对商品的xx操作减去用户最佳的xx操作。
用户对商品的点击收藏加购-用户的平均点击,收藏,加购/商品的平均点击,收藏,加购。
用户对商品的点击收藏加购-用户的平均点击,收藏,加购%(除)用户的平均点击收藏,,/该类目其他商品的点击收藏加购/该商品被点击,收藏,加购
2,计算单特征时去除双十二,计算交叉特征时,保留双十二。
 
阿里天池移动推荐PPT_CHLL
1,    问题标准化
A,    需要预测那些u-i对:只预测前两天有交互的pair,前两天没交互的不做预测
B,    预测结果怎么样0or1二分类
2,    数据建模,购买的人分成2部分,第一部分T-1日交互了,二部分(最近)T-2日交互了。T-1日交互的再次细分为加购物车,没加购物车(统计出来加购物车次日购买概率较大)。这样可以得到三个结合,T-1且加购,T-1未加购,T-2交互。再用T日购买情况作为label。滑动窗口建模,1212和1213跳过去。
3,    特征建模,统计,比值,时间,
有特色的:用户交互多少类别/商品,在线时长,离线时长,是否发生过购买行为,购买时间,交互时间,交互后是否发生过购买行为。
用户访问商品占访问此类目比例。
4,    算法,GBDT,RF,LR,最终gbdt
融合方法:三个数据集(M123)上分别抽样,每次抽样都是用gbdt学习,然后avg,最后结果topX作为最终结果(M1,M2,M3的top的X不同)
 
阿里天池移动推荐PPT_ NEU_Smart
1,    数据可视化,o2o占比,日购买量视图(1212特殊),周视图(周五没特殊)
2,    特征分类,U,I,C,UC,UI,GEO。
3,    浏览转化率统计方式,周期购买/周期浏览,or,仅限用户购买的item中,总购买/总浏览
分组排序:用户空间角度,交互过商品的分组逆序排序
中心化,有些人的浏览明显比别人多,进行去中心化处理
特征分析:
正负样本:
Xx特征的均值方差比对(在正和负样本空间中),差异越大越好
训练测试样本
Xx特征的均值方差比对(在训练和测试样本中,差异越小越好)
行为衰减分析
间隔一天最佳,之后越来越弱
已购买未购买分开处理。
4,    模型,gbdt单模型,先数据融合,在抽样:正,17*2+18*4,负17*1+18*2,之后随机抽
模型融合,次日购买模型topX1,重复购买模型topX2,隔2日购买模型topX3。融合。
 
阿里天池移动推荐北京仰望星空大学第一Carry
1,    日行为观察,用户行为观察。双十二,爬虫,正负不均衡
2,    滑动窗口10-1
3,    用户空间的内的排序,
排序—〉flag,同类中该ui是x小时内最最先访问/加购/点击最多
时间排序-》同类中该ui的排序,基于同uc下ui的浏览次序,收藏次序,购车次序
数值排序-》同类中该item的购买次数排序,老客户率排序,转化率排序
排序-〉flag同类中该item点击最多,收藏最多,加车最多,人均行为最多等
4,    地理特征,数据缺失严重,覆盖率地,
5,算法,最终gbdt,融合,没看太明白,目测多gbdt子模型投票

阿里天池移动推荐BWeaPon
1, 购买转化率,视图,高低分别为,浏览,加车,收藏。(和个人预想不大符,个人预想是浏览,重点对象放收藏,重点对象比对后放车,车里统一买。怀疑是淘宝设计问题,淘宝设计收藏太小,不好点,所以可能都把购物车当收藏夹了)
2,正样本前n日交互分布。
1,    特色在于交叉特征(类似排序),U&UI,用户对商品操作加权(4操作合成1个)在用户总操作商品中排序),UI&UC,用户操作此商品在该类下的操作加权排序。U&UC用户操作此类别在总操作的加权排序。
2,    算法创新,深度cnn,自融合

阿里天池移动推荐Sahara
1,    日时序视图,0-8,9-18,18-24
2,    滑动窗口7-1
 其他的前面都有提到过,不再重复

你可能感兴趣的:(阿里天池_优秀策略答辩PPT和相关博客)