序
比赛已经到了最后一天,旺旺群和QQ群上大神们百无聊赖地聊着天,因为数据量比较大,程序运行时间都相当长,在群上聊天打屁成了一种打发时间的很好方式。虚拟机上的几个程序还在跑,赶着最后一次提交,不过大抵尘埃落定了,首页是进不了了,但在7200多支队伍中,跌跌撞撞地拿到20多名的成绩,已经大大超出预期,也算是对这2个月学习、实践的肯定。
4月中旬帮论文导师搞完定位系统后,就开始入手这个比赛,赛题是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。因为即将开始的研究生读的是数据挖掘方向,刚好借这个比赛把研究生期间学的东西提前学了,而且赛题几乎是工业界的实际场景,数据规模也不小,是实打实的应用,动态更新排名更是让这个比赛充满了趣味,所以找了志鹏和伟文就开搞了。
在比赛期间,尝试了各种算法,出现了各种Bug,接下来细细道来。
第一季
第一季的数据规模很小,18.3万条记录,4M的数据。但一开始还是觉得很难驾驭,因为什么都不会。第一季有队伍用Logstic Regression(LR),取得了不错的成绩,不过当时不怎么会,本着从基础搞起的计划--先学CF。发现这个算法的简单实现并不太难,很快用C语言实现了,但成绩十分不理想。不管是Item-CF或者User-CF,从算法的各个方面对其优化后,都没有取得理想的结果。一开始觉得是信息太少的缘故,后来想想协同过滤的原理和此处的推荐似乎是相悖的。之后用了一条考虑到时间、各个行为权重的规则,很快破7%(利用准确率和召回率得到的F1)。
差不多可以进第二季了便开始学习LR,这才真正开始走上机器学习的路。在用LR之前,自学了Python,因为Python和C语言在语法上神似,比较顺利的入手,在YY了几个点击、购买相关的特征后用python实现了LR,用第一季的数据在线下做了测试,成绩5%左右。此时了解算法内核并且实现算法对之后的应用还是很有帮助的。
最终第一季成绩7.02,排名218,顺利进入第二季。
第二季
第二季开始的时候,制定了一个策略--先把LR用到极致,然后再换其他模型,这便是悲剧的起始。
这一季的比赛环境是阿里自主研发的Odps,选手通过远程连接在上面开发,数据保存在阿里的云服务器上,算法使用的是odps的Xlib库,数据规模大概是5.7亿条记录,2G,算是真正见识了海量数据与云计算。4月24日那天,比赛正式开始,看了下例程,发现用SQL来做这个比赛简单粗暴,然后就一直用到最后。用了2天熟悉ODPS平台,并且用SQL生成了特征表,在4月26号提交了第一个LR结果,成绩是3.56%,排名43,这是第一次大提升。
前1个月的比赛做得很细,通过观察数据和从业务逻辑考虑一个一个的添加特征,慢慢筛选特征、组合特征、优化特征,尝试数据清洗、随机采样、特征归一化、处理特征值分布不均匀等数据预处理,对比不同训练测试集的优劣,通过看博客、论文深入了解LR的不同实现和模型参数的具体含义。虽然成绩提高得很慢,但是每次提高自己都心里有数,而且这个月自己真正学到了机器学习的一些东西,对于电子商务的业务逻辑也有自己的思考。
不管出于学习,抑或是固执,LR都限制了成绩的提高,最多只做到5%左右。偶然的机会用了RF和LR融合,马上提到了0.11%,接着就换GBRT,又提高了0.11%,排名到了51,这是第二次大提升。这次提高突破了5%,而且多了一大截,为了庆祝整队去看了部《超凡蜘蛛侠》,之后队群的名字就变成了“超凡大腿们"。
LR不仅限制了成绩提高,还限制了构建特征体系的思路,让我有了特征体系只能有ub对特征的错觉,所以在使用GBRT后依然只有7,8个特征。意识到问题所在,添加了10个u、b特征,然后成绩暴涨0.4%,这是第三次大提升。之后逐步优化特征体系,特征到25个时成绩提高到5.75%,然后本科接近尾声,开始忙毕业的事,就开始长达一个月的滑铁卢,从27名滑到47名。毕业季结束后本来想去环游中国,万万没想到又开始做比赛。这是分水岭,之前是慢慢派,比赛的每次进步自己都心里有数,成绩提升的比较慢,这之后就变成豪放派,我开始大幅度添加特征,从27个特征添加到54个特征,然后69,121,169,273,369,473,587,很神奇的是每次添加特征,成绩都能提高,添加特征从5.75%直到6.02%,用了一周的时间从47名顺利进入首页。为了庆祝破6,整队又去牛太郎烧烤吃了一顿自助餐。
最后半个月甚是凄凉,都没怎么提高,我本来以为是融合的姿势不对。深入一想,融合姿势是不对的地方有二:
1)在GBRT没办法提高的情况下要换个思路用RF好好搞几天才是正确的方向
2)之所以GBRT融合没办法再提高,应该是在LR期间用各个简单的特征整合起来的7,8个特征太强,导致每次添加特征,得出来的结果都只有很微小的差异,因为这几个强特征已经能对样本做出比较好区分,所以构建的前几棵树总是选用这些特征作为树根,这样差异就小了。
下图是第二季的成绩变动图:
几个坑爹大Bug
4月多的时候线下成绩一直是2%多,和线上差了2.5%左右,群里大神们都是0.3%~0.5%,我窃喜,可能我的模型比较独特。窃喜了10多天后才发现这原来是个坑爹的Bug-统计最后一个月的购买集时,将'-'写成了'_',导致预测集只包括了8月份的数字,这就意味着这10多天的线下测试结论都是不靠谱的。
在我发现了这个巨坑后,我的神坑队友也发现了一个残害了我们10多天的BUG-他始终认为数据的日期范围是5-01~8-31,所以代码的时间范围也都是根据这个定的。这就导致了他那边的测试结论也变得不靠谱。
7月8日,也就是上图的73天,得到了一个0.64%的成绩,当时让群里的少年们乐了一把。这是由于SQL中的select不保证行序,我在不了解这个特性的情况下犯了个很隐秘的错误,导致了上图的暴跌。
更多的Bug出在特征提取上--复制代码的时候忘记了修改时间,以及训练集用到了先验知识也就是预测集的信息,导致深深的过拟合,以及一些内建函数的使用,比如sum写成count,因为代码很长,程序运行时间很长,数据以及结果很难用直观的判断,所以此类Bug很难找。
这个比赛最痛恨的不是对手,是Bug,每次有Bug都要盯着屏幕找很久,而且没办法调试!但最喜欢的也是Bug,因为成绩没办法提高的时候,你突然发现了Bug,那简直就是看到希望啊!
一些体会
不要在不了解人生的时候给人生下定义 这次比赛最大的错误应该是第二季开始的时候订的策略,自己根本不够了解LR和其他的算法,不知道内核,不知道差异,不知道它们在这个比赛的适性,然后还要像固执的告诉自己把这个算法用到极致,如果能早点抛弃LR,转用GBRT,就不会有后面诸多的后遗症,结果可能完全不同。正如我们不应该在不了解人生的时候给自己的人生下一些定义,做诸多的束缚,而应该在年轻的时候去不断尝试各种可能,然后找到自己最喜欢亦或者是最适合自己做的。
再平凡的人,只要时刻注意,总是能做出成绩的 这个比赛有7200多支队伍参加,有新手,也有实力强、经验丰富的人,但比赛到最后,前者也有可能做出成绩,只要抱着平常心一直坚持着,因为有很多人会慢慢因为各种原因退出,时间长的比赛亦或者其他事情就是这样。
山水真是个态度超好的员工,官方团队认真倾听参赛选手声音的态度让人难以忘怀,关键阿里真的是土豪公司,嗯,是我想去的公司!
这次阿里又给了件设计得不错的T-shirt,算是学生时代比赛赢到的第8件T-shirt,为了凑满10件然后召唤神龙,苦练一年,来年再战!