淘宝穿衣搭配算法大赛有感

      去年阿里天池大赛年度答辩在美丽的华工举办,五组选手的精彩答辩为我们提供了一场知识的盛宴,评委大多数都是阿里的资深工作人员,所以他们的提问也很细致。阿里举办的这种比赛意义还是挺大的,既可以解决自己的存在问题,又可以招贤。当然,对于数据爱好都的小白我,吸收了不少精华。

我的反思

      我是研究生阶段接触机器学习和深度学习(了解一点),然后以李航老师写的《统计学方法》和《集体智慧编程》入门的,在kaggle上有参加过一两个比赛,不过,都是提供给新手练手的项目。先前我自己也报名了这个比赛,题目的信息很大,一开始根本无人下手,刚看到是关于图片的题目,首先应该从图片的信息中获得搭配的依据,虽然也提供了丰富的文本信息,没想到怎样使用,一上来就劈头盖脸的进行sift提取,还想通过词袋模型来进行训练得到搭配,结果对上百万张图片进行sift特征提取,师弟的电脑的一个硬盘都满了,还没有提取完,还花了四,五天的时间。从这次比赛中我学到了以下两点:

1.需要自己构造训练集,而不是把所有的数据拿来,不加区分,不加拆分的使用;

2.最好能够建立一个数学模型,虽然前期的思考不那么容易,但是这有利于后期参数调节,而不是凭借运气进行调参,这个在阿里的五组答辩选手的比赛思路中很明显体现出来:五队选手中,只有第一名和第二名进行了数学分析,建立的模型也相对简单和有效;

3.要仔细的分析赛题和赛方提供的数据;

       在着手实际的大数据问题中,对于我们新手常遇到到又觉得抽象的问题是:怎样去选取特征?怎样去建模?答辩五组选手的PPT很详细,无疑是一份具体的学习材料。五队选手的思路各有不同,都有很多值得学习的地方。我将分别说说我的学习心得。

这是官网提供的题目


       第一名的选手来自于东北,一胖一瘦,讲话幽默,颇有看相声的视听感。两位选手厉害的地方不仅是进行了数学建模,取得了第一的成绩,更有意思的是,这个比赛是两个人在不同的省份独立开发的,互相对比结果,质疑对方的成果,万事以理为先,值得鼓掌。我觉得他有几点值得学习的地方

1.分析赛题,这个包括两方面的要求:一是分析赛方所提供的数据,解读官方想要实现的功能;第二,分析提供的公式。第二个是我们常常忽略的,总想着做得差不多了,再计算一下它要求的各种率就行,殊不知赛方提供的计算公式,多是经过精心设计的,也就是说这里面可以挖掘出一些主办方想要的结果,然后我们顺藤摸瓜,设计我们的方案。

2.数据集的划分。

比赛的关键是:除了达人的搭配方案,我们还要挖掘出更多的搭配商品集,这样才能提供更加准确的预测。下面是选手数据集的提取图。选手分析,可以从下面三类数据里面得到我们搭配集。通过对三类数据的挖掘,建立三个子模型,最后把他们融合到一起。

淘宝穿衣搭配算法大赛有感_第1张图片


3.相似度的确定

什么样的物品之间是可以搭配的呢?不同的子模型的依据不一样。要使用达人提供的搭配数据时,几组队手都使用了一个想法:找与自己相似的物品,那么它就可以跟这个物品的搭配集里面的东西搭配。赛方还提供了物品的描述信息,例如属于什么类别,牌子,季节。。。。。。物品的相似度可以通过中文分词的相似度来判断(tf-idf)。第一名的队伍对于那些没在达人搭配集图库以及没有购买记录的图库进行信息挖掘,构造了第三个子模型,模型三的思路也很有新意,可详细看PPT。


       第二名的队伍建立了概率模型,模型最简单而又高效;第三名队伍提供的特征最多,里面有提到一个观点,顿时有点破人生的感觉 :队伍说,有些东西是不能搭配的,就像一条牛仔裢和热裤是不可能搭配在一起,所以在构建搭配集的时候要去除掉。不知道为什么突然让我想到感情的事情,每个人都有不同的性格和特点,所以不是所有人都能搭的~放下执念,寻找适合自己才是重点。第四名队伍作者思维很浅析,最欣赏这种言简意赅的人,由于比赛是从第五名到第一名倒着来答辩的,我是听完了第四名的PPT,我才想起这个赛题的规则。第五名的队伍跟第四名的队伍一样也只有一个人参赛,每一组队伍,哪怕没有获奖的队伍都是花了很功夫在比赛上的,虽然第五名的队伍很多东西都是“盲目“试出来和调出来的,但是在那么多支队伍里面,他能够进拿到第五名的成绩真是挺厉害的,不过,他绝对是一个认真研究的人,从答辩场上他对其它队伍中的提问中可以看出来。

      对于我来说,在放弃阿里的比赛后,又参加过京东的图片分类算法大赛,京东的这个比赛是第一次举办,较质量要比阿里差多了,里面除了图片质量差(不少白色图片和青色图处外),测试集和训练集的数据分布不一致等众多问题,不过肯定会越办越好。当然同样是面临问题,我们没有获得名次,说明我们自己还是有问题的。由三人组成,其中一个人搭建深度网络,其它两个人进行数据的分析和过滤。因为我和另外一个同学不懂深度,所以在图片识别方面遇到问题也不能帮搞深度的同学分析。我觉得我们三个人最大的问题还是在欠缺团队的合作,当然还有大数据处理方法的经验也是软肋。

      刚接触大数据比赛的时候毫无头绪,虽然这两个比赛都没有取得成功,但是也学到了不少东西,例如词袋模型,局部特征sift,使用python进行数据处理和文件的操作。使用mysql进行简单的查询,了解深度学习。。。。。。

现在网上的有偿大数据比赛很多,我知道的有:

中国好创意data castle

下面这些是阿里穿衣搭配前五名选手的PPT,绝对干货。

http://pan.baidu.com/s/1hsNv8DQ

这是阿里提供的第一名的答辩视频:

https://tianchi.aliyun.com/mini/finalConference.htm#nav1







你可能感兴趣的:(机器学习,阿里天池在赛)