“奖金怎么这么少?”
网约车的翘楚Lyft,刚刚在Kaggle上启动了一场针对自动驾驶的3D目标检测比赛,奖金池25,000美元,约合17.7万人民币。
谷歌进行中的Youtube-8M视频理解比赛,也是一样。仿佛这就是Kaggle比赛的标配。
不过,Reddit论坛上有人发问了:
为何Kaggle比赛的奖金如此之低?
一个比现有方法表现都好的模型,应该能带来巨大的价值。
为什么这些办比赛的公司,在奖金上面这么抠?
问题发表之后,许多小伙伴都有话要说,一日之间热度已经超过了300。
所以,奖金池25,000美元,第一名12,000美元,很少么?
如果和Netflix Prize (网飞奖) 这样的大奖赛相比,的确是这样了。
那是2006年,Netflix用100万美元悬赏一个算法,预测用户对电影的评分:只要比公司自己的Cinamatch算法提升10%,就能得到这百万奖金。
为此,Netflix还隆重发布了一个数据集,里面有上亿次评分,是480,189位用户,为17,700部电影做的评价。每个数据点,都是由用户编号、电影名、评分时间以及评分,这四个数字组成。
这在当年的推荐算法界,成为了标志性事件。
2009年,奖金终被一个叫做BellKor’s Pragmatic Chaos的团队抱走,他们开发的算法,比Netflix当时在用的系统,提升了10.06%。
如今,虽然Netflix的主要业务,已经从DVD租赁变成了网络视频付费服务,但推荐算法依然是从当年比赛的算法上,改进而来的。
讲完这些,再回头看Reddit网友的问题描述:
“比当前算法更好的模型,应该有巨大价值。”“办Kaggle比赛的公司怎么那么抠?”,这样的说法好像都变得有的放矢。
不过,世间的比赛那么多,其中的意义也不能一概而论。
Reddit顶楼的网友 (@htrp) 说:
比起网飞奖 (Netflix Prize) 这样的大奖赛,公司办Kaggle比赛,更像是一种招揽人才的方式。
这样的比赛,大概也不会把原始的、真实的数据交给你。
换句话说,假如主要目的不在于改进自家的算法,又不会用真实数据来评定参赛的算法,也就不太可能下重金去刺激大家做出惊天动地的成就。
关于这一点,网友 (@crashbe4youcouldsave) 做了补充:
Kaggle比赛的优胜算法,是会公开代码的。主办公司没办法从比赛上获得什么技术优势,因为竞争对手也同样可以拿到代码。
要说技术价值,比起从优胜算法里挖掘,可能从kernels和论坛上小伙伴的讨论里,还能找到更多新的思路。
那么,没有百万美金激励的Kaggle比赛,选手们上传的模型,是不是也能产生“巨大的价值”?
不,许多网友并不这样想,他们各有各的理由。
有人 (@mimighost) 认为:
参赛的方案,主办方可能会看一看,从里面获得一些灵感,但不可能直接用到生产线上去。还有延时、成本等等各种因素需要考虑。
从排行榜的第一名,到工业界能够交付的成果之间,通常有很长一段路要走。
不过,如果抛开不可交付的问题,针对参赛算法本身的价值,大家又怎样看呢?
有人(@probablyuntrue) 感觉:
可能很多结果,都是调参调出来比别人高0.1%吧。
如果,获奖和没获奖的算法,未必是天壤之别,获奖的算法也未必有超乎寻常的成就,在这样的期待之下,也很难有更高的奖金安排。
更加极端的说法 (@Deto) 是:
玩Kaggle,大家不都是拿一样的模型套各种比赛的么?
大概也是想要说明,Kaggle比赛不值得再高的激励了。
当然,这位胖友的发言,受到了众人的强烈反对。
还有人把ta的看法,和那些“我擅长ML + 我Kaggle成绩不好 = Kaggle不反映ML能力”的选手联系在一起。
在许多人眼里,Kaggle比赛奖金的确不算多,且基于种种原因也不太可能更高了。
但从字里行间看,人们也没有因为这些,就忽略Kaggle比赛存在的价值。
不论是奖金、工作机会,还是在论坛上与人交流之后,收获的改进算法的灵感,都可能成为继续参加比赛的理由。
“觉得钱少不要参加,反正很多人想参加。”
“就算奖金1块钱,我也愿意参加。”
最后的最后,不要忘了起初引发讨论的,是Lyft刚刚开启的目标检测比赛。这一场比赛为什么奖金不多呢?
我来告诉你他们为什么没在上面投好多钱,因为他们没有钱。
(这句话来自@sroberts928,零票答案,谨慎参考。)