阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台——“天池”上开展的,基于天猫海量真实用户的访问数据的推荐算法大赛。
本次比赛的目的是让广大的高校同学在大数据时代的背景下,有机会学习和利用阿里巴巴的大数据和云计算平台,尝试解决真实的业务与社会问题。
整个比赛分为三季(season):
Season 1:2014年3月10日至4月20日,参赛者可以下载少量天猫的真实行为数据,并在本地调试算法,提交结果。
Season 2:2014年4月25日至7月30日,参赛者须使用“天池”平台(阿里巴巴自主研发的分布式计算平台),访问海量的天猫数据,并利用MapReduce、SQL及各种平台集成的机器学习算法包调试模型、提交结果。
Season 3(即线上赛,实战双11):2014年10月至11月,Season 2的top选手可以访问天猫,参与2014年双11的真实算法设计,并有机会获取百万大奖。
全日制高校(研究院所)本科、硕士、博士均可参赛
参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人(可以跨学院跨学校)。如果是多人团队,则需指定一名队长,负责沟通事宜。另外每个队伍可以配备指导老师一名。
注:
1. 每人只能参加一支队伍;
2. 保证参赛队员报名信息准确有效,否则会被取消参赛资格及激励;
3. 进入season2后,不允许变更队伍成员;
4. 报名时间:只要在4月20日0:00(season1截止)之前报名即可。鼓励大家早点报名,可以早点接触到数据,以确保参赛时间充足;
5. 报名方式:官网注册账号后报名即可;
6. 交流论坛:http://bbs.aliyun.com/thread/187.html?type=738
环节 | 时间 | 规则 |
---|---|---|
Season 1 | 3月10日—4月20日 | 利用可下载的少量天猫数据,建模与提交结果。 每天提供1次算法提交机会(提交截止时间为每天凌晨2点),隔天公布排行榜, 按照F1分从高到低排序; 4.20日选出第一赛季最好成绩排名在前500名的队伍进入第二赛季; |
Season 2 | 4月25日-7月30日 | 参赛者需登录阿里巴巴天池平台,访问海量天猫数据。利用天池平台的集成工具与算法,建模与提交结果。 评审规则:每天提供1次算法提交机会,每天更新排行榜,按照F1分从高到低排序。(排行榜将选择选手在本阶段的历史最优成绩进行排名展示,选手每日的成绩请至个人中心查询) 7.24将重新抽样一批相同量级的数据(保证抽样方式一致),7.30零点截止算法的提交,并取7.24-7.30最优成绩前Top10的参赛队进入最终评审。 Top10的参赛队,需要准备评审材料,在8月20日来杭州参加答辩,根据参赛队的算法原理、season2的成绩,决出最终的冠亚季军。 |
Season 3 | 10-11月 (线上赛) | 邀请决赛成绩TOP3的参赛队参与天猫线上算法的设计,并在双11当天检验效果,根据线上AB Test 结果,决定最终成绩,赢取100w大奖。整个过程将由媒体全程跟踪和监督。 |
一等奖:1支队伍,奖金贰拾万
二等奖:1支队伍,奖金伍万
三等奖:1支队伍,奖金贰万
(上述奖项以决赛答辩成绩的最终名次决定)
月星星奖:每期月度榜单排名Top10的参赛队成员都将获得搭载云OS的手机一部(具体手机型号在公布榜单时公布)
优胜奖:决赛全国赛排名Top50的参赛队成员直接进入阿里巴巴校园招聘绿色通道(即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段) ,在校期间均有效;并将获得阿里纪念T恤和大赛获奖证书
总决赛Top10的主要参赛队成员可直接入围“阿里星”计划,参赛队的指导老师(如有)将享受天池数据的最高使用权限1年
Season 2 阶段的优胜者,将会受邀访问天猫,在天猫实际开发2014年双11线上算法,并有机会赢取100万大奖(组委会将在Season 2结束后公布细则)
阿里巴巴集团
中国中文信息学会、InfoQ技术媒体、SF社区
本赛题适用于season1 和season 2的比赛,season 3 为线上赛(season 2 赛后公布题目)。
在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。
字 段 | 字段说明 | 提取说明 |
---|---|---|
user_id | 用户标记 | 抽样&字段加密 |
Time | 行为时间 | 精度到天级别&隐藏年份 |
action_type | 用户对品牌的行为类型 | 包括点击、购买、加入购物车、收藏4种行为 (点击:0 购买:1 收藏:2 购物车:3) |
brand_id | 品牌数字ID | 抽样&字段加密 |
用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。
我们希望参赛队的预测, 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好,所以用最常用的准确率与召回率作为排行榜的指标。
准确率:
注:
N 为参赛队预测的用户数
pBrandsi为对用户i 预测他(她)会购买的品牌列表个数
hitBrandsi对用户i预测的品牌列表与用户i真实购买的品牌交集的个数
召回率:
注:
M 为实际产生成交的用户数量
bBrandsi为用户i 真实购买的品牌个数
hitBrandsi预测的品牌列表与用户i真实购买的品牌交集的个数
最后我们用F1-Score 来拟合准确率与召回率,并且大赛最终的比赛成绩排名以F1得分为准。
1) 数据获取格式:
参赛者通过大赛官网报名成功后,可以直接下载数据到本地,直接使用。(下载地址在参赛者的个人中心)
2) 数据说明:
提供的原始文件有大约4M左右,涉及1千左右天猫用户,几千个天猫品牌,总共10万多条的行为记录。用户4种行为类型(Type)对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者将预测的用户存入文本文件中,格式如下:
user_id \t brand_id , brand_id , brand_id \n
上传的结果文件名字不限(20字以内),文件必须为txt格式。
如图:
将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入口在参赛者的个人中心)
1) 数据获取方式:
参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留
意后续的指导文档和邮件通知。
2) 数据说明:
提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。
提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_tota_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示
用户4种行为类型(Type)对应代码分别为:
点击:0;购买:1;收藏:2;购物车:3
3) 提交评分方式:
参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,
包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(",")分隔。
例如:
报名参赛时需要填写阿里云账号信息。如果账号填写错误,将无法参加第二季竞赛。获取阿里云账号的方式如下所示(截图及注册流程以阿里云官网为准,以下介绍仅供参考):
进入阿里云网站http://www.aliyun.com/,点击右上角注册:
填写电子邮箱、设置密码、填写手机号、点击获取短信验证码并填写,点击同意协议并注册:
点击立即查收邮件,进入您的邮箱,查看邮件,会收到类似下面的邮件:
备注:海外同学有单独的阿里云账号注册通道,详细说明见链接:http://bbs.aliyun.com/read/154337.html?spm=5176.383345.0.0.OcSzSa
本次大赛的数据直接采用随机抽样的方式,抽取了天猫网站线上的一部分真实数据,抽样后数据未经过任何人为处理,所以数据包括了网站 上所有真实情况(促销、活动、刷信用等等)。用户对所有商品的行为,都映射为用户对商品所对应的品牌行为。数据分别对用户和品牌做了部分抽样,所以提供的 数据为一部分用户和一部分的品牌。
所有品牌数据均来自于商品信息,但不包括书籍类目和充值等没有品牌的类目数据,只针对包含正常品牌信息的商品。
点击:点击行为是用户在网站上对商品的一次浏览点击行为。
购物车:用户对商品的加入购物车行为,购物车本身有容量限制(50个商品),用户可以在购物车中直接购买商品,或者删除购物车中商品。数据中没有提供用户删除购物车内商品的行为。
收藏:用户对商品的加入收藏夹行为,收藏夹本身没有容量限制,用户可以在收藏夹中直接购买商品,或者删除收藏夹中商品。数据中没有提供用户删除收藏夹内商品的行为。
购买:用户对商品的一次正常网购行为,数据中没有提供用户退款、退货等交易纠纷行为。
用户ID和品牌ID均已经脱敏,与网站真实ID不同,系统已保障了数据安全性。
所有数据只包括用户在天猫网站上的行为数据,不包括用户在淘宝网、聚划算、淘点点等网站的行为等数据。
第一赛季数据只开放了10万量级的数据供用户下载,第一赛季数据为第二赛季数据的子集。
开放给参赛者的数据是用户4月15到8月15一共4个月的数据。
a、第一赛季,系统每天凌晨2点运行一次评分,评分结果在大赛官网上可以查询。
b、第二赛季,系统每天凌晨4点运行一次评分,所以提交结果必须在凌晨4点前完成,否则不会产出评分结果。
a、第一赛季,用户可以多次提交结果,但系统只会评分每天凌晨2点前最后一次提交的结果,多次提交的结果会被最后一次结果覆盖。每天的结果都会记录。
b、第二赛季,用户每天也可以提交多次结果,但系统只会评分每天凌晨4点前最后一次提交的结果,多次提交的结果会被最后一次结果覆盖。每天的结果都会记录。
最终比赛成绩会以用户最优的F1得分进入总排行榜,所以参赛者可以多次提交尝试不同算法,不用担心测试过程中的结果影响最终成绩。
第二赛季数据涉及阿里数据安全问题,所有参赛者不能下载到本地。
第二赛季使用的云计算平台是阿里巴巴自主研发的分布式离线数据处理平台(ODPS, 即Open Data Processing Service),支持海量结构化数据的离线存储和计算,可以提供数据仓库的解决方案以及针对大数据的分析建模服务。
ODPS提供了多种数据处理操作,以及完善的安全解决方案,其包括的功能有:
计算服务:
ODPS提供的SQL,MapReduce,Xlib等功能的详细介绍文档会在4月25日前,即第二赛季开始前,对外发布。在此之前,大家可以参考业内其他产品的相关资料:
Hadoop学习资料:http://hadoop.apache.org/
Hive学习资料:http://hive.apache.org/
MapReduce学习资料:http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf
Mahout学习资料:https://mahout.apache.org/
参赛选手也可自行查找其他学习文档。
ODPS的存储、计算调度依赖于一套阿里巴巴自主研发的分布式系统(飞天,Apsara)。对于分布式存储、计算方面的介绍可以参 考Hadoop介绍文档。与Hadoop不同的是,飞天系统在计算调度方面不仅支持离线计算任务的调度,还支持在线服务的调度。此外,飞天支持更复杂的图 结构的离线计算任务,而不仅仅是MapReduce框架的任务。
ODPS SQL功能的更多介绍请参考Hive相关资料。
Xlib功能请参考Mahout的学习资料。在支持的算法类型上Xlib与Mahout有很大不同。
特殊声明:ODPS的各项功能的设计与实现同上述产品相比有很多不同。上述资料仅是为缺少分布式开发经验的参赛选手准备。如果想对ODPS产品有全面细致的了解,请关注4月底发布的ODPS官方文档说明。
ODPS会在2014年4月底向社会开放。您在使用中遇到的各种问题可以通过阿里云网站(http://www.aliyun.com)中的 ”我的阿里云” -> “用户中心” -> “售后支持”提交工单。阿里云会有专门的售后技术支持人员为您解答问题。
本次竞赛还会有专门的论坛供大家讨论问题。此论坛更多关注竞赛规则、数据算法讨论及技术交流范畴。如果您在竞赛过程中有任何ODPS相关的疑问,请通过阿里云网站的售后系统进行反馈,会得到更快的解决。
用于评测参赛者算法的数据,是采用8月16到9月15一个月内的用户购买数据。该数据不向参赛者公布,系统自动隐藏。
第一季提交结果后,没有评分结果,可能出错的原因:
a、结果文件格式错误,上传的结果文件必须是txt格式。
b、结果文件内部必须为user_id \t brand_id , brand_id , brand_id \n格式,用户ID和品牌列表采用“\t”分隔,品牌列表内品牌采用“,”分隔。
c、结果文件中不能包含除去数字、“\t”、“,”、“\n”以外任何字符。
d、结果文件中存在空白用户或者空白品牌列表,会导致评分结果受到影响。
第二季提供结果后,没有评分结果,可能出错的原因:
a、参赛者的结果没有放入指定的结果表(t_tmall_add_user_brand_predict_dh)内,请检查表名。
b、参赛者提供的结果表字段与规定不符合,结果数据表必须为user_id和brand两列。
c、参赛者提供的结果数据分隔符错误,预测的用户品牌必须用“,”分隔,请检查。
如果用户的结果数据多天没有做更改,用户成绩会保持不变,但名次可能会发生变化。
在大赛过程中参赛者独立开发的算法的知识产权,归参赛者所有,但参赛者保证其对研究成果的使用仅限于学术研究之目的,具体详情见参赛者《保密协议》。
本文转载自:阿里巴巴大数据竞赛