2021 中国高校计算机大赛 —— 微信大数据挑战赛
通 知
2016 年,教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委员会、全国高等学校计算机教育研究会联合创办了“中国高校计算机大赛”(China Collegiate Computing Contest,简称 C4),第五届(2020 年)“中国高校计算机大赛”继续由全国高等学校计算机教育研究会主办。大数据挑战赛是其中的一项重要赛事,在 2018-2020 年均入选全国 普通高校学科竞赛排行榜,获得社会各界的高度关注和广泛好评。
2021 中国高校计算机大赛——微信大数据挑战赛(以下简称“大 赛”)是由清华大学和腾讯微信事业群联合举办,腾讯云提供竞赛平台和资源支持,以企业真实场景和实际脱敏数据为基础,面向全球开放的高端算法竞赛。大赛旨在通过竞技的方式,提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。
本次大赛面向全球开放,不限年龄国籍,高等院校在校学生(包括高职高专、本科生、研究生)以及科研机构和企业从业人员均可报名参赛。参赛队伍根据赛题要求设计相应的算法进行数据分析和处理,比赛结果按 照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
请各学校积极配合,按照通知和大赛章程做好宣传和组织工作,为在校生和毕业生参与竞赛提供必要的条件和支持。竞赛详情见
附件(2021 大数据挑战赛竞赛规程)。
2021中国高校计算机大赛——微信大数据挑战赛
竞赛规程
2016年,教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委员会、全国高等学校计算机教育研究会联合创办了“中国高校计算机大赛”(China Collegiate Computing Contest,简称C4),目前“中国高校计算机大赛”继续由全国高等学校计算机教育研究会主办。大数据挑战赛是其中的一项重要赛事,在2018-2020年期间均入选全国普通高校学科竞赛排行榜,获得社会各界的高度关注和广泛好评。
2021中国高校计算机大赛——微信大数据挑战赛(以下简称“大赛”)由清华大学和腾讯微信事业群联合举办,由腾讯云提供大赛资源支持。本次大赛是以企业真实场景和实际脱敏数据为基础、面向全球开放的高端算法竞赛。大赛旨在通过竞技的方式,提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。
一、 参赛对象
本次大赛面向全球开放,不限年龄国籍,高等院校在校学生(包括高职高专、本科、研究生)以及科研机构和企业从业人员均可参赛。具体要求如下:
可以自由组队参赛,具体组队要求见赛道相关说明;
参赛选手应保证报名信息准确有效,如队伍中的选手信息不符合要求,组委会有权取消整个队伍的参赛资格及奖励。
为了保证大赛的公平性,将禁止以下类型人员报名参赛:
大赛主办和技术支持单位如有机会接触赛题和相关数据的人员不允许参赛。
赞助企业的在职人员(不含实习生)不允许参赛。
二、 赛制说明
本次大赛分为报名&组队、初赛、复赛和决赛等四个阶段,其中初赛阶段由参赛队伍下载数据在本地进行算法设计和调试,并通过大赛报名官网提交结果文件;复赛阶段要求参赛队伍在大赛官网平台上进行数据处理、算法调试和生成结果,数据不可下载,可使用平台提供的计算资源和工具包;决赛要求参赛者进行现场演示和答辩。本次大赛所提供数据均为脱敏数据。
1. 报名&组队(4月30日 – 6月28日)
参赛选手须在大赛官网报名并且组队参赛(即使单人参赛也要组建单人队伍),大赛不收取任何报名费用。大赛报名系统开放时间为北京时间2021年4月30日10:00,截止时间为北京时间2021年6月28日中午12:00。
报名方式:登录比赛官网,完成个人信息注册,即可报名参赛;
每个选手可单人成队或2-3人组队参赛,且每人只能参加一支队伍。
大赛官方渠道主要包括:
大赛官网:https://algo.weixin.qq.com/
大赛邮箱:[email protected]
大赛QQ群:566353409 / 758344321 / 762146461
报名截止之后,不再允许添加或更改任何队伍成员。如有中途退出情况,只允许在参赛队伍内部更换队长或删除队员。参赛队伍须应在决赛开始前向大赛组委会提交成员更换申请,由参赛队伍全部成员亲笔签名,经由大赛组委会审核后变更生效。
2. 初赛(5月20日 – 6月30日)
参赛队伍可从大赛官方网站下载数据,在本地进行算法调试,并在线提交结果。
5 月 20 日 12:00 开始,选手可以从竞赛平台下载初赛训练数据集,用于参赛队伍训练模型以及制定预估策略;同时,平台提供测试数据集,用于参赛队伍在比赛中的模型评估和排名。
初赛采用AB榜形式:
初赛A阶段:5月20日10:00 – 6月29日20:00,每个参赛队伍每天可以有3次提交结果机会,系统实时评测并返回成绩。排行榜每小时更新,将选择参赛队伍在本阶段的历史最优成绩,按照评测指标从高到低排序。
初赛B阶段:6月30日10:00-20:00。系统将在6月29日21:00更换测试数据,参赛队伍需再次下载数据文件。本阶段提供2次提交结果的机会,系统进行实时评测并返回成绩。排行榜每小时进行更新,并选择参赛队伍在本阶段的历史最优成绩进行排名展示。
初赛提交的截止时间是6月30日20:00,初赛以B榜成绩作为初赛成绩依照,要求TOP120团队提交代码审核,具体要求届时通知,代码提交截止时间7月2日12:00。组委会将审核并取消存在人工标注、相互抄袭等行为队伍的比赛资格,晋级空缺名额后补。初赛成绩符合要求且通过实名认证的排名前100名的参赛队伍将进入复赛,所有通过审核队伍将获得初赛名次证书。
3. 复赛(7月12日 – 8月9日)
复赛参赛队伍需要在大赛官网平台上完成数据处理、建模、算法调试、生成结果等,所有比赛数据不可下载,可使用平台提供的计算资源和工具包。
复赛采用AB榜形式:
复赛A阶段:7月12日12:00 – 8月6日12:00,每个参赛队伍每天可以有3次提交结果机会,系统实时评测并返回成绩。排行榜每小时更新,将选择参赛队伍在本阶段的历史最优成绩,按照评测指标从高到低排序。
复赛B阶段:8月2日12:00-8月9日12:00。8月2日12:00开始,竞赛平台提供最终成绩的测试数据集,此数据集仅用于复赛队伍的最终成绩评比和排名,不参与比赛过程中每天排名。参赛队伍可以随时提交该数据集的结果,如有多次提交则以最后 2 次提交为准。8月9日13:00,系统对参赛队伍提交的最终测试集结果进行评测,并根据 2 次评测结果取高分,公布所有复赛队伍的最终成绩和排名。
复赛提交的截止时间是8月9日12:00,复赛以B榜成绩作为复赛成绩依照,TOP35团队需要提交代码审核,具体要求届时通知,代码提交截止时间是8月10日21:00。组委会将审核并剔除只靠人工标注而没有算法贡献的队伍,晋级空缺名额后补,最终通过复赛成绩审核的前6名队伍将晋级决赛。
4. 决赛(8月下旬)
决赛将以现场答辩会的形式进行,具体要求和安排另行通知。受邀参加决赛的选手在决赛期间的食宿由大赛组委会安排,往返交通费及其他费用自理。
晋级决赛团队需提前准备答辩材料,包括路演PPT、参赛总结、算法核心代码。在决赛答辩会上,每支队伍面对评委有20分钟的路演时间和10分钟的答辩时间。评委将根据选手的技术思路、理论深度和现场表现进行综合评分。
决赛分数将根据参赛队伍的算法成绩和答辩成绩加权得出,评分权重为复赛阶段70%,决赛答辩30%。
三、 奖项设置
1. 初赛奖项
初赛TOP120且通过代码审核的团队将颁发初赛名次证书。
2. 复赛与决赛奖项
大赛奖金池总额分别为66万元人民币,所有奖金均为税前金额。
奖项名称 |
数量 |
对象 |
奖励办法 |
全国一等奖 |
1 |
决赛第1名 |
证书,奖金30万元 |
1 |
决赛第2名 |
证书,奖金10万元 |
|
1 |
决赛第3名 |
证书,奖金7万元 |
|
全国二等奖 |
3 |
决赛第4-6名 |
证书,奖金3万元 |
4 |
复赛第7-10名 |
证书,奖金1万元 |
|
全国三等奖 |
20 |
复赛第11-30名 |
证书,奖金3千元 |
优胜奖 |
30 |
复赛第31-60名 |
证书 |
3. 周周星
在每个赛道的初赛阶段,设立周周星奖励。从初赛第三周开始,以每周一中午12点的排行榜为准,取前两名参赛队伍发放周周星纪念礼物;对于前面已经获得周周星的队伍,不重复发放,名额按名次顺延。
4. 其他激励
招聘绿色通道:复赛排名前30队伍的在校学生将获得2021年腾讯集团微信事业群校园招聘和实习招聘绿色通道资格,具体细则另行通知。
四、 违规处理
参赛者应本着诚实、公平的态度参加比赛,如在以下情况出现违规,大赛组织委员会(简称“大赛组委会”)有权取消参赛者所在队伍的参赛资格,情节严重者将通报参赛者所在高校并追究其违法责任。
1. 账号使用:参赛者有义务保证账号信息的真实性和有效性,且账号仅限于参赛者本人使用;参赛者禁止使用多账号参赛,同一参赛者不可使用多个账号进行提交、刷分操作;如根据判断认为参赛账号存在异常或违背正常使用条例,组委会可以单方面暂停或终止该账号登录大赛平台。
2. 比赛成果:
严禁参赛队伍之间相互抄袭。如不同参赛队伍提交结果高度相似,经判定存在抄袭行为的,组委会将取消相关参赛队伍的参赛资格,相关参赛成绩无效。
参赛者应保证其在比赛过程中所产出的所有成果未侵犯任何第三方的知识产权、商业秘密及其他合法权益。如第三方因为参赛者侵权行为提出索赔、诉讼等,参赛者应承担由此产生的全部责任及损失。
如大赛主办方及其关联公司有意取得参赛者在本次大赛中独立开发的依约定享有完整知识产权的研究成果,参赛者同意大赛举办方及其关联公司在同等条件下享有优先受让权,相关转让事宜由双方另行协商确定。
3. 数据使用:对于大赛提供的数据(数据集),参赛者须仅在比赛场景下使用,并应妥善保存已下载的数据(数据集),避免泄露;在完成比赛使用后应及时销毁已下载数据(数据集);如使用比赛之外的任何数据应获得组委会许可。对于不提供下载的比赛数据,参赛者不得以任何形式擅自复制、下载或获取。参赛者如发现任何出现数据未授权访问的可能,应立即通知组委会并积极提供相关信息。
4. 代码分享:在大赛举办期间,未经组委会同意,参赛者禁止公开分享与赛事相关的数据、模型和代码;大赛结束之后,参赛者可以在拥有模型和代码的知识产权的情况下自行选择公开分享,但需要确保此类公开共享不会侵犯任何第三方的知识产权、商业秘密及其他合法权益。
5. 参赛者若在参赛过程中发现相关规则漏洞或技术漏洞,有义务及时告知资委会相关漏洞的信息,组委会将对提供相关信息的参赛者表示相关感谢;若参赛者利用相关漏洞进行参赛,经判断查证后,成绩将会被判断为无效成绩。
五、 申诉与仲裁
1. 参赛团队或选手对不符合大赛规定的设备、工具和软件,有失公正的评判和奖励以及工作人员的违规行为等,均可向大赛组委会提出申诉。组委会负责受理比赛中提出的申诉并进行调解仲裁,以保证大赛的顺利进行和大赛结果的公平公正。组织委员会作出的仲裁结果为终局决定。
2. 申诉报告应明确申诉内容,指定一名成员作为联系人,通过大赛邮箱以邮件发送,否则申诉将不予以受理。
3. 组织委员会将在收到申诉之日起5个工作日之内受理,并认真核查和处理。
六、 其他说明
1. 在大赛举办过程中,竞赛规程可能会有少量的变更和调整,所有内容均以大赛官网为准。
2. 本大赛规程的最终解释权归“中国高校计算机大赛——微信大数据挑战赛”组织委员会所有。
“中国高校计算机大赛——微信大数据挑战赛”组织委员会
2021年4月
附件:赛题描述——微信视频号推荐算法
本次比赛基于脱敏和采样后的数据信息,对于给定的一定数量到访过微信视频号“热门推荐”的用户,根据这些用户在视频号内的历史n天的行为数据,通过算法在测试集上预测出这些用户对于不同视频内容的互动行为(包括点赞、点击头像、收藏、转发等)的发生概率。本次比赛以多个行为预测结果的加权uAUC值进行评分。
一、 竞赛数据
比赛提供训练集用于训练模型,测试集用于评估模型效果,提交结果demo文件用于展示提交结果的格式。所有数据文件格式都是带表头的.csv格式,不同字段列之间用英文逗号分隔。初赛与复赛的数据分布一致,数据规模不同。初赛提供百万级训练数据,复赛提供千万级训练数据。
1. 训练集
(1) Feed 信息表
该数据包含了视频(简称为feed)的基本信息和文本、音频、视频等多模态特征。具体字段如下:
字段名 |
类型 |
说明 |
备注 |
feedid |
String |
Feed视频 ID |
已脱敏 |
authorid |
String |
视频号作者ID |
已脱敏 |
videoplayseconds |
Int |
Feed时长 |
单位:秒 |
description |
String |
Feed配文 |
已脱敏;存在空值 |
ocr |
String |
图像识别信息 |
已脱敏;存在空值 |
asr |
String |
语音识别信息 |
已脱敏;存在空值 |
bgm_song_id |
Int |
背景音乐ID |
已脱敏;存在空值 |
bgm_singer_id |
Int |
背景音乐歌手ID |
已脱敏;存在空值 |
feed_embedding |
String |
融合了ocr、asr、图像、文字的多模态的内容理解特征向量 |
512维向量 |
说明:
训练集和测试集涉及的feed均在此表中;
description, orc, asr三个字段为原始文本数据经过分词为term和脱敏处理后得到的,term 之间空格分隔。例如:文本“我参加了中国高校计算机大赛“经过处理后得到类似“2 32 100 25 12 89 27”的形式(此处只是一个样例,不代表实际脱敏结果)。
feed_embedding字段为String格式,包含512维,数值之间用空格分隔。
(2) 用户行为表
该数据包含了用户在视频号内一段时间内的历史行为数据(包括停留时长、播放时长和各项互动数据)。具体字段如下:
字段名 |
类型 |
说明 |
备注 |
userid |
String |
用户ID |
已脱敏 |
feedid |
String |
Feed视频 ID |
已脱敏 |
device |
Int |
设备类型ID |
已脱敏 |
date_ |
Int |
日期 |
已脱敏为1-n,n代表第n天 |
timestamp_ |
Int |
时间戳 |
已脱敏,并保持原来的先后顺序 |
play |
Int |
视频播放时长 |
单位:毫秒;若播放时长大于视频时长,则属于重播的情况 |
stay |
Int |
用户停留时长 |
单位:毫秒 |
read_comment |
Bool |
是否查看评论 |
取值{0, 1},0代表“否”,1代表“是” |
like |
是否点赞 |
||
click_avatar |
是否点击头像 |
||
favorite |
是否收藏 |
||
forward |
是否转发 |
||
comment |
是否发表评论 |
||
follow |
是否关注 |
2. 测试集
比赛A/B榜的数据量和数据分布一致。具体字段如下:
字段名 |
类型 |
说明 |
备注 |
userid |
String |
用户ID |
已脱敏 |
feedid |
String |
Feed视频 ID |
已脱敏 |
device |
Int |
设备类型ID |
已脱敏 |
3. 提交结果格式
初赛阶段:选手需要对测试集中每一行的userid和feedid的四种互动行为的发生概率进行预测,这四种行为包括:查看评论、点赞、点击头像、转发;
复赛阶段:选手需要对测试集中每一行的userid和feedid的七种互动行为的发生概率进行预测,这七种行为包括:查看评论、点赞、点击头像、转发、收藏、评论和关注。
具体格式说明如下:
字段名 |
类型 |
说明 |
赛段 |
备注 |
userid |
String |
用户ID |
初赛/复赛 |
已脱敏 |
feedid |
String |
Feed视频 ID |
已脱敏 |
|
read_comment |
Float |
是否查看评论 |
预测用户特定行为发生的概率,取值区间[0,1]。0代表“否”,1代表“是”;结果最多保留六位小数。 |
|
like |
Float |
是否点赞 |
||
click_avatar |
Float |
是否点击头像 |
||
forward |
Float |
是否转发 |
||
favorite |
Float |
是否收藏 |
仅复赛 |
|
comment |
Float |
是否发表评论 |
||
follow |
Float |
是否关注 |
说明:提交结果文件的行数需要与测试集的行数相同,且userid-feedid需要与测试集中一致(顺序可以不同)。
二、 评估标准
本次比赛采用uAUC作为单个行为预测结果的评估指标,uAUC定义为不同用户下AUC的平均值,计算公式如下:
其中,n为测试集中的有效用户数,有效用户指的是对于某个待预测的行为,过滤掉测试集中全是正样本或全是负样本的用户后剩下的用户。为第i个有效用户的预测结果的AUC(Area Under Curve)。AUC的定义和计算方法可参考维基百科。
初赛的最终分数为4个行为(查看评论、点赞、点击头像、转发)的uAUC值的加权平均。复赛的最终分数为7个行为(查看评论、点赞、点击头像、转发、收藏、评论和关注)的uAUC值的加权平均。分数越高,排名越靠前。
在总分中,7个行为的权重如下:
字段名 |
字段说明 |
权重 |
read_comment |
是否查看评论 |
4 |
like |
是否点赞 |
3 |
click_avatar |
是否点击头像 |
2 |
forward |
是否转发 |
1 |
favorite |
是否收藏 |
1 |
comment |
是否发表评论 |
1 |
follow |
是否关注 |
1 |
加权uAUC的计算公式如下:
其中,k为待预测的互动行为数,初赛k=4,复赛k=7。 为第i个行为的uAUC值, 为第i个行为的权重。
三、 其他说明
1. 本项比赛全程不允许使用外部数据集。
2. 允许使用开源的词典、embedding和预训练模型,以上数据和模型需在2021/07/12日期前开源,且需通过邮件的形式向组委会报备开源链接地址和md5,报备邮箱为[email protected]。
3. 复赛阶段允许使用初赛阶段的数据集。
编辑:文婧