kaggle比赛之Riiid的回答问题正确率预测,记录自己的首次参赛!

机缘巧合的情况下,知道了kaggle的Riiid的比赛,这是一个关于分类或者也可以理解为预测的比赛吧,就是针对学生是否可以正确回答问题进行预测。

比赛官网:https://www.kaggle.com/c/riiid-test-answer-prediction
kaggle比赛之Riiid的回答问题正确率预测,记录自己的首次参赛!_第1张图片

文章目录

  • 1.赛题介绍
    • 1.1赛题背景
    • 1.2评价指标
    • 1.3提交要求
    • 1.4本人对该比赛的一些看法
  • 2赛题的数据介绍
  • 3.赛题的baseline
  • 4.总结

1.赛题介绍

1.1赛题背景

Riiid AIEd挑战2020

获奖团队将被邀请在2021年2月举行的AAAI-2021人工智能教育研讨会上展示他们的模型——用人工智能想象后乔维德教育。欢迎所有参赛者向研讨会提交他们的报告。

回想一下你最喜欢的老师。他们激励和激励你去学习。他们知道你的长处和短处。他们教的课程是基于你的能力。例如,在学习微积分之前,老师会确保你理解代数。然而,许多学生无法获得个性化学习。在一个充满信息的世界里,像你这样的数据科学家可以提供帮助。机器学习可以为世界各地的年轻人提供一条通往成功的道路,我们邀请您参与这项任务。

2018年,有2.6亿儿童没有上学。与此同时,超过一半的年轻学生没有达到最低的阅读和数学标准。当COVID-19迫使大多数国家暂时关闭学校时,教育已经陷入困境。这进一步推迟了学习机会和智力发展。每个国家的股权差距都可能扩大。我们需要从出勤率、参与度和个性化关注等方面重新思考当前的教育体系。

Riiid Labs是一家为教育市场提供创造性颠覆的人工智能解决方案提供商,它授权全球教育参与者重新思考利用人工智能学习的传统方式。怀着对教育机会均等的坚定信念,Riiid于2017年推出了一款基于深度学习算法的AI导师,吸引了超过100万名韩国学生。今年,该公司发布了EdNet,这是世界上最大的人工智能教育开放数据库,包含超过1亿个学生互动。

在这个竞赛中,你的挑战是创建“知识追踪”的算法,即随着时间推移对学生知识的建模。目标是准确预测学生在未来互动中的表现。您将使用Riiid的EdNet数据对您的机器学习技能进行配对。

你的创新算法将有助于应对全球教育挑战。如果成功的话,任何有互联网连接的学生都有可能享受到个性化学习体验的好处,无论他们住在哪里。在你们的参与下,我们可以为后COVID-19世界建立一个更好、更公平的教育模式。

1.2评价指标

在预测概率与观测目标之间的ROC曲线下,对提交的数据进行评估。

提交文件(这里与国内的比赛不同,是需要提交代码的!)

你必须直接从Kaggle内核提交。通过将您的队友添加为内核上的协作者,您可以与他们共享和编辑代码。

kernels环境会自动格式化并创建您在本次竞赛中提交的文件。不需要手动创建提交。

1.3提交要求

这是一场代码竞赛
参赛作品必须通过笔记本提交。请注意,本次比赛不需要在笔记本中进行培训。
为了在提交后激活“提交竞争”按钮,必须满足以下条件:

  • CPU笔记本<=9小时运行时间
  • GPU笔记本<=9小时运行时间
  • TPU笔记本<=3小时运行时间
    允许免费和公开的外部数据,包括预先培训的模型
    提交文件必须命名提交.csv
    有关如何提交的详细信息,请参阅代码竞争常见问题解答。

1.4本人对该比赛的一些看法

第一次参加kaggle的正式赛,之前注册后就提交了两个学习的比赛,一个是房间预测一个是泰坦尼克号的比赛,所以对于这个平台还不是很熟悉。

从开始了解这个比赛,到正式开始上手做,我花了几天的时间,由于本人的英语本身就比较菜吧,要理解一些特征的意思,通过翻译软件,慢慢的了解这个比赛的要求和需要做的事情。

在到后来需要自己写推断,跟国内的比赛有很大的不同,国内的比赛基本都是直接提交一个结果文件,但是这个比赛需要你提交的是你的代码文件,而且实现你是看不到需要预测的测试集的,官方通过一个接口把测试集给你,通过你的编写的代码,在提交后,官方在进行预测,所以这块确实比较让人头疼!

就到现在,其实对于有些预测集特征的构造还是比较迷糊的,害。如果你也在参加这个比赛,我们可以一起交流一下!

2赛题的数据介绍

这个赛题一共给了三个表,train.csv,questions.csv还有一个lectures.csv,每个文件中都有一些字段,不同的字段代表了不同的含义。
kaggle比赛之Riiid的回答问题正确率预测,记录自己的首次参赛!_第2张图片
这里我整理了一个关于字段的梳理图
kaggle比赛之Riiid的回答问题正确率预测,记录自己的首次参赛!_第3张图片
kaggle比赛之Riiid的回答问题正确率预测,记录自己的首次参赛!_第4张图片

3.赛题的baseline

其实在比赛的notebook那里可以看到很多人分享的baseline,不过目前分享的最高的baseline是0.781,这个分数还是比较低的,到不了铜牌,害,比赛的竞争还是很大的。
kaggle比赛之Riiid的回答问题正确率预测,记录自己的首次参赛!_第5张图片
其中我之前参考别人的baseline也写了一个0.762的baseline,大家可以给个支持,帮忙点个赞,也可以一起学习,距离比赛结束还有不到两周的时间,距离组队结束时间还有6天!

我的baseline0.762

4.总结

这个比赛给的train数据大概是1亿行左右,如果全部拿来做特征,只在kaggle的kernel是完全不行的,内存根本不够用,所以我当时也只是用来部分数据,不过看到他们的讨论说用全部数据和部分数据的差值可能在0.01左右吧,害,对于我们这种没有资源的人来说,只能白嫖官方的资源,凑活还能用吧,但是最近几天尝试了很多特征,效果都不好,上分困难啊,首次参赛,可能要与奖牌无缘了…,再接再厉吧,学点经验,提升自己分析的能力!

记录时间:2020年12月26日

你可能感兴趣的:(机器学习比赛分享,人工智能,大数据,机器学习,kaggle)