kaggle新赛:学生摘要评估大赛赛题解析(NLP)

赛题名称:CommonLit - Evaluate Student Summaries

赛题链接: https://www.kaggle.com/competitions/commonlit-evaluate-student-summaries/

赛题背景

摘要写作是所有年龄段学习者的一项重要技能。总结可以增强阅读理解能力,特别是在第二语言学习者和有学习障碍的学生中。摘要写作还可以促进批判性思维,这是提高写作能力的最有效方法之一。然而,学生很少有足够的机会练习这项技能,因为对摘要进行评估和提供反馈对教师来说可能是一个耗时的过程。大型语言模型(LLM)等创新技术可以帮助改变这种状况,因为教师可以使用这些解决方案来快速评估摘要。

赛题方向

自然语言处理、回归

赛题任务

本次比赛的目的是评估 3-12 年级学生撰写的摘要的质量。参赛者将构建一个模型,用于评估学生对源文本的主要思想和细节的表达程度,以及摘要中使用的语言的清晰度、准确性和流畅性。你将有权访问一组真实的学生摘要来训练你的模型。

参赛者的工作将帮助教师评估学生作业的质量,并帮助学习平台为学生提供即时反馈。

评估指标

提交使用 MCRMSE 评分,均值按列均方根误差:

kaggle新赛:学生摘要评估大赛赛题解析(NLP)_第1张图片

N_t是得分的地面实况目标列的数量,并且y和\hat{y}分别是实际值和预测值。

  • 提交文件

对于测试集中的每一个,必须预测两个分析度量中每个值=。该文件应包含标头并具有以下格式:student_id

student_id,content,wording
000000ffffff,0.0,0.0
111111eeeeee,0.0,0.0
222222cccccc,0.0,0.0
333333dddddd,0.0,0.0
...

数据描述

该数据集包括大约 24,000 个由 3-12 年级学生撰写的关于各种主题和体裁的段落摘要。这些摘要在内容和措辞方面都打分。比赛的目标是预测未见过的主题摘要的内容和措辞分数。

文件和字段信息

  • summaries_train.csv - 训练集中的摘要。
    • student_id- 学生作家的ID。

    • prompt_id- 链接到提示文件的提示的 ID。

    • text- 学生总结的全文。

    • content- 摘要的内容分数。第一个目标。

    • wording- 摘要的措辞分数。第二个目标。

  • summaries_test.csv - 测试集中的摘要。包含除 和 之外的所有上述字段。contentwording

  • prompts_train.csv - 四个训练集提示。每个提示都包括给学生的完整总结作业。
    • prompt_id- 链接到摘要文件的提示的 ID。

    • prompt_question- 要求学生回答的具体问题。

    • prompt_title- 提示的简写标题。

    • prompt_text- 完整的提示文本。

  • prompts_test.csv - 测试集提示。包含与上述相同的字段。此处的提示只是一个示例。完整的测试集具有大量提示。

  • sample_submission.csv - 格式正确的提交文件。有关详细信息,请参阅评估页面。

时间安排

  • 2023 年 7 月 12 日- 开始报名。

  • 2023 年 10 月 4 日- 报名截止。

  • 2023 年 10 月 4 日- 团队合并截止。

  • 2023 年 10 月 11 日- 最终提交截止。

竞赛奖金

排行榜奖金

  • 第一名- $12,000

  • 第二名 - $8,000

  • 第三名 - $5,000

  • 第四名 - $5,000

效率奖

  • 第一名 - $15,000

  • 第二名 - $10,000

  • 第三名 - $5,000

关注下方【学姐带你玩AI】

回复“比赛”获取190+场比赛top方案(kaggle、天池、ccf...)

码字不易,欢迎大家点赞评论收藏!

你可能感兴趣的:(比赛,kaggle,人工智能干货,自然语言处理,人工智能,kaggle)