【数据科学赛】FT-Data Ranker:大语言模型微调数据竞赛 #¥25000 #数据为中心 #NLP

CompHub[1] 最新的比赛会第一时间在群里通知,欢迎加群交流比赛经验!(公众号回复“加群”即可)


以下内容由AI辅助生成,可能存在错误,可进入比赛主页[2]查看更多(文末阅读原文)

【数据科学赛】FT-Data Ranker:大语言模型微调数据竞赛 #¥25000 #数据为中心 #NLP_第1张图片

比赛题目

FT-Data Ranker:大语言模型微调数据竞赛

比赛主办方

本次比赛的主办方是阿里云,联合承办方为魔搭社区。

比赛背景

在大语言模型(LLM)的能力构建中,数据起到了至关重要的作用。然而,如何更好地构建和处理数据集对LLM社区来说仍模糊不清。为了推动以数据为中心的基准竞赛,独立、精确地评估和提升数据集质量,以加速形成基准驱动的数据开发流程,增强社区的LLM数据处理能力并加深对数据质量和数据优化的理解。

比赛关键词

比赛关键词包括自然语言处理、计算机视觉、图像分类等。

比赛时间安排

  • 报名与组队:即日起—2023年11月1日18:00,UTC+8

  • 第一阶段:2023年10月13日10:00-2023年11月4日18:00,UTC+8

  • 第二阶段及最终排名:2023年11月6日10:00—2023年11月10日18:00,UTC+8

  • 最终榜单公布:2023年11月13日

  • 提交技术报告:2023年11月18日

比赛奖项设置

本次比赛奖金共计5万元人民币现金奖励,分为冠军、亚军、季军和优胜奖共四个奖项,奖金数额分别为12000元、8000元、5000元和颁发获奖证书。

赛题题目详情

比赛主要关注fine-tuning数据,参赛者需清洗、过滤和增强指定原始数据集,并利用新数据集按照指定流程对指定模型进行微调,最终在测试集上进行性能排名。比赛采用Data-Juicer作为核心基建,提供系统化、可复用的内置算子、专用工具和数据处理“菜谱”,以帮助参赛者理解候选数据集,并提供多维度的自动评估功能。

AI帮忙:解题思路

参赛者需要关注如何直接处理数据,以获得更佳排名。可以通过Data-Juicer提供的内置算子和工具来针对候选数据集进行清洗、过滤和自动化数据增强。在第一阶段,选手可以提交结果文件进行实时评测,并根据评测结果进行调优。在第二阶段,选手需要上传处理后数据训练的模型,并根据最终提交的模型进行私榜评测。要注意准备代码开源,确保比赛的公平和透明性。

参考资料

[1] 

CompHub: https://comphub.notion.site/CompHub-c353e310c8f84846ace87a13221637e8

[2] 

比赛主页: https://tianchi.aliyun.com/competition/entrance/532158

你可能感兴趣的:(人工智能,开发语言,java,数据挖掘,算法)