(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。近年来,该任务越来越受到关注,也出现了一些具有商业价值的应用。
现有的评测数据集存在着数据量小,领域单一,参考答案数目少的缺陷。针对上述问题,苏州大学、阿里巴巴达摩院联合发布了MuCGEC(Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction)多源多参考中文语法纠错评测数据集,并依托CCL2022会议展开评测
比赛链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328
CCL2022评测官网 :http://cips-cl.org/static/CCL2022/cclEval/taskEvaluation/index.html
文本检索系统是针对海量文本数据的基本分析工具,用于根据用户信息需求在大规模文档集中精准定位特定文本。近年来,基于深度神经网络的文本检索技术取得了突出进展,但仍然存在语义理解水平低、推理能力不足、依赖大规模标注数据等问题,难以充分满足实际业务应用需求。
本赛题面向大规模英语新闻数据的智能分析业务场景,针对现有文本检索技术存在的不足,设置语义检索和智能问答两类赛题任务:语义检索任务主要考察参赛系统篇章级语义理解能力;智能问答任务仅提供少量训练样本,不允许参赛者使用外部数据,重点考察参赛系统在小样本或迁移学习条件下的语义理解和推理能力。
给定一个包含约200万篇英文新闻的正文集。
初赛任务: 面向新闻数据的篇章级语义检索
给定一个查询,参赛系统的任务是从新闻正文集中找出与该查询语义最相关的前100篇文章,并按相关程度由高到低排序。查询的示例数据如下:
| 示例查询1 | NASA Says Saturn’s Icy Moon Enceladus Could Harbor Alien Life |
| 示例查询2 | S.Korean stocks edge lower, biopharma shares top drag |
出于数据敏感性等方面考虑,所有发布数据均已进行转码处理。
因此,上述2条示例数据的实际呈现形式如下:
| 转码后示例查询1 | 39355 1205 47380 203 10109 9602 401097 731 12004 2470 325 |
| 转码后示例查询2 | 1175747 18201 8181 8735 , 259500 478 1895 4498 |
复赛任务:小样本条件下新闻数据智能问答
(初赛排行榜TOP30团队晋级复赛,复赛任务详情复赛前公布)
https://www.datafountain.cn/competitions/567
文本事件抽取旨在将非结构化文本中的事件信息进行结构化,是自然语言处理的重要研究领域。事件检测作为事件抽取的子任务之一,旨在从给定文本中识别事件触发词(trigger)并将其分类到正确的事件类型,触发词指的是标记事件出现的核心词语或短语,事件类型为数据集中预先定义的类型。
近年来,虽然基于深度神经网络的模型在事件检测问题上取得了良好的效果,但同样受限于深度学习方法对训练数据集的高质量要求,在数据集存在样本分布不均衡、数据标注质量欠佳、对抗数据污染等问题时,模型有效性往往难以得到保证,缺乏鲁棒性。
针对上述问题,本次竞赛将基于中文领域新闻事件检测数据集(Field News for Event Detection,FNED)发布高鲁棒性要求下的领域事件检测挑战,旨在通过竞赛促进领域事件检测模型鲁棒性的研究,支撑事件抽取相关技术的落地,并推动相关领域人工智能应用的发展。
本赛题的任务为基于FNED新闻文本数据集实现高鲁棒的领域事件检测,通过机器学习、深度学习等模型开发事件检测算法,使得模型在样本分布不均衡、数据标注质量欠佳、存在数据污染时仍具有良好的性能。
输入:一个具有事件信息的句子。
输出:句子的事件触发词和事件类型。
示例:
输入
“除了无人机,无人战斗车的爆发式展示也是本届珠海航展的最大亮点之一。在今年珠海航展上,各大军工集团纷纷推出了多款具有世界先进水平的无人战斗车,让人目不暇接。珠海航展上展示的无人战斗车,炮塔上集成了机枪、反坦克导弹和烟幕弹发射器。”
输出
“event_mention”: {
“event_type”: “Exhibit”,
“trigger”: {
“text”: “展示”,
“offset”: [12, 13]
}
}
https://www.datafountain.cn/competitions/561
评价 6-12 年级学生议论文写作元素的有效性
https://www.kaggle.com/competitions/feedback-prize-effectiveness/data
论辩是人类智慧的一项重要技能,在诸多人类活动中承担着不可或缺的作用。计算论辩技术关注于机器对人类论辩过程的理解和模仿,广泛应用于决策辅助、写作支持和逻辑审查等场景。近年来逐渐成为人工智能研究的新兴重要分支。本届评测关注中、英文辩论赛场景下的论辩挖掘任务,鼓励参赛者使用计算论辩相关技术对辩论陈词中的论辩要点等成分进行识别或生成,旨在推动计算论辩相关研究的发展,并试图为学术界和工业界的研究者以及相关产业的从业者提供良好的沟通交流平台。在本届大会中,我们将举办第二届智慧论辩评测项目。
给定一个论点和一个候选句子,参赛模型须判断当前句子是否为支持当前论点的论据。我们也会提供辩题作为辅助参考。输出有两种标签:1表示是论据,0表示非论据。
提供一对具有互动关系的正、反方单环节辩稿。针对一方的一个论点,从5个候选论点中选择出与给定论点有直接互动关系的一个。候选集由1个人工标注的互动论点,和同一辩稿中采样得到的4个无关论点组成。其中,一个论点可能包含1个或多个句子。
–评价指标:最高预测的平均准确度 (average accuracy of the top predictions, A) 和平均倒数排名 (average mean reciprocal rank, M)。
针对既定的辩题,由参赛模型自动生成贴合辩题的5个论点。
–评价指标:混淆度(Perplexity),BLUE,ROUGE
–评价指标:论据类别上的F1。
http://www.fudan-disc.com/sharedtask/AIDebater22/index.html