SemEval 情感分析主流数据集以及任务介绍

SemEval 的发展:

SemEval 数据集完成基本任务是推特的情感分析(Sentiment Analysis in Twitter)。对于推特的文本情感分析基于SemEval 数据集始于2013年,之后任务和数据都在不断发展为更复杂。在13年到15年,任务是简单给一个推特文本,然后进行文本情感分类,分为3类(积极、消极、中立),称为任务A;

于2015年,在任务和任务中引入了Topic的概念,任务升级为给一个推特,并给一个topic;推断推特内容关于这个topic的情感倾向,积极或消极(任务B);

于2016年,引入了两个分支,一是加入了tweet quantification,也就是推特的量化分析;二是five-point ordinal classification
,也就是之前是推特的三分类,16年拓展为五分类STRONGLYPOSITIVE, WEAKLYPOSITIVE, NEUTRAL, WEAKLYNEGATIVE, and STRONGLYNEGATIVE)。

于2017年,新增了阿拉伯,在此之前只有英语。由于阿拉伯语在Twitter的丰富的形态和丰富的方言使用,使得阿拉伯语在文本情感分析增加难度挑战。

 

最新2017任务:

SemEval-2017任务4由五个子任务组成, 每个都提供阿拉伯语和英语:

1.Subtask A:

分析一个推特的情感,可以分为积极、消极、中立

2.Subtask B:

给一个推特,并给一个topic;推断推特内容关于这个topic的情感倾向,积极或消极。

3.Subtask C:

B任务的基础上,更加精细地分类,分为非常积极、弱倾向积极、中立、弱倾向于消极、非常消极(五个程度)

4.Subtask D:

关于一个topic,给出一组的推特,估计这些推特在积极和消极的分布

5.Subtask E:

          关于一个topic,给出一组的推 特,估计这些推特在五个情感程度的分布。

你可能感兴趣的:(自然语言处理)