【NLP任务】CoNLL-2003独立于语言的命名实体识别(II)

命名实体是包含人名、组织名称、地点、时间和数量的短语。例如。

[ORG U.N. ] official [PER Ekeus ] heads for [LOC Baghdad ] 
CoNLL-2003的共享任务涉及独立于语言的命名实体识别。主要专注于四种类型的命名实体:人、地点、组织和不属于前三组的其他实体的名称。

共享任务的参与者将得到两种语言的训练和测试数据。他们将使用这些数据来开发一个基于机器学习的命名实体识别系统。对于每种语言,还将提供额外的信息(名字列表和非注释数据)。参与者面临的挑战是找到将这些信息纳入其系统的方法。

背景信息

命名实体识别(NER)是信息提取的一个子任务。作为1995年第六届信息理解会议(MUC6)的一部分,对不同的NER系统进行了评估。目标语言是英语。参与的系统表现良好。然而,他们中的许多人在执行任务时使用了特定的语言资源,他们在英语之外的另一种语言上的表现如何尚不清楚。

1995年后,一些欧洲语言和少数亚洲语言的NER系统逐渐被开发出来。至少有两项研究将一种NER系统应用于不同语言。Palmer和Day使用统计方法在中文、英文、法文、日文、葡萄牙文和西班牙文的新闻网文章中寻找命名实体。他们发现,这六种语言的NER任务的难度是不同的,但是很大一部分任务可以用简单的方法完成。Cucerzan和Yarowsky使用形态学和上下文线索来识别英语、希腊语、印地语、罗马尼亚语和土耳其语中的命名实体。在最小的监督下,他们获得了40到70的总体F值,这取决于所使用的语言。在CoNLL-2002的共享任务中,12个不同的学习系统被应用于西班牙和荷兰的数据。

软件和数据

CoNLL-2003共享任务的数据文件包含四列,由一个空格分隔。每个词都被放在一个单独的行上,每个句子后面都有一个空行。每行的第一项是一个词,第二项是语音部分(POS)标签,第三项是句法块标签,第四项是命名实体标签。大块标签和命名实体标签的格式为I-TYPE,这意味着该词位于TYPE类型的短语中。只有当两个相同类型的短语紧随其后时,第二个短语的第一个词才会有标签B-TYPE,以表明它是一个新短语的开始。带有标签O的单词不是短语的一部分。下面是一个例子。

   U.N. NNP I-NP I-ORG 
   official NN I-NP O 
   Ekeus NNP I-NP I-PER 
   head VBZ I-VP O 
   为IN I-PP O 
   巴格达 NNP I-NP I-LOC 
   .            .    O O 


每个语言的数据由三个文件组成:

  • 一个训练文件
  • 两个测试文件
    • testa(将用于开发阶段,以便为学习系统找到好的参数)
    • testb(将用于最终评估)

其中:德文文件包含一个额外的列(第二列),用于保存每个单词的词法。

你可能感兴趣的:(NLP)