ACE语料内容解析

ACE语料里面是什么样子

目标
ACE注释任务对应于三个研究目标:实体检测和跟踪(EDT),关系检测和表征(RDC)以及事件检测和表征(EDC)。第四个注释任务,实体链接(LNK),将对单个实体及其所有属性的所有引用分组到一个复合实体中。
实体检测和跟踪(EDT): 是核心注释任务,为所有剩余任务提供基础。后来的ACE任务确定了七种类型的实体:人员,组织,位置,设施,武器,车辆和地缘政治实体(GPE)。每种类型进一步分为子类型(例如,组织子类型包括政府,商业,教育,非营利,其他)。注释器标记了文档中每个实体的所有提及,无论是命名,名义还是代名词。对于每一次提及,注释器都识别出代表实体的字符串的最大范围,并标记每个提及的头部。嵌套提及也被捕获。每个实体根据其类型和子类型进行分类,并根据其特定类别,通用,属性,负面量化或未指定类别进一步标记。在LNK注释任务期间,注释器审查整个文档,以便将同一实体的提及分组在一起; 他们还标记了转喻的案例,其中一个实体的名称用于指代与其相关的另一个实体。
关系检测和表征(RDC): 涉及实体之间关系的识别。此任务已添加到ACE的第2阶段。RDC针对物理关系,包括位置,近处和部分整体; 社会/个人关系,包括商业,家庭和其他; 一系列的就业或会员关系; 工件与代理商之间的关系(包括所有权); 从属关系,如种族; 人与GPE之间的关系,如公民身份; 最后是话语关系。对于每个关系,注释器都识别出两个主要参数(即,链接的两个ACE实体)以及关系的时间属性。由明确的文本证据支持的关系与那些依赖于读者的语境推理的关系不同。
ACE阶段3增加了一项新的挑战: 事件检测和表征(EDC)。在EDC中,注释器识别并描述了EDT实体参与的五种类型的事件。目标类型包括交互,移动,转移,创建和销毁事件。注释器为每个事件标记文本提及或锚点,并按类型和子类型对其进行分类。他们根据特定类型的模板进一步确定了事件参数(代理,对象,源和目标)和属性(时间,位置以及其他类似工具或目的)。

ACE05文件格式描述

每个注释文件对应四个版本:
1.原文本文件(.sgm):所有源文件(包括中文文件)都以UTF-8编码;
2.ACE程序格式(APF)文件(.apf.xml):采用官方ACE注释文件格式;
3.AG 文件(.ag.xml):使用LDC注释工具包创建的注释文件;
4.TABLE文件(.tab):存储以ID识别的ag.xm文件及其对应的apf.xml文件之间映射表。

ACE任务介绍

实体检测与识别:实体提及的每个文档都需要实体输出。此输出包括实体的属性和提及的信息。实体属性当前仅限于实体类型,实体子类型,实体类以及用于引用实体的名称。每个实体提及的输出包括提及类型,其头部的位置和范围,以及可选的提及角色和提及风格(文字或转喻,该属性以apf文件格式编码为名为“metonymy_mention”,为true表示“转喻风格”的引用,false表示“文字”引用,默认为文字),table1与table2列出了ACE实体类型,子类型和类。table3列出了提及类型。

ACE语料内容解析_第1张图片
ACE语料内容解析_第2张图片
ACE语料内容解析_第3张图片
注释指南中提到,在评估期间仅向特定(SPC)实体分配非零值,即系统仅需输出SPC实体。值检测与识别:ACE值检测和识别任务(VAL)要求检测源语言数据中提到的某些指定类型的值,并且识别关于这些值的所选信息并将其合并为每个检测值的统一表示。 ACE值是一个提供附加信息的数量,也可以作为实体使用,作为事件的参数。 值与实体类似地表示,并以其属性和提及为特征。 表4中列出了2005的每个ACE值的类型和子类型属性。可查看注释准则,有值类型和子类型的详细描述。
ACE语料内容解析_第4张图片
时间检测与识别:ACE时间表达识别和规范化任务(TERN)根据“TIDES 2005标准的时间表达注释”来检测和识别源语言数据中提到的某些时间表达式(以时间x2格式)。要识别的时间表达包括绝对表达式和相对表达式。 此外,还要识别持续时间,事件锚定表达式和时间集。 此信息包含在timex2属性集中。 表5列出了2005年要评估的ACE timex2属性。

ACE语料内容解析_第5张图片
关系检测与识别:ACE关系检测和识别任务(RDR)要求检测源语言数据中提到的某些指定类型的关系,并且识别关于这些关系的所选信息并将其合并为每个检测到的关系的统一表示。
关系提及的输出包括有关关系属性,关系参数和关系提及的信息。 关系属性是关系类型,子类型,模态和时态。关系参数由唯一ID和角色标识。相关的两个实体的角色是“Arg-1”和“Arg-2”,除了对称关系(表6中标识)之外,将这些角色正确分配给它们各自的参数是很重要的。可能只有一个Arg-1实体和一个Arg-2实体。除了两个主要实体参数之外,还可能存在一个或多个temporal(timex2)参数,并且在关系中包含这些参数以便为关系接收完整值。关系提及是表达关系的句子或短语,必须包含两个相关实体的提及。
表6中列出了2005年的ACE关系类型和子类型。关系可能只有一种类型和一种子类型。
ACE语料内容解析_第6张图片
关系检测与识别:ACE关系检测和识别任务(RDR)要求检测源语言数据中提到的某些指定类型的关系,并且识别关于这些关系的所选信息并将其合并为每个检测到的关系的统一表示。
关系提及的输出包括有关关系属性,关系参数和关系提及的信息。 关系属性是关系类型,子类型,模态和时态。关系参数由唯一ID和角色标识。相关的两个实体的角色是“Arg-1”和“Arg-2”,除了对称关系(表6中标识)之外,将这些角色正确分配给它们各自的参数是很重要的。可能只有一个Arg-1实体和一个Arg-2实体。除了两个主要实体参数之外,还可能存在一个或多个temporal(timex2)参数,并且在关系中包含这些参数以便为关系接收完整值。关系提及是表达关系的句子或短语,必须包含两个相关实体的提及。
表6中列出了2005年的ACE关系类型和子类型。关系可能只有一种类型和一种子类型。

ACE语料内容解析_第7张图片
每个事件参数由唯一ID和角色标识。与仅允许Arg-1和Arg-2角色中的一个参数的关系不同,事件允许同一角色中的多个参数。
事件提及是提及事件的句子或短语,事件提及的范围被定义为提及事件的整个句子。虽然未评估事件提及的识别,但它是允许系统输出事件映射到参考事件的方式之一。因此,正确识别事件提及可能有助于评估。
ACE05文件版本介绍
源文本文件(.sgm):所有源文件(包括中文文件)都以UTF-8编码。 这些文件使用UNIX样式的行尾。 仅评估开始文本标记 和结束文本标记之间的文本。 此规则的一个例外是,一个TIMEX2注释放在和标记之间,即使它们出现在TEXT标记之外。APF文件(.apf.xml):ACE Pilot格式是XML对齐注释的一种形式。有关ACE程序格式的定义链接已失效,若需查找更多相关内容可查看: http://xml.coverpages.org/acePilot.html。AG文件(.ag.xml):LDC注释图格式。 LDC的ACE内部注释文件格式。 可以使用LDC的注释工具查看这些文件。TABLE文件(.tab):同上。

作者:yuanlelelele
链接:https://www.jianshu.com/p/71ed0d780210
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

你可能感兴趣的:(nlp,事件抽取,ACE语料内容介绍,ACE语料实体标注说明)