命名实体识别(NER)评测

简介

    命名实体识别评测方式分为两种,一是通用的基于token标签进行直接评测,二是考虑实体边界+实体类型的评测。

标签评测

不考虑实体类型与实体边界,直接进行评测。

实体边界+实体类型

A、完全匹配

1、实体边界与实体类型都匹配正确;

2、预测出的实体在测试集中不存在;

3、测试集中的实体,没有被预测出来;

B、部分匹配(重叠)

4、实体边界正确,类型不正确;

5、边界错误(边界重叠);

6、边界错误,实体类型也错误

评估指标

1、CoNLL-2003: Computational Natural Language Learning

- 仅考虑1、2、3方案;

- 完全匹配:精度、召回率、F1

- 参考 Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition:https://www.aclweb.org/anthology/W03-0419/

2、Automatic Content Extraction (ACE)

- 包括加权方案

- 参考 Automatic Content Extraction 2008 Evaluation Plan (ACE08):

https://pubweb.eng.utah.edu/~cs6961/papers/ACE-2008-description.pdf

- 参考 The Automatic Content Extraction (ACE) Program: Tasks, Data, and Evaluation:

https://pdfs.semanticscholar.org/0617/dd6924df7a3491c299772b70e90507b195dc.pdf

3、Message Understanding Conference (MUC)

- 同事考虑实体边界和实体类型

- Correct (COR): 匹配成功;

- Incorrect(INC):匹配失败;

- Partial(PAR):预测的实体边界与测试集重叠,但不完全相同;

- Missing(MIS):测试集实体边界没有被预测识别出来;

- Spurius(SPU):预测出的实体边界在测试集中不存在;

- 参考:MUC-5 EVALUATION METRICS:https://www.aclweb.org/anthology/M93-1007/

- Python参考代码:https://github.com/jantrienes/nereval

4、SemEval‘13

- 严格(strict):完全匹配,需要实体边界与实体类型都正确;

- 精确边界匹配(exact):无论实体边界如何,预测的实体边界都是正确的;

- 部分边界匹配(partial):忽略实体边界,有实体边界重叠即可;

- 类型匹配:预测的实体与测试集实体需要一定的重叠;

示例:


图-实体预测结果与测试集匹配情况

   1、测试集标签个数统计(golden):

2、预测结果标签个数统计(predict):

3、精确匹配(exact):

3、部分匹配(partial):

4、F1:

参考资料:

1、实体边界+实体类型:

https://ychai.uk/notes/2018/11/21/NLP/NER/Evaluation-metrics-of-Name-Entity-Recognition-systems/

2、scikit-learn标签评测(多分类评测方法):

https://devdocs.io/scikit_learn/modules/generated/sklearn.metrics.classification_report

3、conlleval参考代码:

https://github.com/sighsmile/conlleval

4、NER MUC evaluation参考代码:

https://github.com/cyk1337/NER-evaluation/

    

你可能感兴趣的:(命名实体识别(NER)评测)