实体命名识别详解(一)

 本周我介绍一下自然语言处理中 的命名实体识别(Named Entity Recognition),并详细解剖一下GitHub上的一个NER项目
 命名实体识别(Named Entity Recognition,简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
  举个简单的例子,在句子“小明早上8点去学校上课。”中,对其进行命名实体识别,应该能提取信息:

人名:小明,时间:早上8点,地点:学校。

 另外,参考Wikipedia上的介绍,文本实体识别在很多领域都有重要作用,而且在某些数据集上已经取得了几近人类的表现水平。
State-of-the-art NER systems for English produce near-human performance. For example, the best system entering MUC-7 scored 93.39% of F-measure while human annotators scored 97.60% and 96.95%.
 但是,实际上NER准确性远远未达到上述水平,还将要有很长的路走,其中一大挑战就是跨领域的不稳定性,不同的领域有不同的专有名词,有各自的专业术语,迁移学习在这里很难表现出较好的结果。在调整NER系统以在新领域中表现良好方面需要付出相当大的努力,对于基于规则和可训练的统计系统都是如此。
 解决方案无非是大量的人工标注的数据。然而人工标注的缺点也很明显:需要较大的人力物力,而且对于某一领域的NER项目,如医学、基因科学、计算机科学等,需要有专业素养,专业背景知识的人来进行标注,这本身就是很大的成本。
 不过目前较为折中的方案是构建众包平台,由世界各地的人进行分工合作。
 截止目前,主流的NER方案依旧是BiLSTM+CRF(条件随机场)+word_embedding。
有时候,CFR也会被HMM(隐含马尔科夫模型)或ME(最大熵模型)替代,具体算法优劣,我们后期再进行详解。

你可能感兴趣的:(实体命名识别详解(一))