命名实体识别(1)

今天好好看了看关于中文命名实体的识别。所谓命名实体,就是诸如人名,地名,机构名,时间等专有名词。对于命名实体的提取研究可以应用于多个领域,因此这两年对此的研究逐渐兴起。
我只是一个大学本科生,在这方面可以说毫无涉猎,现在开始研究命名实体的识别。还请各位老师多多建议指正。

今天起开始研究中科院的分词系统,大概看了一下,里面有关于人名和地名的提取。但其中对于分词等处理比较庞大复杂,要看明白程序的来龙去脉,恐怕是要花上一段时间。所以每天看一些,把心得写出来,一来做个笔记,二来希望高手们能讨论一下,互相促进。

中科院分词系统使用了隐马尔科夫模型进行分词和命名实体的识别。程序目录中有各种词库,都是.dct的文件,里面有大量词语的使用频率等参数,此文件可以用程序直接以二进制方式读入内存,在分析时供程序使用。唯一的遗憾就是我们没法看到类似于人名地名库的储存格式,不能更充分的理解作者的意图,只能通过程序进一步研究了。

另外一个遗憾就是该系统对于训练过程并未开放源码,因此对于语料的训练过程,我也是比较茫然,虽然知道大概的思路和流程就是统计各种词或字的各种用法的频率,但是对于一些细节处理(比如处理的粒度等)还是不清楚。

今天就写到这儿,哪位高人看了如果有好的建议,本人非常感谢。

你可能感兴趣的:(职场,实体,休闲)