CRF++使用教程

论文《Examination of Effective Features for CRF-Based Bibliography Extraction from Reference Strings 》中提到使用CRF++ 0.58。所以自己也想试着用一下。这里找到了一个博主的博客,讲解的还挺仔细的。

原文链接https://blog.csdn.net/u010626937/article/details/78414292

其中,关于训练语料的格式,不是很懂。各个博客都没有写的很清楚,大概是默认读者拥有读懂的技能吧。查了半天才大概懂是什么意思。这里有一个博客https://blog.csdn.net/u014692971/article/details/50479445,说明了分词后的词和词性标注是NLPIR(原ICTCLAS)生成的结果,但这个博客不好的点是,里面的图片我看不到。

这里选取了两个博客https://blog.csdn.net/u010454729/article/details/40045815 和https://www.iteye.com/blog/fhqllt-947917,都是讲解中科院ICTCLAS分词汉语词性标记集比较详细的,一个是以词性分类顺序,一个是按照字母顺序排列。

这里举一个例子。

CRF++使用教程_第1张图片

其中“太、短、而、已、。”这五个都是分词后的词,第二列的Sd、Sa、Bu、Eu、Sw都是对应的词性标注。我所理解的是S、B、E和命名实体中的BIOES 标注方法一样。B表示这个词处于一个实体的开始(Begin), I 表示内部(inside), O 表示外部(outside), E 表示这个词处于一个实体的结束为止, S 表示,这个词是自己就可以组成一个实体(Single)。这几个大写字母后面所跟着的小写字母就是中科院ICTCLAS分词汉语词性标记集里所对应的词性了。比如“太”是副词,在ICTCLAS中就被标为“d”。但是第三列的N原本是什么意思我不太明白,后来看了博主举的后面的例子

CRF++使用教程_第2张图片

两者一结合,有了自己的理解。因为目的是识别出命名实体,而最后一列是对应的标签,所以命名实体的标签就是对应的人名、地名、机构名等的标签,而其他的不是命名实体,则就被标记为N,可以理解为not。这都是我个人的理解,日后看到更准确的描述会回来修改。

你可能感兴趣的:(工具使用)