基于HMM2-TriGram字符序列标注的Java中文分词器实现

基于HMM2-TriGram字符序列标注的Java中文分词器实现
谈起基于Character-Based Generative Model的中文分词方法,普遍的印象是在Bakeoff上的成绩好,对OOV的识别率高。HanLP中实现的CRF分词器其实就是这种原理的分词器,然而CRF分词缺点也是很明显的:一)模型体积大占内存。一个可供生产环境用的CRF模型至少使用前中后3个字符的组合做特征模板,在一两百兆的语料上训练,模型体积至少上百兆(有的分词器用gzip压缩过,看起来稍小),加载后更耗资源。HanLP原本使用DAT储存CRF中的特征函数,然而内存实在吃不消,降级为BinT...

继续阅读:码农场 » 基于HMM2-TriGram字符序列标注的Java中文分词器实现

原文链接:http://www.hankcs.com/nlp/segment/second-order-hidden-markov-model-trigram-chinese-participle.html

你可能感兴趣的:(基于HMM2-TriGram字符序列标注的Java中文分词器实现)