CRF分词的纯Java实现

CRF分词的纯Java实现_第1张图片
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。CRF训练这类耗时的任务,还是交给了用C++实现的CRF++。关于CRF++输出的CRF模型,请参考《CRF++...

继续阅读:码农场 » CRF分词的纯Java实现

原文链接:http://www.hankcs.com/nlp/segment/crf-segmentation-of-the-pure-java-implementation.html

你可能感兴趣的:(CRF分词的纯Java实现)