分词器在北京大学的语料上f-score达到93.9%了

连续几天的努力终于把f-score从0.856一直提升到0.939。特征也从原来的5中增加到了8种,分类从原来的4种加到了6种,170多W的事件,训练出50多M的模型文件。想起原本只有区区0.856的f-score也觉得真不容易,呵呵。越到后面越觉得再提升就很困难了,基本上特征都提取完了……目前没有想到新的特征。

 

在这里也简要说下我的特征系列(当前字用C表示,C-1既是前一个字):C pC-1 nC+1 pcC-1C cnCC+1 pnC-1C+1 ppC-2C-1 nnC+1C+2 (num | pnum | nnum) (symbol | nSymbol)

 

再加上读取11个字位内的最佳概率链(多了需要太多的运算空间和时间,没增加1则在原来的基础上*2,11个字位圆满算下来是2的11次方次运算。)

 

我会不断改进这个分词器的,过一段时间可能放出代码来给有兴趣的朋友下载,有什么写得不对的地方大家尽量指教。先谢谢了。最大熵的核心算法是从网上下的开源项目。

你可能感兴趣的:(C++,c,算法,C#,F#)