在中文分词这个应用上我试验得比较多了,所以这里想对自己做过关于分词的做一些对比,总结。
可能很多人在入门隐马尔科夫模型的时候都举例过分词这个模型,我也是,当时觉得好神奇,竟然这么准确,但是后面当我越来越深入做分词这一块,学到条件随机场,并且自己实现测试,发现纯序列标注用HMM分词实际上一般般,下面就我这2个标注模型在分词种做一个对比。
首先,先说一下2个模型的特点:
HMM相比CRF模型要小得多,我保存一个java的HMM对象也就2mb,但是CRF大致150mb,CRF囊括了HMM,因此它也强大得多,但是代价就是模型大,解码,训练都要慢一些。
为什么CRF更强大?这从原理上基本可以解释,如果你还记得HMM的3个参数,PI,A,B,其中pi是初始状态分布,A是转移概率,B是发射矩阵,也就是状态下的观测分布,最重要的区别就在于CRF可以考察当前序列位置状态下的前后观测分布,也就是说CRF能更利用数据的上下文信息,至于上下文的范围这个可以由CRF特征模板决定,关于特征模板我已经在另一篇文章种比较详细的说了,https://blog.csdn.net/qq_37667364/article/details/82919560
可以说CRF和HMM的差别就在于数据上下文的利用。
这2个模型的特点说完了,下面就直观的感受下这2个模型在分词上应用的对比:
1.1 分词的评估
要说分词效果就先说一下分词的评估,我基本是参照一篇文章的,请看另一篇转载文章。
如果你不想看,只需要记住,下面评测中提到的精确率(precision),召回率(recall),f越大越好(f Measure),而错误率(error rate)越小越好,f值是一个综合指标,不想看其他的只需要关注f值即可
1.2 关于使用语料和测试语料
我手上有5份训练语料和测试语料:
对训练语料标记一个顺序,这将在后面用到:
[pku 0 ],[sku 1].[ctb6 2],[cityu, 3],[as 4]
在下面的对比中提到的索引组合就是这些语料的不同标号组合来作为训练数据。
1.3 对比
下面的表格中分值是5分制。
使用同一份语料对比如下:
分词器 | 语料 | 总精确率 | 总召回率 | 总f值 | 备注 | |
1HMMSeg | 2 | 3.828388 | 3.938759 | 3.882353 | 一阶HMM | |
2HMMSeg | 2 | 3.947924 | 3.94826 | 3.947588 | 二阶HMM | |
CRFSeg | 2 | 4.28639 | 4.296123 | 4.290709 | 特征函数个数:875035 |
可以看到CRF提升还是挺大的,注意到此时CRF的特征函数只有87035个,特征函数越多,越占用内存,相对分词效率也要稍低一些。
在所有语料组合中,分词器的最优值:
分词器 | 语料 | 总精确率 | 总召回率 | 总f值 | 备注 | |
1HMMSeg | 0,1,2,3 | 3.95901 | 3.997896 | 3.977901 | 一阶HMM | |
2HMMSeg | 0,1,2 | 3.964506 | 3.990632 | 3.97707 | 二阶HMM | |
CRFSeg | 1,2,3 | 4.33911 | 4.33609 | 4.337031 | 特征函数个数:1869221 |
此时CRF的特征函数已经1869221了。
完整的评测结果请看结尾。
对于最优状态下的分词器给出直观的分词感受如下:
1.一阶HMM
[HanLP, 是, 由, 一, 系列, 模型, 与, 算法, 组成, 的, Java工, 具包, ,, 目标, 是, 普及, 自然, 语言, 处理, 在, 生产, 环境, 中, 的, 应用, 。]
[高锰酸, 钾, ,, 强氧化剂, ,, 紫红色晶体, ,, 可, 溶于, 水, ,, 遇, 乙醇, 即, 被, 还, 原, 。, 常用, 作消, 毒剂, 、, 水净, 化剂, 、, 氧化剂, 、, 漂白剂, 、, 毒气, 吸收剂, 、, 二氧化, 碳精, 制剂, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通过, 描述, 浅草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄托, 了, 作者, 对庶, 民生, 活区, 的, 情感]
[这, 个, 像, 是, 真的[委, 屈], 前面, 那, 个, 打扮, 太, 江户, 了, ,, 一点, 不, 上, 品...@hankcs]
[鼎, 泰丰, 的, 小笼, 一点, 味道, 也, 没有..., 每样, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克罗尔, 说, :, 不, ,, 我, 不, 是, 虎妈, 。, 我, 全家, 都, 热爱, 音乐, ,, 我, 也, 鼓励, 他们, 这么, 做, 。]
[今日, APPS, :, Sago , Mini Toolbox培养, 孩子, 动手, 能力]
[财政部, 副, 部长, 王, 保安, 调任, 国家, 统计, 局党, 组书, 记]
[2.34米, 男子, 娶, 1.53米, 女粉, 丝 , 称, 夫妻, 生活, 没, 问题, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看过, 穆赫兰道, 吗]
[你, 看过, 穆赫兰道, 这部, 电影, 吗]
[乐视, 超级, 手机, 能否, 承载, 贾, 布斯, 的, 生态, 梦]
[原标题, :, 日媒, 拍到, 了, 现场, 罕见, 一幕, ,, 据, 日本, 新闻网, (, NNN, ), 9月, 8日, 报道, ,, 日前, ,, 日本, 海上, 自卫队, 现役, 最, 大, 战舰, 之, 一, 的, 直升, 机航母, “, 加贺, ”, 号, 在, 南海, 航行, 时, ,, 遭多, 艘, 中国, 海军, 战舰, 抵近, 跟踪, 监视, 。, ]
耗时:2毫秒
2.二阶HMM
[HanLP, 是, 由, 一, 系列, 模型, 与, 算法, 组成, 的, Java工, 具包, ,, 目标, 是, 普及, 自然, 语言, 处理, 在, 生产, 环境, 中, 的, 应用, 。]
[高锰酸, 钾, ,, 强氧化剂, ,, 紫红色晶体, ,, 可, 溶于, 水, ,, 遇, 乙醇, 即, 被, 还, 原, 。, 常用, 作消, 毒剂, 、, 水净, 化剂, 、, 氧化剂, 、, 漂白剂, 、, 毒气, 吸收剂, 、, 二氧化, 碳, 精制剂, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通过, 描述, 浅草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄托, 了, 作者, 对庶, 民生, 活区, 的, 情感]
[这, 个, 像, 是, 真的[委, 屈], 前面, 那, 个, 打扮, 太, 江户, 了, ,, 一点, 不, 上, 品...@hankcs]
[鼎, 泰丰, 的, 小笼, 一点, 味道, 也, 没有..., 每样, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克罗尔, 说, :, 不, ,, 我, 不, 是, 虎妈, 。, 我, 全家, 都, 热爱, 音乐, ,, 我, 也, 鼓励, 他们, 这么, 做, 。]
[今日, APPS, :, Sago Mini Toolbox培养, 孩子, 动手, 能力]
[财政部, 副, 部长, 王, 保安, 调任, 国家, 统计, 局党, 组书, 记]
[2.34米, 男子, 娶, 1.53米, 女粉, 丝 , 称, 夫妻, 生活, 没, 问题, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看过, 穆赫兰道, 吗]
[你, 看过, 穆赫兰道, 这部, 电影, 吗]
[乐视, 超级, 手机, 能否, 承载, 贾, 布斯, 的, 生态, 梦]
[原标题, :, 日媒, 拍到, 了, 现场, 罕见, 一幕, ,, 据, 日本, 新闻网, (, NNN, ), 9月, 8日, 报道, ,, 日前, ,, 日本, 海上, 自卫队, 现役, 最大, 战舰, 之, 一, 的, 直升, 机航母, “, 加贺, ”, 号, 在, 南海, 航行, 时, ,, 遭, 多, 艘, 中国, 海军, 战舰, 抵近, 跟踪, 监视, 。, ]
耗时:4毫秒
3.CRF
[HanLP, 是, 由, 一, 系列, 模型, 与, 算法, 组成, 的, Java, 工具, 包, ,, 目标, 是, 普及, 自然, 语言, 处理, 在, 生产, 环境, 中的, 应用, 。]
[高锰酸钾, ,, 强, 氧化剂, ,, 紫红色, 晶体, ,, 可, 溶于, 水, ,, 遇, 乙, 醇即, 被, 还原, 。, 常, 用作, 消毒剂, 、, 水, 净化剂, 、, 氧化剂, 、, 漂白剂, 、, 毒气, 吸收剂, 、, 二氧化碳, 精, 制剂, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通过, 描述, 浅草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄托, 了, 作者, 对, 庶民, 生活区, 的, 情感]
[这, 个, 像, 是, 真, 的, [, 委屈, ], 前面, 那, 个, 打扮, 太江户, 了, ,, 一点, 不, 上, 品...@, hankcs]
[鼎泰丰, 的, 小笼, 一点, 味道, 也, 没有, ..., 每样, 都, 淡淡, 的, ..., 淡淡, 的, ,, 哪, 有, 食堂, 2, A, 的, 好, 次]
[克里斯蒂娜·克罗尔, 说, :, 不, ,, 我, 不, 是, 虎妈, 。, 我, 全, 家, 都, 热爱, 音乐, ,, 我, 也, 鼓励, 他们, 这么, 做, 。]
[今日, APPS, :, Sago , Mini , Toolbox, 培养, 孩子, 动手, 能力]
[财政部, 副部长, 王保安, 调任, 国家, 统计局, 党组, 书记]
[2.34, 米, 男子娶, 1.53, 米, 女, 粉丝, 称, 夫妻, 生活, 没, 问题, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看, 过, 穆赫兰道, 吗]
[你, 看, 过, 穆赫兰道, 这, 部, 电影, 吗]
[乐视, 超级, 手机, 能否, 承载, 贾布斯, 的, 生态, 梦]
[原, 标题, :, 日媒, 拍, 到, 了, 现场, 罕见, 一幕, ,, 据, 日本, 新闻网, (, NNN, ), 9月, 8, 日, 报道, ,, 日前, ,, 日本, 海上, 自卫队, 现役, 最大, 战舰, 之一, 的, 直升机, 航母, “, 加贺, ”, 号, 在, 南海, 航行, 时, ,, 遭, 多, 艘, 中国, 海军, 战舰, 抵近, 跟踪, 监视, 。, ]
耗时:5毫秒
直观的感受可以看出来CRF确实要精确些。
另外值得一提这里的CRF模型是我自己实现的监督学习的CRF,可能存在过拟合现象,当我用精度最高的去测试直观感受反而比稍次一点没那么好,这里使用的CRF模板如下:
"# Unigram\n" +
"U0:%x[-1,0]\n" +
"U1:%x[0,0]\n" +
"U2:%x[1,0]\n" +
"U3:%x[-2,0]%x[-1,0]\n" +
"U4:%x[-1,0]%x[0,0]\n" +
"U5:%x[0,0]%x[1,0]\n" +
"U6:%x[1,0]%x[2,0]\n" +
"\n" +
"# Bigram\n" +
"B";
差不多就说这些,欢迎探讨,后面再来更新关于算法细节问题吧。
附上完整的评测结果,没有整理:
从5个语料中选1个
1HMMSeg 索引组合:[0]
总精确率:3.8708949607249705,总召回率:3.889121403335314,总f得分:3.87942300416638
1HMMSeg 索引组合:[1]
总精确率:3.8283881476912494,总召回率:3.9387593944636228,总f得分:3.8823530530362946
1HMMSeg 索引组合:[2]
总精确率:3.94241179823124,总召回率:3.9579542988098573,总f得分:3.949673859508631
1HMMSeg 索引组合:[3]
总精确率:3.8416830615273123,总召回率:3.9324793589998968,总f得分:3.8860192044871473
1HMMSeg 索引组合:[4]
总精确率:3.8461342310762707,总召回率:3.915014635167027,总f得分:3.8798549520252656
从5个语料中选2个
1HMMSeg 索引组合:[0, 1]
总精确率:3.8890430262055267,总召回率:3.913733678263338,总f得分:3.9007844211182405
1HMMSeg 索引组合:[0, 2]
总精确率:3.9408737057977485,总召回率:3.954779237013928,总f得分:3.9472949423480976
1HMMSeg 索引组合:[0, 3]
总精确率:3.9214777541009833,总召回率:3.9624929085330303,总f得分:3.9414353227096335
1HMMSeg 索引组合:[0, 4]
总精确率:3.876368047689259,总召回率:3.9348182990640055,总f得分:3.904834087344106
1HMMSeg 索引组合:[1, 2]
总精确率:3.951289234592444,总召回率:3.988877155584667,总f得分:3.969529050841981
1HMMSeg 索引组合:[1, 3]
总精确率:3.905858027878659,总召回率:3.978788047388324,总f得分:3.9415931761907306
1HMMSeg 索引组合:[1, 4]
总精确率:3.8696696138240494,总召回率:3.9354676261984527,总f得分:3.9018639999404874
1HMMSeg 索引组合:[2, 3]
总精确率:3.947087390105352,总召回率:3.9785645535200764,总f得分:3.9622955394104924
1HMMSeg 索引组合:[2, 4]
总精确率:3.8928522039063918,总召回率:3.9516823030423005,总f得分:3.9216293617371942
1HMMSeg 索引组合:[3, 4]
总精确率:3.8901985141689437,总召回率:3.953131242821945,总f得分:3.921008045652149
从5个语料中选3个
1HMMSeg 索引组合:[0, 1, 2]
总精确率:3.948507792083814,总召回率:3.976600636359775,总f得分:3.9619773307522497
1HMMSeg 索引组合:[0, 1, 3]
总精确率:3.9277744861221002,总召回率:3.9801556837604917,总f得分:3.9533497127524733
1HMMSeg 索引组合:[0, 1, 4]
总精确率:3.886999486976185,总召回率:3.94116958314083,总f得分:3.9133545079309915
1HMMSeg 索引组合:[0, 2, 3]
总精确率:3.9601669318291974,总召回率:3.990127227415235,总f得分:3.974633149110835
1HMMSeg 索引组合:[0, 2, 4]
总精确率:3.9130908412559933,总召回率:3.9661995325667974,总f得分:3.938984469548849
1HMMSeg 索引组合:[0, 3, 4]
总精确率:3.9142189559249374,总召回率:3.9775081943142188,总f得分:3.9451989095825115
1HMMSeg 索引组合:[1, 2, 3]
总精确率:3.9568080960602994,总召回率:3.997435873155621,总f得分:3.9765695009602213
1HMMSeg 索引组合:[1, 2, 4]
总精确率:3.9062162326669823,总召回率:3.9685886366245633,总f得分:3.9367237718893993
1HMMSeg 索引组合:[1, 3, 4]
总精确率:3.903550497225802,总召回率:3.968920869620439,总f得分:3.935541563570684
1HMMSeg 索引组合:[2, 3, 4]
总精确率:3.915108745245354,总召回率:3.974989088634333,总f得分:3.9444204498331032
从5个语料中选4个
1HMMSeg 索引组合:[0, 1, 2, 3]
总精确率:3.95901032814125,总召回率:3.9978956850832423,总f得分:3.9779014116957696
1HMMSeg 索引组合:[0, 1, 2, 4]
总精确率:3.915517393853136,总召回率:3.971165346799785,总f得分:3.9426514690471364
1HMMSeg 索引组合:[0, 1, 3, 4]
总精确率:3.9232493142759775,总召回率:3.9852525414959525,总f得分:3.953579064805121
1HMMSeg 索引组合:[1, 2, 3, 4]
总精确率:3.922357353802763,总召回率:3.9846515149432995,总f得分:3.95284391901355
1HMMSeg 索引组合:[0, 2, 3, 4]
总精确率:3.935534713241168,总召回率:3.994308827374849,总f得分:3.964302595249541
从5个语料中选5个
1HMMSeg 索引组合:[0, 1, 2, 3, 4]
总精确率:3.9433541023648138,总召回率:4.003168214322818,总f得分:3.972616120622181
从5个语料中选1个
2HMMSeg 索引组合:[0]
总精确率:3.8734400567744016,总召回率:3.886465879706925,总f得分:3.8793912590241466
2HMMSeg 索引组合:[1]
总精确率:3.834190072299533,总召回率:3.93460429285655,总f得分:3.883323459039823
2HMMSeg 索引组合:[2]
总精确率:3.947923521151429,总召回率:3.9482598282266737,总f得分:3.9475876989611303
2HMMSeg 索引组合:[3]
总精确率:3.8455600698344057,总召回率:3.924073984304348,总f得分:3.883896176222332
2HMMSeg 索引组合:[4]
总精确率:3.8591622856550325,总召回率:3.8980584575408983,总f得分:3.878073999666234
从5个语料中选2个
2HMMSeg 索引组合:[0, 1]
总精确率:3.8915047588214797,总召回率:3.9102646521873337,总f得分:3.90030893332647
2HMMSeg 索引组合:[0, 2]
总精确率:3.9456009304079958,总召回率:3.948329608788575,总f得分:3.9464426634016982
2HMMSeg 索引组合:[0, 3]
总精确率:3.92355355035803,总召回率:3.9554795529737308,总f得分:3.9390150212832884
2HMMSeg 索引组合:[0, 4]
总精确率:3.887914059515162,总召回率:3.9204648385890524,总f得分:3.903559455769132
2HMMSeg 索引组合:[1, 2]
总精确率:3.9584061609225714,总召回率:3.9835742305020645,总f得分:3.97047514852768
2HMMSeg 索引组合:[1, 3]
总精确率:3.9121722607587834,总召回率:3.9711604081639855,总f得分:3.941044212440074
2HMMSeg 索引组合:[1, 4]
总精确率:3.8856086525240463,总召回率:3.920455162427377,总f得分:3.902484944542904
2HMMSeg 索引组合:[2, 3]
总精确率:3.9485347238244604,总召回率:3.9674642816818926,总f得分:3.957494283264194
2HMMSeg 索引组合:[2, 4]
总精确率:3.9052929396300473,总召回率:3.93527145496443,总f得分:3.9197846702313655
2HMMSeg 索引组合:[3, 4]
总精确率:3.904888329762847,总召回率:3.9383799575291625,总f得分:3.9211245221512856
从5个语料中选3个
2HMMSeg 索引组合:[0, 1, 2]
总精确率:3.9561284063334745,总召回率:3.972216009603809,总f得分:3.963637091540601
2HMMSeg 索引组合:[0, 1, 3]
总精确率:3.9322468118407397,总召回率:3.9746339357591163,总f得分:3.9528891092861427
2HMMSeg 索引组合:[0, 1, 4]
总精确率:3.9022864134752466,总召回率:3.9302161901251176,总f得分:3.9156383047720658
2HMMSeg 索引组合:[0, 2, 3]
总精确率:3.962825587263973,总召回率:3.9812043086190276,总f得分:3.9715412726156467
2HMMSeg 索引组合:[0, 2, 4]
总精确率:3.923165032697388,总召回率:3.951857160517961,总f得分:3.9369606319931165
2HMMSeg 索引组合:[0, 3, 4]
总精确率:3.9240126294853193,总召回率:3.9618006991715924,总f得分:3.942391692554999
2HMMSeg 索引组合:[1, 2, 3]
总精确率:3.9596678431303385,总召回率:3.988698589649854,总f得分:3.9736675867715725
2HMMSeg 索引组合:[1, 2, 4]
总精确率:3.9200601016782497,总召回率:3.9539534689300213,总f得分:3.9364742431007294
2HMMSeg 索引组合:[1, 3, 4]
总精确率:3.9145975057020745,总召回率:3.9536180700844192,总f得分:3.9335552053998253
2HMMSeg 索引组合:[2, 3, 4]
总精确率:3.9282362703056304,总召回率:3.9631970960936957,总f得分:3.945218375779641
从5个语料中选4个
2HMMSeg 索引组合:[0, 1, 2, 3]
总精确率:3.9645059027584013,总召回率:3.9906321017399224,总f得分:3.9770697361459986
2HMMSeg 索引组合:[0, 1, 2, 4]
总精确率:3.9308214918574245,总召回率:3.962314654157765,总f得分:3.9459917741145945
2HMMSeg 索引组合:[0, 1, 3, 4]
总精确率:3.930910435769432,总召回率:3.970625750900794,总f得分:3.950219650775339
2HMMSeg 索引组合:[1, 2, 3, 4]
总精确率:3.9349029362220964,总召回率:3.973672380967142,总f得分:3.95375701602984
2HMMSeg 索引组合:[0, 2, 3, 4]
总精确率:3.9434480959812417,总召回率:3.980649128356055,总f得分:3.961546900215837
从5个语料中选5个
2HMMSeg 索引组合:[0, 1, 2, 3, 4]
总精确率:3.949573735350932,总召回率:3.9882521649639324,总f得分:3.9683863267478445
从5个语料中选1个
总的Unigram特征函数个数:1136499
crfSegmenter 索引组合:[0]
总精确率:4.256375812965886,总召回率:4.257803745132337,总f得分:4.256448196349558
总的Unigram特征函数个数:727777
crfSegmenter 索引组合:[1]
总精确率:4.208733088860235,总召回率:4.2619096455147645,总f得分:4.234698719786066
总的Unigram特征函数个数:875035
crfSegmenter 索引组合:[2]
总精确率:4.286389518392307,总召回率:4.296123341643277,总f得分:4.2907094316046495
总的Unigram特征函数个数:1508401
crfSegmenter 索引组合:[3]
总精确率:4.224722216392761,总召回率:4.258815339599848,总f得分:4.241079844839651
总的Unigram特征函数个数:2893306
crfSegmenter 索引组合:[4]
总精确率:4.234315308459842,总召回率:4.288691151328337,总f得分:4.260832243030232
总的Unigram特征函数个数:1452659
crfSegmenter 索引组合:[0, 1]
总精确率:4.29509040187884,总召回率:4.3002257117978715,总f得分:4.297000972590617
总的Unigram特征函数个数:1552251
crfSegmenter 索引组合:[0, 2]
总精确率:4.321303338515831,总召回率:4.3171506187145745,总f得分:4.318661490489362
总的Unigram特征函数个数:2054278
crfSegmenter 索引组合:[0, 3]
总精确率:4.31780687829845,总召回率:4.319843045281019,总f得分:4.318213966319677
总的Unigram特征函数个数:3250980
crfSegmenter 索引组合:[0, 4]
总精确率:4.293289286705298,总召回率:4.295956443930624,总f得分:4.293989757828687
总的Unigram特征函数个数:1253315
crfSegmenter 索引组合:[1, 2]
总精确率:4.326710506393448,总召回率:4.338521835049587,总f得分:4.33208400874604
总的Unigram特征函数个数:1798763
crfSegmenter 索引组合:[1, 3]
总精确率:4.3130820391565186,总召回率:4.341231605029004,总f得分:4.326514383797707
总的Unigram特征函数个数:3071024
crfSegmenter 索引组合:[1, 4]
总精确率:4.292810028821696,总召回率:4.317526546238065,总f得分:4.304571494515318
总的Unigram特征函数个数:1869221
crfSegmenter 索引组合:[2, 3]
总精确率:4.339109999777037,总召回率:4.336089665088207,总f得分:4.337030776105888
总的Unigram特征函数个数:3121168
crfSegmenter 索引组合:[2, 4]
总精确率:4.303815379905947,总召回率:4.319278844674585,总f得分:4.3110250314863805
总的Unigram特征函数个数:3451088
crfSegmenter 索引组合:[3, 4]
总精确率:4.301584825129588,总召回率:4.313496993334974,总f得分:4.306981460885512
总的Unigram特征函数个数:1807132
crfSegmenter 索引组合:[0, 1, 2]
总精确率:4.336198629407074,总召回率:4.3380218510367,总f得分:4.336555027225279
总的Unigram特征函数个数:2265043
crfSegmenter 索引组合:[0, 1, 3]
总精确率:4.328251017743472,总召回率:4.3401766630044465,总f得分:4.333603057084105
总的Unigram特征函数个数:3393738
crfSegmenter 索引组合:[0, 1, 4]
总精确率:4.309423068560654,总召回率:4.3055980993507905,总f得分:4.306860566527684
总的Unigram特征函数个数:2324296
crfSegmenter 索引组合:[0, 2, 3]
总精确率:4.3362176999141635,总召回率:4.326000061514508,总f得分:4.330519709525633
总的Unigram特征函数个数:3437246
crfSegmenter 索引组合:[0, 2, 4]
总精确率:4.309660342806946,总召回率:4.306351776885001,总f得分:4.3074591804276094
总的Unigram特征函数个数:3741094
crfSegmenter 索引组合:[0, 3, 4]
总精确率:4.30275825431282,总召回率:4.304430311027441,总f得分:4.303007535324407
总的Unigram特征函数个数:2107239
crfSegmenter 索引组合:[1, 2, 3]
总精确率:4.347279501022128,总召回率:4.348538072250367,总f得分:4.347382274041837
总的Unigram特征函数个数:3277709
crfSegmenter 索引组合:[1, 2, 4]
总精确率:4.320703559544421,总召回率:4.330356554563042,总f得分:4.325007886653665
总的Unigram特征函数个数:3591918
crfSegmenter 索引组合:[1, 3, 4]
总精确率:4.314629941864543,总召回率:4.325656488777164,总f得分:4.319581815232458
总的Unigram特征函数个数:3629110
crfSegmenter 索引组合:[2, 3, 4]
总精确率:4.319223301467417,总召回率:4.320357557189831,总f得分:4.319273932068687
总的Unigram特征函数个数:2512791
crfSegmenter 索引组合:[0, 1, 2, 3]
总精确率:4.342177977903567,总召回率:4.339490183620515,总f得分:4.340292058767584
总的Unigram特征函数个数:3569840
crfSegmenter 索引组合:[0, 1, 2, 4]
总精确率:4.319390204433497,总召回率:4.315819417531209,总f得分:4.317053502662063
总的Unigram特征函数个数:3861972
crfSegmenter 索引组合:[0, 1, 3, 4]
总精确率:4.3103564835753705,总召回率:4.3132556212746165,总f得分:4.311226205914882
总的Unigram特征函数个数:3759092
crfSegmenter 索引组合:[1, 2, 3, 4]
总精确率:4.324385980484043,总召回率:4.3263572005287925,总f得分:4.324874072540238
总的Unigram特征函数个数:3895565
crfSegmenter 索引组合:[0, 2, 3, 4]
总精确率:4.308663909378264,总召回率:4.303066912536404,总f得分:4.305327828827322
总的Unigram特征函数个数:4010207
crfSegmenter 索引组合:[0, 1, 2, 3, 4]
总精确率:4.3142094471590475,总召回率:4.310626916544051,总f得分:4.311899688134844