几款第三方分词工具

THULAC

THULAC是由清华大学自然语言处理与社会人文计算实验室(该实验室带头人:孙茂松、刘知远、刘洋)研制推出的一套中文词法分析工具包。
安装了其C++版,对北京大学语料进行了分词,如果不选择词性分析的话,单纯分词,需0.5s,同时利用打分脚本进行评测:

=== SUMMARY:
=== TOTAL INSERTIONS:   995
=== TOTAL DELETIONS:    2785
=== TOTAL SUBSTITUTIONS:        3870
=== TOTAL NCHANGE:      7650
=== TOTAL TRUE WORD COUNT:      104372
=== TOTAL TEST WORD COUNT:      102582
=== TOTAL TRUE WORDS RECALL:    0.936
=== TOTAL TEST WORDS PRECISION: 0.953
=== F MEASURE:  0.944
=== OOV Rate:   0.058
=== OOV Recall Rate:    0.794
=== IV Recall Rate:     0.945

得到召回率93.6%,准确率95.3%,及F值94.4%(比它官网的测试结果还略高,是不是模型进行了更新的原因)。在测试语料上表现不错。

NLPIR分词(原名ICTCLAS)

最初版本是张华平博士在中科院时开发的,现在张华平博士的职位是北京理工大学网络搜索挖掘与安全实验室主任,ICTCLAS是比较著名的老牌分词系统,现在彻底转商业了,其分词思路可以参考其开源JAVA版实现ansj。

LTP

语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术)。
参考网站文章,实验一下它的分词效果:

# ./bin/ltp_test --threads 10 --last-stage ws  --input msr_test.utf8 --segmentor-model ltp_data/cws.model > msr_test.seg_ltp 
[INFO] 2016-04-25 10:16:09 Loading segmentor model from "ltp_data/cws.model" ...
[INFO] 2016-04-25 10:16:09 segmentor model is loaded.
TRACE: LTP is built
TRACE: Running 10 thread(s)
TRACE: consume 2.29775 seconds.
[INFO] 2016-04-25 10:16:11 segmentor model is released.

使用微软提供的测试语料,开启10个线程,只分词,用了2.3秒。LTP分出来的是xml文件,需要转化一下:

with open("msr_test.seg_ltp.utf8","w") as f:
    tree = ET.ElementTree(file='msr_test.seg_ltp')
    for paraElements in tree.iterfind("xml4nlp/doc/para"):
        word_list= list()
        for elem in paraElements.iterfind("sent/word"):
            #print ET.tostring(elem)
            word_list.append(elem.get("cont"))
        sent = "  ".join(word_list)
        f.write(sent)
        f.write("\n")

下面利用评测score脚本打分:

=== SUMMARY:
=== TOTAL INSERTIONS:   6467
=== TOTAL DELETIONS:    2669
=== TOTAL SUBSTITUTIONS:        8174
=== TOTAL NCHANGE:      17310
=== TOTAL TRUE WORD COUNT:      106873
=== TOTAL TEST WORD COUNT:      110671
=== TOTAL TRUE WORDS RECALL:    0.899
=== TOTAL TEST WORDS PRECISION: 0.868
=== F MEASURE:  0.883
=== OOV Rate:   0.026
=== OOV Recall Rate:    0.464
=== IV Recall Rate:     0.910

召回率89.9%,准确率86.8%,F值88.3%,效果不是很理想(可能与分词的规范标准有关)。

你可能感兴趣的:(中分分词)