pkuseg的自定义词库过大会导致出现严重的分词BUG?

1.背景说明

【前情提要】 怀着异常激动的心情测试了一下北大刚发布的中文分词库,然后加载了之前整理的自定义词汇,发现出现了很严重的分词问题,希望有人能帮忙解决。

2. 上代码

   [IN] content = "我叫马化腾,我想学区块链,你说好不好啊,天青色等烟雨,而我在等你,月色被打捞器,晕开了结局"
        dict = utils.read("./dict.txt")
        pku = pkuseg.pkuseg(user_dict=dict)
        res = pku.cut(content)
        print(res)
  [OUT] loading model
        finish
        ['我', '叫', '马', '化', '腾', ',', '我', '想', '学', '区', '块', '链', ',', '你', '说', '好', '不', '好', '啊', ',', '天', '青', '色', '等', '烟', '雨', ',', '而', '我', '在', '等', '你', ',', '月', '色', '被', '打', '捞', '器', ',', '晕', '开', '了', '结', '局']

3. 关键信息

  • dict.txt是之前项目整理的自定义词库,文件大小 108MB,词条数量 ≈ 673万,如图所示:


    enter image description here
  • 同样在jieba分词中不会出现这样的问题,分词结果正常

4. 问题回述

所以自定义词库内容过多,会导致出现分词异常?如何解决这个异常?


有更多问题也可以和本人直接沟通 微信:w63594021

你可能感兴趣的:(pkuseg的自定义词库过大会导致出现严重的分词BUG?)