1.背景说明
【前情提要】 怀着异常激动的心情测试了一下北大刚发布的中文分词库,然后加载了之前整理的自定义词汇,发现出现了很严重的分词问题,希望有人能帮忙解决。
2. 上代码
[IN] content = "我叫马化腾,我想学区块链,你说好不好啊,天青色等烟雨,而我在等你,月色被打捞器,晕开了结局"
dict = utils.read("./dict.txt")
pku = pkuseg.pkuseg(user_dict=dict)
res = pku.cut(content)
print(res)
[OUT] loading model
finish
['我', '叫', '马', '化', '腾', ',', '我', '想', '学', '区', '块', '链', ',', '你', '说', '好', '不', '好', '啊', ',', '天', '青', '色', '等', '烟', '雨', ',', '而', '我', '在', '等', '你', ',', '月', '色', '被', '打', '捞', '器', ',', '晕', '开', '了', '结', '局']
3. 关键信息
-
dict.txt是之前项目整理的自定义词库,文件大小 108MB,词条数量 ≈ 673万,如图所示:
同样在jieba分词中不会出现这样的问题,分词结果正常
4. 问题回述
所以自定义词库内容过多,会导致出现分词异常?如何解决这个异常?
有更多问题也可以和本人直接沟通
微信:w63594021