文本分析-自定义词典

在做本文分析时,由于有较多的专用术语和名词,在jieba词库是没有的词,需要添加自定义词典,保证更高的正确率。

如果需要添加的专业词数量不多,可以直接添加,例如:
jieba.add_word('苏木素')
jieba.add_word('负压液管')
也可以删除jieba词库中的词,例如
jieba.del_word('自定义词')

如果需要添加的专业词数量比较多,需要用自定义词典
jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开

你可能感兴趣的:(文本分析-自定义词典)