jieba导入自定义文档时报错

使用jieba中文拆字库时,可以通过三种拆字模式,分别是:精准模式分词,全模式分词,搜索引擎分词;

具体的代码可以参考

str_text=open('/Users/zhangge/Desktop/新建文本文档.TXT',encoding='utf-8',errors='ignore').read()
str_jing1=jieba.cut(str_text,cut_all=False)
#print('精准模式分词:{ %d}' % len(list(str_jing1)))
#str_jing2=jieba.cut(filepath,cut_all=False)
#print("$".join(str_jing2))

str_quan1=jieba.cut(str_text,cut_all=True)
print('全模式分词:{ %d}' % len(list(str_quan1)))
str_quan2=jieba.cut(str_text,cut_all=True)
print("$".join(str_quan2))

str_soso1=jieba.cut_for_search(str_text)
print('搜索引擎分词:{ %d}' % len(list(str_soso1)))
str_soso2=jieba.cut_for_search(str_text)
print("$".join(str_soso2))

在MAC系统下可以获取到具体的数据,并且在run里面显示具体的拆分的文本

在导入自定义词库时发现一个问题,就是无论如何都会出现找不到路径,百思不得其解啊!

 

之后想办法使用另外一种方式进行加载自定义词库

使用系统自带的os库里面的方式

filepath= open(os.path.join('data','电子病例模板.txt'),'r',encoding='utf-8',errors='ignor').read()

userdict = os.path.join("data", "user.txt")
jieba.load_userdict(userdict)

str_load=jieba.cut(filepath,cut_all=False)
print('load_userdict后:'+"/".join(str_load))

这里面的data是我们项目的根目录jieba导入自定义文档时报错_第1张图片

 

以上是在学习python过程中解决的导入自定义词库的问题记录,方便以后自己查阅

你可能感兴趣的:(自学资料,自然语言处理,python,nltk)