《机器学习实战》UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199

  File "C:/Users/Administrator/Machine-Learning/Naive_Bayes/__main__.py", line 31, in 
    Spam_filter('email')

  File "C:\Users\Administrator\Machine-Learning\Naive_Bayes\Mail_filter.py", line 37, in Spam_filter
    wordList = text_parser(open(filename + '/ham/%d.txt' % i).read())

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

今天做贝叶斯这一章的时候出了这个问题,Python3版本的GBK不太跳BUG,所以我特意上网查了一下,发现是文档里的“?”符号出错,作者应该打成了非英语系的符号。根据decode byte 0xae in position 199看出来好像是文件中某个字节不能解码,经过好心人的查找,是HAM的第23个文件出问题了。

解决方法:

打开email\ham\23.txt,第三行,找到SciFinance ?,把?替换成空格即可。

 


我的机器学习教程「美团」算法工程师带你入门机器学习   已经开始更新了,欢迎大家订阅~

任何关于算法、编程、AI行业知识或博客内容的问题,可以随时扫码关注公众号「图灵的猫」,加入”学习小组“,沙雕博主在线答疑~此外,公众号内还有更多AI、算法、编程和大数据知识分享,以及免费的SSR节点和学习资料。其他平台(知乎/B站)也是同名「图灵的猫」,不要迷路哦~

 

 

 

 

 

 

你可能感兴趣的:(Data,Science:机器学习,编程之美:Python)