##参考文献:
自然语言处理1
自然语言处理2
中文wiki数据下载地址约1.6G 20181027
英文wiki数据下载地址约15G 20181027
博主环境
win10 X64
Anaconda3.7
python3.5
wiki数据下载完成后的文件名为:enwiki-latest-pages-articles.xml.bz2 或者:zhwiki-latest-pages-articles.xml.bz2
解压后是xml格式,数据处理前首先需要把xml格式数据转换成TXT文件,
转换代码是:process_wiki.py
本人改进后的版本
在运行原版process_wiki.py时,遇到以下编解码问题:
UnicodeEncodeError: 'gbk' codec can't encode character '\u0294' in position 281: illegal multibyte sequence
包括但不限于:‘\xf6’ 、'\xe4' 、'\u0294' ;
楼主百度和谷歌了几个解决办法,但都不起作用
楼主采坑后得到2个解决办法(治标不治本)
1、在output之前进行数据的判断,凡是含义以上字符的数据段,都丢弃。 (丢失数据比较少,仅仅丢掉了数据段里面的一个元素)
2、在output之前加 try…except… (凡是引起UnicodeError错误的 数据段都丢弃) (丢失数据相对1法,丢弃数据比较多,丢掉了整个数据段)
本文允许转载,但请注明本出处,谢谢(#.#)