抽取wiki内容以及简体中文转换为繁体中文

抽取wiki内容

今天测试了网上分享的一个工具:WikiExtractor.py

这是一个抽取wiki内容的工具,是意大利人用 Python 写的一个维基百科抽取器,使用非常方便。下载Wiki Dump 之后(链接是:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)直接使用这条命令即可完成抽取,运行了大约半小时的时间。
  bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt
  参数 -b1000M 表示以 1000M 为单位切分文件,默认是 500K。由于最后生成的正文文本不到 600M,把参数设置的大一些可以保证最后的抽取结果全部存在一个文件里。

简体中文转换为繁体中文

        维基百科的中文数据是繁简混杂的,里面包含大陆简体、台湾繁体、港澳繁体等多种不同的数据。有时候在一篇文章的不同段落间也会使用不同的繁简字。
  解决这个问题最佳的办法应该是直接使用维基百科自身的繁简转换方法(参照http://zh.wikipedia.org/wiki/Wikipedia:繁简处理)。不过维基百科网站虽然是开源的,但要把里面的繁简转换功能拆解出来,有一定的难度。
  为了方便起见,我直接使用了开源项目 opencc。参照安装说明的方法,安装完成之后,使用下面的命令进行繁简转换,整个过程大约需要1分钟。
  opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini
  命令中的 wiki_00 这个文件是此前使用 Wikipedia Extractor 得到的。

       注意: 在fedora中,直接使用yum install opencc是不够的,使用opencc会提示没有这个命令。yum search opencc一下,发现有个opencc-tools安装之,使用opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini命令,果断成功!


参考:http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

http://licstar.net/?tag=繁简转换

你可能感兴趣的:(抽取wiki内容以及简体中文转换为繁体中文)