维基百科简体中文语料提取及问题记录

概述

具体流程参考维基百科简体中文语料的提取,在实际操作时遇到了一些问题(macOS 10.14)在此记录下来。

一、维基语料的下载

下载地址参见:维基语料下载地址。语料很大但囿于墙,下载速度很慢,用梯子了以后速度得到了极大地改善。同时注意下载压缩包以后,无需解压缩,通过工具可对语料进行提取。

二、利用Wikipedia Extractor提取语料

Wikipedia Extractor可用于对下载的Wikipedia dump压缩包进行语料提取,详细介绍可参考其主页,主页中的下载链接如下所示:

Wikipedia Extractor Downloads

不建议采用第一个链接,其所使用的Python版本过老(

进行提取时执行下列语句即可:

python WikiExtractor.py -b 500M -o output_filename input_filename.bz2

三、繁体中文到简体中文转换

使用opencc下载地址下载解压,可参考MacOSX安装OpenCC实现繁体字转简体字进行安装。首先命令行cd进入解压后的文件夹内,然后输入:

make PREFIX=/usr/local
sudo make PREFIX=/usr/local install

MacOSX安装OpenCC实现繁体字转简体字中提到:

如果编译过程当中报错,就应该是gcc-c++之类的问题,通过mac的brew来安装gcc或者其他环境即可。

但是我遇到的问题主要有:

  1. cmake: command not found
  2. Could NOT find Doxygen (missing: DOXYGEN_EXECUTABLE)

针对这两个问题,1. 直接到cmake下载链接找到对应版本下载即可,同时可参考Mac安装CMake进行配置使用。2.

brew install doxygen

解决后,重新回到上面安装opencc的步骤即可。安装成功后,将生成的语料(wiki00)放入opencc解压后的文件夹,执行下列命令,完成繁简转换:

opencc -i input_filename -o output_filename -c t2s.json

你可能感兴趣的:(维基百科简体中文语料提取及问题记录)