我们在对中文语料作预处理时,往往会遇到繁简体转换的问题,这也是预处理环节的重要一环。
python支持繁简体转换的库有许多,常用是opencc,但是由于直接安装opencc或是opencc-python现在会遇到许多路径、编译的问题,因此给大家推荐一种安装方式。网址见:https://pypi.org/project/opencc-python-reimplemented/
安装命令:
pip install opencc-python-reimplemented
安装后会显示:
...
Successfully installed opencc-python-reimplemented-0.1.5
调用库的示例demo:
>>> from opencc import OpenCC
>>> a = '我是中国人'
>>> b = OpenCC('s2t').convert(a)
>>> print(b)
我是中國人
如果是对整个文件进行繁简体转换,需要用到文件读写函数,给出我的一个脚本示例:
from opencc import OpenCC
INPUT = open('/data1/usertest/syb/Name-Entity-Recognition/wikiextractor/extracted/AA/wiki_01')
a = INPUT.read()
b = OpenCC('t2s').convert(a)
OUTPUT = open('./zh_wiki_01','w')
OUTPUT.write(b)
OUTPUT.close()
以上给出的示例中都是将繁体转换为简体,即's2t'模式,该库中还支持许多其他模式,如't2s‘(简体到繁体)、's2tw'(简体到台湾标准繁体)、'tw2s'(台湾标准简体到繁体)等。