Python - 常用库 - OpenCC(中文繁简体转换)

1. OpenCC介绍

Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。

OpenCC具体如下特点

  • 严格区分「一简对多繁」、「一简对多异」和「地域用词差别」。
  • 支持异体字转换,兼容陆港澳台等不同地区用字差别。
  • 严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并。
    支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠標」「滑鼠」。
  • 词库和函数库完全分离,可以自由修改、导入、扩展。
  • 支持C、C++、Python、PHP、Node.js等多种语言API,提供命令行直接调用,以及图形界面。
  • 兼容Windows、Linux、Mac等多种平台。

2. OpenCC-python

用法请详细参考OpenCC-python in pypi

2.1 安装

pip install opencc-python

2.2 使用示例

#!/usr/bin/env python 
#-*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('t2s')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')

OpenCC有4种转换模式

  • t2s - 繁体转简体
  • s2t - 简体转繁体
  • mix2t - 混合体转繁体
  • mix2s - 混合体转简体

3. Shell用法

opencc-python的文本处理效率很低。另外一种提高转换效率的方式是直接在linux下安装OpenCC,处理效率会有飞一般的提升。

3.1 OpenCC安装

安装过程及问题主要参考: CentOS安装OpenCC

3.1.1 检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。
$ yum install cmake
$ yum install git
3.1.2 克隆下OpennCC开源项目OpennCC开源项目。
git clone https://github.com/BYVoid/OpenCC
3.1.3 编译OpenCC
$ cd OpenCC
$ make
$ make install
3.1.4 创建libopencc.so.2链接

如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
3.1.5 通过查看 OpenCC 版本,检查OpenCC是否已经安装成功
$ opencc --version

3.2 OpenCC使用

#繁体转简体
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s
欧几里得 西元前三世纪的希腊数学家
#简体转繁体
$ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t
歐幾里得 西元前三世紀的希臘數學家
#可以通过以下方式直接对文件进行繁简转换
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

你可能感兴趣的:(操作系统-Linux,开发语言-Python)