opencc解决简体中文与繁体中文转换问题【python】

1.Opencc-python

今天学习文本分析中偶然想到繁体中文要如何分割的问题,于是联想到将繁体中文先转换为简体中文,查过网上的资料后发现比较好用的是opencc-python,以及下载zh_wiki.py 和 langconv.py,将这两个文件放到python代码所在目录即可。

先来说说后者遇到的问题

因为我只安装了anaconda,没有另外装python,所以没有办法跟着网上的教程进行配置环境,如果装了python的话应该会比较容易一点

opencc-python的问题

原以为这个也挺容易的,没想到也弄了一个下午。如果按照网上教程,不管我在anaconda prompt里还是命令行里利用pip install opencc-python安装都会报错(提示我的错误是403,这个错误目前还么有看到有解决的办法),别灰心

我在GitHub上找到了正确的打开方式!!!

原来,开发这个库的作者将安装代码更新了!立马打开anaconda prompt运行,安装成功!!而且opencc-python 能在Python2.7 和Python3.x.运行,感动天地!!安装代码如下:

pip install opencc-python-reimplemented

用法

from opencc import OpenCC
cc = OpenCC('s2t')  # 将简体中文转换为繁体中文
to_convert = '开放中文转换'
converted = cc.convert(to_convert)
converted
#Output:'開放中文轉換'
cc.set_conversion('s2tw')  #将简体中文转换成繁体中文(以台湾标准)
print(cc.convert(to_convert))
#Output: 開放中文轉換

转换代码

hk2s: 繁体中文(香港标准)转简体中文

s2hk: 简体中文转繁体中文(香港标准)

s2t: 简体中文转繁体中文

s2tw: 简体中文转换成繁体中文(台湾标准)

s2twp: 简体中文转繁体中文(带短语)

t2hk: 繁体中文转繁体(香港标准)

t2s: 繁体中文转简体

t2tw: 繁体中文转繁体(台湾标准)

tw2s: 繁体中文(台湾标准)转简体中文

tw2sp:繁体中文(台湾标准)转简体中文(带短语)

详情请看:opencc-python

2. python-pinyin-jyutping-sentence

除了繁体简体转换,还找到了一个将简体中文、粤语转换为拼音的,这个项目是为了制作普通话和粤语的卡片,不过有点奇怪的是作为一个广东人,粤语翻译出来的拼音我不怎么会念。。。不过还是挺有趣的!给大家分享一下~

安装

pip install pinyin_jyutping_sentence

用法

import pinyin_jyutping_sentence
pinyin_jyutping_sentence.pinyin("提高口语")
# Output:'tígāo kǒuyǔ'
pinyin_jyutping_sentence.jyutping("我出去攞野食")
# Output:'ngǒ cēothêoi ló jěsik'

详情请见:简体、粤语转拼音

你可能感兴趣的:(学习笔记)