前段时间, 我想翻译一个文档, 比较大, 研究一番, 最后还是只有走上写代码这条路. 我不需要高质量翻译, 机器翻译就可以了, 毋庸置疑, 谷歌的翻译质量是最好的, 或者说是我最满意的. 于是就寻找(Python)翻译库, 一番操作下来都不满意, 其中一个比较受欢迎, 但是按照常规(说明文档)方式安装下来, 调用直接报错, 我知道这肯定是可以解决的, 可能哪里出了点小问题, 毕竟很多人用, 后面好像看见说是版本不对, 要稍微指定一下版本. 我没有去尝试, 到现在我也没有用上那个, 因为我自己写了一个 Python翻译库 pygtrans
为什么取这个名字呢? 因为想的好多个名字都被占用了.
含义: Python Google Translate, Python谷歌翻译
pip install pygtrans
或
pip install pygtrans -i https://pypi.org/simple
必要时可以加个 --upgrade
参数
from pygtrans import Translate
client = Translate()
# 检测语言
text = client.detect('Answer the question.')
assert text.language == 'en'
# 翻译句子
text = client.translate('Look at these pictures and answer the questions.')
assert text.translatedText == '看这些图片,回答问题。'
# 批量翻译
texts = client.translate([
'Good morning. What can I do for you?',
'Read aloud and underline the sentences about booking a flight.',
'May I have your name and telephone number?'
])
assert [text.translatedText for text in texts] == [
'早上好。我能为你做什么?',
'大声朗读并在有关预订航班的句子下划线。',
'可以给我你的名字和电话号码吗?'
]
# 翻译到日语
text = client.translate('请多多指教', target='ja')
assert text.translatedText == 'お知らせ下さい'
# 翻译到韩语
text = client.translate('请多多指教', target='ko')
assert text.translatedText == '조언 부탁드립니다'
# 文本到语音
tts = client.tts('やめて', target='ja')
open('やめて.mp3', 'wb').write(tts)
pygtrans中总共有6个模块
Translate: 暂未发现任何限制, 但这不是官网提供的标准方法, 无法得到任何保证.
ApiKeyTranslate:
这两个翻译模块, 都是不需要楼梯的, 不过 ApiKeyTranslate 可能需要 money, 虽然官方提供了试用. 并且由于其限制, 在接受本文标题任务[如何用Python一次性翻译十万条句子]时, 虽然亲测可以胜任, 但还是不及 Translate 用着刺激。
一般不判断, 直接使用
# 导包导模块
from pygtrans import Translate
# 创建翻译对象
"""
:param target: str: (可选) 目标语言, 默认: ``zh-CN``, :doc:`查看完整列表 `
:param source: str: (可选) 源语言, 默认: ``auto`` (自动检测), :doc:`查看完整列表
"""翻译文本, 支持批量, 支持 html
:param q: str: 字符串或字符串列表
:param target: str: (可选) 目标语言, 默认: ``self.target``, :doc:`查看支持列表 `
:param source: str: (可选) 源语言, 默认: ``self.source``, :doc:`查看支持列表
# 默认是以html格式进行翻译的, 要以文本格式翻译, 指定 `_format='txt'` 即可
text = client.translate("""
""", _format='txt')
print(text)
# TranslateResponse(translatedText='\n\n <元字符集=utf-8>\n ', detectedSourceLanguage=None, model=None)
# 我们注意到, 不该翻译的也被翻译了, 如果使用html格式翻译, 就可以解决这个问题
# 默认是以html格式进行翻译的, 要以文本格式翻译, 指定 `_format='txt'` 即可
text = client.translate("""
""")
print(text)
# TranslateResponse(translatedText='\n\n \n ', detectedSourceLanguage=None, model=None)
# 现在就正常了
如何用Python一次性翻译十万条句子?
假设字符串列表words
, len(words)>100000
texts = client.translate(words)
# 大概等待20s左右, 执行完毕
len(texts) == len(words)
for i in range(10):
print(words[i][:20], texts[i][:10])
不知道其他的可不可以, 反正我觉得这个挺牛逼的, 毕竟可是经常有限制 5000 的说法.
tk
参数的问题, 这个比较麻烦, 可能需要经常维护, 而 pygtrans 避开了这个问题