经验 | 机器翻译译前编辑的10个小窍门

以下文章来源于机器翻译观察 ,作者Andy Nikulin

如何正确做译前编辑,让机器翻译质量更靠谱?

都2020年了,机器翻译质量不错了。机器翻译目前已经被公司、学生、出版社、翻译服务提供商广泛使用,还包括希望在社交媒体上读懂你帖子的外国朋友们。然后他们开始给你点赞——因为他们看明白了!机器翻译确实取得了长足的进步。

多年来,我们一直在评估机器翻译引擎的性能,相信我们,我们已经见过太多。这篇文章总结了我们的经历(有的是有趣的,有的令人好奇或痛苦的),我们只有一个目的:帮助你最大限度地用好机器翻译,当然还有,避免尴尬。

在本文中,我们关注的是通用(并且是公开可用)机器翻译系统,因为定制模型可以在您的数据样本上训练,以更好地处理您的文本风格的细节,而通用模型则用于处理各类文本。

听起来不错?让我们仔细道来:


1. 使用正式的写作风格。

删除或替换以下内容可能是一个好主意:

俚语[例如,Wooot,Buddy或Dude]

借词和新词[例如,大奖赛,电动车]

习语和专业术语[例如,打破僵局="开始对话"]

在源语言方言中有不同含义的歧义词和单词,例如:

a)以-ed或-ing结尾的单词

b)"table"一词因为上下文不同,可指一件家具或表格清单

c)"glass"一词可指材料或餐具等。

基于当地诙谐说法、习俗、谚语和偏见的短语

专业缩写词[例如,在法语中,日常交流中使用了很多缩写:bjr=bonjour,bz=bisous,bises .等]

使用基于常识的短语[例如,地球是一颗行星]


2. 使用简化的句子结构。

保证句子逻辑一致和完整。

不要用太多带有从属从句的复杂句子。

如果可以的话,避免被动时态。

必要时把复杂句子分开。


3. 统一术语。

例如,不要同时使用“client”和“customer”来描述“用户”,而是坚持用同一个词。


4. 检查正字法、标点符号和错误拼写。

错误的单词可能会被误译——“void gaps”不是“avoid gaps”,这完全改变了句子的含义。有一次,我们的软件因为一个机器翻译的错误单词“assked”,不得不暂停使用。


5. 统一格式:

价格和货币[例如,1.000美元]

测量单位[例如,千克]

数字[尽量用数字代替数字,例如,用“1”代替“one”]

日期和时间[例如,2020-08-12,14:45]

所有其他可统一的特定数据和术语


6. 尽可能多地使用低语域。

避免不必要的大写[例如,使用"counterparty"而不是"Counterparty"]

解除大写锁定[例如,“HERO”一词可以不翻译]


7. 留意邮件,文件路径,网址。

例如,电子邮件地址"[email protected]"可能被机器翻译为flower@yard,这可能不是用户想要的。


8. 使用专门术语的词汇表。

添加网址[物理位置]/地址[例如,"Language Street"可翻译成"[目标语言直译语言+街道]

添加产品和服务名称[例如,翻译后的产品名称可能和您公司产品名称指南有出入]

在词汇表中增加名称和缩略语[例如,缩略语"WORLD"可能被翻译成"world"]


9. 采用统一的方式翻译地名。

对于翻译像La Grand-Place这样的地名,可以选择保留源语言的名字。

在翻译文本中保留原语中的外语词时,遵循语法规则。例如,如果你需要在翻译的英语文本中使用一些原生的法语单词,要遵循英语语法规则。


10. 最后,当你发送翻译请求以获得更好的机翻结果时,确保指定好:

源文本语言。如果未指定源文本语言,自动语种检测会启动。语种检测不仅需要时间,而且在某些情况下也可能提供错误的(不是字面上的错误,而是意想不到的)结果,例如,Kungens Kurva是斯德哥尔摩一条街道的名字(顺便说一句,这是瑞典语中的King's Curve)。但是,如果你没有指定源语言,它可能会被自动检测成克罗地亚语,甚至波兰语。自然,翻译结果将会和原义大相径庭。

源文本格式。如果将格式指定为TEXT,您会得到一个纯文本。当指定HTML时,准备好处理翻译结果中的HTML对象,例如,如果您将“Jag är mammas son”从瑞典语翻译成英语,使用HTML格式,您可能会得到“I'm my mother's son”这样的翻译结果。

翻译标记文本时,坚持用标准的HTML标签,因为一些机翻引擎将非标准标签视为断句标记。试着把“She rose and left”翻译成法语。你可能会得到“Elle  Rose  et  la gauche”的结果,而不是“Elle s’est levée et est partie”这样的正确译法。

如果你已经留意了以上技巧,你可能会对结果感到满意。然而,如果你觉得你需要从你的文本中提取一些重要的部分,来保证机器翻译结果靠谱,这里有一个窍门:把它们摘出来再翻译,然后把它们粘贴回去,就像在已经很不错翻译文本上再撒上一些配料。

祝你好运,翻译愉快!

本文原载于blog.inten.to,原题为《10 Ways to Optimize Text for Machine Translation》,中文由公众号@机器翻译观察翻译并发布。点击阅读原文可阅读英文原文。


关注微信公众号“语言服务行业”,了解更多语言服务行业与翻译技术相关的资讯和洞察~

你可能感兴趣的:(经验 | 机器翻译译前编辑的10个小窍门)