1.按照语料库所涉语种,语料库可区分为(1)单语语料库 (2)多语语料库: 由多语平行文本组成
2.双语对齐处理在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)语言单位互有翻译关系。
3. 自动双语对齐处理指的是通过一定的算法,由计算机在双语文本间建立对齐关系。
1.概念:在双语文本间建立句子一级的对齐关系,就是要确定源语言文本中哪个(些)句子和目标语言文本中哪个(些)句子互为译文。
2.基于长度的对其方法
(1)依据:--互为翻译的两个句子在长度上高度相关。--翻译时,句子顺序不做剧烈改变。(不考虑交叉)
(2)在已知参数c和s2以及Prob(match)后,即可计算最佳对齐。枚举文本间所有可能的对齐,分别计算距离,选择最佳对齐
1.定义:在互为译文的两个句子间寻找词语对译关系。
2.统计对齐的任务,就是从众多的对齐中找出概率最大的对齐,即韦特比对齐。
3. 可以通过下面的过程计算韦特比对齐
1) 罗列出原文句子和译文句子间所有可能的对齐
2) 对每一种对齐,计算P(S, A|T)
3) 寻找能使P(S, A|T) 取得最大值的A作为韦特比对齐
4.对齐故事
(1) IBM模型一:原文所有的词与译文各个词位对应的概率为等概率。
(2) IBM模型二:原文与译文对应的概率为不等的概率,依赖着原文的词位。
(3) Vogel的类HMM模型翻译具有局部性,原文中邻近的词译成其它语言时,译词大多数情况下仍然保持较近的距离,类HMM模型对此作了考虑。
(4)基于繁殖率的模型: 一个译文单词t对应的原文单词的数量称为t的繁殖率
(fertility),译文单词的繁殖率实际上是一个随机变量.
5.计算韦特比对齐
理论上当然可以枚举所有对齐方式,对每种对齐方式,计算P(S, A|T),在寻求值最大的对齐。实际上不现实。
(1)对于IBM模型一、二而言:顺次为每一个原文单词sj选择一个能使t(sj|ti)取最大值的ti与之对应。
• 1.直接翻译法——逐词翻译法
• 2.转换法
– 分析源语言文本,得到源语言的内部表达
– 将源语言内部表达转换成目标语内部表达
– 根据目标语内部表达生成目标语文本
– 翻译过程分成三个阶段
• 3.中间语言法
中间语言(interlingua)是一种中间表达,通常是一种句法-语义表达(syntactic-semantic expression),中间语言独立于任何具体的自然语言。
– 源文本经过深层分析得到其对应的中间语言表示。
– 再由该中间表示生成目标语文本。
– 翻译过程为两个阶段。
• 4.基于统计的方法
– 基于统计的机翻译通过建立、训练统计翻译模型、并进而基于统计模型进行翻译。
Pr(S|T)称为语言S到T的翻译模型
Pr(T) 称为语言T的语言模型
取两者乘积最大值的句子:穷举法与剪枝策略。
• 5基于实例的方法:通过模仿实例库中已有的译文基于类比的策略进行翻译。
基本思想:
– 主要知识库是双语对照的实例库
– 当需要翻译一个新句子时,通过检索的办法在实例库中寻找和该句类似的翻译实例。
– 新句子的翻译可通过模拟最类似的实例的译文的方式获得
• 6.神经机器翻译方法
– 神经机器翻译方法通过建立、训练深度神经网络模型完成机器翻译。
• 编码器读入源语言句子,生成源语言句子的向量表示
• 解码器基于源语言句子的向量表示生成目标语言句子
7.机器翻译评价:
最常用的两个标准源于ALPAC报告
• 译文的可理解性(Intelligibility)(流畅度 fluency)
译文可在多大程度上为不懂原文的人所理解
• 译文的忠实度(Fidelity)(充分度 adequacy)
译文和原文在内容上有多大差异