如何制作多语种发音词典?多语种发音词典的制作方法!

多语种发音词典制作方法分享

本文分享者:数据堂 AI-Lab & 数据产品中心 王丽媛
如何制作多语种发音词典?多语种发音词典的制作方法!_第1张图片
一、为什么制作发音词典
(一)、因为发音词典使用广泛
语音识别、语音合成。在语音合成数据制作中,文本标注环节需着重处理音素标注问题。
如何制作多语种发音词典?多语种发音词典的制作方法!_第2张图片

(二)、独立数据资产
数据产品市场的热门数据资源产品
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
可以一直添加新词汇及对应的音标,不断扩充词典规模

二、什么是发音词典
(一)、标音系统
IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …

1、IPA
每一个可分辨的读音使用一个符号来表示
107个单独字母用于表示辅音和元音;
31个变音符号用于修饰辅音和元音;
19个用于表示超音段成分(包括音长、声调、重 音、语调等)的特殊符号;
举例:马来语单词:pʰə̆ŋə̆mbaɾɐ
在这里插入图片描述如何制作多语种发音词典?多语种发音词典的制作方法!_第3张图片
每种语言都有专门的音位系统
如何制作多语种发音词典?多语种发音词典的制作方法!_第4张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第5张图片

怎么打印音标符号?
- 选择合适字体:包含标音系统中的所有符号
- 下载IPA输入法:将EN键盘模式转换成IPA模式

  • 转换标音系统:使用ASCII符号标音系统

支持IPA音标的可用字体
如何制作多语种发音词典?多语种发音词典的制作方法!_第6张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第7张图片

下载IPA输入法
在这里插入图片描述
如何制作多语种发音词典?多语种发音词典的制作方法!_第8张图片

2、SAMPA
以IPA为基础,只使用 ASCII值在 [32,126] 区间的可打印的符号。
解释:在邮件、博客、论坛等网站上支持的字体非常有限,且在跨平台、跨语言传输时许多符号不可以被正确接收。比如,从英国键盘传送过来的英镑符号(£,ASCII 156)在其他国家可能被接收为!、#等符号。

符号
包括大小写字母A-Za-z、数字0-9、标点符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。

与IPA的映射

  • 小写字母a-z保持不变
  • 其他字符由上述符号
    重新编码
    如何制作多语种发音词典?多语种发音词典的制作方法!_第9张图片
    大多数欧洲语言都已发展了SAMPA表,每张表中都包含了该语言里的所有语音

3、X-SAMPA & Kirshenbaum
SAMPA
SAMPA表有多种语言版本,每种版本设计时都只针对该语言所用到的音标,因此不同版本的SAMPA表互不相容。
X-SAMPA
X-SAMPA是为了统一各种SAMPA字母表而产生的,并且扩展至包含所有国际音标符号,能够把所有音标转写成可打印符号。
Kirshenbaum
也称作ASCII-IPA,是另一种ASCII标音系统

4、多样性
K.K.音标
CMU音标

如何制作多语种发音词典?多语种发音词典的制作方法!_第10张图片

  • 很多语言学家把国际音标做局部修改以标记他们所研究的语言,所以国际音标也有很多种。
  • K.K.音标是将国际音标中符合美式英语的符号截取出来,再加上美音特有的儿音组成的音标符号。
  • 可以把国际音标当作英式音标,把K.K.音标当作美式音标,但注意, K.K.音标也是国际音标的一种。
  • CMU音标更便于语音识别的训练和解码。

(二)、标音方法
国际音标【音标】只有一种,但用法【标音法】有两种
根据语音标示的严谨程度,可分为严式标音和宽式标音
1、严式标音
[方括号]
通常包括较多的语音细节,即使那些细节在该语言中并不被用于区分语义。
2、宽式标音
/斜线/
通常仅记录能区分语义的语音特征,而忽略无关的细节。
如何制作多语种发音词典?多语种发音词典的制作方法!_第11张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第12张图片

小结
严式标音法在标注时较不会有模棱两可的情况
严式标音法过于追求细节而导致过于复杂
在通常使用中,使用宽式标音法比较合适
为什么宽式标音法也正确?

【音位系统】
音位并不是一种实际的语音,一种音位可以有数种不同的发音,但人们在心理上认为它们是相同的。
比如在现代汉语中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等
比如在英语中,音位/p/可以表示[p]、[pʰ]等
在宽式标音中,同一音位内的音素变化,在一门语言中是自然而然发生的。
如何制作多语种发音词典?多语种发音词典的制作方法!_第13张图片

三、怎么制作发音词典
(一)、流程
如何制作多语种发音词典?多语种发音词典的制作方法!_第14张图片

1、语料搜集
自有语料
开源语料
以韩语为例:
自有语料 —> 444372条词汇
zeroth_korean 开源项目 —> 486727条词汇
维基词条 —> 63745条词汇
||
总语料 —> 883724条词汇

2、文本处理
如何制作多语种发音词典?多语种发音词典的制作方法!_第15张图片

3、发音规则整理
请教专家、调研论文、维基查询
如何制作多语种发音词典?多语种发音词典的制作方法!_第16张图片

4、字形-音标转换
如何制作多语种发音词典?多语种发音词典的制作方法!_第17张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第18张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第19张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第20张图片

5、发音词典
以韩语为例:
两个文件:姓名词汇.xlsx 非姓名词汇.xlsx
三列数据:韩语词汇 IPA音标 罗马音标
如何制作多语种发音词典?多语种发音词典的制作方法!_第21张图片
如何制作多语种发音词典?多语种发音词典的制作方法!_第22张图片

四、思考
清晰的发音规则
干净的语料
程序的开发

五、总结
关键点:
在开始之前,必须了解该语言的字形结构、音韵结构
为达到98%以上的准确率,必须充分理解专家意见、确保发音规则的准确性

你可能感兴趣的:(数据产品)