语音识别中文词典生成拼音词典,再生成mlf标签文件

中文词典通过pypinyin库转化为拼音词典,再将拼音词典通过zh2py.py转化为mlf标签文件

将zh2py.py代码附上,供大家参考。

#-*- coding:utf-8 -*-
import os,sys

def to_mlf(xi):
    d=[]
    eng=[]
    for x in xi:
        u=x
        if len(u)==1:
            eng.append(str(u))
        else:
            if len(eng)>0:
                d.append("".join(eng).upper())
                eng=[]
            d.append(str(u, encoding='utf-8'))
    if len(eng)>0:
            # d.append("".join(eng).lower())
            d.append("".join(eng))
    return d

def fn_to_lab(s):
    x=s.split()
    print('sil')
    print('sil')
    for i in x:
        d=to_mlf(i.strip())
        if len(d)>0:

            print("\n".join(d))

    print('sil')
    print('sil')
    print('.')

fn="dict.txt"
print('#!MLF!#')
for l in open(fn):
    l=l.strip()
    x=l.split()
    k=str(x[0].strip())
    v=" ".join(x[1:])
    print('"*/%s.lab"' % k)
    fn_to_lab(v)

生成后的mlf文件格式如下:

#!MLF!#
"*/3300100001.lab"
sil
sil
zui4
da4
yin1
liang4
sil
sil
.
"*/3300100002.lab"
sil
sil
ba1
xiao3
shi2
hou4
kai1
ji1
sil
sil
.
"*/3300100003.lab"
sil
sil
guan1
bi4
yu3
yin1
bo1
bao4
sil
sil
.

你可能感兴趣的:(语音识别,人工智能)