宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明

一、综述

1. 介绍

宾夕法尼亚大学语音标签强制对齐(Penn Phonetics Lab Forced Aligner , P2FA) 是基于 HTK 的自动语音标注工具包。它包括美式英语的声学模型,用来强制对齐的 python 文件以及 readme 文件和一些例子。同样,在 P2FA 的网站上,还有一个在线处理系统,提交一个 wav 文件和一个转录文件,之后将会以邮件方式收到一个标注好的 praat TextGrid 文件。

包含在工具包中的声学模型是基于 GMM 的单音节 HMM 模型。每个 HMM 状态使用 32 个高斯混合在 39 个 PLP 系数上。声学模型以 8KHz, 11,025Hz 以及 16Hz 分开。每一个声学模型包含了一个在词与词之间的可选插入的短暂停顿HMM(“sp”),这大大增加了标注的准确度。

2. 工具介绍

./models/: 声学模型、参数文件以及 CMU 发音字典
./align.py: 一个 python 脚本,用来自动执行强制对齐,从 wav 文件和对应的
转录文件产生一个 Praat TextGrid 文件
./test/:用来测试工具的文件
./examples/:例子文件

3. 先决条件

需要将 version 3.4 的 HTK 工具包事先装好来做强制对齐。 HTK 工具包可以
在 http://htk.eng.cam.ac.uk/找到。 python 脚本只支持 version 3.4。最新的版本
3.4.1 在对齐“ sp” 模型的时候有问题。

为了使用 align.py 脚本,需要有 Python2.5/2.6(早些时候/更高版本还没有
经过测试)。

4. 使用 align.py 脚步

1) 运行”python align.py wavfile trsfile output_file”。如果你没有从工具包的文件夹中运行 align.py,你将需要指定路径。

Wavfile 是包含了需要对齐的语音。如果它不是按照指定的三种模型的采样的话,它将被按照 11,025Hz 重采样。这样的采样率是推荐的。

Trsfile 是一个包含转录的文本文件。 空格或者换行符用来分隔单词。如果一个词在 CMU 的发音字典中没有找到,将会报错, 但是你能够编辑文件 model/dic 并且添加需要的新发音。你将在转录中包含以下标签’{SL}’ 安静, ‘{LG}’ 笑声, ‘{NS}’ 噪音, ‘{CG}’ 咳嗽, ‘{BR}’ 呼吸, 和’{LS}’唇声.

Output_file 是 praat TextGrid 输出文件,包含强制对齐后的结果。

工具包包含例子用来测试。你可以对齐测试文件

Python align.py ./test/BREY00538.wav ./test/BREY00538.txt./test/BREY00538.TextGrid

Output file 在词与词之间将包括‘sp’间隔,这里表示一个停顿。

2) 如果你有多于一个文件需要对齐,你讲写一个 shell脚本来使得 align.py脚本来循环。你也可以按照下面的说明。

3) 一些命令行选项也将被包括。他们必须先于 wav 文件的规范,它们是:
-r sampling_rate 覆盖使用的采样率模型, 8000, 11025, 16000。默认的 wav 文件的采样率是三个中之一,否则是 11025

-s start_time
Wav 文件的开始部分到对齐(以秒为单位,默认为 0)

-e end_time
Wav 文件的结束部分到对齐(以秒为单位,默认情况下将结束)

5. 做强制对齐的方法

1) 请参考./example/文件夹下文件的正确格式

2) 请按照如下的描述准备语音文件和转录文件。你可以为很长的语音文件做标注(例如一个小时),同时你也可以一步标注许多文件。

3) 创建参考的转录文件, transcript.mlf transcript.mlf 是 HTK 的“主标签文件”包含所有文件的标注。 下面是生成文件的步骤:

I. 单词的所有字母要大写。如果一个字在 CMU 发音字典里面没有出现,你既可以手动添加也可以从强制对齐当中把它排除掉,主要去决定于你的目的。 如果transcript.mlf 中有未知的词,标注将失败。

II. 你将把如下的标签包含在 transcript.mlf 中: ‘{SL}’ 安静, ‘{LG}’ 笑声, ‘{NS}’ 噪音, ‘{CG}’ 咳嗽, ‘{BR}’ 呼吸, and ‘{LS}’唇声.

III. 你可能想要每两个词之间插入一个‘ sp’。‘ sp’代表小小的停顿。 它从强制对齐中可以有零个长度(没有停顿)。

4) 创建 code.scp 和 test.scp。它们所包含的文件的名称分别是编码和对齐。

5) 提取声学特征

HCopy -T 1 -C ./models/your-sampling-rate/config -S code.scp

配置文件包含用于语音文件( .wav .raw, 采样率等等)以及声学特征(mfcc,plp 等等)。如果您的语音文件有不同的采样率比 8000 赫兹,11,025 赫兹,或 16,000 赫兹,可以降低采样率或转换至 11,025 赫兹(迄今为止具有最好的性能)。在我们的训练程序中, 我们将 44100Hz 的目标采样率使用‘ sox –polyphase’ 来降低采样。

6) 强制对齐

HVite -T 1 -a -m -I transcript.mlf -H ./model/your-sampling-rate/macros -H ./model/your-sampling-rate/hmmdefs -S test.scp -i ./align.mlf -p 0.0 -s 5.0 ./model/dict ./model/monophones

align.mlf 是强制对齐的结果。你可以将其转换为标签文件,如, Praat TextGrids。 请注意:

a) 在 align.mlf 里面的时间单位是 100 纳秒( 0.00000001 秒) ;

b) 有一个四舍五入的问题,当采样速率 11,025 Hz 和时间步长为 10 毫秒,所以需要更正 align.mlf 中的时间标记。你可以使用下面的公式来转换时间标记 x 到秒:

y = (x/10000000 + 0.0125)*(11000/11025).

二、具体使用

英文、中文标注:

Englishalign/Chinaalign:

主要使用命令: python align2.py xxx.wav xxx.txt xxx.TextGrid

其中: xxx.wav 中是所要转录的音频文件

xxx.txt 是 wav 中所对应的文本文件

xxx.TextGrid 是转换之后的 praat 文件

中文标注情况:

宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明_第1张图片

宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明_第2张图片

宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明_第3张图片

英文标注情况:
宾西法尼亚大学强制对齐标注软件(P2FA)介绍以及使用说明_第4张图片

三、总结

经过实验,感觉这个标注软件对于纯净条件下的语音标注效果很好,精确度也很高。但是,抗噪声能力不是很强。同时,标注后的文件为三层内容,格式为 praat TextGrid 文件格式,如果用到 HTK 还需要转换成 lab 文件的格式来使用。

你可能感兴趣的:(自动标注,P2FA,Speech,Recognition)