TIMIT数据集-语音人工标签-波形频谱可视化展示

TIMIT语音标签详情

基本信息

样本文件:

/TIMIT/TEST/DR1/FAKS0/SA1.WAV

音素标签:

0 9640 h#
9640 11240 sh
11240 12783 iy
12783 14078 hv
14078 16157 ae
16157 16880 dcl
16880 17103 d
17103 17587 y
17587 18760 er
18760 19720 dcl
19720 19962 d
19962 21514 aa
21514 22680 r
22680 23800 kcl
23800 24104 k
24104 26280 s
26280 28591 uw
28591 29179 dx
29179 30337 ih
30337 31880 ng
31880 32500 gcl
32500 33170 g
33170 33829 r
33829 35150 iy
35150 37370 s
37370 38568 iy
38568 40546 w
40546 42357 aa
42357 45119 sh
45119 45624 epi
45624 46855 w
46855 48680 aa
48680 49240 dx
49240 51033 er
51033 52378 q
52378 54500 ao
54500 55461 l
55461 57395 y
57395 59179 iy
59179 60600 axr
60600 63440 h#

词标签:

9640 12783 she
12783 17103 had
17103 18760 your
18760 24104 dark
24104 29179 suit
29179 31880 in
31880 38568 greasy
38568 45119 wash
45624 51033 water
52378 55461 all
55461 60600 year

可视化信息

TIMIT数据集-语音人工标签-波形频谱可视化展示_第1张图片

以上是Adobe公司的Audition软件打开该文件后显示的波形图频谱图,下面红色的条纹称为谱包络,反映的是语音的共振峰

我按照TIMIT中.WRD文件的词边界标记出来后呈现出的标签如图。

TIMIT数据集-语音人工标签-波形频谱可视化展示_第2张图片

以上是我利用Matlab GUIDE编写的一个音频打标签的软件。

功能如下:

1、可以打开wav文件、TIMIT Sphere文件并留出打开PCM文件的开发接口,还可以输出文件信息。

2、播放标定区间的音频。

3、展示图:大图像为音频整体波形图,下方三个小图像为500采样点分辨率的精细图,分辨率可在代码中自行调整。

4、精准定位到采样点,定边界,然后打标签(类型1或2)。因此可以用于语音活动检测(Voice Activity Detection,VAD)标签以及语音音乐分离(Speech Music Discrimination,SMD)标签的人工标记。并以01格式保存到txt文件中。

完善后会将代码挂在Github上

可以看出TIMIT将该段音频分为三个词语段

  • She had your dark suit in greasy wash:9640~45119
  • water:45624~51033
  • all year:52378~60600

而9640~60600整个为音素段。

观察

1、第一个词语“she”的开始标在采样点9640,位置如图。可以看出语音人工标签并不是按照能量突增的位置开始的。此时音素sh的开始边界也为9640.
TIMIT数据集-语音人工标签-波形频谱可视化展示_第3张图片

频谱边界为:
TIMIT数据集-语音人工标签-波形频谱可视化展示_第4张图片

2、观察wash结束边界,采样点45119——water开始边界,采样点45624,此段为非词语段。用耳朵听也难以听出人声,所以TIMIT在音素标记中为【45119 45624 epi】,epenthetic silence(静音)。
TIMIT数据集-语音人工标签-波形频谱可视化展示_第5张图片

频谱边界为:
TIMIT数据集-语音人工标签-波形频谱可视化展示_第6张图片

3、观察词语“water”的结束边界,采样点51033——all的开始边界,采样点52378.

用耳朵听,能确定是人在发出声音,但是TIMIT不认为它是任何词语的音素,固不在词边界中。但在音素标签上,【51033 52378 q】,表明该段为爆破音p。
TIMIT数据集-语音人工标签-波形频谱可视化展示_第7张图片

频谱边界为:
TIMIT数据集-语音人工标签-波形频谱可视化展示_第8张图片

你可能感兴趣的:(语音/音频信号处理)