给语音信号加混响的常用方法(方法三)

本方法是基于双耳房间脉冲响应(BRIR),通过BRIR给语音信号加混响,且带有双耳线索:双耳时间差(ITD)和双耳声级差(ILD);单耳线索:耳廓造成的频谱线索。

下面是论文“MEASUREMENT AND ANAL YSIS OF A SPATIALLY SAMPLED BINAURAL ROOM IMPULSE RESPONSE DATASET”的原文链接:

百度网盘 请输入提取码

提取码:savb

空间采样双耳房间脉冲响应数据集的测量和分析

 本文介绍了一个免费提供的空间采样双耳室脉冲响应数据集,在索尔福德大学符合ITU-R BS.1116标准的听音室测量。索尔福德BBC空间采样双耳室脉冲响应数据集(SBSBRIR)是在房间内的一些聆听位置测量的。该数据集包括对12个扬声器的测量,这些扬声器位于耳朵的高度,使用头部和躯干模拟器,头部方位角分辨率为2°,有15个不同的听众位置。该数据集可用于国内空间音频再现的主观和客观评价。测量细节、程序和初步验证测试将与数据集在未来工作中的应用一起提出。

一、简介 

对空间音频再现系统的评估通常集中在中央收听位置 (CLP) 或最佳听音位置。然而,在家庭聆听环境中使用时,许多听众不会坐在扬声器阵列的中心位置。因此,评估CLP以外的再现是很重要的。对改变聆听位置的效果进行盲目的主观评估在现场是不可能的,因为这涉及到移动被试。可以使用测量的双耳房间脉冲响应(BRIRs)来代替双耳模拟,这种测量也可用于不同聆听位置的声音再现的客观分析。本文介绍了在索尔福德大学与BBC研发部门合作测量的免费提供的空间采样双耳室脉冲响应数据集(SBSBRIR)的测量和应用。

2. 测量细节

该数据集包括对12个扬声器的测量,这些扬声器位于耳朵的高度,使用Brüel & Kjær(B&K)的头和躯干模拟器(HATS)在15个不同的听众位置,以2°的头-方位分辨率进行旋转。本节记录了测量过程和设置细节。

2.1 几何

图1显示了带有扬声器的测量装置和房间里的测量位置。BRIR测量是在填充点(•)处进行的,共有15个测量位置。头部方位角是从指向扬声器1的HATS(0°方位角或位置(0,0)m)开始的,头部方位角的正值代表头部在0°和359°之间的逆时针旋转。所有的聆听位置都以相对于中央聆听位置的米来表示。扬声器和假人头的耳朵高度被设定为从地面测量的1.06米。图中显示了房间后面的门和软装饰。

给语音信号加混响的常用方法(方法三)_第1张图片

图 1. 数据集中使用的测量设置和坐标系的平面图。 

2.2 测量技术

由于数据集需要大量的测量,在设计测量程序时考虑了效率问题,以减少测量时间,同时避免数据集的冗余。所有的测量都是在48kHz的采样率下进行的,使用RME UFX音频接口,其中6个扬声器输出使用RME ADI-8转换器。

指数正弦扫频法被用来测量脉冲响应[1]。从每个扬声器发出的信号被重叠起来,以减少每个头顶方位的测量时间,参见[2]。扫频测量是用MATLAB远程控制的。测量的脉冲响应经过后处理,以消除测量的硬件和软件延迟。HATS在水平面上以2°为单位自动旋转,使用B&K转盘系统9640型,通过GPIB接口由MA TLAB控制。这意味着在每个聆听位置的所有测量过程中,聆听室可以是密封的。

2.3 设备与环境

聆听室的选择是由于其符合BS-1116-1[3]。该房间有6.6m x 5.8m x 2.8m,中频混响时间为0.27s,背景噪音为5.7dBA。该监听室也可用于根据BS 684013/IEC 268-13对扬声器进行监听测试。

在数据集中测量了12个Genelec 8030A扬声器,它们被放置在一个半径为2.1米的圆上。正方位角围绕圆圈逆时针移动,其中0°代表(2.1,0)m,如图1所示。所用的扬声器方位角位置是。0°, 30°, 45°, 90°, 110°, 135°, 180°, 225°, 250°, 270°, 315°, 330°. 这些扬声器位置的选择包括五种复制系统布局:立体声、ITU 5.0[3]、方形(带中央前置扬声器)、方形(无中央前置扬声器)和八角形。通过产生粉红噪声和调整每个扬声器的增益来设置电平,以在中心聆听位置达到74.5dB SPL。没有应用均衡化来补偿扬声器的响应。

校准的B&K 4190型传声器被用于B&K 4100型HATS。这种HATS没有耳道模拟器,传声器被安装在封闭的耳道入口处。在进行BRIR测量的同时,还使用了一个全向测量麦克风来测量所有25个聆听位置上每个扬声器的房间脉冲响应。这可用于对数据集的客观分析,以确定房间的特征,而不受HATS的影响。

3. 主观验证:定位

利用SBSBRIR数据集开发了一个听觉虚拟环境(AVE),以模拟现有听觉环境中的空间音频再现。这种模拟的目的是允许在多个听觉位置对国内各种空间音频再现方法进行直接的盲目比较测试。空间音频再现系统经常在CLP进行测试,但重新定位受试者的难度意味着评估整个聆听区域的声音质量变化是不常见的。

为了验证AVE的使用,应该证明在偏离中心的聆听过程中存在的任何假象(由扬声器的到达时间变化、扬声器的指向性效应和房间效应引起的)都被保持。实现这一验证的第一步是评估听众对声源的定位能力在真实的现场场景和AVE模拟之间是否一致。在本文中,定位是指听觉事件在水平面上的到达方向,它不包括事件的距离或高度。

我们进行了一项定位测试,要求参与者在不同的 "听觉化 "方法下指出声源的到达方向:(1)原地,真实的扬声器再现幻象声源;(2)AVE(双耳),头部追踪的动态双耳系统,模拟聆听环境中的扬声器,再现幻象声源。空间音频再现方法被用来在选定的扬声器布局上使用单声道音频项目创建声源。

3.1 自变量

如表1所示,我们选择了一些再现系统、声源方向和声源刺激,并在中央(0,0)米和非中央(-0.5,-0.5)米的聆听位置进行了测试,以评估A VE在各种现实的国内再现场景中的性能。除了从一个扬声器发出的刺激,振幅平移技术向量基振幅平移(VBAP)[6]和Ambisonics在五个扬声器布局中使用三种不同的音频项目进行了选择。Ambisonic平移系数是用速度解码方法计算的。这是通过对重新编码矩阵C[7,第159页]的Moore-Penrose伪逆来实现的。重新编码矩阵包含对应于所选阵列中每个扬声器方向的球面谐波系数。

测试中使用的三个声源刺激是。噪声--带有矩形窗口的重复粉红噪声脉冲,1s长[500ms噪声,500ms沉默];音乐--重复钢琴音阶摘录,8s长;声音重复女性口语,28s长。

表1. 根据独立变量对样本的定义。数字下标表示Ambisonic顺序。CF(中心前)和NCF(非中心前)表示方形/八角形布局的角度方向。

 给语音信号加混响的常用方法(方法三)_第2张图片

 

需要注意的是,不同的再现方法(VBAP、Mono、Ambisonics)、扬声器布局、音频项目和聆听位置的能力不是本测试的重点;相反,在原位或AVE听觉化之间选择这些变量下的定位结果的比较是有意义的。

3.2 指向方法

我们选择了以自我为中心(头或鼻子指向)的技术[9],即在听到一个听觉事件时,被试者转身面向感知到的声源方向,用连接在他们头上的激光笔指向--然后被试者按下一个触发按钮,记录他们的判断并开始下一个刺激的呈现。激光指示器被安装在头套上,可以与他们的视线集中在一起,以减少对感知方向的过度或不足[10]。这是通过将激光器安装在一个可调节的球形关节上来实现的,以减少由不同的耳机位置造成的误差[11]。这种指向性方法的一个潜在缺点是,它主要测量正面定位敏锐度的变化。然而,该方法允许更准确地报告方向,记录生物力学数据可用于分析对定位过程的影响。Carlile等人[9]强调了这种方法的好处,它是一种自然的动作,头部追踪可以可行地进行。一个光学运动追踪系统(4台VICON Bonita相机和Tracker软件)被用来追踪参与者的头部位置,既用于分析,也作为AVE渲染软件的输入。该跟踪系统可用于捕捉高精度的生物力学数据。因此,在分析中可以考虑额外的因变量,包括分析头部旋转模式和头部平移运动。

3.3 程序

参与者是索尔福德大学声学研究中心的志愿者。他们都有声学或音频方面的经验,在测试前的问卷调查中,他们都认为自己是 "音频专家"。有15人参加了测试。参与者得到了一份关于测试程序的说明指南。然后,他们被引导到聆听室,其中的扬声器被隐藏在一个声学透明的帘子后面。参与者得到一个控制器,上面有一个用于提交定位决定的按钮和一个用于控制音频音量的旋钮。他们被允许在测试的任何时候调整音量。总共呈现了120个刺激(2个系统,2个聆听位置,10个样本,每个样本重复3次)。每个受试者的刺激顺序都是随机的。在培训课程之后,参与者进行测试。训练包括一个简短的试验测试,直到参与者对该方法感到舒适。没有给出关于定位性能的反馈。

3.4 听觉虚拟环境:双耳再现系统

AVE在动态双耳渲染器中使用SBSBRIR数据集的BRIRs,并进行头部方位角跟踪。SoundScape Renderer(SSR)[12]的修改版被用于实时BRIR与扬声器输入信号的卷积,该信号由控制测试的Max/MSP补丁接收。Vicon跟踪数据通过OSC协议[13]发送到Max/MSP和SSR软件。测试中使用了Stax SR-207 静电耳机。耳机补偿滤波器被应用来减少耳机到耳朵的传递函数(HpTF)的影响。HpTF测量是在B&K HATS上进行的,补偿滤波器在用于实时渲染之前被应用到BRIRs的离线状态。

3.5 结果

3.5.1 定位错误

Letowski和Letowski[14]强调,感知声源方向和真实声源方向之间的平均无符号误差(MUE)给出了定位误差(LE)的一般近似值,将精度和准确度都包含在一个测量中。平均有符号误差(ME)和有符号误差分布的标准偏差(SD)可以分别用来近似精确性和准确性。图2显示了所有样本、聆听位置和听觉化方法的MUE与95%的置信区间。表2显示了所有样本和受试者的MUE、ME和SD,每个聆听位置独立显示。

给语音信号加混响的常用方法(方法三)_第3张图片

 

图2. 所有受试者在聆听位置(0,0)m和(-0.5,-0.5)m时,原地和AVE听觉化方法的平均无符号误差。

3.5.2 判断时间

每个定位判断都可以通过被试在刺激物呈现过程中的头部运动来描述。通过分析作出判断所需的时间,可以大致了解定位任务的难度,并对两种听觉化方法进行比较。如果一个判断需要更长的时间,我们可以假设定位任务更具挑战性或更复杂。图3显示了每个样本和听觉化方法在每个聆听位置上的平均判断时间(ToJ)值。

表2. 在(0,0)米和(-0.5,-0.5)米的聆听位置上,所有样本和受试者的原位和A VE听觉化的定位误差。

给语音信号加混响的常用方法(方法三)_第4张图片

 给语音信号加混响的常用方法(方法三)_第5张图片

 

图3. 在聆听位置(0,0)米和(-0.5,-0.5)米处,所有受试者的原位和AVE听觉化方法的平均判断时间。所有的图都显示了95%的置信区间。

3.6 讨论

就不同样本的MUE差异而言,原地和AVE系统之间的MUE差异似乎很小。观察到的MUE差异也类似于[15]中测试真实与HRTF扬声器声源时提出的0.9°值;然而这里每种方法的MUE幅度要大得多,因为这里使用了振幅平移算法,而不仅仅是单个扬声器。SD和ME的差异似乎也比较小,(-0.5,-0.5)m处的SD显示出最大的差异。可听化方法之间的SD差异比[15]中显示的要大。这又被认为是由于使用了难以定位的刺激,由于应用了幅度平移而造成的。

对具有最大LE的样本的进一步分析表明,在某些情况下,判断误差分布是多模式的。特别是在现场的结果显示,模式之间的分布更加均匀,这可能是由于幻影图像随着头部的平移而塌陷到扬声器中。在这些情况下,定位误差的高斯模型不太合适。在偏离中心的聆听位置(-0.5,-0.5)米处,样本2和样本6的MUE显然有明显的区别,这两个样本都是用Ambisonic平移法制作的。其原因尚不清楚,需要进一步调查。

对于ToJ来说,图3中所示的数值有明显的相似性。这是一个令人惊讶但令人欣慰的结果,表明这两种听觉化方法的定位任务的复杂性相似。两个系统在两个聆听位置上都表现出相同的ToJ的样本依赖性变化。ToJ值增加的结果也与图2中定位精度降低的值密切对应,支持ToJ与任务复杂性有关的论断。

4. SBSBRIR 数据集的访问和使用

本文介绍的数据集可从索尔福德大学机构资料库免费下载。 SBSBRIR 由索尔福德大学和英国广播公司根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License2 获得许可。

数据集以MATLABTM的测量脉冲响应对象(miro)格式3保存,如[17]中所述。miro类能够将大量的技术和位置信息存储在一个方便使用的软件包中,其中包括将数据转换为多种输出格式的功能。总共有180(15个受试者位置*12角度)个miro文件;15个聆听位置的每个扬声器有一个文件。每个miro文件包含360个BRIRs(以1°头顶方位角为单位)和一个全向的房间IR。BRIRs已经被线性内插到1°头部方位角的分辨率。

任何对数据集的贡献或修改都将欢迎发送至通信电子邮件地址。

五、总结

一个空间分布的双耳房间脉冲响应测量数据集已经提出,在索尔福德大学录制。其目的是提供一个数据集,用于评估在非中心聆听位置的基于扬声器的家用空间音频系统,使用双耳分析和模拟。

这个数据集也被用于通过定位测试来验证AVE的有效性。该测试强调,一般来说,原地和AVE演示之间的定位误差差异很小,与以前的研究相当。然而,对于某些使用Ambisonics创建的样本,在偏离中心的聆听位置测出了明显的差异。需要进一步研究以确定这种差异的原因。我们考虑了判断时间,发现两种听觉化方法在两个聆听位置的所有样本中都很匹配。

在这些验证测试之后,AVE将被用来研究在盲目的直接比较测试中,在非中心聆听位置对空间音频系统的感知。除了定位之外,还将考虑其他受聆听位置变化影响的听觉线索。

索尔福德大学数据库测试程序如下:

clear; 
clc; 
close all;

load('SBSBRIR_x1y0_LS0deg.mat');              %读入数据

%% 0
hL=SBSBRIR.irChOne(:,1);%左耳
hR=SBSBRIR.irChTwo(:,1);%右耳

plot(hL);

运行结果如下:

给语音信号加混响的常用方法(方法三)_第6张图片

 

 

 

你可能感兴趣的:(语音识别,人工智能)