1)响度测试
当今的媒体形式非常多样,无论对于广播电视这种单向的传输,还是多平台的互动娱乐或者网络媒体来说,响度不仅仅是一个信号传输上的技术标准,也是一个直接影响消费欣赏行为的重要问题(例如响度之战)。一首音乐作品,可能同时在所有这些平台里被播放,这在数字传播领域已经是件再正常不过的事情了。然而,这样的传播方式对于内容制作方来说的确是个非常棘手的事情。我们如何能够确保一个声音在不同平台播放时都能获得比较理想的效果。于此同时,我们还面临不同格式间的频率损失和动态损失。虽然,这种所谓的“效果”好坏是有时候非常主观的,但是在技术上,可以建立一些基本的框架规范,这就是常说的“频响”。不同频率的振幅响应,对于任何一个声音的响度来说都是决定性的。我们目前面临的问题其实不是造出这个会出声的一个数字文件,而是如何控制这个声音的不同频率上的振幅,或者说电功率,或者说响度。这时候我们面临一个问题:何为“响”、何为“轻”,我们需要一个客观的基本参照和依据。
目前对于“响度”这个事情的度量,已经有比较完善的体系,它和我们现在采用的“dB”测量体系一样成熟。我们先来了解一些音量和响度的参考值,以便于你更好理解其中的状况。传统上,关于一个声音样本的响度是有一些暧昧的标准的:
以上那两个标准更多的是业内人士的共识和普遍的习惯,并且被大多数人认可的。然而到了今天,所谓的业内人士越来越多的不那么专业和有操守了。很多入行已久的甚至不知道还有RMS这么一说,并且还是做录音的、做后期制作的。所以每当有前辈训斥响度不节制的时候,后生们一脸无辜地看着前辈,转身暗想“what the f**k is?”。
另有几个数值供参考:
你也可以去找一条高清版本的好莱坞电影Trailer,来看看它的RMS是多少....一定比你预想的要小很多!而且波形大多非常好看:波形起伏有致,不会连续长时间出现柱状体波形,而动态频响非常饱和。
上图中:第一条是电影Shooter(2007)的宣传片声轨,第二条是2015年初星战7的前期宣传片声轨。
|
RMS(dB) |
LKFS(dB) |
LRA(dB LU) |
Shooter |
-19.5 |
-17.3 |
13.9 |
SW VII |
-12.26 |
-10.3 |
20.7 |
而以上这些数值,一方面和习惯经验、审美有关,另一方面也和一系列制造工业标准、广播标准和影院标准有关。其实大部分符合工业标准的产品,都能够在播放上把声音放到足够大,并且音质在很大程度上取决于播放设备的质量。尤其是影院,这一标准和流程是非常严格执行的(天朝不算)。而现在普遍的听觉观念并不如此,即使普通耳机的阻抗已经降低到完全不需要耳放的时代,样本响度也是越来越大。
这里是电影“法老与众神”的声轨(720P, AAC压缩),
我抽取了中间44分钟做了一个响度检测:
随后用了Soundforge Pro for Mac 2做了RMS检测:
检测的数据结论:
小知识:这里的dB,全称都是dBFS(Decibles relative to Full Scale)。Full Scale意思就是:全频段20-20kHz、全动态(根据采样率,CD为120dB范围,DVD是144dB),国内对此的中文术语好像叫“全幅”。
现在问题来了,我们应该怎么看表头?我们先看一下目前普遍使用的表头都有啥区别。首先,比较古老的表头,我们都知道是VU表。
(0为上限,超过0的红线部分表示允许接受的额外冲程Headroom,主意它的单位不是dB。)
VU表是依靠指针的快速运动来告诉我们目前声音信号的电压变化情况,但是指针的摆动时靠机械方式来进行的,所以它的反应其实存在一些延迟,并且非常小的快速波动也可能反应不出来。而我们现在最常使用的电平表PPM表(Peak Program Meter,左侧竖条):
它只反应当前的峰值情况所以又叫作True Peak表头(dBTP)。PPM表定义的音量上限是0dB,超过0dB的算作0dB,但是有些专业的高精度表头能够显示0dB以上的情况。VU表头里上限的0,它不代表“0dB”,而是相当于PPM表的-20dB。也就是说,当VU表冲到0的时候,其实PPM还有20dB的富余空间允许声音运动的。有些PPM表里也会显示当前的平均峰值。
由于指针的物理性能限制,VU表所能显示的主要是电平的相对运动状态。运动幅度越大,表示动态越大。而PPM则主要显示出当前的峰值情况。两者都不能相对客观地显示出“响度”的情况。目前传播领域主要采用的是LKFS响度表。
Waves WLM:
TC LM2n:
两个表头同时检测对比:
(非常明显,它们的数值有差异)
其实当前国际通行的响度标准有很多,最新的、最普及的是ITU-R BS.1770-3标准(2012年制定),目前国内广播电视领域也明文规定采用这一标准。这个标准是N年进化的结果,最早也是由BBS和EBU(欧洲广播联盟)建立的。它也有一些为了不同应用领域的特殊改进体,例如BS.1770-2、EBU R128、TR-B32等等。在互动娱乐领域,目前Xbox One和PS4都已经引入了响度测试作为TRC标准,TRC标准是一种不可妥协的技术标准,未能达到这些技术指标的游戏产品是不允许在这两个平台上发布的,也就是说那样的产品不能在单机平台上市。同样,即使在iPhone、iPad或者一部三星手机上,DA转换的频响动态范围也是有一定标准的。这些标准不仅仅是为了工业化大批量生产的成本和质量平衡,同时也关系到用户的听觉体验。换个角度说,手机制造商很清楚,没有一个专业的制作人或者专业媒体会对你的手机喇叭做全面妥协,因为人家已经非常成熟了,手机厂商只能优先确保自己的手机喇叭可以很好地播放Tyler Swift的歌,而不是让Swift的制作人迁就我的手机。为此,各大厂商也参与或者参加了一系列的相关响度标准。具体可以参见:
Waves WLM预置的响度标准:
TC LC2n预置的响度标准:
和我们日常工作相关的,最终决定采纳和推广相关标准的主要是两家机构:
ITU:International Telecommunication Union(国际广播电讯联盟)
EBU: Europe Broadcast Union (欧洲广播联盟)
在ITU和EBU的响度标准以及计量标准里,目前广泛采用的是“响度表”(Loudness Meter),它和VU表、PPM表的意图是完全一样的,是一种新的表头。但是这种表头的界面上会出现一些全新的术语。了解或者理解这些术语,对我们的响度控制、动态控制有着非常非常非常重要的意义,是你工作的重要依据。先来看看这几个术语:
LKFS:Loudness, K-weighted, relative to Full Scale,全幅K权重响度单位。K权重是McGill大学和CRC(位于加拿大的通讯研究中心)共同研究出的成果,它是一个非线性的曲线,用来表达人对响度的感觉,据称是目前最公认的可以准确表达响度感觉的算法。这个算法对于数字信号的放大是具有重要意义的,因为无论广播电视还是游戏,都要解决声音在放大或缩小时候要确保波形失真非常小,并且符合听觉习惯。需要清楚的是,LKFS是一种响度计量单位,1LKFS = 1dB,所以后面的文章我会用“dBLKFS”来表达。
LUFS:Loudness Units Full Scale,也是一种响度计量单位。本质上和LKFS没有区别,LUFS只是EBU对LKFS的称呼术语,以显示自己的逼格。1LUFS = 1dB。
Gating: 门限,并且是个现在进行时的动词。这个参数不是所有响度表和响度处理工具里都有的。比方说古典音乐和电影,经常会出现大段的非常安静或者小声的段落,但有时候会非常大声,对于这样的复杂情况,我们用什么样的方法来描述它的整体响度感觉、甚至是提供一个比较客观的测量依据?Gating的作用就是忽略一些比较低的电平,比方说常见的低于-45dB的都忽略掉,那么剩下比较大声的声音就可以用来描述我们的感觉。对我们来说,或许还有另一个非常重要的帮助:响度的判断依据,尤其你的听感,是需要一个比较稳定的依据的(后面我会提到这个问题)。比方说我们日常生活中听流行音乐比较多一些,无形之中,我们对流行音乐的各种音量和响度变化是有一个听感指标的,尽管很模糊,但多少还是有的。而当我们在处理一个电影或者游戏的时候,往往就会茫然,不知道让它怎么响才好。那是因为我们对那种复杂的声音变化、或者我们不那么熟悉的声音,在响度上的判断依据过于模糊甚至没有。而流行音乐往往可以作为我们的判断参考。而这个门限的作用方式就是这个目的。当然,是否打开Gate、以及打开Gate后得到的响度值体系,依然是需要你自己去建立听感的,甚至是需要训练听感的。Gating的作用就是帮助你建立响度的对比测试判断体系。
大多数时候我们不会听到音量持续不变的声音,所以1770标准采用的响度测试方式是:连续30分钟播放的测试时间内,平均响度在-24dB LKFS左右(EBU标准是-23dBLUFS),而上限是-12dBLKFS,超过-12dBLKFS的被认为响度过载。
对于游戏来说,这个问题也因此变得复杂起来,因为几乎没有一个独立样本会持续那么长时间。所以,我们会更关心短时响度(short term loudness),和游戏运行时候的平均响度Average Loudness和Max Short Term Loudness(短时最大响度,一般测量400-3000ms之间)。当然,有时候我们还要关注低响度状态的持续时间和响度值,这也是非常重要的。如果低响度状态的持续时间和响度值过低,那么整体听起来就会过于清淡了,甚至有些玩家的耳机会出现啥声音都没有的情况,这种感觉是非常不自然的。其实,不仅仅在游戏整体输出的时候,即使在游戏的BGM后期制作和平衡时候也是必须要考虑这几个数值的,尤其是低响度状态,往往是容易被我们忽视的。从下面的截图里可以清晰看到这些数值。
(至于这些数值对你有啥意义,这的确是一件需要听觉训练的事情,下文提供了一些我个人的经验分享)
为了让你有更直观的关于响度的认知,找到了一份不错的图,从而帮助你了解不同媒介平台的响度范围标准:
最近两年响度表插件也变得比较多了,像TC Electronic这种常年主要干这事情的公司来说,这件事情可以做的让人很放心,好看又好用。你可以清晰观察到一段时间里响度的变化范围,也可以导出一张类似手纸一样长的表格陪你度过美好的厕所时间,也可以通过极其快速的数字指针实时告诉你目前的峰值和平均值情况。
注:LC2n不仅是个响度表,它还可以对样本进行响度处理(可以单独运行,也可以作为Offline插件使用),而它的纯表头版本LM2n则只是一个响度表。它的左边是原样本,右边是处理后的结果。
LC2n提供了一些目前比较常用平台的响度预设,比如iPhone和iTunes,可以根据需要直接选定了处理即可。但这个工具目前还是比较坑人的,比如说批处理之后总是会把分贝值加到样本名称里去...并且没有选项取消这个动作。
这有一条GRP在1990年出版的Dave Weckl的录音(44/16 WAV):
用标准响度测试得到的结果(左侧雷达图)
当我们切换到Mobile模式,并且让它为手机进行响度优化的时候,左侧雷达显示了当前样本在手机里播放结果,而右侧雷达则显示出响度标准建议的样子:
选GRP(已经倒闭)的作品是因为GRP是唱片业最黄金的时代制作的高质量作品,它采用的是模拟录音和经典的数字混音技术,所以在频响和响度控制方面具有代表性。这是一个比较典型的例子,左侧雷达显示出了一条样本在手机里播放的响度结果。为手机平台处理后的结果中,平均响度LKFS增加了大约3dB。但是LRA没有变化。我们来看下文件名:
上图中,上面是响度纠正后的文件名,标示出了目标响度结果。下图是处理后的波形显示:
http://html.midifan.com/download/game/Dave_Weckl_01_Tower_Of_Inspiration_INT-16.1_LRA5.1.wav
再来对比一下原来的波形:
http://html.midifan.com/download/game/Dave_Weckl_01_Tower_Of_Inspiration.wav
上例中,处理前后的响度大约差了3dB,而我们的实际听觉感受或许要比这个数值大一些。处理后的样本RMS是-19.3dB,并没有达到通常-16dB的强度,但是听起来音量很大。假如,我们把这条响度处理后的样本16kHz以上切除(API 560EQ):
波形上看响度差异并不大,测到的LKFS响度是-16.9(切除前是-16.1)。
而实际感受的耳压响度却有非常大的不同:
http://html.midifan.com/download/game/Dave_Weckl_01_Tower_Of_Inspiration_INT-16.1_LRA5.1_Cut16kHz.wav
这个例子告诉我们,频响对耳朵感受到响度的影响是非常大的,这也是我们可以大加利用的重要手段,其实也是混音里常用的手段。
经过对比测试和游戏里测试,大多数样本和音乐在这个响度时候(-16dB LKFS) ,可以在iOS或者Android手机上有比较不错的表现。这个过程里,LC2n会对样本响度做调整,但不是简单的动峰值或者压缩,而是非线性的修改。我自己测试了一些巨大的声音很过小的声音样本在LC2n修改后的结果,非常棒!整体基本听不出来内容上的失真,音乐中各声部乐器的比例关系保存完好,整体频响在放大或者缩小12dB尺寸的时候依然能够保持同一听觉比例。而传统的插件在放大或缩小音量的时候往往会出现明显变形。
在你观察响度变化的时候:
TC的PPM True-peak电平表是业内比较厉害的,它直接从采样点里来读取振幅数据,并且可以非常小的误差来显示两个采样点之间的电平差,而很多其他的PPM表其实并没有这么高精度,误差甚至高达3dB,换句话说,那样的PPM表是给你当VU表来看的,只能看一个大约的想对关系。当然,有时候我们的确需要能够充分显示想对峰值的电平表,比如混音。精确的PPM TP表还涉及到另一个问题:放大和缩小一个样本时候每个采样点的振幅偏移精度。不要小看这个问题,很多厂商给出的音量放大或者缩小功能是有问题的,能把一个正圆放大成一个椭圆。所以像Flux、TC、Sonnox和McDSP这些抠门的厂商为何要卖这么贵插件,原因也在这里。
呵呵...有些插件就比较奇葩,比如说Waves的WLM。我个人和一些洋人的测试表明,WLM的测试结果不那么准,甚至同样的样本每次都可能得到不同的测试结果。你可以随便找一条WAV的音乐,让WLM来检测一下,每次你得到的LKFS最终数值可能是一样的,但是在扫描过程中,你会明显发现每次情况是那么的不同。这就奇怪了!最终数据是怎么得出来得呢?并且WLM的界面无法让我们看到一段时间里响度的连续变化状态,它只能显示当前状况和平均值。当然,Waves说你可以把得到的数据导出(CSV格式),而且还可以打印出来,做成一份好看的曲线图!(有这么闲?)实际上,大多数响度电平表都是这样的问题,你很难实时地、直观地看到一段时间里响度的变化状态。而这种连续变化的状态、以及这些大小响度之间相对变化情况,才是我们更需要关心的。否则我们不需要一个这么复杂的表头,而只要一个指示灯就可以了。
另一个比较廉价、但也比较靠谱的办法是在Soundforge里,可以打开自带的Normalize插件,把模式切换到RMS,就可以得这段样本的平均RMS响度。而它的界面里有一个选项:45dB等响度加权(低于-45dB的信号不做分析)
个人建议不要使用这个加权,因为你真的不知道结果到底对不对,。并且我对比了SoundForge Pro 11和SoundForge for Mac 2,同样的样本检测结果有时候居然会不一致!
同样那条Dave Weckl的录音,处理前的样本在SF测到的RMS:
用TC LC2n处理后的样本测到的RMS:
可以清晰地注意到,RMS数值和LKFS数值的差异是很明显的。
如果你已经对RMS的数值有一定的经验的,现在开始学习LKFS数值体系,你可能会面临一个问题:RMS和LKFS之间是啥关系?有一片技术文档提供了一份比较准确、但是难以捉到规律的对照关系图:
这份对照图只是在数据上进行了一些对比,以供我们参考。实际上,RMS和LKFS之间没有简单的线性数值关系,也不应该有!因为LKFS是包含了“听觉感知响度”加权的,而RMS本质上只是电学功率。所以,那样的比较其实意义不是很大。
请注意:RMS只是代表电功率。和你听到的响度存在很大差异!在使用RMS数值测量和调整响度的时候,大多数时候需要靠听觉经验来判断两个声音的频响和景深是否一致,然后和这里得到的检测数值做对比。尤其是低频,你的监听耳机大多不能准确反映50Hz以下的低频,而这些低频却会导致RMS的数值变得很大!这也是为何这里引入了一个等响度曲线加权的模式供你选择的原因。最简单的,只要一个-20dB的30Hz低频加入一段环境声,RMS和LKFS得到的数据就会有很大差异,你可能凭听力都察觉不到这个低频,甚至去掉这个频段的前后在波形上都不一定会有明显区别。这就会导致你在看表头和听力判断的时候出现很大偏差,表头和听觉经验之间似乎对不上号了。相信我,这种情况普遍的不能再普遍了!在任何一个游戏里,至少80%的样本都会存在这个要处理的问题。所以,好的声卡和监听、好的听觉训练和监听习惯非常重要!这时候,听力和好的设备就是唯一良药。
我个人往往是通过打开一个靠谱的频谱插件来观察确认的。因为后期大部分都在SoundForge里进行处理,所以RMS和实际听觉响度之间的关系最好还是要训练一下的。最常见的情况是:假如一个样本的RMS超过-16dB了,砍掉30Hz(24dB/Oct)以下就接近或达到-16dB了;并且你完全感觉不到低频少了点什么。可能的原因在于:你的监听未能反应出这个30以下的频段,也可能30以下的部分太弱了,但它足以让RMS变大;也有一种可能是(更多是这种情况),其他的频段把30Hz彻底掩盖了(声遮掩现象)。你只能通过好的频谱软件去了解这是哪种情况。(另请注意, Waves的频谱分析是业内的一个笑话,非常不准,尤其低频的分析显示!还不如soundforge自带的分析器靠谱。尤其是它的低频部分,有时候会显示出其他频谱未能显示出来的低频强度,这也算是一种特殊技能吧。)
注:关于RMS和LKFS之间的关系,学术界是有一些公论和成果的。具体在这里(http://www.tcelectronic.com/loudness/literature-glossary/)去找一份叫做Momentary Loudness RMS Filter Options的文章。
其实吧,响度测试的问题没有大伙表面看的那么神秘。对于我等凡夫俗子,只要会读这种表头就好了。习惯看表头之后,其实真正的难度在于你如何把一个声音控制在这个规范或者预期的响度范围里,如何把一个项目里成千上万的样本都调整到这样一个范围里去?如何确保最终整体的输出响度也会在你的预期范围内?或许你会想两个问题:
如果你诚心想遵守响度条约,但又对以上那些术语感觉非常异次元,那么最简单的办法是:记住那些常用的RMS或者LKFS响度标准,然后尽量让自己的样本符合它的要求。
关于这些插件的具体使用方式,我们日后探讨。这里介绍一下我个人的响度表使用方法:
个人经验:
有些同学比较理智,会说:国内山寨机一个赛一个响,三线城市满大街拿手机在听歌的,响得跟大喇叭似的。我们知道,听力其实是需要呵护的,作为声音的专业人士,我们的确有这样的职责去帮助别人养成更好的听觉习惯和更高的听觉审美。如果我们不做,还会有谁做呢?人的听觉习惯和审美都是被培养的,很多就是习惯。
这一系列文章的目的,其实就是为了探讨这些问题。一个受过长期且严格听力训练的设计师或者后期制作人员,在合适的专业监听条件下,是可以凭借他的听力来做到的。更多时候,看表头只是为了参考、或者更精准地把握情况而已。说白了,某个地方响了,你总得明确知道在哪里...响了多少...为啥响了…诸如此类的问题吧?再者说,看表头并不是那么有效率的事情,游戏的样本可能在一个项目里高达几万个,自己的听力应该就是最有效率的检测仪。出了Waves和TC,目前提供响度表的厂商还有:
响度与响度处理经验谈之三部曲: