游戏引擎基础(六)(声音系统,音频APIs)
第
6
部分
:
声音系统,音频
APIs
声音系统
由于人们玩的游戏在种类和技术上的进步,声音和音乐近几年来在游戏中正逐渐变得重要起来(声音是一个实际游戏的可玩特点,比如在 Thief 和其它同类游戏中的听觉提示)。现在四声道环绕系统在游戏玩家的宝库中是负担得起的和平常的事。给定空间的声音,噪音的障碍和闭塞,和动态的音乐,如今许多游戏使用这些提高玩家情绪上的反应,更多的关注投入到这个领域就不足为奇了。
现在在 PC 竞技场中,游戏玩家实际上只有一种声音卡可以选择 -- PC 声卡制造商创新公司( Creative Labs )的 Sound Blaster Live ! 从旧的时间个人计算机声音卡片制造业者有创造力的中心 . 多年来创新公司已经为 DirectX 提供了他们的 EAX 声音扩展,并且他们是发起新的 OpenAL (开放音频库 Open Audio Library )的创立者。就如同 OpenGL 是一个图形 API 一样, OpenAL ,像它起来听一样,是一个声音系统的 API 。 OpenAL 被设计为支持大多数通常声卡的许多特征,而且在一个特定的硬件特征不可得时提供一个软件替代。
为了更好的定义 OpenAL ,我向创新公司的 Garin Hiebert 询问了其定义 :
" 这里借用我们的 " OpenAL 规格和叁考 " 的一个定义 :
OpenAL 是对音频硬件的一个软件接口 , 给程序员提供一个产生高质量多通道输出的能力。 OpenAL 是在模拟的三维环境里产生声音的一种重要方法。它想要跨平台并容易使用,在风格和规范上与 OpenGL 相似。任何已经熟悉 OpenGL 的程序员将发现 OpenAL 非常熟悉。
OpenAL API 能容易地被扩展适应插件技术 . 创新公司已经把 EAX 支持加入到这套 API 了,程序员可以用来给他们的声音环境增加复杂的反响,比赛和障碍效果。
如同 Jedi Knight II: Outcast 一样,连同 Eagle 世界 / 声音特征编辑器 ,Soldier of Fortune II 以这个新系统为特征。什么是 Eagle ? 在介绍这个以前,让我们讨论一些其他的系统,并定义一些声音术语。
另外的一个系统是 Miles 声音系统。 Miles 是一家公司,它为你的代码生产插件,在充分利用每块声卡时处理所有必须的到特定声音卡的说话(比如 Sound Blaster Live !系列,或者老的 A3D 声卡)。它非常像一个 API 前端,捆绑了一些额外的特征在里面。 在其他事物当中 Miles 让你存取一些事物像 MP3 解压缩。 它是很好的解决方案,但像任何事一样,它花费金钱并是你的代码和硬件之间的额外一层。虽然对於快速的声音系统制造,它非常有用,而且他们有段时间了,因此他们的确精通自己的业务。
声音术语
让我们开始障碍和闭塞。它们听起来一样,但不是这样。闭塞基本上意谓着一个声音在播放时听者在他们之间有一些闭合的障碍物。
比如说,在 NOLF2 的一个屏幕镜头上你听到房子里面坏蛋的声音。你能听到他们,但是他们的声音相当低沉而沙哑。障碍是相似的,但是你和声音之间的障碍物并不是闭合的。一个好的例子就是在你和声源之间有一根柱子。由于房间中的回声你仍然听得到这个声音,但是它和声音直接传递到你的耳朵里是不同的。当然这确实依赖于知道在你的耳朵和声源之间的直线上是什么。而且根据房间的大小,声源到你的距离等等,需要的处理能变得相当耗时。后面我们将会谈到跟踪 -- 足可以说它时常是比较慢的幀速率的原因。 Quake III 里面的 A3D 代码做了这些事情,关闭这些选项通常能够提高幀速率。 Tribe 2 是这种弊病的另外一个受害者。关闭 3D 声音选项则你的幀速率立即好转,这在你考虑 Tribes 世界有多大和你能看见多远时有意义。
接着是声音物质的特征。大部分声卡可以让你能够用可定义的过滤器作用于声音从而修正播放的声音。例如,在水下,或者在一个布料遮盖的房间中,或者在一个长的走廊中,或者在歌剧院,听到的声音有着很大的不同。能够根据你所处的环境改变你听到声音的方式是相当不错的。
我们回到 Eagle… 这是一个编辑器,允许多数第一人称射击游戏地图设计者将他们的地图导入到这个工具,然后构造简化的几何形体来为实际游戏引擎中的 EAX 代码产生一个声音地图。其思想是你不需要一个真实的图形地图的复杂几何形体来模拟声音环境。你也能够给产生的简化地图分配声音物质,这样声音环境就能够动态地改变。我亲眼目睹了这在 Soldier of Fortune 和 Unreal Tournament 上的示范,确实相当引人注目。 我这在财富和 Unreal 巡回赛和它的军人上真的对示范是证人相当醒目 . 当你跳入水中时,听到所有的声音改变,这是一个非常令人沉浸的经历。
好,让我们继续吧。
对于游戏机,由于静态的硬件,你的各种可能性会更受限制 — 尽管在 PlayStation 2 和 Xbox 上,硬件相当不错。我说的限制,仅仅是指扩展,而不是它所能够做的。我一点也不会感到惊讶看到这些游戏机上的游戏很快支持杜比数字 5.1 ( Dolby Digital 5.1 )输出。 Xbox ,由于它的 MCP 音频处理器,能够将任何游戏音频编码为 5.1 ,并且游戏不需要特别编码就能利用这个特征。杜比( Dolby )把 ProLogic II 带到了 PS2 上,并与 Factor 5 合作为 GameCube 游戏实现了 ProLogic II 。在 Xbox 之上, Halo, Madden 2002 和 Project Gotham Racing 等游戏都有 5.1 杜比数字音频内容。 DTS 最近也为 PS2 游戏开发者发布了 SDK ,为这个平台上的游戏带来了降低了比特率的 DTS 音频版本。
位置的声音 -- 一个复杂的世界
现在有一些很少有处理的声音空间化问题。我说的是把声音放在一个真实的 3D 世界中。有四个扬声器在你周围是一个很棒的开始,但这仍然只是在二维方向。在你的上方和下方没有扬声器,你没有真正获得 3D 声音。有一些声音调制过滤器试图解决这个问题,但实际上没有真实东西的代替物。当然真实地大多数游戏多半只是在二维方向上,因此这仍然不是太大的问题。
实际上任何声音系统最重要的特征之一是把声音混合在一起。根据你所处的位置,空间中声音的位置,每个声音的音量大小,一旦你决定了实际上你能够听到的声音,然后你必须混合这些声音。通常声音卡自己处理这些,这首先是声音卡存在的主要原因。然而,外面有一些引擎决定首先用软件做一次 ‘ 预混合 ’ 。直到你着眼于一点点历史以前,这并没有真正地带来多大的意义。
当声音卡最初问世的时候,有许多不同的混合方法。一些声卡可以混合 8 种声音,一些单位 16 种,一些 32 种,等等。 如果你总想听到 16 种可能的声音,但你不知道声音卡是否能够处理,那么你回到了尝试和试验的道路上 — 就是你自己用软件混合。这实际上是 Quake III 声音系统的工作方式,但提一个问题 :"Quake III 是为 A3D 和 Sound Blaster Live !声卡世界发布的,这比以前更加标准化,为什么还这样做? " 这是个好问题。实际上 Quake III 的声音系统几乎每行代码都和 Quake II 中的声音系统一样。而且 Quake I ,甚至 Doom 也是这样。你想一想,向上直到 A3D 声卡和 SB Live! 声卡,许多年来声音系统的需求没有真正地改变过。两个扬声器,二维方向,音量简单地随着距离减小。从 Doom 一直到 Quake III 没有发生太大变化。而且在游戏行业中,如果不是迫不得已,别理会它。
通常你会仅仅使用 DirectSound 为你做声音混合,因为它会可以使用的声音硬件,或者转而依靠软件,很多地方就像 DirectX 为 3D 显示卡所做的一样。在 90% 的声音情形中,依靠软件混合对你的幀速率没有真正发生太多不同。当 DirectSound 在一些狂热的编码者眼中甚至还不是一丝光线时, Doom 引擎就已经产生了。它从来没有得到更新过,因为它从来就没有真的需要更新。
当然,你可以使用 SoundBlaster Live !声卡的一些聪明特征,例如房间的回声特性 : 一块石窟,或一个礼堂,一个巨穴 , 一个足球体育馆等。而且你真的应该使用由硬件提供的混合器,毕竟,那是它存在的目的。这种方法的一个不足之处是程序本身时常无法获得混合结果,因为混合是在声卡内部完成而不是在主存。如果由于某种原因你需要看到产生的音量,你是运气不好。
Music Tracks in Games (游戏中的音轨)
我们没有过多的谈到游戏中的音乐生成。传统的有两种方法,一种是简单的音乐 .wav 文件 ( 或同等物 ) 。它被预先制作做好,准备运行,和最小忙乱。然而,这些在内存和回放时间方面很昂贵。第二种方式用预设的样本编码 MIDI 音轨。这时常比较节省内存,但缺点是必须同时把一些声音混合在一起,因而会把声音通道用光。
动态音乐就是根据在游戏中目睹的行动改变你的音乐的能力,比如探险用慢节奏的音乐,战斗用快节奏的音乐。预先制作的音乐的一个困难之处是要合拍,因此你可以从一段音乐渐弱到另一段音乐,这对于 MIDI 音轨比较容易。尽管时常你足够快速地淡出,或者一段音乐在播放另一段音乐之前已经消失了,你能侥幸不被察觉。
在我们离开这个主题之前,顺便说一下,值得一提的是存在一些公司专门为你的游戏创作特定意义的音乐。 FatMan(www.fatman.com) 就是一家这样的公司。音乐可能比其他别的东西更加容易外包,这是他们存在的方式。
最后,游戏现在的事情自然是 MP3 格式,允许巨大的 11 : 1 的声音样本压缩,然而在送到声音卡之前只花费 CPU 很少的时间解压缩。当我在 Rave Software 工作时,在 Star Trek Voyager: Elite Force 中,我们设法用 MP3 在一张 CD 上面完全支持三种语言,仍然为较多的图形留有空间。主要地,我们 MP3 只用于非玩家角色( NPC )的语音,由于游戏的全部音频效果 MP3 流和动态解压缩超出了硬件的处理能力,虽然在将来这是肯定可能的。比较新的格式,如来自 Dolby 的 AAC 和来自微软的 WMA ,以将近两倍 MP3 的压缩率提供了相等或者更高的音频质量(实际上一半的比特率),可能应用到将来的游戏中。
以上是这一章节的内容,下面将是网络和连线游戏环境的开发。
声音系统
由于人们玩的游戏在种类和技术上的进步,声音和音乐近几年来在游戏中正逐渐变得重要起来(声音是一个实际游戏的可玩特点,比如在 Thief 和其它同类游戏中的听觉提示)。现在四声道环绕系统在游戏玩家的宝库中是负担得起的和平常的事。给定空间的声音,噪音的障碍和闭塞,和动态的音乐,如今许多游戏使用这些提高玩家情绪上的反应,更多的关注投入到这个领域就不足为奇了。
现在在 PC 竞技场中,游戏玩家实际上只有一种声音卡可以选择 -- PC 声卡制造商创新公司( Creative Labs )的 Sound Blaster Live ! 从旧的时间个人计算机声音卡片制造业者有创造力的中心 . 多年来创新公司已经为 DirectX 提供了他们的 EAX 声音扩展,并且他们是发起新的 OpenAL (开放音频库 Open Audio Library )的创立者。就如同 OpenGL 是一个图形 API 一样, OpenAL ,像它起来听一样,是一个声音系统的 API 。 OpenAL 被设计为支持大多数通常声卡的许多特征,而且在一个特定的硬件特征不可得时提供一个软件替代。
为了更好的定义 OpenAL ,我向创新公司的 Garin Hiebert 询问了其定义 :
" 这里借用我们的 " OpenAL 规格和叁考 " 的一个定义 :
OpenAL 是对音频硬件的一个软件接口 , 给程序员提供一个产生高质量多通道输出的能力。 OpenAL 是在模拟的三维环境里产生声音的一种重要方法。它想要跨平台并容易使用,在风格和规范上与 OpenGL 相似。任何已经熟悉 OpenGL 的程序员将发现 OpenAL 非常熟悉。
OpenAL API 能容易地被扩展适应插件技术 . 创新公司已经把 EAX 支持加入到这套 API 了,程序员可以用来给他们的声音环境增加复杂的反响,比赛和障碍效果。
如同 Jedi Knight II: Outcast 一样,连同 Eagle 世界 / 声音特征编辑器 ,Soldier of Fortune II 以这个新系统为特征。什么是 Eagle ? 在介绍这个以前,让我们讨论一些其他的系统,并定义一些声音术语。
另外的一个系统是 Miles 声音系统。 Miles 是一家公司,它为你的代码生产插件,在充分利用每块声卡时处理所有必须的到特定声音卡的说话(比如 Sound Blaster Live !系列,或者老的 A3D 声卡)。它非常像一个 API 前端,捆绑了一些额外的特征在里面。 在其他事物当中 Miles 让你存取一些事物像 MP3 解压缩。 它是很好的解决方案,但像任何事一样,它花费金钱并是你的代码和硬件之间的额外一层。虽然对於快速的声音系统制造,它非常有用,而且他们有段时间了,因此他们的确精通自己的业务。
声音术语
让我们开始障碍和闭塞。它们听起来一样,但不是这样。闭塞基本上意谓着一个声音在播放时听者在他们之间有一些闭合的障碍物。
比如说,在 NOLF2 的一个屏幕镜头上你听到房子里面坏蛋的声音。你能听到他们,但是他们的声音相当低沉而沙哑。障碍是相似的,但是你和声音之间的障碍物并不是闭合的。一个好的例子就是在你和声源之间有一根柱子。由于房间中的回声你仍然听得到这个声音,但是它和声音直接传递到你的耳朵里是不同的。当然这确实依赖于知道在你的耳朵和声源之间的直线上是什么。而且根据房间的大小,声源到你的距离等等,需要的处理能变得相当耗时。后面我们将会谈到跟踪 -- 足可以说它时常是比较慢的幀速率的原因。 Quake III 里面的 A3D 代码做了这些事情,关闭这些选项通常能够提高幀速率。 Tribe 2 是这种弊病的另外一个受害者。关闭 3D 声音选项则你的幀速率立即好转,这在你考虑 Tribes 世界有多大和你能看见多远时有意义。
接着是声音物质的特征。大部分声卡可以让你能够用可定义的过滤器作用于声音从而修正播放的声音。例如,在水下,或者在一个布料遮盖的房间中,或者在一个长的走廊中,或者在歌剧院,听到的声音有着很大的不同。能够根据你所处的环境改变你听到声音的方式是相当不错的。
我们回到 Eagle… 这是一个编辑器,允许多数第一人称射击游戏地图设计者将他们的地图导入到这个工具,然后构造简化的几何形体来为实际游戏引擎中的 EAX 代码产生一个声音地图。其思想是你不需要一个真实的图形地图的复杂几何形体来模拟声音环境。你也能够给产生的简化地图分配声音物质,这样声音环境就能够动态地改变。我亲眼目睹了这在 Soldier of Fortune 和 Unreal Tournament 上的示范,确实相当引人注目。 我这在财富和 Unreal 巡回赛和它的军人上真的对示范是证人相当醒目 . 当你跳入水中时,听到所有的声音改变,这是一个非常令人沉浸的经历。
好,让我们继续吧。
对于游戏机,由于静态的硬件,你的各种可能性会更受限制 — 尽管在 PlayStation 2 和 Xbox 上,硬件相当不错。我说的限制,仅仅是指扩展,而不是它所能够做的。我一点也不会感到惊讶看到这些游戏机上的游戏很快支持杜比数字 5.1 ( Dolby Digital 5.1 )输出。 Xbox ,由于它的 MCP 音频处理器,能够将任何游戏音频编码为 5.1 ,并且游戏不需要特别编码就能利用这个特征。杜比( Dolby )把 ProLogic II 带到了 PS2 上,并与 Factor 5 合作为 GameCube 游戏实现了 ProLogic II 。在 Xbox 之上, Halo, Madden 2002 和 Project Gotham Racing 等游戏都有 5.1 杜比数字音频内容。 DTS 最近也为 PS2 游戏开发者发布了 SDK ,为这个平台上的游戏带来了降低了比特率的 DTS 音频版本。
位置的声音 -- 一个复杂的世界
现在有一些很少有处理的声音空间化问题。我说的是把声音放在一个真实的 3D 世界中。有四个扬声器在你周围是一个很棒的开始,但这仍然只是在二维方向。在你的上方和下方没有扬声器,你没有真正获得 3D 声音。有一些声音调制过滤器试图解决这个问题,但实际上没有真实东西的代替物。当然真实地大多数游戏多半只是在二维方向上,因此这仍然不是太大的问题。
实际上任何声音系统最重要的特征之一是把声音混合在一起。根据你所处的位置,空间中声音的位置,每个声音的音量大小,一旦你决定了实际上你能够听到的声音,然后你必须混合这些声音。通常声音卡自己处理这些,这首先是声音卡存在的主要原因。然而,外面有一些引擎决定首先用软件做一次 ‘ 预混合 ’ 。直到你着眼于一点点历史以前,这并没有真正地带来多大的意义。
当声音卡最初问世的时候,有许多不同的混合方法。一些声卡可以混合 8 种声音,一些单位 16 种,一些 32 种,等等。 如果你总想听到 16 种可能的声音,但你不知道声音卡是否能够处理,那么你回到了尝试和试验的道路上 — 就是你自己用软件混合。这实际上是 Quake III 声音系统的工作方式,但提一个问题 :"Quake III 是为 A3D 和 Sound Blaster Live !声卡世界发布的,这比以前更加标准化,为什么还这样做? " 这是个好问题。实际上 Quake III 的声音系统几乎每行代码都和 Quake II 中的声音系统一样。而且 Quake I ,甚至 Doom 也是这样。你想一想,向上直到 A3D 声卡和 SB Live! 声卡,许多年来声音系统的需求没有真正地改变过。两个扬声器,二维方向,音量简单地随着距离减小。从 Doom 一直到 Quake III 没有发生太大变化。而且在游戏行业中,如果不是迫不得已,别理会它。
通常你会仅仅使用 DirectSound 为你做声音混合,因为它会可以使用的声音硬件,或者转而依靠软件,很多地方就像 DirectX 为 3D 显示卡所做的一样。在 90% 的声音情形中,依靠软件混合对你的幀速率没有真正发生太多不同。当 DirectSound 在一些狂热的编码者眼中甚至还不是一丝光线时, Doom 引擎就已经产生了。它从来没有得到更新过,因为它从来就没有真的需要更新。
当然,你可以使用 SoundBlaster Live !声卡的一些聪明特征,例如房间的回声特性 : 一块石窟,或一个礼堂,一个巨穴 , 一个足球体育馆等。而且你真的应该使用由硬件提供的混合器,毕竟,那是它存在的目的。这种方法的一个不足之处是程序本身时常无法获得混合结果,因为混合是在声卡内部完成而不是在主存。如果由于某种原因你需要看到产生的音量,你是运气不好。
Music Tracks in Games (游戏中的音轨)
我们没有过多的谈到游戏中的音乐生成。传统的有两种方法,一种是简单的音乐 .wav 文件 ( 或同等物 ) 。它被预先制作做好,准备运行,和最小忙乱。然而,这些在内存和回放时间方面很昂贵。第二种方式用预设的样本编码 MIDI 音轨。这时常比较节省内存,但缺点是必须同时把一些声音混合在一起,因而会把声音通道用光。
动态音乐就是根据在游戏中目睹的行动改变你的音乐的能力,比如探险用慢节奏的音乐,战斗用快节奏的音乐。预先制作的音乐的一个困难之处是要合拍,因此你可以从一段音乐渐弱到另一段音乐,这对于 MIDI 音轨比较容易。尽管时常你足够快速地淡出,或者一段音乐在播放另一段音乐之前已经消失了,你能侥幸不被察觉。
在我们离开这个主题之前,顺便说一下,值得一提的是存在一些公司专门为你的游戏创作特定意义的音乐。 FatMan(www.fatman.com) 就是一家这样的公司。音乐可能比其他别的东西更加容易外包,这是他们存在的方式。
最后,游戏现在的事情自然是 MP3 格式,允许巨大的 11 : 1 的声音样本压缩,然而在送到声音卡之前只花费 CPU 很少的时间解压缩。当我在 Rave Software 工作时,在 Star Trek Voyager: Elite Force 中,我们设法用 MP3 在一张 CD 上面完全支持三种语言,仍然为较多的图形留有空间。主要地,我们 MP3 只用于非玩家角色( NPC )的语音,由于游戏的全部音频效果 MP3 流和动态解压缩超出了硬件的处理能力,虽然在将来这是肯定可能的。比较新的格式,如来自 Dolby 的 AAC 和来自微软的 WMA ,以将近两倍 MP3 的压缩率提供了相等或者更高的音频质量(实际上一半的比特率),可能应用到将来的游戏中。
以上是这一章节的内容,下面将是网络和连线游戏环境的开发。