3D图形芯片10年史话(转载)

   光阴似水,静静的悄悄的从我们每一个人的身边流过。转眼间, 2004的爆竹声又在窗外响起了。当笔者还沉浸在3D Game之中时,突然发现,3D图形芯片已经发展到了第十年。在这十年里,3D图形芯片的发展恐怕是一日千里都不足以形容的,为我们逐渐打开了3D世界的大门,将一个越来越真实的3D虚拟世界展现在我们面前。今天,笔者希望能和大家一起回顾一下3D图形芯片这十年来的风风雨雨。因个人水平限制,出错在所难免,希望各位不吝指出。

1994


首先让我们进入1994年,就是在这一年的4月, PC最早的3D硬件加速图形芯片在3Dlabs诞生了。它就是GLINT 300SX。它支持Gouraud shading(高氏着色),Depth buffering(深度缓冲),Anti-aliasing(抗锯齿处理),Alpha blending(α混合)。虽然这款产品我们今天看来是如此的简陋,但就是它,打开了我们3D的时代。
那个年代是S3 VIRGE,MATROX和ATI 3D RAGE的时代。VIRGE整体性能稍有优势,3D RAGE则提供了对光源的处理能力,是当时3D性能最全面的图形芯片。Mystique其抛开高昂的价格不谈, 3D性能的确十分出色,但与S3 VIRGE和ATI 3D RAGE 相比仍显不够全面。之后3D Labs又发布了Permedia,在3D方面表现抢眼,但2D性能较低。
在那个年代,一些配备了高端处理器的电脑中,有时软件加速的效果甚至比硬件加速的效果还要好,因此当时的图形加速卡也都被戏称为“图形减速卡”,直到一款产品的诞生,那就是Voodoo!Voodoo面世领导了一场真正的3D革命,把我们的视觉带入了3D世界,使PC机从此具有了和街机几乎同级的3D处理能力,开创了PC界3D处理技术的先河。


1995-96

1995年11月,Voodoo诞生了,其性能之强在当时完全可以用震撼来形容。支持硬件雾化,Specular Hilight(镜面高光),Color-Key-Transparency(色键透明处理), Alpha Transparency(阿尔法透明处理), Bi-Linear filtering(双线性过滤),Tri-Linear filtering(三性线过滤),MIPMAP Linear(贴图过滤),Dithering(抖动处理),Perspective Correction(透视校正), Animated texturing(动画贴图),Anti-aliasing(抗锯齿), Gouraud modulation(高氏调节), Sub-pixel correction(次级像素矫正)等诸多划时代的3D效果,像素填充率更是高达45M Pixels/s。(在当时这个数字实在是。。。反正笔者那时是坚持认为这个数字是不可能的)次年的E3大展上,15个为Voodoo做过优化的游戏同时展出。绚丽的画面、行云流水的游戏速度让全世界的游戏玩家都震惊了,我们深切的感到:3D时代的真的来了。
不仅是硬件,Voodoo的软件支持也是当时最强的。不仅支持所有主要的3D的接口程序,还量身定做了其专用的3D API――Glide。其出色的性能,极佳的易用性和稳定性使其战胜包括Direct3D在内的各路竞争对手,得到软件厂商的青睐,在当时被公认为最好的3D接口程序。而且Voodoo 在设计的时候就针对Direct3D进行了优化,很多人都是因为Voodoo而认识Direct3D的。不过,对当时最热门的接口OpenGL的强力支持更使得Voodoo 在众多游戏中取得了令人震惊的画面和速度。
Voodoo(包括后来的Voodoo2)是一款3D图形加速子卡,并没有2D性能,玩家需要另外一块2D显卡。在其刚面世的时候,没有一家显卡公司愿意生产,都认为其高达500美元的售价根本不可能为玩家接受。当时3Dfx和著名厂商Diamond(帝盟)进行了谈判,3Dfx甚至愿意向Diamond免费提供Voodoo芯片半年,但就算这样,还是被Diamond拒绝了。但是突然间内存大跌使3Dfx绝处逢生,Voodoo火爆市场,完全供不应求。从此游戏进入了3D的时代,游戏世界从8bit、15fps提升到了16bit,纹理贴图的30fps。之后的一年里,Voodoo成了游戏显卡的代名词,是当时所有玩家都梦寐以求的,每一个玩家都为Voodoo而疯狂,几乎所有的玩家都成了忠实的“巫毒教徒”,几乎所有的游戏都“Only 3Dfx”,几乎所有的游戏都是采用Glide(3Dfx自己制作的专用API),Voodoo获得了前所未有的成功。
看到这里,很多读者可能都不禁要问,那Nvidia呢?现在的3D霸主Nvidia那时是怎样的?Nvidia那时是一家成立不久的小公司,在1995年,Nvidia发布了该公司的第一款图形芯片―-NV1,一款当时来说技术规格是相当抢眼的图形芯片。与Voodoo不同,NV1拥有完整的2D/3D的图形显示核心,最特别的是是其居然整合了一个具有350MIPS性能的声音处理核心,同时还包括I/O处理器。Nvidia当时为NV1定制了 Quadratic Texture Maps(二次材质贴图),这是一种利用多边形的曲线来计算从而实现游戏的3D效果的技术。但没过多久,Microsoft制定了Direct3D API。由于与Microsoft的标准不同,NV1遭遇灭顶之灾。Nvidia当时而言完全是名不见经传的后生小辈,结果支持者寥寥无几。幸好,当时的Direct3D还没有大规模流行开来,世嘉Sega成为Nvidia的合作伙伴,NV1就被用在出名的Sega游戏机上,在榴莲大为流行。就这样,Nvidia总算得以幸存。
值得一提的是,NV1虽然在显卡领域折戟,但它却是一款相当成功的声卡。由于NV1整合350MIPS的声音处理核心,其音频核心拥有32条16位CD音质的并行音频通道和简单的硬件支持3D定位音效,而且它的MIDI部分使用了6MB音效库并全放在系统内存里。这在当时几乎是最先进的做法,NV1几乎就是奠定了PCI声卡的DSL标准。(还好Nvidia后来没有转行去做声卡)
1995到1996是群雄逐鹿的年代,大批从2D时代风风雨雨过来的耄宿和3D时代新崛起的年轻后辈同场竞技。


1997

进入1997年,PC市场延续Voodoo独霸天下的局面。为了对抗3Dfx,第一季度,ATI推出了Rage Ⅱ图形芯片,之后又推出了其改良芯片-Rage Pro。Rage Ⅱ是ATI第一块具有硬件Z-buffering的芯片。texture compress(纹理压缩),Bi-Linear filtering(双线性过滤),Tri-Linear filtering(三性线过滤)还有纹理透视修正算法,以及Direct3D 纹理混合模式,像素填充率达到了10M /秒。Rage Pro 有一个单通道三线性过滤和完整的纹理混合选项以及VQ 纹理压缩,达到了45M Pixels /秒的像素填充率和1.2M三角形/秒的三角形生成引擎。这是第一款真正有能力向Voodoo发出挑战的图形芯片。但很可惜,它的驱动程序兼容性较差,不能充分发挥其性能。再加上ATI对零售市场那一贯的不冷不热的态度,这款显卡也就更多的见于OEM市场。
5月,3Dlabs发布了Permedia2图形芯片,其图形质量得到了相当的肯定,在Direct3D下,其性能也能与Voodoo堪堪打平,但在OpenGL下还是无法胜过Voodoo,更别提Glide。当时大部分游戏都对应OpenGL和Glide,Direct3D则是如同鸡肋。不得已,Permedia2更多的是面对专业市场。也是从此,3Dlabs开始逐渐远离主流市场,重心更多的放在了专业市场。
8月,Nvidia再次杀入3D图形芯片市场,发布了NV3,也就是Riva 128图形芯片。Riva 128是一款具有128bit的2D、3D加速图形核心,核心频率为60MHz,一条单材质处理单元的像素管线,它的最大像素填充率是60 M Pixels/s,材质填充率也是60 M Texels/s。最大支持4MB SDRAM/SGRAM显存,显存带宽为1.6GB/s,支持AGP 1x。其内置的硬件三角形处理引擎每秒可以进行5亿次浮点运算,生成120万个三角形。
虽然Nvidia通过其宽显存总线和内嵌兼容性技术在Direct X下超越了Voodoo,但是其在3D图形质量上始终稍逊一筹。即使如此,低廉的制造成本,高性能的2D/3D加速使之成为OEM厂商的最爱Nvidia总算在3D图形芯片市场立住了脚跟。
但是Riva 128显示核心最大仅仅支持4MB显存,这一点使得它的最大只能支持800x600分辨率。为此几个月后,Nvidia又推出了NV3的加强版本—RIVA 128ZX。与NV3相比,RIVA 128ZX所支持的最大显存从4MB增加到8MB,并开始支持AGP 2x,可以最大支持1280x1024分辨率。
Voodoo虽然强劲,但3Dfx很清楚的知道,单纯的3D加速子卡并不足以垄断显卡市场,整合2D/3D才是以后显卡发展的方向。8月,3Dfx发布了Voodoo Rush,一块让每一个"巫毒教徒"都想忘记的产品。其实但从纯粹的技术指标看,Voodoo Rush是很强大的。3Dfx自己设计了3D芯片,2D功能由Alliance Semiconductor的AT3D图形芯片实现,配备了6MB(4MB 3D,2MB 2D)或4M(2MB 3D,2MB 2D)显存,提供了硬件MPEG-I解码、软件MPEG 2解码和TV-OUT输出的功能。但是其2D画质粗糙,3D性能低下,最要命的是其兼容性相当差,一些支持Glide甚至都无法获得硬件加速支持,因此VOODOO Rush在昙花一现之后很快就在市场上消失了。
为了保持领先优势,1997年冬季,3Dfx发布了有史以来最成功的3D图形加速芯片――Voodoo2。Voodoo2最大像素填充率达到90M Pixels/s,达到了Voodoo的一倍。3D技术上,Voodoo2较前代的Voodoo增加了Z-buffering还有Anti-Aliasing功能,再加上3Dfx首先提出的“单周期双纹理”技术与“SLI(交错互连)”技术,Voodoo2在性能方面有了质的飞跃。这一芯片支持SLI技术,允许双卡互联,使性能翻倍!两块Voodoo2-SLI成为了当时全球玩家的终极梦幻配置,所有的玩家都以拥有其为荣。在当时看来,Voodoo 2绝对是一个不可思议的硬件产品。在Nvidia发布了Riva TNT之前根本没有任何3D图形芯片可以和Voodoo2较量,3Dfx也因此迎来其巅峰时刻!所有其他厂商的产品都在Voodoo2下黯然失色,用当时媒体的话来说,Voodoo2简直是处于独孤求败的境地!


1998

Intel:初试啼声
1998年的第一款3D图形芯片来自Intel。2月,当我们还沉浸在新年的喜悦之中时,大洋彼岸却传来了一个令人震惊的消息:Intel发布了i740,正式杀入3D图形芯片领域。几乎50%的市场占有率很好的说明了这个决定对整个桌面3D图形芯片领域的影响(2003年)。Intel的产品始终和市场主流产品有相当的差距,就拿其发布的第一款产品i740来说,它的性能还不及Voodoo2的一半,甚至连Voodoo都难及。但Intel把它们都整合到了自家的芯片组上,虽然性能不济,但还是占据了庞大的OEM和商务市场,令众多对手眼馋不已。(现在知道Nvidia和ATI为什么大举进军整合芯片组市场了吧?嘿嘿)

Nvidia:渐入佳境
也是在2月(莫非美国也有春节讨吉利?),Nvidia发布了Riva 128的升级版本Riva 128 ZX。一个月后,他们又发布了他们的真正意义上的传奇芯片―Riva TNT。TNT的核心技术Twin Texel引擎是一条双象素的32-bit渲染流水线,具有两条渲染管线,两个材质处理单元,允许在一个时钟周期内可以同时处理两个像素,其核心频率为90MHz(原计划是125MHz,因设计问题被降为110MHz,然后因生产工艺问题又降到90MHz),最大像素填充率达到了180M Pixels/s。不仅支持32位色深和24-bit Z-Buffer( 8-bit stencil) (Z-Buffer是一项处理3D物体深度信息的技术,它对不同物体和同一物体不同部分的当前Z坐标进行纪录,在进行着色时,对那些被其他物体所遮挡、不可见的结构进行隐藏。Z-Buffer所用的位数越高,它能够提供的景深值就越精确),更提供了对各项异性过滤和每像素MIP贴图(可以很好的提高成像的清晰程度)的支持,最大支持显存容量也提升到了16MB。
虽然受生产工艺制约,秋季发布的Riva TNT核心频率并没有Nvidia标称的那么高,其用这一显卡冲击Voodoo2的王者地位的意图也就功败垂成。但这一显卡也绝对是当时的经典之作,其在DirectX下的游戏性能已能同Voodoo2抗衡,向世人证明了强劲的3D性能不仅仅是3Dfx的专利。

ATI:再接再厉
1998年2月,ATI为Rage Pro发布了新的Turbo驱动程序,并把这个芯片重新命名为Rage Pro Turbo,作为一款新产品推向市场。但即使加上了最新的Turbo驱动程序,Rage Pro Turbo还是无法与Voodoo2抗衡。直到1999年5月,ATI发布了Rage Pro的最终驱动程序,总算把Rage Pro的性能全部发挥了除了。相比最初,Rage Pro的游戏性能有了20-40%左右的增长,但此时,下一代图形产品已经在市场上销售了。如果Rage Pro一开始就带着这些驱动程序销售,3D图形芯片市场又会呈现怎样的格局呢?真的很难想像。
10月,为了与Riva TNT和Voodoo2对抗,ATI 发布了Rage 128,包括Rage 128VR和Rage 128GL两款。其中Rage 128 VR是用在主板集成和低端显卡上的,Rage 128 GL主要是用在高端显卡上。当时,是唯一硬件上支持采用了OpenGL的雷神之锤III的3D图形芯片。Rage 128 GL支持DME的AGP纹理,标配32MB显存,ATI把它的核心时钟频率定为100MHz,最大象素填充率为200M Pixels /s,略高于Riva TNT。它的内存体系使Rage 128 GL&VR可以在32位色深下运行,而且性能损失很小。不过,Rage128GL 的16-位性能不是太理想,ATI 的16-位抖动算法使Rage128的 3D性能始终无法给Voodoo2造成太大威胁。而且上市一拖再拖,直到TNT2 和 TNT2 Ultra发布的几天前才姗姗来迟。虽然驱动程序依旧非常糟糕,游戏性能也是有待提升,但无论如何,Rage 128 GL不错的3D性能和一流的DVD支持能力还是让它在OEM市场上颇受欢迎。

Matrox:初涉3D
4月,Matrox发布了他们64bit的G100图形芯片。作为Matrox的第一代3D显卡,G100只能说是在原2D显卡的基础之上增加了一个3D渲染引擎,属于绝对的临时过渡产品。但即使如此,它还是有一些可圈可点之处。G100最大可支持8MB SGRAM,具有真正每像素Bilinear Filtering(双线性过滤)及Trilinear Filtering(三线性过滤),超强高亮度,雾化及抗失真等3D特性。另外,G100独有的Scatter-Gather Bus Mastering(分散聚集总线)技术,让显示芯片与CPU并行工作,可以有效减少CPU处理图形工作时的运算量,从而提升整体性能。在多媒体方面,它支持视频输入、视频CODEC和视频输出。但是G100的3D性能与对手相差甚远,高昂的售价更是妨碍了它的普及。
5月,为了挽回局面,Matrox又发布了G200。G200使用独一无二的128位双重独立总线结构,最多支持16MB SGRAM内存。由于在图形引擎内部设立了两条独立的64位总线并行使用,使许多2D图形操作的速度几乎加快了一倍。
G200内置可编程的浮点安装和填充引擎,支持Direct3D和OpenGL,支持多纹理贴图和高精度的32位Z-Buffering。此外,G200还使用了一种称之为 VCQ(Vibrant Color Quality Rendering)的技术,能够提供高质量的彩色输出。(是一种在渲染管线中使用32位色的技术。即使在设置为16位色的情况下,所有的内部操作仍然以32位方式进行,只是在最后才经过抖动处理转变为16位色)
此外, G200芯片支持AGP 2X,并且采用了新的SRA(Symmetric Rendering Architecture,对称渲染结构)技术。这是一项很有用的技术,通过允许在帧缓冲区和主内存之间高速传输位图以及在主内存中直接进行所有的绘图操作,提高2D加速和视频操作的性能。同时绘图引擎可用的内存的容量也大大增加,可以给位图存储和其他一些操作提供足够的缓冲空间。同时,Windows也会使用到一些在系统内存中实现的特殊的2D绘图功能,而这些功能也可以被SRA加速。
就当时来说,G200所采用技术都是相当先进的,代表了未来图形芯片技术的发展方向,但是其3D性能其它主要的竞争对手还有相当的差距,而且价格高昂、不能良好支持OpenGL,更多的也就见于商务市场。

S3:一流的技术,二流的产品
7月,S3发布了他们的Savage3D图形芯片,S3真正意义上的第一款3D显示芯片。Savage3D采用128位总线结构及单周期三线性多重贴图技术,最大像素填充率达到了125M Pixels /sec,三角形生成率也达到了500M三角形/sec。拥有S3新设计的AGP引擎和S3TC纹理压缩技术,支持Direct3D与OpenG,最大内存容量可达8MB SGRAM或SDRAM,支持AGP4X规范。同时也支持当时流行的如反射和散射、Alpha混合、多重纹理、衬底纹理、边缘抗锯齿、16/24位Z-buffering等等技术。
首先,让我们看看Savage3D的两个看家本事:Trilinear Filtering(三线性过滤)和S3TC纹理压缩。
在3D图像技术中,被普遍应用的是纹理贴图,但是纹理贴图存在Depth Aliasing (景深锯齿)问题。为了消除Depth Aliasing,使图像更符合实际情况,人们使用了Mip-Mapping (多重贴图)技术。Mip-Mapping是一系列的经过预处理的不同细节的图像,当视线移近物体时,就以较高细节的图像显示,反之就以较低细节的图像显示。不过,虽然多重贴图解决了景深锯齿的问题,但它又带来了新的视觉问题,这就是当一个物体向远处移动过程中,在图像切换的时候会出现称为Mip-Banding的现象。Trilinear Filtering(三线性过滤技术)就是用来消除Mip-Banding问题的,它比传统的Bilinear Filtering(双线形过滤)技术能更明显地增强图形质量,但是3D性能也会相应的下降。令人惊讶的是,Savage3D可以使用了(三线性过滤技术)但性能却没有下降!虽然现在这不算什么,但在当时而言,每秒显示125M经Trilinear Filtering(三线性过滤)的像素是多么的令人心动。
众所周知,纹理贴图是应用在3D物体上的位图,在3D场景中被用作增加物体的表面细节。要模仿现实生活的场景,就需要巨大数量的细节纹理,但是带宽和存储空间是有限的,因此程序开发者不得不使用较少数量的纹理细节。而S3TC纹理压缩技术允许用更少的带宽和空间存储更多的纹理数据,它可以把数据容量压缩到原先的1/6之多,且压缩后图像质量仍然很好。这项技术后来也就成了DirectX6.0中的标准压缩技术。
无论是任何方面来看,Savage3D都是一款很成功的产品,而且S3把它定位为主流市场,价格也相当体谅我们劳苦大众。但是Savage3D重蹈了VIRGE3D下场,等它上市的时候要面对的不是预想的Riva 128 ZX和Voodoo2,而是TNT和Voodoo3。它们全部支持16M以上显存,而Savage3D只支持少得可怜的8M显存,而且受大量bug驱动程序影响,Savage3D最终只能在低端市场徘徊

3Dfx:自掘坟墓
虽然3Dfx的Voodoo Rush遭遇惨败,但3Dfx 还是坚定的迈上了整合2D/3D引擎的道路。1998年秋季,3Dfx发布了他们的Voodoo Banshee。Voodoo Banshee最高支持16MB显存,100MHz的核心频率,125MHz的内存频率,而RAMDAC频率也高达250Mhz。虽然Voodoo Banshee最大像素填充率达到100M Pixels /s,三角形生成率达到了300万每秒。但美中不足,它只有一条渲染流水线,在众多的需要双材质贴图的游戏面前实在是力不从心,到了年底这款芯片就从3Dfx的生产线上消失了。但是因为3Dfx的名气实在是太大了,最终Banshee在市场上还是取得了不错的成绩。
当年年底,3Dfx将其公司名改为3dfx,收购了STB(当时与Diamond齐名的板卡制造厂商),从此开始了自产自销的发展路线,独家生产Voodoo系列显卡,不再向其它板卡厂商供货。这次收购耗费了巨大的人力物力,致使其新产品的研发明显变慢。同时,这个决定也把3dfx弄到众叛亲离的地步,把包括ELSA(艾尔莎),Creative(创新),ASUS(华硕),Hercules(大力神)在内的众多盟友逼到了Nvidia的阵营里。同时在Direct3D逐渐盛行的情况下,3dfx还是拒绝开放Glide的源代码。由于3dfx这一连串的错误决定,Voodoo王朝开始走向没落。(没有人能打败王者,除了王者他自己。Number Nine是这样,Trident是这样,S3是这样,3dfx也是这样)
11月,3dfx发布了Voodoo3图形芯片。Voodoo3在技术、3D技术方面并没有带来太多新的突破,几乎可以看作是Voodoo Banshee的升级版。Voodoo3采用了128位数据通道设计,最大支持32MB显存,并且首次提供了对材质压缩的支持,理论上来说可以在具有大材质贴图场景中得到更好的效果。但是Voodoo3却不支持AGP的DIME(Direct Memory Execute,直接内存执行,DIME可以把系统内存当作显示内存使用)和AGP纹理技术(AGP的主要用途之一,是指把大纹理储存在系统主存中,需要时直接从那里而不是本地显存里调用的技术),材质压缩的作用就因此大打折扣。Voodoo3的3D加速差不多是块Voodoo2-SLI的两倍,其最大像素填充率达到了366M Pixels/s,三角形生成比率也达到了700M三角形/秒。但是与TNT2相比,其不支持32位渲染,最大材质贴图仅为256×256,不支持直接内存调用。这一切让众多“巫毒教徒”痛苦不已:这是3dfx在技术上首次落后与竞争对手。


1999

S3:最后的辉煌
由于Savage3D没有取得预期的效果,1999年2月,S3又发布了Savage3D的下一代产品―Savage 4图形芯片。这款图形芯片实际上就是在Savage3D的基础上另外再加入一个纹理单元,并引入了硬件DVD加速、32位渲染等特性,并提高了最大支持显存容量。但不知S3怎么想的,只给Savage 4配上了64位显存接口,要知道当时的主流图形芯片全都支持128位显存接口。就因为这样,Savage 4在高分辨率下的性能表现非常让人失望,在1024×768分辨率下甚至还不如Intel的低端芯片i752。Savage4在性能上与当时的主流图形芯片还有很大差距,它的最大像素填充率只有140M Pixels/s,与TNT2(250M Pixels/s)和Voodoo3(366M Pixels/s)相差甚远,而且驱动程序与它的前辈们一样,存在众多BUG。尽管Savage4系列售价低廉、拥有优秀的DVD播放能力,但始终没有得到用户和厂商们的认可,很快也就在市场上消失了。
虽然在3D图形芯片领域连连失利,但S3还是在6月收购了著名的显卡厂商Diamond公司。一个多月之后,S3以闪电式的速度推出了其新一代显示芯片—Savage 2000。Savage 2000采用了新的设计架构,引入了双重像素/双材质管道技术,这一技术可以让显示核心在一个时钟周期下可以同时处理四个材质,大大提高一些多材质的游戏的材质显示效果。这一技术也让Savage2000每秒可处理两个多重纹理像素,相对于当时如Voodoo3和TNT2等每秒只能处理单个多重纹理像素的显示芯片来说,性能差不多好上了两倍。当然,Savage2000图形芯片同时也能支持单个像素做单通道四重纹理。
同时,Savage2000还采用了独特的QuadTexture引擎。在多纹理应用环境下,这可以使游戏开发者设计出如阴影效果、反射倒映、凹凸贴图等更好的画面效果。
此外,Savage 2000还引入了一种名为S3TL的技术。和Nvidia最新的T&L技术类似,该技术可以大大减轻CPU的3D管道的几何运算过程,使游戏中图形芯片的多边形生成率提高4到10倍,这样就大大减轻对CPU依赖性。
Savage2000同样继承了Savage4中的优异视频播放质量和性能,提供了完善的DVD硬件回放支持。采用S3特有的纹理压缩技术S3TC,兼容DirectX 7 和 OpenGL 顶点和表格雾化,同时也支持全屏反锯齿、硬件凹凸贴图、镜面反光等多种特效,并且终于拥有了128位显存接口,在各个分辨率下都能取得不错的成绩。
S3好久没有推出过这么成功的产品了,而且这次有Dimond的全力支持,S3希望凭借此能一举冲入主流图形芯片市场,重振昔日雄风。但很可惜,Savage 2000的对手是远超乎其想像的Geforce 256,Savage 2000根本不是它的对手。虽然在中端市场Savage 2000与Geforce 2 MX差别并不大,但在单纹理的处理上,Savage 2000比Geforce 2 MX慢了将近40%,而且驱动不支持T&L,驱动程序BUG问题也始终得不到好的解决,这些都严重影响了Savage 2000在市场上的推广。
在2000年4月,S3绘图部门被VIA收购,与VIA组合了一家VIA-S3公司,从此淡出桌面图形芯片市场。后来虽然又推出了几款整合和移动的图形芯片,但都不如人意。

Nvidia:初成霸业
如果说Riva TNT还只是冲击一下3dfx的王座,那Nvidia在3月发布的TNT2则是真正的终结了3dfx对3D图形芯片长达三年的统治。
TNT2是TNT的改进版本,采用128位核心,支持AGP4X,支持32MB显存,支持32bit帧缓冲,最大像素填充率达到了250M Pixels/s,最大材质贴图也达到了2048x2048。
发布后没多久,Nvidia又对TNT2进行了细分,先后推出TNT2 Ultra、TNT2、 TNT2 M64、TNT2 PRO和TNT2 VANTA共五个版本。高中低端同时出击,在1999年几乎抢占了80%的显卡市场,给了老对手3dfx致命的一击。
3dfx公司的Voodoo 3在于TNT2的对抗中几乎是全面落败,只有在16位色的3D加速渲染上能和TNT2勉强打个平手,而且不支持32位渲染,最大材质贴图仅为256×256。一切都清楚的告诉人们,Voodoo系列图形芯片辉煌已经过去了,3dfx精心构筑的显卡王朝也开始土崩瓦解了。
虽然凭借TNT2,无论从技术还是市场上Nvidia公司都已经超过了3dfx,但Nvidia似乎并不满足,他还要给3dfx真正致命的一击。 8月,3D图形芯片的一场革命由Nvidia发起了,GeForce 256(NV10)横空出世了!
GeForce256是一款256bit的图形芯片,支持最大128MB容量DDR和SDR SDRAM,拥有4条32Bit的渲染管线,提供了24Bit Z-Buffer(8 Bit stencil buffer),而且是第一款集成了硬件T&L(Transform & Lighting)功能的图形芯片,可以使用硬件来完成光影处理、几何变换等特效。通过硬件T&L,GeForce256每秒可以生成480M Pixels和15M三角形,几乎是TNT2的两倍。另外,Geforce256还支持诸如立方环境材质贴图(实现金属、水面等表面光反射的特效,使看上去更真实)、DOT3凹凸映射(Dot product 3 bump mapping,点乘积凹凸映射,DirectX 7加入的新特效,可以使图形更逼真)、HDTV动态补偿和硬件alpha混合等诸多新技术。同时,GeForce256也是第一款支持AGP4X Fast Write模式(可以让CPU直接和图形芯片交换数据,理论上速度能可以比AGP4X快30%)的显示芯片。
作为世界上第一款GPU(Graphic Processing Unit),GeForce256可以通过硬件T&L、立方环境材质贴图、DOT3凹凸映射、双重纹理四像素等技术,承担部分原来由CPU承担的比如几何建模和光照处理等工作,把CPU从繁重的浮点运算中解放出来,更多的从事游戏AI等工作。
Geforce256是当时真正意义上的梦幻显卡,其性能可以轻松的击败G400 MAX,Savage 2000,Voodoo3500等诸多对手,只有ATI Rage FURY MAXX可以与之相匹敌,但是双芯片的成本又始终居高不下,而且ATI的驱动程序始终对游戏的支持并不是太好。顺理成章的,GeForce256 成了所有玩家梦寐以求的极品装备。

Matrox:一鸣惊人
3月,Matrox发布了他们的G400图形芯片。G400采用0.25微米制造工艺,这使得其时钟频率提升到了125MHz,最大像素填充率达到了250M Pixels/s。G400同样采用了Matrox特有的双重总线技术,不过其单一总线的宽度达到了128 bit,这样G400就拥有了256 bit的总线宽度。同时,Matrox给G400加上了双渲染流水线,用以实现单周期双重纹理。而且G400还有单独的光源渲染通道,与其它对手相比,这使得G400可以在完成环境凹凸映射的光源处理同时,不会因渲染量的大幅增加而导致速度的下降。此外,G400还采用了8bit模板缓冲,提高了特定场景的渲染速度。在G200 32 bit真彩渲染的基础上,G400又增加了 VCQ2 (第二代明亮色彩着色)技术,利用全32 bit精度的内部流水线,通过增加精度和内部管道缓冲来降低渲染过程中的累计误差和抖动失真,使色彩层次细腻逼真。同时,G400采用8位滤波系数,提供了高质量的各向异性等多种过滤模式,大大提高了纹理渲染的精度。最后,G400还实现了32 BitZ-Buffer,不仅提高了游戏画面的质量,而且强化了专业的3D应用。
真正让G400名动天下是其DualHead(双头显示)技术,可以同时支持双显示器或显示器与电视等独立输出。在Windows多屏显示功能的基础上,G400利用DualHead(双头显示)技术让两路不同的视频具有独立的处理及数模转换功能,实现了不同显示设备的分辨率、色彩深度、刷新保持完全独立。对于图形工作者来说,这是一个非常受欢迎的技术,对商务市场的演示人员更是绝对的福音。
在当时,G400在3D性能上只有TNT2可以和它匹敌,在画质上更是绝对的君临天下。但很可惜,其高昂的售价令人们望而兴叹。当时Matrox的官方报告认为G400最具购买力的人群不是众多的游戏玩家,也不是商务市场的办公室人员,而是需要用到G400的双头显示的演示人员!正是其营销部门的这一失误使G400的售价高高在上,也使Matrox失去了这一绝好也可以说是仅有的击败众多竞争对手的机会。
G400发布后不久,Matrox又推出了G400的增强版本—G400 MAX来进行市场细分。G400 MAX使用5ns SGRAM显存,时钟频率设置为165MHz,最大象素填充率达到了330 Pixels/s。而标准的G400使用6ns SGRAM显存,时钟频率设置为125MHz,最大象素的填充率为250Mpix/s。


ATI:勉强招架
4月,ATI发布了他们的Rage 128 Pro图形芯片, Rage 128的升级版。相比Rage 128,Rage 128 Pro增加了非线性过滤,实现了对2048 X 2048的大纹理以及微软DXTC(DirectX纹理压缩)的支持,同时升级了三角形生产引擎,每秒能生成8百万个多边形;核心频率的提高也带来了3D性能的提升,比ATI Rage 128差不多提高了50%。按照ATI的计划,Rage 128 Pro的对手预定是TNT2,而且其性能也如预期的与TNT2不分秋色。但很可惜,其产品直到8月才面世,错过了与TNT2较量的机会。
10月为了对抗Nvidia的Geforce256,ATI又发布了Rage FURY MAXX。由于新芯片尚未研发完成,Rage FURY MAXX不得已使用MAXX技术,一种ATI自行开发的多芯片技术。作为此技术的第一代产品,Rage FURY MAXX采用两块较高频率的Rage 128 Pro并行处理,每个芯片轮流渲染,理论上性能可以达到Rage 128 Pro的两倍,与Geforce256旗鼓相当。但是实际情况并不像ATI想象的那样:在低端CPU上,Rage Fury MAXX 的表现非常差,只有在高得离谱的分辨率下才能展示它的力量,它比GeForce256还要快。但在这些分辨率下,就算是Rage Fury MAXX的速度也慢的可怜,根本无法让人满意。虽然如此,Rage Fury MAXX还是成为了当时唯一在性能上能和GeForce256相抗衡的图形芯片。但由于采用MAXX技术,MAXX需要两倍的显存,而且生产难度大幅度增加,导致了其成本居高不下,根本无法撼动Geforce256的地位。


3dfx:最后的辉煌
GeForce 256的发布让3dfx意识到了其王座的岌岌可危,并做出了开发Voodoo 3 2000图形芯片的授权,公开Glide的源代码等诸多动作,之后又准备推出支持32Bit渲染和AGP4X的Voodoo3 4000,但最终还是不了了之,在11月,在屡次跳票之后,3dfx推出了VSA-100,世界上第一款VSA架构的图形芯片。VSA架构是3dfx独创的一种全新架构,VSA的全称为:Voodoo Scalable Architecture,意思就是可升级Voodoo架构。很像ATI的MAXX技术,VSA架构也是支持多核心协同工作,最多可以支持32块核心在一块板卡上同时工作!
VSA-100图形芯片运行频率为166MHz,每秒最多可以生成366M Pixels,最高支持64MB显存,支持32Bit渲染。同时,VSA-100图形芯片还加入了被称为下一代3D技术的T-Buffer。为了提高画质,传统的A-Buffer(Accumulate Buffer,累积缓存)技术会大幅减慢3D图像的生成速度,而T-Buffer很好的解决了这个问题,它能使3D图形芯片在保持高速的前提下增强图像质量,提供很高质量的即时3D图像。
通过T-Buffer,VSA-100图形芯片成功的实现了Full Scene Spatial Anti-aliasing(全屏空间反锯齿)、Depth of Field(景深)、Depth of Field Blur(焦点模糊)、Motion Blur(运动模糊)、Soft Shadows(柔和阴影)、Soft Reflections(柔和反射)等诸多特效。Full Scene Spatial Anti-aliasing是一个在当时看来非常先进的免锯齿技术,相对当时主流的Edge Anti-aliasing(边缘反锯齿)和Over-Sampling(多重采样),它可以在不损失速度的情况下实现反锯齿效果,而且对CPU的依赖也非常低,反锯齿的效果也非常好;电影中经常会有这样的镜头:某一部分场景或物件清晰显示,而它的背景却变的比较模糊,看上去非常有空间感。Depth of Field 技术可以让游戏开发者在游戏的场景中实现这种变化,在游戏中实现电影中的各种效果;Soft Shadows是一种在软件的配合下使影子边缘模糊的技术,而不会像某些游戏中人物的影子,非常的清晰,菱角分明,非常的虚假;Soft Reflections是根据物体靠近反射物的距离以及反射物表面的光洁程度来决定反射影像的清晰或模糊程度的一项技术,通过它可以产生真正电影级的真实的反射;有拍摄经验的读者会发现,一个运动的物体会有一个模糊的残影,这就是所谓的运动模糊。通过Motion Blur,游戏中运动的物体和静止的物体,运动快的物体和运动慢的物体都会体现区别,而不会全部非常清晰锐利,使游戏的画面更加的真实自然。
我们可以发现,相对Nvidia等众多对手,3dfx的VSA-100图形芯片实现了众多能有效提升画质的技术,更加致力于使画面更真实。但是在那个年代,人们更多的是被GeForce256那惊人的速度所感动,而且根本没有什么游戏能真正的支持VSA-100的诸多特效,而且T-Buffer必须要两块或以上VSA-100图形芯片协同工作才能实现。而且VSA-100图形芯片
不支持一个非常重要也非常热门的技术-硬件T&L。
3dfx首先推出了Voodoo4 4500,采用单VSA-100图形芯片。但是它的填充率只有可怜的366M Pixels/S,而且不支持T-Buffer功能,结果在中低端败的一塌糊涂,完全不是TNT2的对手。
之后没多久,3dfx又发布了采用两块VSA-100图形芯片的Voodoo5 5000。由于拥有两倍于Voodoo4 4500的填充速率和T-Buffer,而且采用PCI接口设计,在工作站还算有一定的市场。但是Voodoo5 5000最大只支持32MB显存,结果是重蹈了Savage3D的结局。
不得已,3dfx又发布了Voodoo5 5500。相比Voodoo5 5000,Voodoo5 5500采用了AGP接口,并且采用了64MB显存,看起来都很不错。但很可惜,3dfx昔日的盟友们都拒绝了为其生产显卡,而STB的产能远不能满足3dfx的需要。
2000年底,3dfx展示了一款Voodoo5 6000。采用四块VSA-100图形芯片,搭配128MB SDRAM,最大像素填充率达到了接近1500M Pixels/S的惊人数值,而且支持更好的T-Buffer功能,支持令人惊讶的8X FSAA。但因其设计实在是过于复杂,导致其生产成本居高不下,这款怪兽级的显卡最终还是没有被发布。
1999到2000年,3dfx的市场占有率不断下降,而且财政越来越困难。为此,3dfx把所有的希望寄托在Microsoft的X-BOX身上,孤注一掷的收购了Gigapixel公司,希望借此获得X-BOX的图形芯片的订单。但很可惜,最终Microsoft选择了Nvidia。3dfx的财政彻底陷入困境,计划中的RamPage图形芯片也停止了开发。
2000年底,3dfx被Nvidia收购。曾经给我们带来许多惊喜,许多期望,曾经陪伴我们走向美丽的3D世界的3dfx就这样走向它的结局,一个极具传奇色彩的图形芯片厂商最终也只能留在众多硬件发烧友的脑海中。


2000

ATI:大梦初醒
随着Nvidia在PC图形芯片市场的市场占有率不断攀高,另一家图形芯片巨头终于有所觉醒。在人们还在被GeForce 256所折服的时候,4月24日,ATI抢先公布了新一代3D图形芯片,此前代号为Rage 6C的Radeon 256(从名字就知道ATI的醉翁之意了)。
Radeon 256采用0.18微米工艺制造技术,核心频率为200MHz,有两条单周期三纹理渲染管道,最大像素填充率达到了400M Pixels/s,最大材质填充率达到了1.2G Texels/s。最大支持128MB DDR或SDRAM显存,显存带宽最大可以达到6.4GB/S。
Radeon 256采用了ATI花费数年时间研制出来的新架构体系,在硬件上主要分为三个引擎:Charisma几何处理引擎、Pixel Tapestry渲染引擎和Video Immersion数字视频引擎。
Charisma几何处理引擎有完备的几何变换、图形剪裁、光源照射功能(TCL),并且支持8个硬件光源,能够进行所有的几何转换、光照、裁剪等处理。而且还具有独特的关键帧补偿功能,以及同顶点混合类似的骨骼与贴皮系统。Radeon 256的TCL技术更是远胜过GeForce 256的T&L技术,不仅每秒可以处理高达3000万的多边形(整整是GeForce 256的两倍!),并且还可以塑造出人物的面部表情,不仅大大地改善了画质,而且使3D游戏变得更加真实。
Pixel Tapestry渲染引擎由两条单周期三纹理渲染管道组成,据称是世界首枚达到10亿图素填充率以上的单片渲染引擎,不仅支持DirectX 7凹凸贴图、3D阴影以及DirectX 8单像素明暗功能,而且还支持FSAA(Full Scene Anti-Aliasing 全屏幕反锯齿)、硬件纹理压缩、基于范围的雾化等技术。ATI希望能凭借它使3D游戏画面达到影片级的效果。而且,Pixel Tapestry渲染引擎更是当时唯一的能跑三材质环境曲面贴图而不会造成太大效能损失的渲染引擎。
Video Immersion引擎则进一步巩固了ATI硬件视频加速的领导地位。
Radeon 256还具有ATI独创的HyperZ技术。通过此技术,可以有效降低Z-Buffer占用的显存带宽,大幅提高系统带宽和相素填充率,可以使材质填充率从1.2 G Texels/s提高到1.5 G Texels/s,带宽从6.4GB/S提高到8GB/S。另外,Radeon 256依旧具有MAXX技术,可以像Rage FURY MAXX一样实现双芯片并行工作。(双Radeon 256 MAXX的显卡只有样品,没有真正面市)
GeForce2 GTS的3D能力,G400的画质,Radeon 256是如此的让人心动。ATI向人们证明了它完全有实力向Nvidia发动挑战,同其一较高下。不过ATI的图形芯片只供原厂生产,虽然其质量绝对一流,但其售价实在是让国人望而兴叹,大大影响了其在市场的推广。

Nvidia:独步天下
4月26日,在Radeon256发布两天后,Nvidia也推出了全球发烧友期待已久的NV15, GeForce 256的后续产品——GeForce2 GTS。
GeForce2 GTS支持最大支持128MB DDR SDRAM,集成了2500万晶体管,采用0.18微米工艺,虽然核心频率比GeForce 256的120MHz高了几乎一倍,达到了200MHz,虽但其功耗却大概只有10W,明显少于GeForce256的18W,大大减小了发热量,提高了系统的稳定性。
GeForce2 GTS采用了Nvidia Shading Rasterizer(NSR,Nvidia明暗渲染引擎)渲染引擎。NSR具有四条双纹理像素渲染管线,还能在一个时钟周期内对每个像素进行双重纹理贴图、单像素凹凸贴图、Per Pixel Diffuse Lighting(单像素散射光照)、Per Pixel Specular Lighting(单像素反射光照)等操作,最大像素填充率达到了800 M Pixels/S,最大材质填充率达到了1.6G Texels/S。
GeForce2 GTS还采用了第二代T&L引擎,和GeForce256的T&L引擎相比,它的速度提高了一倍,每秒可以生成2500万多边形,而且增加了Hardware clipping(硬件剪裁)和Per Pixel Lighting(单像素光照运算)功能。
硬件剪裁功能增加了剪裁运算到T&L几何运算动能中,可以完成原来由CPU完成的对三角形进行剪裁的工作,进一步减少CPU的工作。
单像素光照运算则可以给三角形中的每一个像素指定光照效果值,进一步提高画质。通过单像素光照运算技术产生了如Per Pixel Diffuse Lighting(单像素散射光照)、Per Pixel Specular Lighting(单像素反射光照)等大量新的渲染模式。
GeForce2 GTS支持S3TC、Pixels Shaders、立方环境贴图等技术,还提供了对FSAA(Full Scene Anti-Aliasing 全屏幕反锯齿)的硬件支持。FSAA最早由3dfx提出,可以大量的改善画质,去除难看的锯齿。GeForce2 GTS采用了SuperSampling方式,但是SuperSampling FSAA只能使用在低分辨率,效率不如3dfx的MultiSampling,GeForce2 GTS的FSAA也就自然比不过Voodoo5。
此外,GeForce2 GTS还集成了HDVP(High Definition Video Processor,高清晰度视频处理器),支持NTSC/PAL输出编码,支持完整的HDTV标准,能提供MPEG2数据流(DVD或HDTV信号)的硬件辅助译码和回放。

GeForce2 GTS虽然在性能上傲视群雄,但其售价也绝对是只有少数人消费的起。6月28日Nvidia终于公布代号为NV11的3D芯片,并把它正式命名为GeForce2 MX。作为一块面向主流市场的GPU,GeForce2 MX不但有GPU的高速度、而且具备占领主流市场的中档价格,理所当然的,它就成为了我们众多穷人的“劳斯莱斯”。
GeForce2 MX采用0.18微米工艺,核心频率为175MHz,集成与GeForce2 GTS相同的第二代T&L引擎和NSR渲染引擎,但是它的渲染流水线数目只有GeForce2 GTS的一半,只有两条双纹理的渲染流水线,最大像素填充率和最大材质填充率也就相应降到了350M Pixels/S 和700M Texels/S,而且GeForce2 MX只能使用64位接口的DDR SDRAM和128位的SDRAM,显存带宽也比GeForce2 GTS小了一半。但GeForce2 MX的成品显卡售价仅为GeForce2 GTS的40%,大概在119美元!凭借超过GeForce256普通版的性能及与TNT2相近的价格,GeForce2 MX很快抢占了中低端的大片市场。
虽然GeForce2 GTS在技术上打败了3dfx,ATI等总多对手,但真正在市场上让Nvidia走入千家万户的却是GeForce2 MX。2000万多边形/秒,700M Texels/S的峰值渲染能力,大大超过了上一代的王者GeForce256的480M Texels/S,而且GeForce2 MX在二重纹理的场合更能彻底让GeForce256俯首称臣。ATI 的Radeon 256尽管有高达1.2G Texels/S的渲染能力,但在通常的二重纹理时只不过达到800M Texels/S,而且Radeon 256的对手是GeForce2 GTS,属于高端产品,售价完全不足以对GeForce2 MX构成任何威胁。3dfx的Voodoo5 5500双芯片并联虽然也拥有两条双纹理的渲染流水线,但就算这样也只能达到672M Texels/S,而且Voodoo5 5500的售价实在是贵得可怕。至于Voodoo4、S3的Savage 2000系列、Matrox的G450都只能同GeForce256比试。既拥有强大的渲染能力,又拥有FSAA和立方环境贴图等各种3D渲染特性,GeForce2 MX成了当时众多玩家的首选,而且在市场上奇迹般的存在了3年之久,即使在2003年还不时能看到这款最“长寿”的图形芯片的踪迹。
在GeForce2 MX中,我们还看到了两个GeForce2 GTS所没有的技术:Twin View和Digital Vibrance Control。和Matrox的DualHead类似,Twin View也是一种双头显示的技术。通过Twin View,GeForce2 MX可以实现双头显示,视频输入、输出以及DVD视频解码辅助等众多功能。而Digital Vibrance Control(数字振动控制)则可以让用户对图形芯片内部的图形系统传输到显示系统的数据进行详细的控制,从而使各种电脑图像更合用户的口味,更锐利、明亮和干净。

ST:异军突起
大家应该记得Videologic公司吧?就是那个和NEC联合开发了PCX,PCX2,PVR250DC,PVR250PC的那一家公司。它是隶属于Imagination的子公司。2000年,Imagination将PowerVR技术授权给了ST(SGS-Thomsonc,意法半导体公司),由ST和Videologic联合开发PowerVR系列图形芯片。7月,ST发布了PowerVR 3图形芯片,并把它命名为KYRO。
KYRO具有双渲染流水线、采用0.25微米制造工艺、具有1200万个晶体管、125MHz核心频率,每秒能生成800万多边形,材质填充率达到了250M Texels/S,但由于其Tile Based Rendering(分块渲染)、隐面去除等技术的作用,其带宽的利用效率可以比其它显卡高上三倍,可以与其它显卡750M Texels/S的材质填充速度不相上下。
KYRO采用了PowerVR家族特殊的分块渲染引擎,通过将图形分割成多个小矩形区域作为图形处理单位,大幅减少了每个单位的数据量,可以极大节省外部带宽,提高外部带宽的利用效率,把带宽的实用效率提高3倍之多。
KYRO同时还具有隐面去除和芯片像素混合技术。传统的技术是在所有多边形都渲染完成后,才凭借Z-Buffer中的深度数据确定遮挡关系。而通过Tile Based Rendering(分块渲染)技术,KYRO可以事先对多边形进行排序,确定遮挡关系,只渲染那些可见的多边形,既快速又可节省外部带宽。因为Tile Based Rendering(分块渲染)技术的采用,可以大大减少渲染所需的中间数据,KYRO可以通过芯片像素混合技术将其全部存放在芯片上缓存器内,而不是像其它图形芯片一样放在显存之中,这样大大就提高了渲染的速度,减低了对外部带宽和显存容量的要求。
KYRO还具有全32位内部结构和8重纹理贴图。虽然从Matrox的G200开始,众多3D图形芯片厂商就开始鼓吹自己的产品是32位渲染流水线,但是KYRO恐怕是首块真正地实现了这一目标的图形芯片。传统的3D架构由于必须将中间数据保存在显存中,多次混合就会有较大的误差。而且在16位情况下,传统的3D图形芯片只有16位的Z-Buffer,而且没有模板缓存。而KYRO由于是在芯片内部进行半透明混合,只在最终输出时才一次转化为16位,而且不论什么色彩模式下都能有32位的Z-buffer和8位的模板缓存。因此在16位色的情况下,KYRO无论是图形质量还是速度明显超过其它图形芯片。由于使用内部的半透明混合缓存,KYRO每条流水线都能完成最多8重纹理贴图。
KYRO也支持了对FSAA(全屏反锯齿), Environment Bump Mapping(环境凹凸贴图),DXTC,双线性过滤,三线性过滤,各向异性过滤,顶点雾化等特性。
和MAXX与VSA类似,KYRO也支持多芯片并行工作。而且KYRO对带宽要求非常低,可以有效的控制成本,并且不像传统图形芯片性能受显存制约,随着核心频率的提高,KYRO内部的缓存器的速度也可同步提升,整体性能几乎能成正比提高。(一个很受超频爱好者欢迎的设计)
无论是其速度还是质量,KYRO都让GeForceMX 感到了很大的压力。可惜ST的产能太低,KYRO的频率过低,而且产品推广不足,只有很少的厂商生产,最终还是没有给Geforce2 MX造成真正的威胁。


2001

ST:初露锋芒
3月,ST推出了KYROⅡ。支持FSAA2×和4×,支持环境凹凸贴图和DOT3凹凸贴图,32位Z-buffer,无论在16/32位模式下都支持Stencil模板缓存,128位的2D引擎,出色的DVD解码,还支持64MB 128位SGRAM/SDRAM显存;内部32位色彩渲染和8重纹理贴图给我们带来了无可挑剔的3D图形质量。并且由于KYROⅡ使用了0。18微米生产工艺,核心与显示内存频率都从125MHz提高到了175MHz,整体性能相对KYRO提高了约40%!
KYROⅡ虽然性不俗,但真正让KYROⅡ出名的却是Nvidia。Nvidia在一份内部文件中极力贬低KYRO Ⅱ,用了很长的篇幅说明KYROⅡ的速度慢、画面差,而且没有经过实际使用的验证,并且用停货威胁各厂家不许生产KYRO系列。但是大力神(Hercules)还是坚持推出了KYROⅡ显卡,这使得人们对KYROⅡ越发好奇起来,更加想一睹其风采。随后我们惊奇的发现,在FSAA(全屏抗锯齿)的条件下,KYROⅡ有时竟能比GeForce2 Ultra更快!
KYROⅡ既没有T&L、也没有DDR显存支持,真正让NVIDIA“恐慌”的是其HSR带来的高速FSAA。而且紧跟着KYROⅡ后面的就是划时代的STG5000也就是KYROⅢ:HSR型的T&L支持、更高的工作频率和成倍增加的渲染流水线,无疑将带来数倍的速度提高,而且继承KYRO系列一贯的低价,无疑会给NVIDIA造成极大的威胁。(可惜,ST的研发速度太慢了,KYROⅢ最终还是胎死腹中,ST直接跳到了KYROⅤ的研发,希望KYROⅤ不要再让我们失望)


NVIDIA:再创新高
2月22日,Nvidia发布了他们的GeForce3图形芯片。与以往的产品不同,这款产品并不是对应PC平台的,而是一款对应苹果电脑的图形芯片,这是Nvidia首次在非PC平台上推出新产品。2月27日, PC版的GeForce3也终于发布了。
GeForce 3图形芯片的晶体管数目多达5700万个。想当初Nvidia早期产品RIVA 128不过才700万个晶体管,连之前的王者的GeForce2 GTS也不过"只"有2500万个晶体管,当时最大的敌手ATI Radeon芯片也不过3000万个晶体管,甚至于处理器霸主Intel的P4充其量也只有4200万个晶体管。为了不让芯片面积过大,同时又更高的运行频率与更低的电压,Nvidia让GeForce 3采用了当时先进的0.15μm制造工艺。
GeForce3是首片真正意义上的GPU,因为它第一次实现了完全可编程的完整3D图形处理流程,其内置的nfiniteFX引擎是业界首个完全可编程的3D图形芯片架构,Nvidia为游戏开发者提供了完整的Gefoce架构开发工具,允许游戏开发者编制他们自己的程序来控制像素的效果,给游戏和应用开发者带来了极大方便。
nfiniteFX引擎由两个部分组成:一个就是Vertex Shaders(顶点渲染)引擎,第二个就是Pixel Shader(像素渲染)引擎。
顶点渲染可以说是GeForce 3最重要的新技术。通过定点渲染引擎,程序设计师能够对特定物体,甚至整个画面的每一个顶点,指定特别的运算程序,而不需要CPU干预。通过顶点渲染技术,可以大大提升3D细节的效果,图像可以变得更加真实生动。GeForce 3的顶点渲染引擎最大可以计算16项数据的顶点,每项数据可以由4个128位浮点数组成,但是其一个顶点运算指令不能超过128条,这就限制了光源的数目以及动画框架的复杂程度。尤其是在多场景的情况下,随着运算指令增长,执行时间也相应变长,三角形生成率大大降低,大大影响了处理能力。在GeForce 3的顶点渲染引擎中我们还看到了一些ATI Radeon芯片上用过的技术:Skeletal Animation (仿真骨骼运动)、Matrix Palette Skinning (矩阵调色贴皮) 和Key Frame Animation(关键帧动画)等诸多特性。不过由于采用了顶点渲染引擎,GeForce3芯片实现了高达32个矩阵的贴皮,远高于GeForce2的2矩阵贴皮和Radeon的4矩阵贴皮。
此外,GeForce3的顶点渲染引擎还支持如Procedural Deformation (程序变形)、Per-Vertex Motion Blur(个别顶点残影)、Refraction Effects(折射效果)、Reflection and Refraction(折射与反射)、Layered Fog(层雾化)等诸多新技术。
同顶点渲染引擎类似,GeForce 3的像素渲染引擎也是可编程的。它是GeForce 2上面Nvidia Shading Rasterizer(NSR,Nvidia明暗渲染引擎)的升级版,拥有四条渲染流水线,与NSR类似,每条流水线每个周期同样可以处理2个纹理,最大像素填充率同样为1.6G Texels/S。GeForce 3的像素渲染引擎并不是采用传统的材质贴图,而是对贴图过程进行编程处理,用简单的贴图就可以做出复杂的表面效果。这样就大大减少材质库所占用的存储空间,而且贴图也不再局限于材质库中才有的贴图,可以使用根本不存在的材质表面来实现贴图。而且通过像素渲染引擎,这种贴图方式可以针对所有的3D物体,免去了对各个物体逐一贴图的麻烦。除了效果方面的优势以外,GeForce 3的像素渲染引擎还可以大大简化3D编程,减轻开发人员的工作量。
NVIDIA在GeForce 3中还使用了全新的硬件HRAA-高清晰度反锯齿技术来实现FSAA全屏反锯齿效果。能以较小的效能牺牲来达到和FSAA一样的反锯齿效果,大幅节省了带宽。
为了解决在显存带宽方面的瓶颈,Nvidia采用了Lightspeed Memory Architecture(LMA,光速交错式显存架构),这种交错式显存控制器能更有效率地利用图形卡内存带宽,最高时显存带宽利用效能可提升3倍之多。同时,Nvidia也采用了大量节省带宽的技术。首先,GeForce 3使用了无损Z轴数据压缩功能,就是把深度数据压缩后再存储,读取时先解压缩、再使用。由于是完全硬件化的无损、高速的压缩和解压缩,对于用户来说只能发现占用的Z-Buffer容量明显减少,必须的显示内存带宽明显降低。其次,GeForce 3增加了Z轴遮挡剪切的功能,其实就是预先处理深度数据,发现不可见的图形就不再渲染,这不但节省了带宽和处理能力,还避免了大量小三角形排序的困难。另外,NVIDIA还首次在主流显示卡中引入了实用化的高阶曲面,通过将许多的小三角形换成简单的曲面形式,GeForce 3大大简化了3D空间形状的表达方式和数据量,而且完全硬件处理的曲面也更加细腻、真实。
在继续称王称霸高端市场的同时,NVIDIA也没有忘记巩固中低端市场。应对ATI细分RADEON系列产品,在中低端大幅扩张的策略,Nvidia在3月对其经典的GeForce MX进行了细分,依频率的不同分为MX100,MX200,MX400三款产品。这样就彻底淘汰了为Nvidia立下汗马功劳的TNT2系列显卡,从而使Nvidia的显卡遍布了从低到高的整个显卡市场。
8月,随着RADEON8500的发布,NVIDIA的性能之王的桂冠花落他家。为了夺回被Radeon8500夺走的性能之王的宝座,10月1号,Nvidia发布了GeForce 3 Titanium和GeForce 2 Titanium系列图形芯片,从高到低分为GeForce2 Ti,GeForce 3 Ti,GeForce 3 Ti200,GeForce 3 Ti500四款。虽然Nvidia再三声称这是与GeForce 3和GeForce 2不同的图形芯片,加入了新的特性和技术。然而实际上,GeForce 2 Titanium和GeForce 3 Titanium系列不过是超频版的GeForce 2和GeForce 3图形芯片加上新的BIOS和驱程而已。不过就算如此,这一点点的性能提升也让GeForce 3 Ti成功的赶上了Radeon 8500,让Nvidia的性能之王的宝座一直延续到了2002年。


ATI:二雄争霸,舍我取谁?
长久以来,ATI一向把苹果和移动市场看作自己的后花园。在OEM和DIY市场面对众多对手挑战,利润不断下降的时候,这两块市场也就分外被ATI看重了。Nvidia对这两块市场的扩张让ATI震惊不已。2001年,在巩固苹果和移动市场的同时,ATI也向NVIDIA的桌面PC发起了冲击。年初,像Nvidia一样,ATI将Radeon划分出了LE和VE两个版本。其中,面向中低端市场的Radeon LE是3D图形芯片史上首个为中国市场量身定制的图形芯片。相对RADEON,RADEON LE屏蔽了HyperZ功能,但售价也相应下降了许多,再加上很多RADEON LE都可以打开屏蔽的HyperZ从而摇身一变成为Radeon,这点对许多DIY玩家更是有着绝对的吸引力,结果在中国市场着实火了一把。Radeon VE版本则是面向商务市场,不具备T&L,而且只有一条渲染流水线。但其强大的双头显示功能,优秀的2D画质再加上低廉的售价,占领了很多办公和商务市场。
在5月,ATI更是宣布开放芯片授权,允许第三方厂商生产基于ATI全系列芯片的产品。这个决定,在零售市场尤其是亚洲市场,给了Nvidia相当大的压力;同时,这个决定也催生了许多显卡厂商,不少显卡厂商就是生产ATI的显卡而一炮走红,从此也就有了NVIDIA阵营和ATI阵营的概念,用户和厂商都有了更多的选择。
8月14日,ATI发布了传说中的R200,Radeon 8500图形芯片。6000万的晶体管数打破了GeForce3的记录,也给我们带来了更多的惊喜。通过SmartShader技术,Radeon 8500可以实现Vertex Shader、Pixel Shader的效果,全新的像素引擎Pixel Tapestry II包括4条像素渲染流水线,每条流水线由2个TMU(材质贴图单元)组成,再加上一个当时唯一支持DirectX 8.1的可编程像素着色器 PPS(Programmable Pixel Shader),Radeon 8500能够支持单周期高达6次的纹理贴图,并且可以接收更长的程序指令(每个程序22条指令,而GeForce3为12条) ,同时实现对DirectX 8.1标准的完全支持。
Radeon 8500还采用了Hyper-Z的改进技术:Hyper-Z Ⅱ和新一代的T&L引擎:Charisma Engine Ⅱ。尽管Radeon 8500显存的理论峰值带宽只有 8.8GB/s,但是借助Hyper-Z Ⅱ,Radeon 8500的实际峰值显存带宽可以飙升到12GB/s。Radeon8500核心频率和显存频率分别为275MHz和550MHz,全面超越了GeForce3,再加上Charisma Engine Ⅱ引擎两条并行流水线的强劲性能,Radeon 8500每秒可以生成高达6000万个三角形,超过了GeForce3每秒4000万个多边形的速度。同时,Radeon 8500也是首款支持双显示器的高端3D显示卡,通过HydraVision技术它可以混合使用普通显示器、数字接口液晶显示器以及电视等。
在FSAA方面,Radeon 8500提供了一套动态的FSAA解决方案——SmoothVision。与GeForce3的HRAA相比,SmoothVision可以达到更好的画面效果,HRAA虽然可以很好的节省带宽,但它不能解决画面模糊的问题,而且HRAA只能实现2次MultiSampling,4个取样点,而SmoothVision则可以最高实现4次MultiSampling,16个取样点的有效操作,效果自然就更胜一筹。
但是Radeon 8500并不完美,例如其采用的Pixel Tapestry Ⅱ。ATI声称Pixel Tapestry Ⅱ包括4道绘图管线,而且可以在每个周期中处理单个像素中的3个纹理,但是事实上Radeon的3纹理单元设计并不成功,利用率很低,大部分时间都只有2个在工作。还有其采用的Truform技术,通过增加更多小三角形来替代原有大三角形的方法来表现物体表面,尤其是曲面,可以在节省带宽的前提下,实现相对复杂的光阴效果,提供更加复杂,真实的画面。它可以应用在任何3D游戏上而且不会降低性能。但由于支持的厂商很少,而且会带来比如CS中枪支扭曲等诸多问题,在之后的ATI的产品中也就不再硬件支持这一技术了。
RADEON 8500发布的同时,ATI也发布了RADEON的改进版,RADEON 7500图形芯片,它的核心频率提高到了290MHz,成功的具有了和GeForce2系列图形芯片对抗的能力。ATI也对自己的全系列产品进行了重新命名,标准版的Radeon更名为Radeon 7200,原来的Radeon VE更名为Radeon 7000,用数字大小表示性能高低。



2002

Nvidia
在去年用GeForce3 Ti成功粉碎了Radeon8500“篡位”的意图之后,今年2月5日,Nvidia发布了NV25,GeForce4 Ti系列图形芯片。
GeForce4 Ti图形芯片集成了6300万晶体管,依旧使用0.15微米工艺制造,但采用了新的PBGA封装,核心频率达到了300MHz,最大象素填充率和纹理填充率分别达到了1200M Pixels/s和2400M Texels/s,采用325MHz 128bit DDR显存,显存带宽达到了10.4GB/S。
GeForce4 Ti系列图形芯片沿袭了GeForce3的架构,同时也做了相当大的改进。GeForce4 Ti同样具有4条渲染流水线,每条流水线包含2个TMU(材质贴图单元);同时,GeForce4 Ti还拥有nfiniteFX II引擎,相对GeForce3只有一个Vertex Shader(顶点着色引擎),GeForce4 Ti配备了两个并行的更高频率的Vertex Shader引擎,可以在同一时间处理三倍于GeForce3 Ti的顶点数量。而且GeForce4 Ti的Pixel Shader(像素着色引擎)的版本也升级到了1.3。
此外,GeForce4 Ti也同时引入了LightSpeed Memory Architecture II(LMA II,光速交错式显存架构II),可以更好的节省显存带宽。在全屏反锯齿方面,GeForce4 Ti采用了新的Accuview AA技术,采用Accuview Multisampling(改进型Multisamplin)进行样本采集,再配合前面提到的LMA II,可以大幅改善FSAA的性能,使其效果更好,速度也更快。除此之外,GeForce4 Ti增加了4xS的反锯齿模式,比传统的4xFSAA模式好很多,但是其只支持Direct3D游戏,不支持OpenGL,不能不说是一个缺憾。
自GeForce2 MX流传自今的nView技术也在GeForce 4 Ti上得到了增强,无需额外的芯片就能支持双头CRT显示输出,GeForce 4 MX系列更是可以支持双头LCD和平板显示器输出。nView软件的功能也大大强化,增加了视窗管理器和桌面管理器,再加上透明化窗口,局部放大,功能热键自定义,数码明亮独立调节等诸多功能,无不让我们拍手称好。
和Nvidia以往的产品一样,GeForce4 Ti也按其核心频率和显存频率的差别进行细分,划分为GeForce4 Ti4600、 GeForce4 Ti4400、GeForce4 Ti4200三款产品。
由于GeForce4 Ti系列不支持AGP8X,9月25号,Nvidia又推出了NV25的AGP8X版本—NV28。除了支持AGP8X外,核心频率和显存频率也略有提升。NV28也划分为三款产品:GF4 TI4800、GF4 TI4800SE和GeForce4 Ti4200-8X,分别是GeForce4 Ti4600、GeForce4 Ti4400、GeForce4 Ti42600的AGP8X版本。
在GeForce4 Ti发布的同时,Nvidia也发布了新一代的中低端的利器,NV17即GeForce4 MX系列图形芯片。虽然在名字上看,GeForce4 MX属于GeForce4系列,但是它却是修改于GeForce2 MX所采用的NV11图形芯片。与GeForce2 MX相比,GeForce4 MX图形芯片拥有较高的频率,而且从GeForce 4 Ti系列继承了两段LMA II、Accuview AA、nView 等诸多新技术,而且它还具有GeForce 4 Ti所不具有的Video Process Engine(VPE,视频处理引擎)。通过VPE,GeForce 4 MX系列图形芯片实现了对MPEG2的完全硬件解码支持,很大程度上降低了DVD播放对电脑硬件的要求。通过缩放引擎和高级自适应反交错技术,GeForce 4 MX系列图形芯片一改Nvidia产品被人所垢病的2D画质低下的通病。此外,VPE还实现了HDTV和高档电视的高清晰度分量输出和实时视频捕获和回放等诸多功能。
GeForce4 MX同样按照频率的高低进行细分,分为MX420、MX440SE、MX440和MX460四款,之后也和GeForce4 Ti一样,推出了NV17的AGP8X版本NV18,MX440-8X。除了增加AGP8X外,同样也略微提高了核心频率。
随着GeForce4 Ti系列的发布,Nvidia成功的保住了性能之王的宝座,但是好景不长,老对手ATI突出奇兵,他们并没有沿用Radeon 8500的架构,而是全新设计了架构。7月,ATI发布了采用全新架构的R300,Radeon9700 Pro。一举夺下了性能之王的宝座。
不得已,11月18日,Nvidia发布了代号为NV30的GeForce FX 5800图形芯片。GeForce FX 5800是业界第一款采用DDRII显存的产品,更是第一块能在台式机上对图形和特效提供实时渲染,达到电影级别效果的图形芯片。FX系列图形芯片采用了CineFX引擎,晶体管数量差不多是上代NV25的两倍,达到了1亿2500万。虽然采用0.13微米工艺,但其500MHz的核心频率,1GHz的显存频率还是带来了非常恐怖的热量,夸张的Flow FX散热器给人们留下了非常深刻的印象。
GeForce FX 5800实现了对基于DirectX 9核心的Pixel Shader 2.0、Vertex Shader 2.0等技术特性的完整支持,与Radeon9700四对Vertex Shaer并行工作不同,Nvidia为GeForce FX配备了一个大型的并行Vertex Shaer(顶点着色引擎),三角形生成速率达到了前所未有的3.75亿三角形/S。
和Radeon9700一样,CineFX引擎同样拥有8条渲染流水线,每条流水线具备一个Pixel Processor(象素处理单元),但它却是一个真正的128位引擎。虽然Radeon9700宣称可以实现128位渲染,但其内部渲染仍是96位,只是再写入帧缓冲的时候,会按照128位进行操作,而且Radeon9700每条流水线只能每次执行一条64位渲染。相比之下,GeForce FX 5800成功的实现了内部128位浮点渲染(FP32),而且每条流水线可以同时执行两条64位渲染,毫无疑问画质和速度都要出色很多。
CineFX还支持全新的Intellisample(智能取样)技术,通过色彩缓存压缩,自适应各向异性过滤,更高取样的FSAA和动态伽马纠正等诸多技术,可以很好的改善所有游戏的图像质量。
GeForce FX 5800拥有一种硬件级的色彩无损压缩技术,在压缩处理中不会损失色彩信息。在反锯齿时,这一技术的优势显得非常明显,可以有效的减少反锯齿时的性能损失。同时,GeForce FX 还拥有硬件级的快速Z轴清空技术来快速清理Z轴缓冲。
带有伽马修正能力的CineFX可以帮助校正真实的伽马数值,让我们可以看到色彩、亮度更准确的画面,更真实的表现设计人员的设计本意,减轻了开发人员的负担。
GeForce FX提供了更好的自适应各向异性过滤和反锯齿技术。它支持全新的的6XS 模式。但同样只能工作再Direct3D 下。同时,它还支持Direct3D和OpenGL下8X FSAA模式。
除了支持DirectX 9.0要求的HLSL(高层次阴影语言),CineFX引擎还提供了对Cg语言的支持。Cg语言作为一种高级图象编程语言,可以大幅缩短设计人员的开发时间,减小开发的难度。
GeForce FX图形芯片虽然性能强劲,但是TSMC(台积电)0.13微米铜互连工艺尚不成熟,导致了GeForce FX成品率较低,DDR2严重产能不足而且售价昂贵,而且显卡结构过于复杂,这些都导致了GeForce FX 5800成本居高不下,其热量和噪音始终被人诟病不已,128bit的显存带宽又严重制约了其性能的发挥,和Radeon9700始终在伯仲之间。

SiS
4月12日,SiS发布了Xabre系列图形芯片。Xabre一经面世就打出了“8X8”的旗号,即全球第一款AGP8X显卡,全面支持DirectX8.1。Xabre系列图形芯片采用0.15微米工艺,具备4条像素渲染流水线,并且每条流水线拥有两个贴图单元,比当时低端主流—GerForce4 MX系列整整多出了1倍!理论上可提供高达1200M Pixels/s的像素填充率和2400M Texels/s的的材质填充率。
Xabre系列图形芯片具备独创的Frictionless Memory Control(FMC)显存架构,可以控制优先数据置于存贮器最前端,提升整体显存带宽的使用效率。Xabre系列最大可支持128 MB SDR或DDR,支持128bit显存位宽。Xabre系列还采用了独有的“块式减免隐面无效渲染算法”技术,能通过块组的方式判断渲染场景中是否存在不需显示的“隐面”,并略去这部分象素的贴图、渲染工作,可以大大提高图形芯片的渲染速度,减少渲染时带宽的占用。
Xabre系列图形芯片内建了Pixelizer Engine引擎,支持1.3版 本的Pixel Shader,但是其Vertex Shader却是通过软件模拟支持的,这使得其性能大打折扣。其采用的Jitter-Free Anti-Aliasing引擎支持FSAA,而Xabre革命性创新的Vertexlizer Engine引擎更可增强硬件与软件间的顶点运算功能,在降低GPU负载的同时大幅提升运行效率。
Xabre的产品线和GeForce 4 MX系列一样,采用频率的高低进行区分,依照主频和显存频率的高低划分为Xabre400,Xabre200,Xabre80三款,其中Xabre80只支AGP4X。
11月28日,SiS又发布了Xabre600,采用0.13微米工艺,主频和显存频率都提高了不少,性能也总算能与GeForce4 Ti4200比肩。
Xabre作为全球第一款AGP8X图形芯片,发布之时是相当抢眼的。SiS发布Xabre的意义很明显,就是要改变自己的图形芯片定位低端的印象,向中高端领域进军。但SiS在市场营销方面远不如Nvidia和ATI,而且Xabre系列兼容性不够好、驱动程序也有欠缺,因此Xabre系列并没有在市场上有很大作为,只能徘徊于中低端显卡市场。
同样是11月,SiS还公布了Xabre系列的下一代产品:XabreⅡ3D图形芯片。完全支持DirectX 9,采用0.13微米工艺,拥有8条渲染流水线及Frictionless Memory Control Ⅱ架构,高端型号更是采用了DDRⅡ显存。XabreⅡ最初预定2003年初上市,但始终杳无音信。2003年5月26日,随着SiS图形芯片部门独立出去成立Xabre Graphic Inc(XGI,图强科技),这款产品就这样不了了之。

Matrox
自从G400以来,Matrox就没过过好日子,G450,G550的3D性能低下导致其市场占有率不断下滑,计划中的G800又连连跳票。在人们对这家总部位于加拿大的公司逐渐遗忘,都认为其将步3dfx的后尘被收购的时候,他让世人都难以置信的反击开始了。5月13号,他们跳过了G800,在经一年的研发之后,直接推出了采用全新架构的新一代3D图形芯片:Parhelia-512。
Parhelia-512给我们带来了许多惊喜,它是世界首枚512位的3D图形芯片,更拥有高达20GB/S的内存带宽, Parhelia-512名字正是由此而来。
Matrox的产品一向以其画质出色而闻名,Parhelia-512对画质的追求更是让我们惊讶不已,可以说达到了登峰造极的地步。通过其10bit GigaColor技术,Parhelia-512率先实现了30bit色彩显示,可以显示10亿种颜色,是我们平常所用的24bit色彩色深的64倍!与GeForce4、Radeon8500只采用10bit RAMDAC的做法不同,Parhelia-512彻底实现了10bit处理、10bit显示、10bit伽马纠正,真正实现了每通道10bit色彩。10bit GigaColor技术的另一个主要特点就是实现了整条渲染流水线的色彩运算都是每通道10bit精度,包括所有的2D、3D和视频画面处理等,画面质量相比低渲染精度自然出色很多。
关于FSAA,Matrox提出了全新的Fragment Antialiasing(FAA)技术,只对画面中的高色差领域进行反锯齿,可以以极低的性能损失实现非常高的反锯齿效果。Parhelia-512正是采用了FAA技术,在只占用了微乎其微的带宽和芯片运算能力的情况下,提供了一流的反锯齿效果,而且保证了画面其余图像尖锐清晰。
Parhelia-512还实现了部分DirectX 9.0的功能(但是其针对DirectX 9.0的驱程直到近日才发布,实在是让人哭笑不得),是首个实现了硬件Displacement Mapping加速的3D图形芯片。Parhelia-512拥有4组Vertex Shader引擎,每组有4个浮点处理器。其Vertex Shader引擎包含了可以容纳512条指令的高速缓存和256个常数寄存器(GeForce 3/4 Ti是96个,Radeon8500是192个)和一个精心设计的控制单元,可以有效保证引擎的运算效能。
Parhelia-512首创了36级贴图/像素处理阵列,拥有4条渲染流水线,每条流水线都安放了4个贴图单元,可以在一个周期内完成四重贴图,但由于其渲染流水线不支持循环操作,Parhelia-512也就不能实现DirectX 9.0要求的八重贴图。
此外,Parhelia-512还具有UltraSharp(超锐利)技术和Glyph Antialiasing(字体圆滑)技术。由于采用更为完善的设计构架和一流的用料,UltraSharp技术能有效的保证显示输出一流的画质。而Glyph Antialiasing技术则可以在系统性能损失微乎其微的情况下,实现字体的圆滑效果,令显示的文字更光滑、清晰。
至于Matrox的看家技术DualHead,Parhelia-512更是将其发挥到了极致。全新的DualHead-HF技术保证其两个显示单元都是完全对称的,可以分别实现UltraSharp技术和10bit GigaColor技术,提供一流的画质输出。Matrox还为Parhelia-512引入了TripeHead(三头显示)技术,可以同时在三个显示器输出,结合其Surround Gaming(环绕游戏)技术,可以将游戏画面扩展到三个屏幕,不同屏幕显示不同的游戏视角。
Parhelia-512的技术规格真的看起来很美好,但其只采用0.15微米工艺制造,核心频率和显存频率分别只有220MHz、250MHz。3D性能并没有我们想像的那么高,只能与Radeon8500和GeForce4 Ti4200一较高下。虽然其画质一流,但是其几乎为GeForce4 Ti4200三倍的售价实在让人望而兴叹。



ATI
7月17日,ATI发布了人们期待已久的R300和RV250图形芯片,对应这两款图形芯片的产品分别被命名为Radeon9700和Radeon9000,ATI的反击战打响了。
作为ATI的新一代产品,Radeon9700采用了和Radeon8500截然不同的全新构架,搭配256位DDR显存,显存带宽高达20GB/s!而且Radeon9700抢先提供了对DirectX 9.0的支持,硬件支持Vertex Shaders 2.0和Pixel Shaders 2.0。通过四组两两成对的Vertex Shaders引擎,Radeon9700成为了第一颗可以在一个时钟周期内处理一个顶点和一个三角形的图形芯片,每秒3.25亿的三角形生成速度更让其将GeForce 4 Ti 4600彻底甩在了后头。
Radeon9700的拥有8条128位渲染流水线,每条流水线拥有一个专属且独立的贴图单元和Pixel Shaders引擎。每个贴图单元具有每周期一次16 Sample的能力,而且取样方式非常灵活。Pixel Shaders引擎则能同步处理材质查询、材质地址处理计算、色彩运算三个命令,保证把引擎的使用和效率发挥到最大。
Radeon9700还拥有Hyper-Z Ⅲ技术,它由三个部分组成:Hierarchical-Z(Z轴分级)、Z-Compression(Z轴数据压缩)和Fast-Z-Clear(快速Z轴清空)。通过Hyper-Z Ⅲ技术, 大大减少了Radeon9700对显存带宽的要求,提高了运算效率,对其在高分辨下尤其是FSAA情况下的优秀成绩起了相当大的作用。
Radeon9700中的SmoothVision 也升级到了2.0,通过Multisampling Anti-Aliasing(超采样抗锯齿)以及Adaptive Anisotropic Filtering(自适应各向异性过滤功能)技术,实现了6X FSAA和16X AF(Anisotropic Filtering,各向异性过滤),无论是反锯齿的速度还是质量都取得了很大的进步。
Radeon9700中还集成了最新的Video Processing Engine(视频处理引擎)。通过最新的VideoShader技术,可以有效的增强实时的视频捕捉和播放,提供更加锐利、清晰的视频播放效果。
Radeon9700对Nvidia是沉重的一击。在任何情况下,它都可以超越当时Nvidia最强的Geforce4 Ti4600 30%到50%,在全屏抗锯齿效果下更是拉开极大的差距,当之无愧的,ATI如愿以偿的夺走了Nvidia性能之王的宝座。
在用Radeon9700冲击高端市场的同时,ATI的Radeon9000则直冲中低端市场,剑指MX440。与Radeon9700不同,Radeon9000是采用Radeon8500的架构,增加了对AGP8X的支持,但渲染流水线从2个削减到1个,虽然单个流水线的渲染单元从4个增加到8个,但总体性能还是较Radeon8500略低。但是面对只支持DirectX 8.0的MX440-8X,支持DirectX 8.1的Radeon9000无论是性能还是特效支持都明显胜出。
10月,ATI又发布了Radeon9500 Pro和Radeon9500。Radeon9500系列采用了Radeon9700的架构,但是显存位宽少了一半,只有128bit。相比Radeon9500 Pro,Radeon9500屏蔽了一半的渲染流水线,只有四组渲染流水线。这两款产品的发布对Nvidia的GeForce 4 Ti4200-8X造成了极大的冲击,特性上完整支持DirectX 9.0,性能上也比GeForce 4 Ti4200-8X胜出不少,而且只要修改电阻,就可以把Radeon9500/Radeon9500 Pro变成Radeon9700系列,这对广大DIY吸引力不可谓不高。
12月,随着Radeon9000的发布,一贯以数字表明性能高低的ATI发现一个问题,Radeon8500性能要远较Radeon9000为强,但8500的排名却是在9000之后。同时为了清空Radeon8500的存货,也为了在中低端给Nvidia更大的压力,ATI将Radeon8500LE改名为Radeon9100,重新推向市场。


2003

S3
自从被VIA收购之后,S3更多的专注于移动和整合市场,但是1月7日,S3却发布了DeltaChrome,一款针对桌面市场的图形芯片。
DeltaChrome系列图形芯片采用0.13um工艺,全面支持DirectX 9,划分为DeltaChrome F1、DeltaChrome S8 Nitro、DeltaChrome S8和DeltaChrome S4四款。其中最高端的DeltaChrome F1具有4个Vertex Shader(顶点着色)引擎,8条渲染流水线,每条流水线拥有1个材质处理单元,最大支持256M DDR显存。中端的DeltaChrome S8系列与DeltaChrome F1区别只在于主频和显存频率较低。低端的DeltaChrome S4则只有2个Vertex Shader(顶点着色)引擎,渲染流水线也减少了一半,只有4条,最大只支持128M DDR显存。
DeltaChrome系列图形芯片内建Chromotion引擎,可以对各种视频进行后期画质处理和构造视频特效,实现去斑、降噪、浮雕、锐化等特效。DeltaChrome系列还是第一个内建HDTV处理器的图形芯片,可以直接实现HDTV输出。
S3的DeltaChrome系列图形芯片的规格在当时来说还算过得去,但是之后就进入了漫长的跳票。原定在2月实物上市,结果至今还是只能看见少的可怜的样品。


Nvidia
3月6日,为改变中档DirectX 9图形芯片市场被ATI Radeon 9500系列独揽的局面,Nvidia发布了NV31(GeForce FX 5600)和NV34(GeForce FX 5200)3D图形芯片。
GeForce FX 5600系列同样采用了CineFX架构,具备Vertex Shader 2.0+和Pixel Shader 2.0+,支持诸如Intellisample、色彩缓存压缩等新技术,但是其渲染流水线也由GeForce FX 5800的8条减到了4条,每一渲染流水线具备1个材质处理单元,每个时钟周期可以渲染4个像素,由此晶体管数减到了8千万个,同样采用0.13um工艺。显存则搭配128bit的DDR显存,最大支持256MB显存,显存带宽为11.2GB/S。虽然性能相比GeForce FX 5800下降不少,但是成本也相应的得到了控制,Nvidia终于拥有了主流的Direct 9图形芯片,不必再依靠老迈的GeForce4 Ti4200-8X来对抗ATI的Radeon 9500系列图形芯片。

作为第一款完整支持DirectX 9的低端图形芯片,GeForce FX 5200系列同样是基于CineFX架构,和GeForce FX 5600一样,同样采用DDR显存,但是最大只支持128MB,而且晶体管只有区区的4700万,改用0.15um工艺,进一步控制了成本。GeForce FX 5200系列不具备GeForce FX 5800的Intellisample技术,不支持色彩缓存压缩、Z轴数据压缩和诸如6XS、8XS等高级反锯齿模式,同时渲染流水线也只有GeForce FX 5800的一半。和GeForce FX 5800、GeForce FX 5600不同,GeForce FX 5200在内部整合了TMSD传送器,可以直接连接DVI数字接口。由于渲染流水线减半,同时主频和显存频率也都较GeForce FX 5800大幅降低,GeForce FX 5200的填充率只有区区的1000M Texels/S,只是比GeForce4 MX440-8X略高,更多是面对那些对性能要求不高的家庭用户。

5月12日,Nvidia以创记录的速度,发布了新一代的3D图形芯片:NV35(GeForce FX 5900)。作为GeForce FX 5800的后继者,GeForce FX 5900同样是采用0.13um工艺,但是显存却改用256bit的DDR显存而不是DDRⅡ,相比GeForce FX 5800显存带宽提高了约70%,达到了26 GB/S。GeForce FX 5900采用CineFX 2.0引擎,新增了UltraShadow技术和Intellisample HTC技术。UltraShadow技术主要是用于阴影计算时设定边缘Z值,可以有效节约实时计算阴影的时间从而提升性能。相比Intellisample,Intellisample HTC技术则主要在采样算法和各项异性过滤算法这两方面增加了更多的高级纹理、色彩以及Z轴压缩算法以提升图象质量。在Vertex Shader方面,GeForce FX 5900增加了4条流水线,达到了12条。(全部具备定点着色能力,其中8条另外具备浮点着色能力)
相比GeForce FX 5800,GeForce FX 5900更多的只是查漏补缺,解决了热量、噪音、显存带宽等不足。虽然如此,GeForce FX 5900还是成功的击败了Radeon9800,夺回了久违的性能之王的宝座。

代号为NV36的GeForce FX 5900 SE“静悄悄”的诞生了。Nvidia很好的学习了ATI的经验,将GeForce FX 5900屏蔽了一半的渲染流水线,其它特性都和GeForce FX 5900完全相同,同样拥有256bit的显存位宽。

10月23日,应对ATI发布Radeon9800XT和Radeon9600XT,Nvidia也为高、中端图形芯片市场带来了最新的图形芯片:NV38(GeForce FX 5950)和NV36(GeForce FX 5700)。
作为GeForce FX 5900的改进版本,GeForce FX 5950同样采用0.13um铜连接工艺,核心时钟频率也仅提升了25MHz,达到475MHz,也同样沿用了CineFX 2.0引擎、UltraShadow和IntelliSample HCT等技术,从其核心架构来看,GeForce FX 5950与GeForce FX 5900相比没有任何变化。
虽然GeForce FX 5950的显存控制器重新增加了对DDRⅡ的支持,但是GeForce FX 5950还是采用256Bit DDR显存。但是NVIDIA提升了显存的工作频率,达到了950MHz,显存带宽也相应提高到了30.4GB/S。

作为新一代的中端利器,GeForce FX 5700系列改进自GeForce FX 5600,核心架构仍然采用4条渲染流水线,每条流水线拥有1个材质处理单元,但是其核心频率和显存频率相比GeForce FX 5600系列提高不少,其中GeForce FX 5700 Ultra更是而且采用了DDR Ⅱ而不是DDR。
此外,GeForce FX 5700还引入了不少GeForce FX 5900、GeForce FX 5950才有的技术,例如CineFX 2.0引擎、UltraShadow技术和完整的顶点处理引擎,同时,Nvidia还对GeForce FX 5700的几何、像素处理单元的结构进行改进。这些改进使得GeForce FX 5700不但可以在阴影渲染方面实现更加逼真的效果,而且可以大幅度提高几何处理性能和全屏抗锯齿性能。


ATI
同样在3月6日,在Nvidia发布GeForce FX 5600和GeForce FX 5200的同时,ATI也发布了自己新一代的图形芯片:R350(Radeon 9800)、RV350(Radeon9600)和RV280(Radeon 9200)。
Radeon 9800相比Radeon9700改进不大,依旧采用0.15微米制造工艺,支持全新的Hyper Z Ⅲ+、SmartShader 2.1等技术。相比GeForce FX 5800,Radeon 9800系列增加了对Floating Point 3D Textures(浮点3D材质)、Floating Point Cube Maps(浮点立体贴图)、Multiple Render Targets(多点目标补偿)、Displacement Mapping(映射转移)技术的支持,能提供对DirectX 9更好的支持。
ATI的SmartShader 2.1技术优化了显存控制器,使得显存控制器读、写数据时效率更高,尤其在FSAA和AF(各向异性过滤)情况下尤其明显。而Hyper Z Ⅲ+更是提供了高达24:1的无失真Z轴数据压缩。
Fragment stream FIFO buffer(F-Buffer)技术是Radeon 9800系列图形芯片的最大技术亮点,通过此技术,Radeon 9800系列可以执行任意指令长度的Pixel Shader程序。同时,F-Buffer可以把渲染流程中的中间结果存储到一个FIFO缓存中,这样就避免了把所有的像素都写入帧缓存,提高了工作效率。

Radeon 9600系列图形芯片采用了全新的0.13微米工艺,完整支持DirectX 9,支持128位浮点精度和SmartShader 2.1、HyperZ Ⅲ等诸多技术。相比Radeon 9800,Radeon 9600只有4个渲染流水线和2个浮点着色引擎,相比Radeon 9800系列整整缩水了一半。

出人意料,Radeon 9200系列图形芯片却是延用Radeon8500的架构,不支持DirectX 9,只支持DirectX 8.1。拥有4条渲染流水线,支持SmartShader,HyperZ II等技术。

7月11日,ATI又在中国市场发布了Radeon 9800SE。相对Radeon 9800系列,Radeon 9800SE只有128bit的显存位宽,同时也屏蔽了一半的渲染流水线,只有4条,但是一如既往的可以通过改造打开剩下的4条。

9月30日,ATI又发布了R360(Radeon9800XT)和RV360(Radeon9600XT)。Radeon9800XT基于Radeon9800架构,按照ATI的说法,也只是做了小幅的修改。依旧是采用0.15微米工艺制造,只是显存重新又回归了DDR,同时核心频率和显存频率相比Radeon9800有那么一点点进步。Radeon9800XT增加了一个热敏二级管,像GeForce FX 5800一样,可以监控核心温度,风扇也相应的具有了2D和3D模式的区别。同时,Radeon9800XT增加了OverDrive功能。如果芯片核心温度不高时,OverDrive功能将自动提升核心工作频率来提升性能,而当核心温度升到临界关机温度时,OverDrive则将核心工作频率自动降到默认频率。
对比Radeon9600系列,Radeon9600XT最主要改进之处就是采用了低介电系数材料,可以工作在更高的核心频率,同时核心热量也进一步得到了控制。同时Radeon9600XT也同样增加了热敏二级管和OverDrive功能。

Matrox
4月,Matrox发布了Parhelia-512的简化版Millennium P750和Millennium P650。相比Parhilia-512,P750、P650削减了一半的Vertex Shader引擎和渲染流水线。只有2组Vertex Shader引擎和 2条渲染流水线,每条流水线也只有2个贴图单元。P750、P650只支持128位显存位宽,相比Parhilia-512整整削减了一半。相比P750,P650不支持TripeHead(三头显示)技术,只支持DualHead双头显示。


XGI
9月,新成立不久的XGI发布了Volari图形芯片,包括Volari V8、Volari V5和Volari V3三款。
Volari系列图形芯片采用了XGI新一代的TruShader 2.1引擎,完整支持Vertex Shader 2.0和Pixel Shader 2.0,其中V8系列具备4个Vertex Shader(顶点着色引擎)和8个Pixel Shader(像素着色引擎)。通过其独有的BitFluent技术,Volari系列图形芯片可以实现双芯片并行处理,其Duo V8相应就拥有了8个Vertex Shader和16个Pixel Shader!而且在双芯片并行情况下,Volari系列图形芯片可以拥有2X128bit=256bit显存带宽。
Volari系列图形芯片还使用了XGI专利的BroadBahn架构,将128位总线划分为4条独立的32位通道,可以大幅提高提高多任务性能。
同时,Volari系列图形芯片还支持DDR和DDR2显存,单芯片最大支持256MB显存,在双芯片并行下最多可支持2X256=512M。此外,其独有的Cipher Video与ColorAmp技术可以有效改善各类视频回放的效果,提供最精确的色彩和亮度。
相对Volari V8,Volari V5系列只具有2个Vertex Shader和4个Pixel Shader,Volari V3系列则只有1个Vertex Shader和2个Pixel Shader,而且只支持DirectX 8.1。

2004

4月13日,Nvidia又发布了新一代的3D图形芯片:GeForce 6800(NV40)。集成了2.2亿晶体管,采用了革命性的超标量架构,拥有CineFX3.0引擎,高精度动态范围(HPDR)技术、Intellisample 3.0、UltraSHadowII等技术,支持DirectX 9.0C和OpenGL1.5,拥有16条渲染流水线,显存也改用GDDR3,性能较GeForce FX 5950有着大幅的提升。由于晶体管数的增加,耗电量和热量也随之上升,GeForce 6800需要两个外接电源接口,而且都必须是独立的电源线。
5月5日,R420也正式发布。R420的分为RADEON X800 XT Platinum Edition和RADEON X800 PRO两款,都集成了1.6亿晶体管,采用256bit GDDR3显存,分为4个64bit通道。和以往不同,此次的X800 XT和X800 PRO采用了不同的核心,分别具有12条和16条渲染流水线。R420依旧沿用了R300的架构,仍然只支持Pixel shader 2.0,24bits浮点精度。X800 XT和X800 PRO采用了全新3Dc Normal Map Compression材质压缩技术,使用RGB或RGBA格式压缩,可以无损压缩到原来的1/4。X800 XT和X800 PRO还使用了全新的Temporal FSAA反锯齿技术,可以提供更高的FSAA,生成更好的画质。
在过去的10年,图形芯片的发展速度甚至超过了摩尔定律,将3D世界越来越真实的展现在我们面前。在这过程中,出现过很多无法让我们忘怀的企业和产品,例如:3dfx,S3……Voodoo,G400,GeForce……在过去,每一次的产品发布都是如此的让人期待,让人心血沸腾,每次总是能给我们带来许多新的技术,虽然未必都是成功的技术,但都充分体现了设计师的思想和他们对未来3D世界的展望。然而曾几何时,当半年一度的新品发布成了例行公事,我们突然发觉真正意义上的新产品已经消失了。例行公事的加多定点流水线和渲染流水线,例行公事的升高主频和显存频率,当然,还有功率,例行公事的升级显卡风扇,例行公事的采用更新的生产工艺和显存,例行公事的将原有的技术加以一点点升级……每一次都是如此,而且两个竞争对手总是能保持着微妙的平衡,这一切实在是让我们心寒。或许不久的将来,我们的图形芯片也会像现在的CPU一样,完全用主频来表示性能,只是不断的冲击更高的频率。
未来的图形芯片是怎样的呢?我们在这里做一个大胆的预测。

1.隐面消除技术
在3D场景中,又相当多的部分是被遮挡住不可见的,尤其是在飞行模拟和赛车类游戏中,在复杂场景下最高可达30%之多。假如图形芯片能够判断哪些部分是不需要渲染的,避免渲染这些不可见的部分,在理论上说,我们的显卡可以提升10%到30之多,而且随着场景复杂度的增加,这个数字还会进一步提升。

2.反锯齿技术
相信大家都非常清楚,目前的图形芯片是否开反锯齿得分的差距,完全是倍数级别的。虽然众多厂商提出过许多不同的反锯齿算法,但无论效果还是速度都还是无法让我们满意。希望占用极少的资源,提供极好的反锯齿效果的算法能尽早和我们见面。

3.嵌入式显存
奔腾和赛扬的差距在哪?不是在主频,而是在二级缓存,几百KB的二级缓存对性能的影响可以说是非常大的。在90年代,曾经有两个厂商投入过图形芯片嵌入式显存的研究,虽然之后都渺无音信,但无疑指明了一个不同的研究方向。或许在将来,图形芯片也将同样嵌入一级、二级显存,而高低端的图形芯片就会以二级嵌入式显存的大小来区分。

4.多核心技术
无论是3dfx的VSA架构、ATI的MAXX技术还是XGI的BitFluent技术,都算是相当成熟的多核心技术。在目前来说,多核心技术虽然可以将性能非常简单的提高,但相应的成本和功率的升高实在是让人无法承受。但随着生产工艺提升的难度不断加大,研发新图形芯片的成本不断提升,或许在今后多核心技术相反会成为一个以有限成本大幅提升性能的方案。要知道顶级的图形工作站采用的可都是Savage2000,TNT之类的图形芯片,只是数量比较恐怖。

5.整合
究竟能用得上当前顶级图形芯片全部性能的人有多少?相信只是少数,对大部分大部分商务用户和家庭用户而言,目前的图形芯片的发展速度已经远远超过了他们的需要。对于他们来说,整合方案就是最好的选择:更小的体积,更低的成本,没有噪音,不容易出现故障,Intel图形芯片市场占有率高居不下就是整合的功劳。

以上的只是笔者的猜测,将来的图形芯片到底是怎样,我们拭目以待,但可以肯定,一个越来越真实的3D世界正逐渐展现在我们面前。 
 

你可能感兴趣的:(游戏,图形,引擎,产品,shader,Direct3D)