Part 4: (2006 - 2013) The Modern GPU: Stream processing units a.k.a. GPGPU

通用gpu的出现

直到directx10的出现，在增加不必要的复杂性扩大die区域，这增加了顶点着色器的功能，除了提高浮点精度的像素着色器从24位到32位，以匹配顶点操作的要求。随着DX10的到来，顶点和像素着色器保持了大量的公共功能，所以移动到一个统一的着色器拱门消除了许多不必要的重复处理块。第一个采用这种架构的GPU是Nvidia的标志性的G80。

经过四年的研发和4.75亿美元的投入，生产出了6.81亿晶体管、4.84亿毫米的巨型晶体管——在11月8日首次作为8800 GTX旗舰和8800 GTS 640MB。超频GTX 8800 Ultra代表了G80的顶峰，夹在两个较小的产品之间:2月份发布的320MB GTS和2007年11月19日限量生产的GTS 640MB/112核心。

在新的覆盖样本抗锯齿(CSAA)算法的帮助下，Nvidia很满意地看到它的GTX在性能上彻底击败了所有单图形和双图形的竞争对手。尽管取得了成功，但去年第四季度，AMD在离散显卡市场的份额下降了3个百分点，这得益于代工设备合约的优势。

关于G80，英伟达商业战略的其余部分在2007年2月和6月变成了现实。基于c语言的CUDA平台SDK(软件开发工具包)以测试版的形式发布，以实现gpu高度并行化的生态系统。在使用CUDA的应用程序中，英伟达的物理引擎PhysX以及它的分布式计算项目、专业虚拟化和OptiX(英伟达的射线追踪引擎)更为引人注目。

Nvidia和ATI(现在的AMD)一直在将越来越多的计算功能集成到图形系统中。ATI/AMD会选择依靠开发人员和委员会来开发OpenCL路径，而Nvidia在考虑CUDA和高性能计算方面有更直接的计划。

为此,英伟达在6月推出了特斯拉的数学协处理器,最初基于同一G80核心已经驱动的GeForce和方形住宅区FX 4600/5600,经过长时间的发展,包括至少两个(也可能是三个)主要调试练习,AMD公布了5月份R600。

媒体炒作使推出热烈期待作为AMD的回答8800 GTX，但什么到达作为HD 2900 XT很大程度上令人失望。这是一个中上范围卡结盟的权力使用的发烧友板，消耗更多的权力比任何其他当代解决方案。

R600失误的规模在ATI内部产生了深远的影响，促使战略改变，以满足未来的最后期限和最大化发布机会。RV770 (Evergreen)以及北部和南部岛屿系列的执行得到了改进。

作为最大的ATI/AMD GPU到目前为止的420mm的图形处理器，R600合并了许多图形处理器的第一。这是AMD的第一次举10芯片,与512位的第一个也是唯一GPU内存总线,首先供应商桌面芯片tessellator单元(仍很大程度上未使用的游戏开发者的冷漠和缺乏举支持),先用集成音频在HDMI支持GPU,以及首次使用VLIW,架构,仍然与AMD直到现在的8000系列。这也是自Radeon 7500以来，ATI/AMD首次在价格和性能方面没有推出顶级卡。

AMD将R600升级为RV670，将TSMC的80nm处理器压缩为55nm节点，并将512位双向存储器环形总线替换为更标准的256位。这使得R600的芯片面积减少了一半，同时封装了几乎相同数量的晶体管(6.66亿个，而R600只有7亿个)。AMD还为DX10.1升级了GPU，并增加了对PCI Express 2.0的支持，这些都足以取代HD 2000系列，与主流的 GeForce 8800gt和其他较小的显卡竞争。

在没有高端GPU的情况下，AMD在2008年1月推出了两款基于rv620 /635的双GPU卡。HD 3850 X2在4月份发货，最终的全奇迹品牌卡HD 3650在6月份发货。发布了一个抛光的驱动程序包，双GPU卡立即对评论家和购买公众产生了影响。HD 3870 X2舒适地成为单一最快的卡和HD 3850 X2不是一个大得多的慢。与Nvidia的SLI解决方案不同，AMD为交叉发射卡提供了通用ASIC的支持。

继G80的成功之后，英伟达在10月29日推出了G92 as 8800 GT，受到了科技网站的广泛好评，主要原因是其极具竞争力的价格。横跨199美元到249美元的范围，512MB的卡提供的性能使基于g80的8800 GTS失效。它基本上击败了HD 2900 XT和HD 3870，后者比GT晚三周发布，与GTX的差距一般在80%以内。不出所料，这导致了数周内8800辆GTs的短缺。对英伟达的这款新机型及其8600台GS/GT系列产品的强劲需求，帮助该公司在去年底达到了71%的独立市场份额。

紧随GT之后，Nvidia在12月11日发布了基于g92的8800 GTS 512MB。虽然一般来说，GT的每美元性能不如GT，但GTS的可取之处是它使用了更好的gpu，基本上相当于GTX和超频8800 Ultra的价格。

如果不添加不幸的后记，GeForce 8系列的故事是不完整的，那就是使用高铅焊料在某些G86, G84, G73, G72/72M gpu，和C51和MCP67图形芯片组的BGA。这，再加上低温下填充，不充分的冷却和密集的热/冷循环，导致了过多的图形故障。

如果说8系列是英伟达在技术上的一次胜利，那么9系列则迎来了一段停滞期。

2008年中期，英维迪亚改用了AMD使用的日立共晶(高锡)焊料，并显著改变了8800 GT冷却器的单槽参考设计，增加了更多风扇叶片，并对护罩进行了调整，以促进更高的气流。G92被怀疑受到了underfill问题同样，虽然双插槽设计在8800 GTS 512M和非参考冷却器装备卡似乎没有受到过度的影响。

该公司在与该问题相关的指控中花费了4.759亿美元，这导致了客户对这两家Nvidia笔记本电脑oem的强烈反对，他们在此事被公之于众之前已经知道了一段时间。英伟达在业界的地位将永远与它历史上的最低点联系在一起。

如果说8系列是英伟达在技术上的一次胜利，那么9系列则迎来了一段停滞期。该系列的亮点也是2008年2月推出的第一款车型。9600 GT是基于“新”G94，它比前一年的G92精简了一点，采用相同的65nm制程台积电(TSMC)制造工艺。

AMD对HD 3870和HD 3850的大幅降价，加上英伟达自己的8800 GS和GT价格不断下降，使得9系列的其余部分几乎完全处于重新品牌的旗帜之下。

最初的9800 GTs是8800 GT rebadges，而8800 GTs (G92)演变成9800 GTX。TSMC采用55nm制程后，G92的面积减少了20%，时钟频率也有了小幅提升，从而生产了9800 GTX+、同款OEM GTS 150以及GTS 250。GTS 250在8系列卡问世15个月后才进入零售渠道。

由于旗舰产品GT200的姗姗来迟，加上AMD的HD 3870 X2在单卡军备竞赛中处于领先地位，Nvidia采用了将两款9800 GTs夹在一起的悠久传统来制造9800 GX2。虽然它赢得了基准竞赛，但大多数观察人士很快就注意到，以三辆9800 GTs的价格出售双管9800 GT，充其量也没有多大吸引力。

截至6月，英伟达发布了其gtx260和gtx280带GT200 GPU，一个576毫米的芯片，代表了迄今为止最大的生产GPU模具(英特尔的Larrabee估计600-700毫米的芯片)和最大的生产芯片的任何类型的台积电。

GT200重申了英伟达的愿望，通过在设计中加入专用双精度(FP64)和计算硬件，将GPGPU推向聚光灯下。以游戏为导向的架构上的改变更为温和，但这并没有阻止英伟达将280手机定价为令人垂涎的649美元，也没有阻止英伟达推出3D视觉(3D游戏和视频)驱动程序，以及3D快门眼镜和红外发射器——这是一个非常昂贵的套装。

HD 4870和4850上市后价格大幅下跌，其中GTX 280下跌38%至400美元，GTX 260下跌25%至299美元。

AMD用RV770回应了GT200和G92。第一张卡，一个低主流的HD 4730，在6月8日推出，随后主流和性能市场HD 4850和4870 25。由于规格泄露，商店在NDA过期前一周开始销售HD 4850, HD 4850的发布失去了一定的影响—— 这在现在很常见，但在2008年就不那么普遍了。

4870和4850成为第一款使用GDDR5内存的消费类显卡，18个月后，英伟达最终在基于gt215的GT 240上实现了这一功能。

HD 4870和4850凭借其广泛的功能获得了好评，包括HDMI上7.1 LPCM声音、总体性能和多gpu缩放，当然还有价格。该卡片的唯一缺点是，它倾向于在参考板的电压调节元件上产生较高的局部温度，这导致不成比例的故障率和锁紧——尤其是在使用诸如Furmark这样的老化软件时。

为了保持上一代GTX 280的统治地位，AMD在8月发布了HD 4870 X2。卡很快确立自己在审查基准图表的顶端，在大多数类别包括性能，但也在噪音输出和热生产的类别，由于参考鼓风机风扇。

2009年1月，英伟达的产品线出现了小幅调整，GT 200被转移到台积电的55nm制程上。55nm在B3版本芯片中得到了应用，在前一年的9月，duty作为gtx260的核心216版本首次出现在了B3版本芯片中。该公司提供的GTX 295，其特点是两个削减(ROPs和内存总线)gt200 - b3。

这种卡的单gpu变体是在4月份发布的gtx275。但AMD的回应也是如此:改版的rv790x驱动的HD 4890和HD 4770 (RV740)，这也是AMD的第一款40nm制程卡。

HD 4770虽然本身不是主要产品，但它给了AMD无法估量的经验，TSMC的问题40nm工艺，产生了很大的电流泄漏差异，以及由于GPU芯片金属层之间的不完整连接造成的高缺陷率。有了这些工作知识，AMD能够改善英伟达在费米架构中遇到的铸造工艺问题——这些问题在英伟达最初的40nm微型gpu中没有出现。

今年7月，英伟达推出了首批40nm芯片产品。入门级的GT216和GT218以GeForce 205、210和GT 220的形式出现，所有这些都是OEM产品，直到10月份后两款开始零售。值得一提的是，这是英伟达的第一款DX10.1显卡——AMD在HD 4870/4850上实现了这一功能——此外，英伟达还提供了音频7.1、无损LPCM音频、杜比TrueHD/DTS-HD/-HD-MA的比特流和HDMI音频。该系列的目标是家庭影院市场，并最终在2010年2月更名为300系列。

在2009年9月至2010年2月的四个月里，AMD彻底从上到下推出了四款gpu (Cypress、Juniper、Redwood和Cedar)，其中包括常青系列，从顶级的HD 5870开始，一周后又推出中高档HD 5850。

台积电的40nm制程陷入困境，打击了AMD利用Nvidia Fermi no-show的能力，因需求超过供应。这在很大程度上是由于AMD将Evergreen的发布时间安排在Windows 7和directx11上。

虽然DX11花了很多时间来展示Evergreen的价值，但HD 5000引入的另一个特性在视觉上产生了直接的影响，这依赖于显示端口的灵活性，使得每一块板上可以有多达6条显示管道。这些被路由到一个约定的DAC或内部TMDS发射器和显示端口的组合。

以前的显卡通常使用VGA、DVI和HDMI的组合，所有这些都需要一个专用的时钟源每输出。这增加了GPU的复杂性、大小和pin计数。DisplayPort否定了独立时钟的需要，并为AMD的硬件集成多达6条显示管道开辟了道路，而软件仍然负责提供用户体验。这包括边框补偿和跨面板显示在一个最佳的分辨率。

长青系列在各方面都处于领先地位(除了纹理过滤的问题)，HD 5850和HD 5770吸引了大量对成本敏感的玩家，而HD 5870和双gpu HD 5970提供了无与伦比的性能和效率水平。

6个月后的4月12日，英伟达终于通过GTX 470和480发布了其首款费米主板。由于Nvidia没有使用GDDR5 I/O的经验，因此费米的核心速度相对保守，以抑制功耗，内存带宽也较低。

虽然gtx480受到了不温不火的回应，但英伟达的第二款费米芯片，即gtx460中的主流芯片GF104，却是一个巨大的成功。

在台积电的40nm制程上，产量低于最佳水平，这已经导致了AMD的供应问题，而由于GF100 Fermi的模具尺寸为529mm。由于模具尺寸、产量、功率需求和热量输出都是不可分割的，与AMD的系列产品相比，英伟达的400系列在游戏性能上付出了很高的代价。

Quadro和特斯拉型号的GF100在市场上几乎没有受到影响，如果有的话，多亏了专业市场内部的一个现成的生态系统。一个没有让人失望的方面是透明度超采样反锯齿(TrSSAA)的引入，它被用于采样AA (CSAA)的现场覆盖。

虽然gtx480受到了不温不火的回应，但英伟达的第二款费米芯片，即gtx460中的主流芯片GF104，却是一个巨大的成功。它的性能很好，价格也很高，192位/768MB的运行价格为199美元，256位/1GB的运行价格为229美元。他们推出了大量的非参考和工厂超频卡，由于保守的参考时钟，英伟达选择了以帮助降低功耗，具有显著的超频空间。

460型轿车受到的积极欢迎，部分源于GF100上市后市场的黯淡预期。GF104被推测不超过GF100的一半，并将遭受可怕的紧邻AMD的Cypress GPU。这证明是错误的。去年11月，英伟达发布了最新版本的GF100, GF110，这是博客 “专家”和AMD的第二个惊喜。

升级后的芯片实现了之前的芯片无法实现的功能——即使整个芯片成为可能。最终得到的GTX 570和580就是最初的400系列所期望的样子。

Barts是AMD的第一款北部岛屿系列GPU，于去年10月上市。更多的是从常绿树种进化而来，Barts的设计是为了降低柏木的生产成本。该GPU并没有在性能上提供实质性的提高，它看起来与之前的HD 5830和HD 5850相当，但在GPU大小上节省了大量的时间。AMD削减了流处理器(着色器)计数，大修并减少了内存控制器的物理尺寸(和相关的降低内存速度)，并消除了执行双精度计算的能力。巴兹确实，然而，有一个镶嵌升级超过常青。

虽然性能没有显著提高，但AMD确实在显示技术方面进行了升级。DisplayPort被推到1.2(从一个端口驱动多显示器的能力，120Hz刷新高分辨率显示和位流音频)，HDMI被推到1.4 (3D 1080p视频播放，4K屏幕分辨率)，并且公司增加了一个更新的支持DivX的视频解码器。

AMD还通过引入形态抗锯齿(MLAA)改进了驱动程序特性，这是一种后处理模糊过滤器，其功能——尤其是在发布时——是非常成功或失败的。

HD 6970和HD 6950的引入为催化剂驱动增加了一个传统的AA模式，使用EQAA(提高了质量的AA)，同时AMD也实现了初始的HD3D支持，这是不稳定的，动态的电力使用，这次使用了PowerTune。

总的来说，开曼部分优于第一代费米芯片。它们本应该超过它们，但却落后于第二代(GTX 500)几个百分点，两个阵营随后发布的驱动程序进一步增加了差异。

由于HD 6970和6950在12月15日发布，开曼11月的发布被推迟了一个月，这代表着(短暂)脱离了VLIW5架构，自R300系列以来ATI/AMD一直在使用VLIW5架构。取而代之的是VLIW4，它去掉了流处理块中的第五个特殊功能(Transendental)执行单元。

这是为了从DX9(和更早的)游戏中撤出过多的资源，同时增加一个面向计算的图形管道重组。

集成显卡的三位一体和Richland系列的apu是唯一的其他VLIW4部分，而AMDs最新的图形架构是基于GCN(图形核心下)，VLIW5生活在HD 8000系列作为重新品牌的入门级常青gpu。

参照GF100/GF110的进展，gtx460的继任者gtx560 Ti于2011年1月问世。基于gf114的卡片功能全面修订GF104，并证明是强大的和通用的，作为它的前任。它提供了无数的非参考的解释，有或没有工厂的超时钟。

AMD立即降低了HD 6950和6870的价格作为回应，因此GTX 560 Ti在价格和性能上的优势消失了，尽管评论还在写。由于许多主板合作伙伴提供的邮件折扣，HD 6950，尤其是1GB版本，成为了一款更有吸引力的机型。

Nvidia 2011年的第二次重大发布，更准确地说是在3月26日，以轰轰一声拉开了序幕。GTX 590将两个功能齐全的gf110集成到一块电路板上。公关方面的影响几乎立刻就开始了。

主板上运行的驱动程序不能达到正确的功率限制程度，而且配上了允许高电压的BIOS。这个疏忽允许一个侵略性的过电压开始吹mosfet。英伟达通过更严格的BIOS和驱动程序解决了这个问题，但发布当天的活动引发了一些严厉的评论和至少一个热门的YouTube视频。GTX 590的性能与AMD自己的双卡HD 6990不相上下。

由于在基准测试中没有明确的赢家，这些产品在各个论坛上引发了无休止的争论，从多gpu缩放、库存可用性、基准相关性、测试方法，到590的爆炸。

从1月9日开始，AMD的北方群岛(Northern Islands)继任者、南方群岛(Southern Islands)开始分期发布旗舰机型HD 7970。这是第一款PCI-E 3.0卡，也是第一款基于台积电28nm制程节点的AMD GCN架构的接收器。仅仅三周后，第二款塔希提卡HD 7950也加入了7970，随后主流的佛得角卡也在2月15日问世。皮特凯恩基于gpu的性能卡在一个月后的3月份上市。

卡牌很好，但并没有提供惊人的游戏改进比以前的40nm主板。再加上AMD自HD 2000系列以来的主要产品价格不那么有竞争力，两个月来没有WHQL驱动程序，以及一个非功能性的视频编解码器引擎(VCE)，这些因素都降低了许多潜在用户和评论员的热情。

塔希提部分的一个奖金是确认AMD留下了许多未开发的性能通过超频可用。这是在功率使用和热量输出与时钟速度之间的权衡，但导致了保守的核心和存储频率。最大化产量的需要，以及对英伟达基于开普勒的GTX 680/670的低估，可能也是原因之一。

通过引入开普勒架构，英伟达继续将其在GPU上的功能设置多样化。

在前几代游戏中，英伟达使用最复杂的芯片来满足高端游戏社区的需求，并为专业型号(Tesla/Quadro)启动冗长的验证过程。在最近几代中，这种方法并没有给公司带来特别好的服务，所以看起来更小的GK107和性能导向型的 GK104比糟糕的GK110更有优势。

GK107大概是必需的，因为英伟达有大量的OEM移动合同要履行，并且需要GK104用于高端台式机市场。这两款gpu都是A2版本的芯片。移动GK107s (GT 640M/ 6.5 m, GTX 6.6 m)在2月份开始向oem发货，并在3月22日正式宣布，同一天英伟达推出了基于gk104的GTX 680。

另一个与英伟达最近的GPU设计不同的是，着色时钟运行在与核心相同的频率。自GeForce 8系列以来，Nvidia使用的着色器运行频率至少是核心频率的两倍——在9系列中高达2.67倍，在400和500系列中正好是核心频率的两倍。

这一变化的基本原理是英伟达将重心从单纯的性能转向每瓦特性能。对于并行工作负载，以较慢速度运行的更多内核比以两倍频率运行的更少内核更有效。基本上，这是GPU相对于CPU的改进(多核、低频率、高带宽和延迟相对于少核、高频率、低带宽和延迟)。

减少着色时钟也有降低功耗的优势，Nvidia进一步节省了设计，大幅度减少模具的可用双精度单位，以及减少总线宽度到一个更主流的256位。这些变化，加上由动态增强特性(overclock on demand)增强的相对适中的基础核心速度，提供了一个更加平衡的产品——尽管牺牲了计算能力。然而，如果英伟达保留了费米的计算功能和带宽设计，它可能会因为生产一个大的、热的、耗电的设计而遭到嘲笑。物理定律再次将芯片设计变成一种妥协的艺术。

再一次，Nvidia生产了一个双GPU板。由于GK104改进的功率包线，gtx690在SLI中基本上是两个gtx680。唯一的区别是690的最大核心频率(boost)比52MHz低。虽然性能仍然取决于司机的SLI轮廓，但这张卡的功能是一流的，它的美学价值与它佩戴的限量版品牌相称。

gk110标志着英伟达在GeForce的旗帜下首次发布GPU的惯例有所不同。这张卡最初被视为特斯拉K20，在超级计算合同中被大量索要，ORNL的Cray XK7 Titan、NCSA的Blue Waters、瑞士CSCS Todi和Piz Daint系统需要超过22000张卡。

消费者不得不等了6个月，GK110才成为GeForce。由于缺少型号编号，因此被称为GTX Titan的Nvidia更希望看到这款卡与现有的开普勒系列(以及可能的后续)分离开来。售价999美元的Titan主要面向超级发烧友和基准测试者。英伟达还在预算范围内扩大了对研究人员和专业人士的吸引力，这是该公司首次允许GeForce卡保留与特斯拉(Tesla)和Quadro同类产品相同的计算功能。

卡迅速假定了顶级狗的地位在游戏基准，特别是在多显示器分辨率超采样反锯齿应用。然而，英伟达对OpenCL驱动程序的不成熟支持，以及最近与AMD的游戏进化程序结盟的游戏产品的激增，都削弱了泰坦的影响力，同样也削弱了它高昂的价格。

今年6月，AMD也推出了HD 7970 GHz版本——核心频率增加75MHz，并进一步增加50MHz(与英伟达提供的动态调整版本不同)。GHz版本代表了卡可能应该在一月份开始使用的频率。

不幸的是，对于AMD来说，这款SKU瞄准的市场已经决定，通过超频，以更低的价格和更低的核心电压，这款标准机型一般都能实现同样(如果不是更好)的性能。在HD 7970 GHz版本之后，AMD又推出了HD 7950 Boost。

现在和未来的PC图形，简而言之

到目前为止，2013年英伟达(Nvidia)和AMD在个人电脑显卡市场的份额之争不断加剧，因为游戏开发和屏幕分辨率都无法与集成显卡匹敌。

2002年初，英特尔占有14%的PC图形市场份额。随着其极限显卡(830至865芯片组)的问世，该公司的市场份额上升到33%，接着是第三代和第四代DX 9芯片组的38%，现在是DX10 GMA 4500系列的50%以上。将GPU集成到CPU中意味着英特尔现在负责大约60%的PC图形的出货。

image.png

一代接一代，对新图形产品的需求变得越来越不明显。大多数游戏都是基于已有10年历史的API (DX 9于2002年12月推出)，所以游戏中的图像增强越来越少地关注于GPU负载，而更多地关注于后处理过滤——即使在兼容dx11的下一代主机上，这一点也不太可能改变。对光栅化的依赖将继续，因为光线追踪被证明是一个困难的难题。

不幸的是，除非游戏引擎有了根本性的发展，或者能够负担得起超高分辨率的显示器，否则硬件迷们在未来就没有那么多东西可以修补了。无论未来几个月或几年的情况如何，请放心，我们将继续在TechSpot上评论即将推出的gpu。

Part 4: (2006 - 2013) The Modern GPU: Stream processing units a.k.a. GPGPU

你可能感兴趣的:(Part 4: (2006 - 2013) The Modern GPU: Stream processing units a.k.a. GPGPU)