2016年对显卡界来说可谓是轰轰烈烈的一年,经过了5年漫长时光,GPU的制程终于迈入1x nm时代,随着制造工艺从28nm升级为14/16nm,显卡的能耗比得到了极大的提升。借着这股东风,AMD和NVIDIA发布了多款全新架构产品,细数整个16年,NVIDIA共发布新架构产品9款,AMD共发布新架构产品7款(Radeon Pro SSG采用的是Fiji核心,故不算在内),可谓是新品迭出。
整个显卡界的关注度也是空前高涨,从4月中旬一直热闹到了12月中旬,然后逐渐沉寂下来。就在几家我正享受这片刻的宁静时,AMD又在春节之前发布了一款Polaris新品,发布的正是之前传出的“RX 460升级版”——Radeon RX 460 1024sp。说起这个RX 460 1024sp,其实在12月初就有玩家通过给RX 460开核的方式得到了这款卡,当时正是RX 470D可以开核的消息大面积扩散的时候,overclocking.guide的大神der8auer通过一个固件解锁了RX 460 Polaris 11核心隐藏的2组CU,结果让显卡性能激增,这让许多玩家振奋不已。
如果你对专业卡有所了解的话,相信你一定知道AMD发布的全新Polaris架构专业卡,其中Radeon Pro WX 4100这款显卡采用的便是Polaris 11核心,核心的流处理器数量是1024个。这也就是说拥有1024个sp的Polaris 11核心才是完整小核心,RX 460的sp数量为896个,显然是被“阉了一刀”,AMD推出1024sp的Polaris 11核心GPU也是早晚的事。终于,AMD在春节前放出了RX 460 1024sp这款意料之内的产品,算是给众多中低端玩家的新春礼物吧。
RX 460 1024sp推出的意义很明显,就是与NVIDIA的GTX 1050正面交锋。由于新制程的RX 460仅仅能与28nm的GTX 950战个平手,更不用说与14nm的GTX 1050一战了,这直接导致了RX 460在玩家群中的口碑并不是很好,因此AMD在RX 470D的火热劲过后紧接着便放出了1024个sp的RX 460,誓与GTX 1050一较高下。现在RX 460与GTX 1050间的性能差距差不多就是10-15%,而多了256个流处理器的RX 460理论性能提升差不多就是这个数值,可见两者间的大战还是比较有看点的。
与RX 460一样,AMD没有为RX 460 1024sp推出公版产品,我们ZOL收到的是蓝宝石的RX 460 1024sp超白金 OC,算是RX 460 1024sp中比较有代表性的一款。我们同时引入RX 460及GTX 1050的数据进行横向对比,给读者一个更直观的感受。那么这款AMD的这款升级版RX 460竟会有怎样的实力?吉吉我将带您一同揭晓答案!
完整Polaris 11核心
Radeon RX 460 1024sp采用14nm FinFET “Baffin”核心,核心面积为123平方毫米,共包含30亿个晶体管。基于GCN 4.0架构的该核心共有1024个流处理器,运算单元数量为16个,TMUs总数量为64个,ROPs数量为16个,两个带宽为64bit的双通道显存控制器组成了总量为128bit的显存控制单元,大小为4GB。
注:表中售价均为官方首发限价
我们可以看到,Radeon RX 460 1024sp的核心频率高达1250MHz,比RX 460高50MHz,这个频率可以说是相当之高的。RX 460 1024sp显存带宽为112 GB/s,完整支持DirectX 12 API以及异步运算,在DX12中有着更好的表现。RX 460 1024sp的默认Pixel Fillrate能力达到了20 Gpiexls/S,默认Texture Fillrate能力为80 Gtexels/S。
GCN 4.0架构Baffin芯片由以下主要的部分组成:
1、基于三星的14nm FinFET工艺,照比之前的28nm工艺,为每个CU单元带来15%的性能提升,以及高达2.8倍的能耗比提升。
2、与“Fiji”相同的宏观并行结构,16组CU单元被分为2个Shader Engines,每个Shader Engines包含8组CUs。每个CU的Shader效率照比前代提升了15%,同时几何引擎也有所改进。
3、与Shader Engines一一对应的2组Geometry Unit(几何处理单元)以及2组Rasterizer(光栅化单元)。
4、ACE异步计算单元的总量为4组,同时,还有2组全新的,为异步运算设计的HWS加入到架构中。HWS用来更好地对硬件资源进行调度,提高异步运算效率。
5、二级缓存是之前的2倍,在降低显存带宽需求的同时改善电源效率,在显存运行上更节能。
Baffin架构的核心设计,即CU单元与Fiji甚至Hawaii相差甚微,绝大部分uncore部分的结构也完全沿用了Fiji的设计,两者甚至连宏观并行结构和缓冲体系都一模一样。Baffin与Fiji之间除了CU总量和显存控制器之外,可以说并没有本质性的差异。最大的改进点在于HWS单元的引入,让新的GCN 4.0架构在异步运算方面可以取得更好的表现。
GCN 4.0架构新特性解析
全新GCN 4.0架构的几何引擎性能得到了一定程度的提升,其内置的Primitive Discard Accelerator将在初始建模之前,会筛选出根据3D图像的距离逻辑,省略掉较远处物体建模的曲面细分指令。由于距离远,对远处物体的建模是无用的,虽然视觉上看不到,但还是会一样消耗性能,因此AMD选择放弃这一部分,不进行曲面细分,从而提升几何引擎的效率。而新建索引缓存则可为更小的几何实例服务,以便减少数据移动,释放内部带宽资源,并提高原始吞吐量。
在经过AMD的优化后,通过减少流水线停顿、增加指令缓冲区容量、提高单线程、调整L2缓存等多项措施,GCN 4.0架构中每组CU的性能提升了15%。
GCN 4.0的显存控制器也得到了更新,显存频率高达8Gbps,同时带宽也达到了256GB/s。色彩压缩技术的加入,让很多重复的材质和信息可以被压缩存储,提高存储空间利用率,增加数据传输速度。因为图像是由不同颜色构成的,颜色相似度越高的像素,它就能以更高的比率压缩,最多可以达到1:8,这点同NVIDIA的Pascal架构相同。
在GCN 4.0架构中出现一个全新的HWS(硬件寄存器)单元,它是为异步计算和VR设立的特殊模块,意在针对VR虚拟现实的音频、视频与实时任务进行优化,提高硬件资源的利用率,并进一步提高GCN架构异步计算能力。
AMD在显示技术方面做了改进,GCN 4.0架构显卡开始支持DP 1.3及HDMI 2.0,并预先支持DP 1.4接口,可以输出10bit画面。此外,AMD还实现了单根DP 1.3线缆进行5K@60Hz分辨率的输出,这在现在来看还是非常先进的。
视频解码编码方面,GCN 4.0架构也做了改进,H.264编码支持4K 30Hz编码,HEVC/H.265则可以支持到4K 60Hz编码。现在视频编码解码不仅关系到玩家看高清视频内容,很多游戏直播、录播软件也流行开了,支持高效率的编码有助于减少CPU占用率。
半导体工艺对芯片性能、功耗的影响是根本性的,根据官方资料,AMD选择的三星14nm FinFET工艺使得显卡运行电压降低了150mV,功耗降低了30%,所以GCN 4.0架构使用的14nm工艺相比28工艺能提升70%的每瓦性能比,但在AMD优化之后,新显卡的能效比最终达到了前代水平的2.8倍。