多核
1概述
多内核(multicore chips)是指在一枚 处理器(chip)中集成两个或多个完整的计算引擎( 内核)。 多核技术的开发源于工程师们认识到,仅仅提高单核芯片(one chip)的速度会产生过多热量且无法带来相应的性能改善,先前的 处理器产品就是如此。他们认识到,在先前产品中以那种速率, 处理器产生的热量很快会超过太阳表面。即便是没有热量问题,其性价比也令人难以接受,速度稍快的 处理器价格要高很多。
英特尔工程师们开发了多核芯片,使之满足“横向扩展”(而非“纵向扩充”)方法,从而提高性能。该架构实现了“ 分治法”战略。通过划分任务, 线程应用能够充分利用多个执行 内核,并可在特定的时间内执行更多任务。 多核处理器是单枚芯片(也称为“硅核”),能够直接插入单一的处理器插槽中,但 操作系统会利用所有相关的资源,将它的每个执行 内核作为分立的逻辑处理器。通过在两个执行 内核之间划分任务, 多核处理器可在特定的 时钟周期内执行更多任务。
多核架构能够使用的 软件更出色地运行,并创建一个促进未来的软件编写更趋完善的架构。尽管认真的 软件厂商还在探索全新的软件并发处理模式,但是,随着向 多核处理器的移植,已有软件无需被修改就可支持多核平台。 操作系统专为充分利用多个 处理器而设计,且无需修改就可运行。为了充分利用 多核技术,应用开发人员需要在 程序设计中融入更多思路,但设计流程与 对称多处理( SMP) 系统的设计流程相同,并且 单线程应用也继续运行。
得益于线程技术的应用在 多核处理器上运行时将显示出卓越的性能可扩充性。此类 软件包括多媒体应用(内容创建、编辑,以及本地和 数据流回放)、工程和其他技术计算应用以及诸如应用服务器和数据库等中间层与后层服务器应用。
多核技术能够使服务器 并行处理任务,此前,这可能需要使用多个 处理器,多核系统更易于扩充,并且能够在更纤巧的外形中融入更强大的处理性能,这种外形所用的功耗更低、计算功耗产生的热量更少。 多核技术是 处理器发展的必然。
2发展
为什么不能用单核的设计达到用户对 处理器性能不断提高的要求呢?答案是功耗问题限制了 单核处理器不断提高性能的发展途径。
作为计算机核心的 处理器就是将输入的 数字化的数据和信息,进行加工和处理,然后将结果输出。假定计算机的其他子系统不存在瓶颈的话,那么影响计算机性能高低的核心部件就是 处理器。反映在指令上就是 处理器执行指令的效率。
处理器性能 = 主频 x IPC
从上面的公式可以看出,衡量 处理器性能的主要指标是每个 时钟周期内可以执行的指令数(IPC: Instruction Per Clock)和 处理器的主频。其实频率就是每秒钟做周期性变化的次数,1秒钟只有1次时钟周期的改变叫1Hz(赫兹)。主频为1GHz 就是1秒钟有10亿个时钟周期。
因此,提高 处理器性能就是两个途径:提高主频和提高每个时钟周期内执行的指令数(IPC)。 处理器 微架构的变化可以改变IPC,效率更高的微架构可以提高IPC从而提高处理器的性能。但是,对于同一代的架构,改良架构来提高IPC的幅度是非常有限的,所以在 单核处理器时代通过提高处理器的主频来提高性能就成了唯一的手段。
不幸的是,给 处理器提高主频不是没有止境的,从下面的推导中可以看出,处理器的功耗和处理器内部的电流、电压的平方和主频成正比,而主频和电压成正比。
因为: “ 处理器功耗 正比于 电流x 电压 x 电压 x 主频”,“主频 正比于 电压”
所以:“ 处理器功耗 正比于 主频的三次方”
如果通过提高主频来提高 处理器的性能,就会使处理器的功耗以指数(三次方)而非线性(一次方)的速度急剧上升,很快就会触及所谓的“频率的墙”(frequency wall)。过快的能耗上升,使得业界的多数厂商寻找另外一个提高 处理器性能的因子,提高IPC。
在采用同样的 微架构的情况下,为了达到 处理器IPC的目的,我们可以采用多核的方法,同时有效地控制功耗的急剧上升。为什么?看看下面的推导。
因为:“ 处理器功耗 正比于 电流x 电压 x 电压 x 主频”,“IPC 正比于 电流”
所以:“处理器功耗 正比于 IPC”
由 单核处理器增加到 双核处理器,如果主频不变的话,IPC理论上可以提高一倍,功耗理论上也就最多提高一倍,因为功耗的增加是线性的。而实际情况是, 双核处理器性能达到 单核处理器同等性能的时候,前者的主频可以更低,因此功耗的下降也是指数方(三次方)下降的。反映到产品中就是 双核处理器的起跳主频可以比 单核处理器更低,性能更好。
由此可见,将来 处理器发展的趋势是:为了达到更高的性能,在采用相同 微架构的情况下,可以增加处理器的 内核数量同时维持较低的主频。这样设计的效果是,更多的并行提高IPC,较低的主频有效地控制了功耗的上升。
除了 多核技术的运用,采用更先进的高能效 微架构可以进一步提高IPC和降低功耗——即提高能效。基于英特尔®酷睿™ 架构的英特尔® 酷睿™ 2 双核处理器和 至强处理器就是现实中的例子。相比 英特尔前一代的NetBurst 微架构(Intel® Pentium® 4 和Pentium® D), 酷睿微架构采用的英特尔® 宽区动态执行引擎和英特尔® 高级数字媒体增强技术,就是提高IPC的创新技术;英特尔® 智能功率特性则是降低微架构功耗的技术。
[1]
一些芯片的厂商指出,当 处理器的频率达到某种程度后,处理器在工作量的要求会比速度的要求要大,且0.13微米所含的 晶体管已很高,将来65纳米和 45纳米,其1组光罩的成本会倍增。但是,这种成本成倍的增长并不会给厂商们带来相应的收入增长。且发热量和干扰的因素的介入使得集成度和 处理器的频率已经越来越趋近于一个极限。
因此,使 摩尔定律失效的有可能是技术,有可能是经济效益。
处理器实际性能是处理器在每个时钟周期内所能 处理器指令数的总量,因此增加一个 内核,理论上处理器每个时钟周期内可执行的单元数将增加一倍。原因很简单,因为它可以并行的执行指令,含有几个 内核,单位时间可以执行的指令数量上限就会增加几倍。而在芯片内部多嵌入几个 内核的难度要远远比加大内核的集成度要简单很多。于是,多核就能够在不提高生产难度的前提下,用多个低频率核心产生超过高频率单核心的处理效能,特别是服务器产品需要面对大量并行数据, 多核心分配任务更能够提高工作效率。可以看作一种多 处理器协作的微缩形式,并且达到更加的性能价格比,一套系统达到多套系统的性能。
多核的介入,使得 摩尔定律在另一个层面的意义上,避免了尴尬的局面。从单核到 双核到多核的发展就证明了 摩尔定律还是非常正确的。从单核到 双核再到多核的发展,可能是 摩尔定律问世以来在芯片发展历史上速度最快的性能提升过程。"
[2]
3必然性
上世纪八九十年代以来,推动 微处理器性能不断提高的因素主要有两个:半导体工艺技术的飞速进步和体系结构的不断发展。半导体工艺技术的每一次进步都为 微处理器体系结构的研究提出了新的问题,开辟了新的领域;体系结构的进展又在半导体工艺技术发展的基础上进一步提高了微处理器的性能。这两个因素是相互影响,相互促进的。一般说来, 工艺和电路技术的发展使得 处理器性能提高约20倍,体系结构的发展使得处理器性能提高约4倍, 编译技术的发展使得处理器性能提高约1.4倍。但这种规律性的东西却很难维持。多核的出现是技术发展和应用需求的必然产物。这主要基于以下事实:
1.晶体管时代即将到来
根据 摩尔定律, 微处理器的速度以及单片集成度每18个月就会翻一番。经过发展, 通用微处理器的主频已经突破了4GHz,数据宽度也达到64位。在制造工艺方面也同样以惊人的速度在发展,0.13um工艺的 微处理器已经批量生产,90nm工艺以下的下一代微处理器也已问世。照此下去,到2010年左右,芯片上集成的 晶体管数目预计超过10亿个。因此,体系结构的研究又遇到新的问题:如何有效地利用数目众多的 晶体管?国际上针对这个问题的研究方兴未艾。多核通过在一个芯片上集成多个简单的 处理器核充分利用这些 晶体管资源,发挥其最大的能效。
2.门延迟逐渐缩短,而全局连线延迟却不断加长
随着VLSI工艺技术的发展, 晶体管特征尺寸不断缩小,使得晶体管门延迟不断减少,但互连线延迟却不断变大。当芯片的制造工艺达到0.18微米甚至更小时,线延迟已经超过门延迟,成为限制电路性能提高的主要因素。在这种情况下,由于CMP( 单芯片多处理器)的分布式结构中全局信号较少,与集中式结构的 超标量处理器结构相比,在克服线延迟影响方面更具优势。
3.符合Pollack规则
按照Pollack规则, 处理器性能的提升与其复杂性的平方根成正比。 如果一个 处理器的硬件逻辑提高一倍,至多能提高性能40%,而如果采用两个简单的处理器构成一个相同硬件规模的 双核处理器,则可以获得70%~80%的性能提升。同时在面积上也同比缩小。
4.能耗不断增长
随着工艺技术的发展和芯片复杂性的增加,芯片的发热现象日益突出。 多核处理器里单个核的速度较慢,处理器消耗较少的能量,产生较少的热量。同时,原来 单核处理器里增加的 晶体管可用于增加 多核处理器的核。在满足性能要求的基础上, 多核处理器通过关闭(或降频)一些处理器等低功耗技术,可以有效地降低能耗。
5.设计成本的考虑
随着 处理器结构复杂性的不断提高,和人力成本的不断攀升,设计成本随时间呈线性甚至超线性的增长。 多核处理器通过处理器IP等的复用,可以极大降低设计的成本。同时模块的验证成本也显著下降。
6.体系结构发展的必然
超标量(Superscalar)结构和超长 指令字(VLIW)结构在高性能 微处理器中被广泛采用。但是它们的发展都遇到了难以逾越的障碍。Superscalar结构使用多个功能部件同时执行多条指令,实现指令级的并行(Instruction-Level Parallelism,ILP)。但其控制逻辑复杂,实现困难,研究表明,Superscalar结构的ILP一般不超过8。VLIW结构使用多个相同功能部件执行一条超长的指令,但也有两大问题:编译技术支持和二进制兼容问题。
4处理器
未来的主流应用需要 处理器具备同时执行更多条指令的能力,但是从单一线程中已经不太可能提取更多的 并行性,主要有以下两个方面的原因:一是不断增加的芯片面积提高了生产成本;二是设计和验证所花费的时间变得更长。在 处理器结构上,更复杂化的设计也只能得到有限的性能提高。
对单一控制线程的依赖限制了多数应用可提取的 并行性,而主流商业应用,如在线数据库事务处理(Online Database Transaction)与 网络服务(如 Web服务器)等,一般都具有较高的线程级 并行性( TLP,Thread Level Parallelism)。为此,研究人员提出了两种新型 体系结构: 单芯片多处理器(CMP)与同时多线程处理器(Simultaneous Multithreading, SMT),这两种体系结构可以充分利用这些应用的指令级 并行性和线程级并行性,从而显著提高了这些应用的性能。
从 体系结构的角度看,SMT比CMP对 处理器资源利用率要高,在克服线延迟影响方面更具优势。CMP相对SMT的最大优势还在于其 模块化设计的简洁性。复制简单设计非常容易,指令调度也更加简单。同时SMT中多个线程对共享资源的争用也会影响其性能,而CMP对共享资源的争用要少得多,因此当应用的线程级 并行性较高时,CMP性能一般要优于SMT。此外在设计上,更短的芯片连线使CMP比长导线集中式设计的SMT更容易提高芯片的运行频率,从而在一定程度上起到 性能优化的效果。
总之, 单芯片多处理器通过在一个芯片上集成多个微 处理器核心来提高程序的 并行性。每个微处理器核心实质上都是一个相对简单的 单线程微处理器或者比较简单的多线程微处理器,这样多个微处理器核心就可以并行地执行程序代码,因而具有了较高的线程级并行性。由于CMP采用了相对简单的 微处理器作为处理器核心,使得CMP具有高主频、设计和验证周期短、控制逻辑简单、扩展性好、易于实现、功耗低、通信延迟低等优点。此外,CMP还能充分利用不同应用的指令级并行和线程级并行,具有较高线程级 并行性的应用如商业应用等可以很好地利用这种结构来提高性能。 单芯片多处理器已经成为处理器体系结构发展的一个重要趋势。
5英特尔
英特尔
酷睿2
双核处理器
英特尔率先揭开了多核计算时代的帷幕。 酷睿™2 双核处理器的横空出世不仅结束了始自 1993 年的奔腾时代,同时也诠释了整个计算和通信产业生态圈的理念演变。
酷睿2 双核处理器的价值在于,它缔造了一个范围涵盖核心硬件生产商、周边硬件制造商、 软件开发商、整机厂商乃至 系统集成商等产业参与者的全新产业链。
对于用户来说, 英特尔 酷睿2 双核处理器堪称有史以来最令人兴奋的个人电脑核心引擎。根据多个独立调查组织提供的数据显示,该 处理器在各种服务器、 台式机和游戏 基准测试中遥遥领先于其它处理器产品——无论是让 Windows Vista 在开启了全部显示特效的状态下运行如飞,或是畅玩视觉效果惊人的三维游戏,一边听着喜欢的 APE 音乐,一边将网上下载的春节晚会节目刻录到 DVD 上—— 英特尔 酷睿2 双核处理器能够满足用户不断升级的多元需求。
英特尔酷睿2四核处理器
从 双核到 四核,再到集成 80 计算核心、性能堪比 超级计算机的原型 处理器, 英特尔对 多内核技术的不懈探索总能够挺立于技术和产业的最前沿。
已上市的 酷睿2四核处理器为通用服务器和 工作站提供了非凡的速度与响应能力——受益领域还包括追求绝对性能的数字媒体创建、高端游戏以及其它市场。
未来的多核微处理器
“芥子纳须弥”原是佛门禅语(意为极微小的芥子容纳至高至大之 须弥山),却在 21 世纪之初由 英特尔变成了现实——由英特尔研发的、指甲盖大小的研究用 处理器已可支持万亿次计算——无需太久,人们便可将超级计算机移植至 桌面或掌中。
作为 多内核技术的先导者, 英特尔于 2007 年初煅制出了内含 80 内核的可编程 处理器,它提供了足以与 超级计算机匹敌的强劲性能,且功耗仅 62 瓦,较大多数家用电器更低。毫无疑问,凝聚了 英特尔深厚技术积淀、创新前瞻力及精湛 制程工艺的 80 内核 处理器预示了计算 / 通信技术领域未来的发展趋向——它还证明,在可以预见的未来, 摩尔定律定能继续驱动整个 IT 产业高速发展。
[3]
6普及
进入2009年, 处理器已经由 双核升级到 四核时代,在 斯坦福大学召开的Hot Chips大会上,IBM、富士通、AMD和Intel等众多芯片制造商展示出其 六核、八核等 多核服务器处理器出现,使得多核之战悄然到来。新产品的诞生意味旧产品的稳定,由此看来 四核服务器已经成为市场的中流砥柱。
面对突如其来的金融风暴,即便是站在风口浪尖上的IT行业,不可避免地要同其他行业的共同面对金融危机带来的系列负面效应。这就需要更加实际的应用方案,Nehalem 至强5500芯片的发布无疑是“雪中送碳”。如果说2009年3月31日发布之后的上半年是一个新 四核市场的推广期,那么2009年下半年是 Nehalem 至强全面爆发的开始。对于企业级产品来说,服务器也成为市场的降价“新宠儿”, 英特尔彻底的宣布 45纳米 四核时代的普及。
服务器产品大量的采用 45纳米 处理器为企业提升性能,已经不再是过渡阶段的市场,各大厂商 六核、八核甚至16核处理器的产品发布带来了 高端市场的争夺战。可是对于X86市场而言, 四核服务器才是企业的首选。
针对这样的一个新品急需市场占有,老款5400系列产品市场份额下降的情况,各 大服务器厂商也是在第一时间推出升级中高端 至强5500系列服务器,由此掀开向Nehalem架构服务器的全面普及。
[4]
7至强处理
2008年09月, 英特尔终于按计划发布了Xeon( 至强)7400 处理器。该 处理器开发代号为“Dunnington”,是 英特尔首颗基于 x86架构的 六核处理器,主要面向注重多线程运算的高端市场。 英特尔
表示,Xeon 7400在 虚拟机和数据库应用方面进行了很多优化。其二级缓存高达16MB,每个核心都支持 虚拟化技术,其虚拟化性能跟以往产品相比提高达50%。
跟 四核或 双核Xeon 处理器相比,六核Xeon 7400处理器的最高主频稍低。它的最高 主频仅为2.66GHz,TDP功耗和 四核系列相同,为130瓦。而2.4GHz主频的 处理器也拥有不错的性能,TDP仅为90瓦。入门级的2.13GHz 处理器TDP功耗为65瓦,更适合在瘦服务器或 工作站使用。
同时, 英特尔还发布了四款 四核处理器。主频最高为2.4GHz的型号拥有和六核处理器相同的16MB二级缓存,TDP功耗为90瓦。其余三款 处理器频率都为2.13GHz,只以 二级缓存和功耗的不同来决定其性能。其中有两款 处理器的二级缓存为12MB,一款为8MB。前二者中又有一款基于低电压技术的产品,TDP功耗仅为50瓦。
作为 处理器制造厂商, 英特尔当然希望几家大型PC厂商能够尽快推出基于这些处理器的计算机或服务器产品。据悉,2008年,这些 处理器的千颗单价从856美元至2729美元不等。它们可能是在 Core i7发布之前基于当前架构的最后一批“过渡产品”,但即便如此,其身上所集成的种种先进技术仍会在新的 处理器上发挥余热。