我们对传统PC市场的CPU如数家珍,英特尔、AMD和威盛包揽了整个市场。由英特尔创始人之一摩尔提出的摩尔定律推动了这个市场技术的进步,英特尔的Tick-Tock线路图即是基于此而创建:工艺-核心的交替升级步伐。然而,不论是最早的奔腾,还是现在最新的酷睿i7,这些处理器都基于一个称之为x86的架构中——由最早的英特尔8086指令集扩充组成,因英特尔早期CPU的型号为80x86而得名。在计算机学术界的分类中,x86架构被列在CISC(复杂指令集)类之下。
指令是CPU能听懂的语言,正如人类的语言一样,词汇越丰富,表达就越容易,一定程度上,传达内容的方式就越高效。这也是为什么在20世纪80年代,x86架构盛行的原因之一。不过,语言上也有常用字和生僻字之分,80%的常用字在整个语言文字中所占比例其实很小,CPU指令也如此。研究发现,80%的常用指令来自CISC的20%,于是,另一类称之为RISC(精简指令集)的门类诞生了,ARM架构即基于此类——和x86一样,ARM架构也因ARM公司是其创造和维护者而得名。
CISC指令复杂强大,但执行过程也更复杂耗时,功耗更多。
CISC强大高效,RISC简洁容易,这本是两个不同的指令集类别,与应用无关。各种谈论x86难以落脚移动终端的最大原因是功耗,为什么凭借英特尔的技术,功耗上x86始终无法与ARM架构抗衡呢?这有英特尔的原因,也有指令集的影响。
英特尔成功的要素之一是向前兼容性——至少到目前为止,英特尔设计的所有x86 CPU都兼容以前任何一老款CPU的指令和应用。这是程序开发人员的福音,不过却造成了CPU结构的复杂化,而CISC指令的硬件实现也需要更多的晶体管,这些晶体管不仅仅是对制造工艺的考量,也是对能耗控制的考量。要知道工作中是要消耗电力的,即便是那些80%不会被常用到的指令硬件也必须加电等待偶尔的调用;而基于RISC的ARM架构则要轻松得多,它的指令集相对很少,所需要的晶体管也更少,而且由于使用等长的指令(16位和32位),与x86的可变长指令(最长指令可达128位)相比,处理也更加容易,功耗自然更低。这是一个功耗和性能的博弈,在功耗要求严格的移动终端处理器市场,RISC的ARM最终胜出。
指令集是ARM与x86架构的本质区别,正如你无法用英语与一个只会说汉语的人沟通一样。因此,不同的架构需要与之匹配的操作系统。目前的Windows 7无法运行在ARM上,而iOS、Android等移动终端操作系统也无法直接在x86硬件上运行。指令集的不同造成了处理器在硬件实现上的不同,比如,ARM处理器大量使用寄存器(多达37个)和CPU内缓存(cache)对指令进行操作,通过流水线和超标量技术,一个时钟周期可以执行一条以上的指令,十分高效;而x86处理器仅有8个通用寄存器,通过读写外部存储器来调用指令(为了向前兼容),可能需要几个时钟周期才能完成一条指令,效率较低。有数据称,在同样的制造工艺前提下,英特尔CPU频率每提升1%,功耗要提高2至3%,而ARM则可以保持不变,甚至更低。
ARM与x86处理器的另外一个区别为,ARM处理器并不像x86那样单颗使用。它总是与其他芯片封装在一起,诸如DSP芯片、显示芯片、通讯芯片等等。英特尔和AMD终于于2011年推出CPU与GPU完整融合的处理器,其实在很早之前,ARM处理器已经这样干了。ARM处理器通过一条称之为AMBA的片上总线可随意挂载各种标准芯片,包括其他的ARM核心。成品ARM CPU通常都是集成了芯片组和各种功能芯片的一体式芯片,称为片上系统(SoC),功能和一块集成了CPU和显卡的x86架构主板相当,外围只需要连上电源、存储、通讯和显示设备即可工作,这样的芯片尺寸只有十几个平方毫米,不到一块x86处理器大小!
Ti OMAP4430与英特尔x86 P67 blockdiagram对比,ARM芯片绝大部分采用All in one的片上系统(SOC)。
正如x86架构可以通过内核来判断CPU性能和新旧程度一样,ARM CPU也有不同的内核,只是内核更新没有x86如此频繁(x86基本两年更新一次)。从1983年开始,到目前为止,ARM内核共有ARM1、ARM2、ARM6、ARM7、ARM9、ARM10、ARM11和Cortex以及对应的修改版或增强版组成,越靠后的内核,初始频率越高、架构越先进,功能也越强。目前移动智能终端中常见的为ARM11和Cortex内核,如诺基亚N8使用的即为主频680MHz的ARM11核心,Cortex主要用于高端和多核处理器上,如NVIDIA的Tegra 2就是由两颗1GHz Cortex-A9核心组成。
ARM11架构发布于2002年,基于ARMv6指令集,包括ARM1136J、ARM1156T2和ARM1176JZ三个内核型号,其中后缀带J的表示支持Java代码硬件加速,T则表示支持Thumb-2指令。ARM11采用8级流水线,能够支持多核架构。在使用130nm制程下即可获得低至0.2mW/MHz的功耗比和500MHz的主频,而当前工艺条件下,已有1GHz主频产品出现。ARM11处理器系列面向多种手持电子消费品市场,推出了许多新的技术,包括针对媒体处理的SIMD,与ARM9相比,ARM11对于MPEG4的编解码算法速度提高了一倍;用以提高安全性能的TrustZone技术;智能能源管理(IEM)等,同时,ARM11还改变了缓存的结构,使用物理地址对缓存进行索引,并加入了动态分支预测功能。
ARM内核及制程发展线路图
Cortex内核发布于2004年,最早的型号是Cortex-M3;Cortex-A8内核于2005年10月4日发布,随后ARM在2006年5月15日发布了Cortex-R4内核。这三款内核分别面向不同的领域,移动智能终端上使用的绝大多数为Cortex-A8内核。Cortex-A8内核的DMIPS指标达到了2.0DMIPS/MHz,相比ARM11取得了巨大的进步(ARM11为1.17DMIPS/MHz)。Cortex-A8处理器在大幅提高性能的同时,依然保持了低功耗优势,譬如说,一颗含有32KB一级缓存,256KB二级缓存的Cortex-A8处理器,在使用600MHz的主频时,总功耗仅为300mW。Cortex-A8还引入了NEON部件,NEON的功能与英特尔的SSE指令集类似,用于支持SIMD类指令。Cortex-A8还可以在每个时钟周期内并行发射两条指令,是首个ARM超标量体系内核。为了进一步提高时钟频率,Cortex A8内核使用了13级的整型指令流水线和10级NEON指令流水线,并改善了了指令分支预测的命中率,从ARM11的88%提高到Cortex A8的95%。此外,Cortex-A8在缓存的设计中,首次引入了Way-Prediction(关联路径预测),可根据预测关闭暂时不使用的缓存,降低处理器功耗。英特尔从Pentium M处理器时代起使用了这种缓存访问方式,并一直应用到x86处理器的后续产品中。Cortex-A8还可以使用64位或者128位总线连接外部设备。Cortex-A8不支持多核架构,多核超标量内核为Cortex-A9,而最新的多核内核则为Cortex-A15。
2011年初,ARM Cortex-A15内核发布,主要是针对多核进行了优化。Cortex-A15处理器可运行在2.5GHz,能够在不断压缩的能耗、散热和成本预算范围内提供高度集成的可扩展性解决方案。Cortex-A15计划以32nm、28nm工艺生产,目前尚无成品产出。
与x86处理器仅对微架构的关注不同的是,影响ARM处理器性能的还有指令集版本。为提高处理器性能,ARM先后发布了7个版本的指令集,分别为ARM V1至ARM V7,不过指令集版本并不与内核对应,如ARM9内核使用的为ARM V5版指令集,而ARM11使用为ARM V6,最新的Cortex内核使用的才是ARM V7版指令集,表1列出了不同内核对应的指令集版本。新版指令集是对旧版的修定和增强,不一定兼容之前的版本,但在多媒体和复杂应用方面性能会大增。事实上,在ARM处理器当中,指令集版本的高低更能辨别出处理器性能的优劣。
表1:ARM指令集与内核对应简略表
GPU是NVIDIA最先提出的概念,与CPU相比,它并没有什么大的架构之分,GPU的设计主要遵循几个图形加速标准:OpenGL和DirectX行业标准,只是各家的实现方式不同,反应在实际应用中,表现为性能和功耗的差异。移动终端上的主要GPU供应品牌为PowerVR的SGX系列、高通(QUALCOMM)Adreno系列、博通(Broadcom)BCM系列、NVIDIA Tegra和ARM自家的Mali图形处理单元。具体性能参数见表2。
表2:主流移动GPU性能参数一览
点击查看清晰大图
移动设备中应用最广的GPU是PowerVR SGX系列,目前型号已经发展到SGX555。PowerVR图形处理器在20世纪90年代曾是3dfx Voodoo的主要竞争对手,在后来的市场竞争中,这两个品牌都从PC市场消失了,PowerVR转入了移动GPU领域。这家隶属于Imagination Technologies公司的厂商采用了与ARM公司相同的技术授权方式,向各大芯片制造商出售硬件授权,自身并不生产芯片。它的产品当中,最耀眼的一员,当属iPad 2采用的PowerVR SGX 543MP2图形处理器,据称相对于iPad一代的PowerVR SGX 535有高达9倍的性能提升。
PowerVR SGX系列发展线路图
在移动设备中应用第二多的是高通Adreno GPU,至今已经发布了几款产品,包括Adreno 130、Adreno 200、Adreno 205、Adreno 220、Adreno 300。不过高通并不出售自家的图形芯片,也不对外授权,只在自己的芯片组中使用,主要应用在Snapdragon系列芯片组上,也是目前移动智能终端上使用最多的芯片组。
高通adreno系列GPU性能类比
博通的GPU产品很少,大家更熟悉的可能是其在PC领域的网卡芯片。到目前为止,它一共发售了两款GPU,分别为BCM2727与BCM2763,多媒体性能极为强大。
博通GPU内置了采用Broadcom VideoCore III技术的多媒体处理器,基于双内核矢量处理器,不仅更有利于3D/2D图形处理,支持高达1200万像素的数码相机,同时还能保持非常低的功耗。利用该芯片上的HDMI接口,更是可以直接向大屏幕输出高清视频与3D游戏画面。只要看看诺基亚N8这款基于ARM11旧核心产品的多媒体和游戏表现,就能体验到BCM系列GPU的强大。
采用博通BCM2727 GPU的诺基亚N8(黄色框部分)
NVIDIA是PC平台上主要的图形芯片供应商,不过与高通一样,它们也不出售和授权自家的移动终端GPU,NVIDIA的GPU主要应用在自家的Tegra移动芯片上。如Tegra 2采用就是自家的ULP GeForce架构,包含8个CUDA处理器,支持OpenGL ES2.0以及可编程等特性,1080p的高清视频编码与解码更是它的长项,性能极其强大。遗憾的是,目前还没有终端产品可以将其性能发挥到极致,只有通过《地牢守护者》这种硬件要求较为“变态”的游戏中才能体会到它在图形处理上的强大。
使用Tegra2平台运行《地牢守护者》的游戏画面
作为处理器方案供应商的ARM同样也有GPU的授权,其旗下GPU已经发展到Mali400系列,不过采用的厂商很少,主要用在廉价的SoC体系上,如Telechips的TCC8902,瑞芯微RK2818等,尚未进入主流。
移动终端上的GPU与PC上的GPU并没有很大区别,它们遵从相似的标准,不同的是,基于移动终端的低功耗要求,它们的性能很难与PC上的GPU相媲美,如NVIDIA Tegra上配备的GeForce GPU仅仅只是PC版GeForce的精简版。不过受益于图形标准的完善和PC显卡技术的发展,移动终端GPU的发展速度和性能正快步向前。
尽管有数据称ARM处理器已经占据了移动终端90%的市场份额,但ARM公司自身并不生产CPU芯片,它们只是专注于开发新指令集,进行CPU内核方案和相关应用、调试工具的开发,然后将这些方案授权给半导体和芯片生产商,并收取授权费。因此ARM处理器的生产商可谓遍布全球,这与英特尔和AMD的生产方式完全不同。ARM的主要芯片生产方包括高通、德州仪器(Ti)、三星和NVIDIA,另外Marvell、飞思卡尔、韩国Telechips和中国的瑞星微也有生产,还有一些其他生产商分布在工业控制领域。
高通处理器家族概况一览
在PC领域可能很少听到高通的名字,但在通讯界,其名号如雷贯耳。高通是少数从一开始就发现ARM价值的移动硬件供应商。从20世纪末,ARM还深陷财务泥沼中时,高通就开始了与其的研发合作,到2002年前后,高通公司率先购买了ARM新型微处理器内核授权,成为了 ARM的重要合作伙伴。
高通前任CEO桑杰?贾摆脱了高通不雅的“CDMA专利收税官”的帽子,在芯片技术上突飞猛进,一跃成为ARM处理器的领导者。高通ARM处理器的代表作为SnapDragon,第一代型号为 QSD8250/8650,采用65nm工艺制成,内置Adreno 200 GPU。芯片拥有独立的视频子系统,支持720p/H.264视频的编码和回放,也是业界第一款频率达到1GHz的ARM处理器。Snapdragon处理器的内核为Scorpion,是高通特别为ARM的Cortex-A8内核添加了更好的多媒体指令和电源管理功能之后的修改版。
2010年第二季度,高通又推出了Snapdragon处理器的第二代,主要型号包括MSM7230、MSM8x55等,高通的处理器型号命名比较复杂,很难从型号命名上区分代数,一般区分第二代CPU的办法是看制程和内置GPU,45nm制程,Andreno 205 GPU配置的基本都属于第二代。第二代Snapdragon主要优化了多媒体和3D性能,在功耗上也进行了微调,市面代表产品有HTC Desire Z(MSM7230)、HTC Desire HD(MSM8255)。
第三代Snapdragon为双核产品,处理器型号MSM8x60,目前已发布的有MSM8260和MSM8660,45nm工艺,双核心,最高1.5GHz,强化了Web浏览和多媒体表现,提供HSPA+高速无线数据连接,内置的是Adreno 220 GPU。这一代Snapdragon处理器还包括一款四核产品APQ8060,它主要面向平板电脑市场。值得注意的是,目前市面上尚没有使用这些CPU的产品出现。
尽管第三代Snapdragon处理器尚未在市面上铺开,代号为Krait的下一代Snapdragon移动处理器业已曝光,28nm工艺制造,全部采用新一代Adreno 320 四核GPU,支持3D显示和拍照,可以通过HDMI输出1080p视频,有单核、双核和四核产品,功耗降低65%,主要型号包括MSM8930(单核)、MSM8960(双核)、APQ8064(四核(应该是MSM8X60的AP Only版本,不是四核))。
表3:高通常用ARM芯片参数
芯片型号 | CPU 核心 |
内核 | 制程 工艺 |
主频 | I/D Cache |
L2 Cache | GPU |
QSD8250 | 1 | Scorpion | 65nm | 1GHz | 不详 | 不详 | Adreno 200 |
MSM7230 | 1 | Scorpion | 45nm | 800MHz-1GHz | 不详 | 不详 | Adreno 205 |
MSM8255 | 1 | Scorpion | 45nm | 1GHz | 不详 | 不详 | Adreno 205 |
MSM8260 | 2 | Scorpion | 45nm | 1.2GHz | 不详 | 不详 | Adreno 220
|
早在Windows Mobile时代,三星就有ARM处理器问世,如型号为S3C24XX的系列,不过性能并不出色,直到苹果iPhone搭载了由其生产的S5L8900(基于ARM1176JZF-S)之后,才逐渐名声大振。
在iPhone 3GS上,苹果继续使用了代号为蜂鸟(Hummingbird)的S5PC100处理器,该处理器基于Cortex-A8核心,频率600MHz至800MHz,提供720p@30fps级别的MPEG-4/H.263/H.264以及MPEG-2/VC1/Xvid的硬解码,性能强悍。
表4:三星常用ARM芯片参数
芯片 型号 |
CPU 核心 |
内核 | 制程 工艺 |
主频 | I/D Cache |
L2 Cache |
GPU |
S5PC110 | 1 | Cortex-A8 | 45nm | 800MHz-1GHz | 32/32KB | 512KB | SGX540 |
S5PC100 | 1 | Cortex-A8 | 65nm | 600-833MHz | 32/32KB | 512KB | SGX530 |
Exynos 4210 | 2 | Cortex-A9 | 45nm | 1GHz | 32/32KB | 1MB | Mali-400 |
Apple A4 | 1 | Hummingbird | 45nm | 800MHz-1GHz | 32/32KB | 640KB | SGX535 |
而业界使用较多三星ARM处理器主要是采用Cotrex-A8核心的两款,其中一款为S5PC100,另一款为S5PC110。S5PC110的主频为800MHz至1GHz,采用45nm工艺,具备1080p@30fps的视频硬加速能力,支持1200万像素摄像头,内置PowerVG SGX540 GPU,提供HDMI 1.3数字视频输出接口,三星自家的Galaxy S手机及Galaxy Tab平板即采用的此款芯片。有意思的是,苹果A4处理器的编号为S5PC110A01,与S5PC110仅有后缀编号的差异,在硬件结构上,两者基本一样。
德州仪器的双核芯片组结构图
此外,三星官方网站还提供一款型号为Exynos 4210的芯片资料,基于Cotrex-A9双核架构,主频1GHz,但目前显示只有样片,并未量产。Exynos 4210提供1MB L2缓存,支持WXGA分辨率及30fps 1080p视频解码,还支持3D视频和摄像头,GPU具体型号不详。它应该属于去年底媒体报道的代号为Orion“猎户座”的双核产品。
德州仪器是ARM芯片的重要授权制造商之一。早在7年前,诺基亚与德州仪器的合作,就造就了诸多经典的智能手机产品,包括了主打游戏的N-Gage系列。摩托罗拉、LG、三星等国际厂商都是其大客户。德州仪器的ARM芯片编号为OMAP(Open Multimedia Application Platform,开放多媒体应用平台),常见的为OMAP 3XXX系列,其中最热门的型号为OMAP 3430,标准主频550MHz,采用65nm工艺,搭载IVA2+硬件引擎的情况下,可以解码480p的H.264、WMV9和RM视频,部分格式还可支持至720p级别。该芯片内置PowerVR SGX530 GPU,最高可支持1024×768像素、1600万色的显示。此外,这款处理器的超频能力极佳,在少量提升电压的情况下,可轻松超频至1.2GHz运行,摩托罗拉里程碑即采用此款芯片,遗憾的是精简了部分IVA 2+引擎,视频解码性能因此骤减。
另一款应用较多的为OMAP 3640,使用45nm工艺,设计主频1GHz,可轻松超频至1.2GHz运行,摩托罗拉ME811智能手机即运行在此频率下,属于目前单核产品中的旗舰型号。OMAP 3640同样搭载IVA 2+多媒体引擎,可解码720p视频,此外它还加入了安全模块和新的电源管理模块,更加节能。OMAP3640同样内置PowerVR SGX530 GPU,游戏体验出色。
OMAP芯片一直深得玩家们的喜爱,但由于处理器频率上不去,也一直是玩家们心中的痛,所以在目前“GHz级”处理器浪潮中,被高通等厂商抢去不少风头。不过在2011年,德州仪器宣布推出全新的OMAP 4系列移动应用平台,不仅把处理器频率提高,还可提供令人惊艳的全新多媒体体验,例如1080p的视频录制及播放,2000万像素拍摄,以及支持长达约1周的音频播放时间。厂商宣称,新平台可让Web 页面的加载加快10倍、计算性能提高7倍、视频分辨率提高6倍、图形性能增强10倍、音频播放时间延长6倍等。更高端的OMAP 5系列芯片也在规划中,基于Cortex-15核心的多核支持,PowerVR SGX544-MPx多核心GPU,IVA-HD硬件加速,具备3D和1080p视频解码能力,采用28nm工艺,令人期待。
表5:德州仪器常用ARM芯片参数
芯片型号 | CPU核心 | 内核 | 制程工艺 | 主频 | I/D Cache | L2 Cache | GPU |
OMAP3430 | 1 | Cortex-A8 | 65nm | 550MHz | 32/32KB | 不详 | SGX530 |
OMAP3630 | 1 | Cortex-A8 | 45nm | 720MHz | 32/32KB | 不详 | SGX530 |
OMAP3640 | 1 | Cortex-A8 | 45nm | 1GHz | 32/32KB | 不详 | SGX530 |
OMAP4430 | 2 | Cortex-A9 | 45nm | 1GHz | 不详 | 不详 | SGX540 |
在移动市场上,NVIDIA所生产的ARM芯片远不如它在PC市场的显示芯片那么有名。NVIDIA在2006年推出了Tegra(图睿)子品牌,针对移动终端市场,但却并非一帆风顺,用户几乎看不到具体的产品。直到2008年,第一代有“实物”的Tegra处理器才出现。第一代Tegra共分为两大系列,分别为Tegra APX系列和Tegra 600系列,其中APX系列针对于智能手机平台,而Tegra 600系列则针对于MID的计算机系统。2个系列均基于ARM11架构,其竞争对手是英特尔Atom处理器。最初的Tegra包括一颗800MHz的ARM CPU、一颗HD video处理单元、一颗图像处理单元、一颗音频处理单元以及一颗低电压版本GeForce GPU。
使用Tegra2芯片的摩托罗拉XOOM平板主板
在苦心经营了两年半之后,也就是Tegra 2发布一年之后的2010年,NVIDIA Tegra处理器终于迎来了自己的春天,Tegra 2 1GHz双核处理器让NVIDIA一战成名。于是,来自平板机、智能手机、车载电子设备的订单不断。第一款支持Tegra 2芯片的手机为LG Optimus 2X。Tegra 2在第一代产品的基础上将高清播放能力提升到1080p的水平,同时增加了1080p高清编码能力,另外在多媒体方面增加了对Flash 10的支持,内部一共整合了8个CUDA处理器来实现不同的功能,可以实现超过140小时的音乐播放、12小时的1080p视频播放以及6小时的互联网高清媒体播放,并且价格也十分低廉。Tegra 2获得了包括宏碁、华硕、HTC、LG电子、微星、摩托罗拉、三星电子的青睐,甚至中国内地山寨平板也将大批订单抛向了Tegra 2,一时之间,Tegra 2俨然成为平板时代的首选芯片。
网络泄露的NVIDIA tegra发展线路图
根据网上泄露的Tegra线路图,在今年第三季度NVIDIA还将发布四核处理器Tegra 3,这款四核处理器Tegra 3除了变成1.5GHz及四核心之外,还将图形性能提升了三倍,并且Tegra 4也被提上了日程。
相对前述耀眼的四大品牌,包括Marvell、飞思卡尔、Telechips和瑞星微这样芯片商市场份额要小得多,产品也大部分集中在低端领域。Marvell对ARM芯片的技术来自英特尔,2006年,英特尔将Xscale处理器打包出售给了Marvell,不过Marvell只是汲取了Xscale的技术,而并没有将这一系列发扬光大,推出的产品较少,常见的为PXA930,采用65nm技术(PXA935为45nm),基于Marvell自己的Sheeva核心,提供对ARMv5TE、ARMv6、ARMv7指令集的支持,没有内建GPU,在中国移动的第一代OPhone中广泛采用。
表6:NVIDIA常用ARM芯片参数
芯片型号 | CPU 核心 |
内核 | 制程 工艺 |
主频 | I/D Cache |
L2 Cache |
GPU |
Tegra 2 | 2 | Cortex-A9 | 40nm | 1GHz | 32/32KB | 1MB | ULP GeForce |
Tegra APX | 1 | ARM11 MPCore | 65nm | 750MHz | 32/32KB | 32/32KB | GeForce 6 |
飞思卡尔常见型号为i.MAX515,基于ARM CortexA8内核,运行频率800MHz,内置ARM Mali200 GPU,提供OpenGL ES 2.0与OpenVG 1.1硬件加速,多模HD 720p视频解码器和D1视频编码器硬件引擎,主要用在一些国产平板电脑中。
Telechips的主要芯片为TCC890X,基于ARM1176JZF-S内核,内置图形处理单元,具备HDMI输出和部分格式的1080p视频解码能力,在一些国产低端PMP中广泛应用;瑞芯微RK2818采用ARM9核心,基于65nm制作工艺,频率为624MHz,搭配256M DDR2内存,同时配备了600MHz的Ceva MM2000独立DSP硬解码器。RK2818支持RV、H.264、VC-1、H.263、MPEG4等编码格式,最高支持到720p。RK2818并未内置GPU,而是使用Android Pixelflinger渲染器,这是一个软件渲染器,通过ARM核心来软件渲染3D画面,速度会比较慢,只能玩一些简单的3D游戏。国产蓝魔W11等平板均使用此芯片。
ARM全称Advanced RISC Machine,于1990年11月由Acorn、苹果和VLSI共同出资创建,确切地说,应该叫更名,因为苹果和VLSI只是投资,而实际运作方其实是Acorn RISC Machine(即Acorn)。Acorn RISC Machine在1978年由Andy Hopper、Chris Curry和Herman Hauser共同创建。Acorn最初使用MOS Technology 6502处理器(当时业界功效最强,且极为廉价的处理器)研发嵌入式系统,与其他同类型的小科技公司没什么两样,并且还小有成就。1980年代,英特尔x86架构异军突起,给当时所有的处理器厂商以毁灭性打击,Acorn也不例外,他们希望投入英特尔门下,使用x86架构进行开发。不幸的是,当他们向英特尔索取80286处理器样片时,却遭到了拒绝。无奈之下,1983年10月,Acorn启动了代号为Acorn RISC的项目,由VLSI Technology负责生产。1985年4月26日,VLSI产出第一颗Acorn RISC处理器ARM1,仅有个25000个晶体管,甚至没有乘法部件。在英特尔80386的光环下,无人问津。
Acorn不得不调整处理器的设计理念:廉价、低功耗、高性能!——20多年后,这一理念与智能手机和平板电脑不谋而合。因为对廉价和低功耗的追求,Acorn选择了RISC;同时,也因为要有机会,必须与英特尔不同。
然而,Acron的步伐依然缓慢,且财务拮据,直到苹果和VLSI注资组建ARM前,12个员工还挤在谷仓中办公,因为没有资金自己生产芯片,他们转而寻求只负责芯片的设计,通过授权的方式出售芯片设计,这种授权商业模式直到1993年后才逐步显示出活力——1993年,Cirrus Logic和德州仪器公司先后加入ARM阵营,德州仪器为ARM带来了命运的转机,它说服了当时一家并不知名的芬兰公司与他们一道进入通信移动市场,这家公司叫诺基亚。通过与诺基亚和德州仪器的合作,ARM发明了16位Thumb指令集,真正意义上创建了基于ARM/Thumb的SoC商业模式,逐渐摆脱财务危机,业务不断扩大。
1995年,著名处理器制造商DEC获得了ARM的全部指令集授权,开始研发StrongARM CPU。DEC在StrongARM处理器设计中注入了许多Alpha处理器的先进元素,使ARM处理器达到了前所未有的高度。1997年,由于英特尔与DEC的专利官司,DEC将StrongARM的所有技术转让给了英特尔。这就是21世纪初风靡全球的英特尔Xscale(基于StrongARM)处理器。英特尔的处理器技术极大地促进了ARM内核的发展,并一举击败了当时红遍全球的摩托罗拉半导体68K处理器。2006年,英特尔业绩跌入低谷,当时的英特尔CEO贝瑞特不得不作出了一个艰难的决定,将PXA系列处理器出售给了Marvell。此时的ARM已经汲取了足够的能量和优秀理念,开始朝嵌入式和移动终端领域进发。内核授权模式让半导体和芯片生厂商们进入处理器制造领域的难度锐减,加入ARM阵营的制造商越来越多。而此时,x86阵营再想在手持设备领域与之竞争,却发现,这个名叫ARM的对手拥有遍布全球的芯片制造商。自此,ARM在移动终端领域一骑绝尘。
DEC、英特尔还有很多其他的处理器和芯片开发商,都曾是ARM需要与之竞争的对手,然而,正是这些对手为ARM处理器注入了新的设计理念、新的技术和活力。ARM应该感谢它们,没有这些对手的努力,或许也没有ARM的今天!