FPGA的发展策略、产品进程和新方案

FPGA的发展策略、产品进程和新方案
2011年09月24日
  全球市场回暖,中国市场的持续向好,在ASIC和ASSP市场中不断攻城掠地等等因素都在推动FPGA市场的增长。以通信市场为例,基于可编程器件的高度灵活性,过去几年,FPGA在GSM设备到LTE设备中的用量增长了3.1倍;就FPGA对ASIC和ASSP市场的渗透规模而言,在2007年之前,可编程器件相对于ASIC市场的增长而言非常缓慢,但2007年之后情况发生了改变。截止到去年年底,ASIC和ASSP的市场总量高达800亿美元,但增长率已经放缓,原因在于开发成本上升太快。在90nm的节点,ASIC的掩膜成本约为100万美金,到65nm节点,这一成本上升为200万美金。以单价10-50美元的28nm器件价格为例,要支付包括掩膜、工程设计以及公司运营在内的成本,必须销售出500~2700万颗芯片,很少有应用能支持到这一用量。反观FPGA,其在成本上的优势自90nm工艺节点之后开始体现。在130nm节点之前,FPGA的工艺进程升级一直晚于ASIC,但到了40nm,全球首个利用代工厂推出产品的是Altera的FPGA,目前Xilinx和Altera都有推出28nm的FPGA样片,这一进程超过了ASIC。   综上所述,随着系统设备功能要求的不断增加,系统级芯片的设计愈趋复杂,并且在设计周期、灵活度和NRE成本等方面都面临着更大的挑战。这一趋势使得FPGA器件在电路设计、产品设计和系统设计中的应用正在加快。由于具备接口、控制、功能IP、内嵌CPU等资源,FPGA可以很容易地实现构造简单,固化程度高并且功能全面的系统产品设计,系统级设计和产品已是FPGA最大的市场。
    不过,针对不同的应用和设计需求,FPGA器件的发展也各有不同。一方面,在高端器件上是跟随摩尔定律,通过制造工艺的升级增加逻辑单元的规模,并在提高性能的同时降低功耗的压力;另一方面则是低成本、低功率和性能的中、低端FPGA和CPLD,如密度范围在10K至250K LUT的器件等,下文将尝试就目前最具代表性的四家FPGA公司(Xilinx、Altera、Lattice和Microsemi)的发展策略、产品进程和新方案做一个归纳。
  [b]  Xilinx[/b]
    发展策略:目标设计平台+高性能技术
    目前,Xilinx将其技术发展方向锁定在目标设计平台、28Gbps 串行收发器技术、堆叠硅片互联技术、可扩展式处理平台和7系列FPGA。毫无疑问,目标设计平台是Xilinx在发展策略上的一个重大决策,也是其在FPGA设计方法学上的一次突破。Xilinx目标设计平台包括全面集成且经成功测试的软硬件、IP以及应用框架,还包括适用的设计环境。其平台组件包括:目标参考设计(连接功能套件、DSP套件和嵌入式套件)、IP核与外设(IP核、连接功能、DSP、嵌入式处理和Xilinx的AXI4)、设计工具(ISE设计指南,包括逻辑、嵌入式系统和DSP)和开发板与套件。就具体目标开发而言,包括针对逻辑设计的通用FPGA开发平台,针对特定技术领域(连接功能、DSP和嵌入式设计)的平台技术,满足行业应用需求的平台(航空航天和军工、汽车、广播、工业、科学和医疗、无线通信和有线通信)。
    28nm工艺上的7系列代表了Xilinx目前最新的产品和技术,7系列是迄今为止Xilinx同一时间最快推出的产品,包括Artix-7、Kintex-7、Virtex-7和可扩展处理器平台Zynq,采用了TSMC特别为其开发的28nm HPL(高性能低功耗)工艺。Kintex-7拥有1920个DSP、32个12.5Gbps收发器和500个I/O口。Virtex-7则拥有5280个DSP,最多96个收发器(包括12.5Gbps、13.1Gbps和28.05Gbps三种速率),而Artix-7则拥有16个收发器,内置敏捷混合信号(AMS)的片上监控,12位1Msps ADCs、16个独立的输入和片上电压/热传感器,其总功耗小于1W。目前Kintex-7 325T已经开始提供样片给客户,首款Kintex-7开发板也已面市,AXI4 IP和目标参考设计已经开发完毕并投入运行,并且ISE 13.1 设计套件已经针对 7 系列设计开放。Kintex-7最快将在2012年第一季度转入量产。
    Xilinx可扩展式处理平台是基于ARM Cortex-A9 MPCore 处理器的单芯片解决方案,目前推出的是Zynq-7000系列。Cortex-A9 MPCore由2个CPU组成,带有专门的NEON协处理器(媒体和信号处理架构,增加了面向音频、视频、3D 图形、影像和语言处理的指令)和双精度浮点单元,再结合低功耗 28nm工艺技术,以实现高度的灵活性、强大的配置功能和高性能。Zynq-7000可扩展处理平台的特点,一是,软硬件可编程;二是,处理系统随时可编程;三是,可扩展的密度与性能大大提高(采用尖端的7系列FPGA构建、集成了双12位模数转换器,速率高达1Msps和超过3000个内部互联,带宽高达100Gb。能提供多达760个DSP引擎,性能超过910GMAC,可实现大规模并行处理);四是,灵活性超过任何标准处理解决方案(54个处理器I/O、50个多标准和高性能I/O、多达12个高性能集成串行收发器和灵活的存储器接口)。
    Zynq-7000的产品系列包括Zynq-7010、Zynq-7020、Zynq-7030和Zynq-7040,Zynq-7030和Zynq-7040是两个较大的器件,均具备高速低功耗的串行连接功能,其内置的千兆位级收发器运行速度高达10.3125 Gbps。这两款产品分别提供约190万和350万个ASIC门(即125,000和235,000个逻辑单元),DSP峰值性能分别达480 GMAC 和 912 GMAC,一般是针对高端领域里的应用。Zynq-7010 和 Zynq-7020 这两款较小的器件分别提供约 43 万和 130 万个 ASIC 门(即 30,000和85,000 个逻辑单元),DSP 峰值性能分别为 58 GMAC 和 158 GMAC,多应用于一些低端市场。该器件预计在年底推出样片,据称批量起价低于15美元,其将在性能、功耗和单位成本上超过ARM处理器+FPGA的双芯片方案。
    在收发器技术上,Xilinx在其最高端的Virtex-7 HT FPGA中集成了16个高性能28Gbps收发器,具有很好的抖动、抗噪声干扰与串扰性能,可与新一代CFP2光学模块接口相连,可实现业界最高带宽,可为100G-400G线路卡乃至更先进的新一代通信系统提供最大的单FPGA解决方案。
    Xilinx的堆叠硅片互联技术(SSIT)基于7系列FPGA中逻辑架构、Block RAM、时钟技术、DSP切片和Select I/O已经完全相同的基础,由TSMC开发。利用该技术,单个FPGA可以包含200万个逻辑单元,与40nm FPGA相比,功耗可降低50%。在堆叠硅片互联结构中,数据在一系列相邻的FPGA芯片上通过1万多个过孔走线。相对于必须使用标准I/O连接在电路板上集成两个FPGA而言,堆叠硅片互联技术将单位功耗芯片间连接带宽提升了100倍,时延减至五分之一,而且不会占用任何高速串行或并行I/O资源。在堆叠硅片互联技术中,无源硅中介层由TSMC提供,它有四层导线层,是堆叠互联的关键。由于中介层无源,因此不存在散热问题,它使得建立在该技术上的超大规模FPGA相当于单芯片。
    方案推荐:广播视频引擎设计平台和SMPTE2022 IP核心
    该平台用以加速高质量视频处理硬件的开发,并通过互联网协议以高达10 Gbps的速率交付这些视频。以Virtex-6或Spartan-6 FPGA广播连接套件为基础,可先通过该套件的连接性将视频带入FPGA,然后创建视频管线算法,Xilinx的最新广播产品能持续提高视频质量,同时满足在 IP 网络中输送未经压缩的 HD、3D 和 4K 视频流的要求。
    该平台由一个广播级质量的视频和影像处理IP包、支持Virtex-6 FPGA的参考设计和Spartan-6 FPGA广播连接套件组成,后者包括Xilinx ISE设计套件嵌入式开发软件。IP 核、工具和硬件组合让设计人员能更加轻松地为支持各种 SD/HD/3D 格式、帧率和解析度的多种广播应用类型开发实时视频处理链。此套件的FMC(FPGA 中间卡)连接器支持设计者面向IP视频以及其他需要实时性能的广播设计(包括突发新闻、现场直播活动和体育报道)接口而快速评估,并集成了SD/HD/3G-SDI、AES3 音频、DVI、HDMI、DisplayPort、10GbE(10 Gb 以太网)。此外,该套件也可用来创建数字影院和超高画质(或超级 HDTV)系统中需要最高视频质量和最高带宽的应用。
    视频引擎目标设计平台的关键特性包括:视频和图像处理IP包,支持 1080p60、2K 和 4K 视频处理,提供广播级质量的缩放、去隔行、屏幕显示、降噪等功能;SMPTE2022 IP核的实施,在 Virtex-6 FPGA 广播连接套件上通过 10Gb 以太网以全双工方式显示全带宽、低抖动 3x 3G-SDI(或 6x HD-SDI)。此系统可在任何距离通过单一链接交付多达 6 个未压缩的 HD 电影源;来自Tokyo Electron Devices 的 Inrevium Spartan-6 FPGA 广播连接套件,支持全新面向 SD/HD/3G-SDI和 AES3 音频的低成本 FMC以及面向各种显示接口的可选 FMC,如HDMI、Disp layPort和V-by-One HS ;Virtex-7 HT FPGA 28 Gbps 下一代收发器出色的抖动性能,支持用于通信和广播回程链接的超高聚合带宽,例如有线中的 EdgeQAM / CMTS 应用,同时也非常适合 10G-SDI 标准和新兴标准,以处理 4Kx2K 数字影院和超高画质 8Kx4K 带宽;Xilinx联盟成员 Vanguard Software Solutions H.264/AVC-I 视频编码器可在不牺牲视频质量的情况下降低带宽和存储要求。借助 High10 和 High422 帧内编码特性,设计人员可以迅速和便捷地将 AllianceCORE IP 核集成到贡献、采集和存档系统中,支持 SMPTE AVC-I Class50 & Class100;Kintex-7是行业第一款 28nm FPGA 产品,非常适合广播应用,其提供的收发器能支持高达12.5 Gbps 带宽,提供2倍的性能,而功耗只有上一代 FPGA 的 50%。
    [b]Altera[/b]
    发展策略:嵌入式计划+高性能技术
    Altera去年开始启动嵌入式计划,基于这一计划,Altera锁定了四类目标市场:一是通信远端(RU)设备中把基于ARM的处理器和FPGA整合为单芯片的市场;二是工控处理器市场,这些处理器原先采用Intel或Power PC内核,性能在1500DMIPS左右;三是北美和欧洲军用市场,这一市场类似通信处理,主要负责一些数据包的处理;四是广播信号控制和处理。
    Altera嵌入式计划包括新的系统级集成工具、嵌入式系统配置功能和统一的FPGA设计流程。推动Altera进行嵌入式计划的原因在于,CPU的功耗瓶颈越来越突出,多内核+硬件加速的模式成为系统设计的主流,嵌入式系统越来越多需要使用FPGA,而支持FPGA的嵌入式选择也越来越多,面对这些趋势,设计的需求在于为CPU和可配置加速器提供更多的组合,降低BOM成本以及能够为基于FPGA的CPU提供更多的OS,另外一个十分重要的支持在于能够为各种各样的选择提供统一的FPGA设计流程。
    Altera认为未来填补工艺效率的功耗瓶颈的方法正是体系结构的创新,嵌入式计划提供了基于Quartus II开发软件的单一FPGA设计流程――包括新的Qsys系统级集成工具、公用FPGA知识产权(IP)库,以及新的ARM Cortex-A9 MPCore和MIPS技术公司MIPS32嵌入式处理器产品等。Qsys系统级集成工具可以使嵌入式设计人员面向Altera Nios II、基于ARM和MIPS的嵌入式处理器以及可配置Intel Atom处理器开始设计。Qsys利用了业界首创的FPGA优化芯片网络技术来支持多种业界标准IP协议,提高了结果质量,具有很高的效能。Qsys采用SOPC Builder界面,支持与现有嵌入式系统移植的后向兼容。而且,这一高级互联技术将支持分层设计、渐进式编译以及部分重新配置方法。Qsys是Altera SOPC Builder工具的后续产品,引入了FPGA优化芯片网络技术,与SOPC Builder相比,存储器映射和数据通路互联性能提高至两倍,SOPC Builder适合单层次设计,而Qsys提高了系统级设计效能,适合多层次设计,并且,Qsys支持业界标准IP接口,如AMBA,使之可以支持设计重用。
    作为嵌入式计划的一部分,Altera正在拓展其嵌入式合作伙伴计划,联合ARM、Intel和MIPS技术公司以及FPGA业界的多个合作伙伴,与他们协作,增强设计流程,支持越来越多的FPGA嵌入式处理产品走向市场。例如Intel的基于Atom的可配置新处理器就在多芯片封装中采用了Intel Atom E600系列以及配对的Altera FPGA。对于希望采用专用I/O或者加速硬件的用户而言,新架构提高了他们的灵活性。Altera也与ARM签署了协议,授权包括Cortex-A9微处理器在内的多种技术。Altera在其28nm FPGA技术中提供集成了增强Cortex-A9处理器子系统的产品。此外,Altera还进一步扩展了软核处理器,将推出基于MIPS32处理器体系结构的MP32软核处理器。MP32是Altera、MIPS技术公司以及主要用户过去几年密切协作的结果。它针对Altera器件完善了Altera Nios II嵌入式处理器以及合作伙伴软核CPU系列产品,极大地丰富了FPGA可以使用的操作系统和应用程序。
    Altera在摩尔定律的产品规划上并非一条路向前走。在28nm工艺之前,Altera一直是在高端和中低端器件两个方向独立发展,并非所谓“瀑布型”自高而低的产品开发模式,在65nm节点时,Cyclone III要早于 Stratix III推出,直到28nm节点,Altera才先推出了高密度产品。在功耗控制技术方面,Altera采用了组合方式,如Stratix III中采用了可编程功耗控制技术,降低工作电压VCC,在工艺上采用HK金属栅极技术来解决MOS管漏电问题,并且在掩膜光刻技术上采取措施来降低芯片功耗;在收发器方面(45nm时,一个收发器通道功耗约150μW),Altera最新的28nm器件中收发器功耗为80μW。此外,Altera还通过针对应用将FPGA部分硬化,增加DSP功能,以及提高I/O和存储器速度等措施来降低FPGA整体功耗。
    方案推荐:28nm FPGA系列
    在28nm制程上,Altera最新发布的是Cyclone V和Arria V FPGA系列产品、新扩展功能的是Stratix V FPGA以及此前发布的HardCopy V ASIC系列产品。为了满足从最大带宽到最低功耗等多种应用对性能、特性和功耗的特殊需求,在28nm系列产品中,Altera发挥了收发器技术、产品体系结构、知识产权(IP)集成和工艺技术优势,定制单元、突出多样化,提供了最佳解决方案。
    新产品导入了一系列新的技术:一是收发器。Altera的28nm器件支持速率从600 Mbps到28 Gbps的收发器,在整个系列产品中,Altera的28nm收发器技术基于模块化体系结构;二是产品体系结构。在性能和效率上进行了优化的片内存储器;硬核和软核存储器控制器,支持所需的应用带宽功耗和成本需求;在性能上进行了优化的高端、中端,适合于各种应用和I/O;三是IP集成。为满足重点应用的成本、功耗和性能需求,Altera增强了多种系统级IP,例如,PCI Express(PCIe) Gen2 x1和x4、PCIe Gen3 x8、Interlaken、40G/100G和100 Gigabit以太网(100GbE);四是工艺技术。为能够有效的服务于多种应用,Altera在高端产品系列(Stratix V FPGA)和HardCopy V ASIC上采用了TSMC 28nm高性能(28HP)工艺技术,在低成本(Cyclone V FPGA)和中端(Arria V FPGA)系列产品上采用了TSMC的28nm低功耗(28LP)工艺技术。Altera还利用28LP工艺,在成本、性能和低功耗上达到最佳平衡。在高端采用28HP工艺技术对于实现高端应用需要的内核和收发器性能非常关键。
    对于电机控制、显示和软件无线电等对低功耗和电路板空间要求较高的应用,Altera的Cyclone V FPGA系列是理想选择。相对于前一代器件,Cyclone V系列总功耗降低了40%,提供工作速率高达5 Gbps的12个收发器,增强PCIe Gen2 x1模块,以及支持LPDDR2、移动DDR和DDR3外部存储器的硬核存储器控制器。
    针对需要在成本、低功耗和高性能上达到平衡的应用,例如,远程射频单元、演播合成器和10G/40G线路卡,Altera推出其Arria V FPGA系列。Arria V FPGA系列器件含有工作速率高达10 Gbps的收发器,支持DDR3外部存储器的硬核存储器控制器,以及含有精度可变DSP模块的高效脉动有限冲击响应(FIR)滤波器,相对于前几代器件,总功耗降低了40%。
    Stratix V FPGA系列满足了多种宽带应用需求,例如,高级LTE基站、高端RF卡和军用雷达等。Altera进一步扩展了Stratix V系列的功能,以支持不断增长的市场需求。Stratix V GX FPGA的收发器最大数据速率由原12.5 Gbps增加到了14.1 Gbps,以支持新出现的高速协议,包括FiberChannel 1600等。而且,Stratix V GX FPGA在单芯片中密度也由原700K提高到了1.1M(110万)逻辑单元(LE),进一步帮助用户提高了集成度。
    与以前的HardCopy ASIC器件相比,HardCopy V ASIC提高了收发器、I/O和内核逻辑的性能;逻辑和存储器集成度也进一步得到了提高。通过这些新功能,HardCopy V ASIC现在支持需要低功耗、低成本、产品要求提高抗单事件干扰(SEU)能力的多种应用。
  [b]  Lattice[/b]
    发展策略:低功耗+低成本
    在可编程逻辑器件公司中,Lattice一直坚持在低密度和中密度器件市场淘金,他们不追求器件的规模和超高性能,这一定位决定了其产品技术有着很强的针对性,同时又不至于使自己被资金链牵着走,毕竟摩尔定律路线或者超越摩尔定律都要依靠巨大的资金投入才能实现。过去10年,全球近十亿台设备采用了Lattice的可编程器件,应用领域涵盖通信、计算、消费和工业市场。在中国,截止到2010年的过去4年他们一直保持高于35%的年增长率,其产品针对的目标市场包括无线、宽带接入和交换、视频显示、安防和工控。Lattice对中国市场的投入很大,其上海的全球设计研发中心,从硬件开发到IP和软件设计都有涉及,整个设计量占全球45%。
    Lattice的中密度器件强调的是功耗、性能和成本三者的平衡,在无线接口和安防等应用较多;低密度器件则强调低成本和易用性,主要应用于手持设备、LCD显示、工控和逻辑粘合等领域。Lattice将注意力放在中密度和低密度器件以及混合信号产品上,并提供配套的IP、开发工具和开发板。
    在摩尔定律的产品路线上,Lattice认为在60nm工艺节点之后,功耗不再随着工艺节点的升级而减少,工艺升级对降低功耗的帮助已经排到前三个重要因素之外。功耗在40nm工艺之前反而会增加,比如同等逻辑规模的芯片,40nm工艺较65nm在功耗上要高出3倍。这就是Lattice最新的MachXO2 PLD采用65nm工艺以及MachXP2 FPGA采用95nm的原因。并且,Lattice不打算考虑40nm的工艺节点,而是会直接进入20nm节点,因为在这一节点高K金属栅极工艺将能发挥低功耗的作用,而由于富士通已经宣布不会做20nm节点的工艺升级,所以,Lattice将会考虑在TSMC和UMC代工新工艺产品。
    ECP3是Lattice中端FPGA的代表产品,是目前市场中最低功耗、具有SERDES功能的FPGA。共有5款器件,提供兼容多种标准的多协议3.2G SERDES、DDR1/2/3存储器接口和高性能且可级联的DSP slice,适用于RF、基带和图像信号处理。ECP3具有高速LVDS I/O,切换速率高达1Gbps,以及多达6.8 Mbit的嵌入式存储器。其逻辑密度从17K LUT到149K LUT,带有多达586个用户I/O。ECP3系列适合大批量、成本和功耗敏感的摄像和显示、有线和无线基础设施等应用。集成Flash是Lattice PLD产品的一大特点,相较于外挂Flash,单芯片可以减少成本,提高安全并且具有瞬间上电的优势。如MachXO2系列较之前的MachXO系列相比,提供了3倍的逻辑密度、10倍的嵌入式存储器、降低了100倍以上的静态功耗并减少了高达30%的成本。此外对一些常用功能,如用户闪存(UFM)、I2C、SPI和定时器/计数器进行了固化。为了满足产品设计需求,Lattice在去年6月推出了Diamond设计工具,旨在解决之前工具在易用性和集成度方面的不足,并在同年11月推出了1.1版本。
    Lattice的另一类重要产品是可编程混合信号产品,如Platform Manager系列器件,针对电路板电源的数字化管理。该系列包括两款器件:LPTM10-1247和LPTM10-12107。LPTM10

你可能感兴趣的:(技术杂绘)