芯东西(ID:aichip001)文:韦世玮 心缘
芯东西 12 月 24 日消息,今天,龙芯中科发布龙芯 4000 系列 CPU 芯片,分别为3A4000 和 3B4000。性能方面,3A4000/3B4000 采用 28nm FDSOI 工艺,微架构为 GS464V 核心,通用处理性能提升一倍以上,这将成为我国自主 CPU 发展史上又一新的里程碑。
据悉,龙芯 4000 系列进一步完善对虚拟机的支持,效率达到 95% 以上。在相同主频下,龙芯 4000 系列比 3A3000 的流水线效率提高 50%,主频提升至 1.8GHz-2.0GHz。
龙芯中科总裁、中科院计算技术研究所总工程师、龙芯 CPU 首席科学家胡伟武博士介绍,龙芯 4000 系列是首次全面集成可信模块、国内密码算法、访问控制等安全机制的 CPU 芯片。
也就是说,龙芯 4000 系列处理器除了性能大幅提升之外,还拥有片内安全机制和高效云化的特点。据介绍,龙芯在 2019 年的芯片出货量已超 50 万颗。未来,龙芯中科将着重提升 CPU 主频与核数,3A5000 和 3C5000 两款芯片将分别计划在 2020 年上半年和下半年流片。
龙芯中科总裁、中科院计算技术研究所总工程师、龙芯 CPU 首席科学家胡伟武博士
我国自主 CPU 发展的里程碑
龙芯中科是国产自主高性能通用处理器技术领先者和产品提供商,搭载龙芯中科 CPU 的计算机已进入政府采购目录。
龙芯脱胎于中国科学院计算所,曾研发出我国首枚拥有自主知识产权的通用高性能微处理芯片。
CPU 芯片长期被英特尔等国外巨头所垄断,龙芯先推出的龙芯 1 号、龙芯 2 号,打破了中国缺自主研发 CPU 芯片的历史,是中国形成自主知识产权计算机产业道路上的一座里程碑。
从 2001 年至今,龙芯研发了龙芯 1 号、龙芯 2 号、龙芯 3 号三个系列处理器和龙芯桥片系列。
龙芯 1 号系列为 32 位低功耗、低成本处理器,主要面向低端嵌入式和专用应用领域;龙芯 2 号系列为 64 位低功耗单核或双核列处理器,主要面向工控和终端等领域;龙芯 3 号系列为 64 位多核系列处理器, 主要面向桌面和服务器等领域。
今天发布的龙芯 3A4000 是龙芯 3 号系列处理器的最新产品,距上一代龙芯 3A3000 发布已相隔两年。
2017 年时,龙芯年营收达 1.5 亿元,利润 2000 多万元,2018 年营收和利润均比 2017 年翻番,利润达到历史最高水平,交的税款已超过国家给龙芯各类补助的总和。
胡伟武表示,今年上半年龙芯收入已超过去年全年,利润是去年全年的 1.3 倍左右,预计到 2021 年,龙芯交给国家的税将超过之前所有的研发投入。
采用 GS464v 架构,实现三大特点
龙芯 3A4000 是龙芯第三代高性能处理器核,采用新一代处理器架构 GS464V,拥有双 DDR4-2400/2133 内存通道,双 HT3.0 系统总线,效率提升一倍。
性能方面,其主频为 1.8GHz,睿频 2.0GHz,采用 37.5mm*37.5mm 封装工艺,典型功耗为 30-40W。
据胡伟武介绍,龙芯 3A4000 主要有三方面特点:
1、相同工艺性能成倍提高
龙芯 3A4000 采用 28nm 工艺,进一步通过设计优化提升处理器性能,反映传统桌面性能的 SPEC INT2000 的单核 base 分值,从 930 分提高到了 2090 分。
此外,它的科学计算性能与 3A3000 相比,提升了 4 倍以上,支持 128/256 位向量。而 3B4000 支持四路直连,与 3B3000 双路服务器相比,四路服务器性能亦提升了 4 倍。
与此同时,龙芯 3A4000 的虚拟机效率大幅度提高,从原先的 88% 提升至 98%。胡伟武称,其单核性能已高于用 14nm 实现的 Arm 处理器。
2、片内安全机制
龙芯 3A4000 支持 AES、MD5、SHA 等加解密算法,片内集成安全可信模块,支持国密算法。此外,它支持操作系统内核栈防护机制,支持 IO 防护、安全执行环境等访问控制,其高性能密码算法服务能力支持商密及以上算法。
3、自主研发
龙芯 3A4000 的所有模块源代码和各类全定制模块均为自主研发,除了厂家提供的标准单元库和内存编译器(Memory Compiler)外,没有任何第三方 IP。
除此之外,龙芯 3A4000 在功耗管理和封装方面也有了进一步提升。
一方面,它第五个核(GS132E)监控主核运行,并进行动态功耗管理。例如,搭载龙芯 3A4000 的笔记本电脑工作时长比 3A3000 相比,提高了一倍以上;
另一方面,龙芯 3A4000 的封装尺寸比 3A3000 更小,支持普通 BGA、LGA 和 CBGA 多种封装形式,同时其桌面主板可支持四层布线。
值得一提的是,龙芯 4000 系列用于片间互连及连接桥片的 HT 控制器带宽提高了一倍以上,内存控制器从 DDR3 升级至 DDR4,SPEC CPU2006 定点和浮点单核分值提高到 20 分。
但胡伟武也指出,龙芯 4000 系列处理器依然存在两大问题。
一是 DDR4 内存频率不够高。DDR4 规定的速率范围是 1600 至 3200,而龙芯 4000 系列最高 DDR4 工作速率为 2400/2133,与规定范围还存在一定差距。
二是功耗偏大。其非向量模式的典型功耗为 30 至 40W,主要在于工艺不够先进,设计优化比较极致,建议科学计算环境下使用 256 位浮点向量时,适当降低电压和频率。
未来重点突破主频与核数
胡伟武谈到,龙芯的下一步将会把研发重点放在提高主频与核数上。
一方面,龙芯 3A5000 将提高主频至 2.5GHz,采用 12nm 工艺,单核性能将提高至 30 分左右,计划于 2020 年上半年流片。
同时,其内存控制器延迟/宽带进一步优化,LLC 增加一倍,实现操作系统级二进制兼容。
另一方面,龙芯 3C5000 将增加核数,同样采用 12nm 工艺,支持 4 至 16 路服务器,计划将于 2020 年下半年流片。
在胡伟武看来,目前国内 CPU 企业发展核心技术主要有两个途径,一是市场换技术,如汽车产业;二是市场带技术,如航天产业,而龙芯中科走的则是第二条路。
龙芯中科通过体制内市场引导,带动技术进步后,再进一步参与体制外的市场竞争。同时,龙芯 CPU 自主编写 CPU 源代码,在应用中不断演进,并注重自主 CPU 的自主生态建设,以逐步提高产品性能和完善生态。
虽然,龙芯发展至今已经为我国半导体产业的崛起提供了不可或缺的力量。但胡伟武认为,我国自主 CPU 与国外先进水平相比,在通用处理能力、单核性能和设计能力三大方面还存在较大差距。
“龙芯需要练好内功,通过设计优化提高单核通用处理性能。”胡伟武说到,3A4000 和 3B4000 已基本填补单核通用处理性能的缺陷,性能提高 2 至 3 倍(约 20-30 分),达到 AMD 的水平。而目前,市场主流 CPU 使用 GCC 编译的单核分值为 20 至 40 分。
龙芯操作系统支持软件生态建设
胡伟武谈到,龙芯的操作系统目前具有两种商业和技术模式。面向专门企业,龙芯提供桌面和 Windows 服务器系统;面向设备企业,龙芯则基于基础版开源 OS 维护,支持 OS、整机和应用企业。
实际上,龙芯已面向三大不同的平台开发相应的操作系统:
1、面向通用信息化系统的 Loongnix。该系统基于通用 Linux 平台进行完善和优化,为统一操作系统 UOS 龙芯版提供支撑。
2、面向高可靠实时终端的 LoongOS。该系统基于 Linux/RT-Linux 构建了简洁高效的 OS。
3、面向实时嵌入式应用的 LoongWorks。该系统针对历史应用,基于 VxWorks 内核,完善图形和网络等 API。
另一角度看,龙芯操作系统针对不同的硬件和应用,亦分别提出了两种不同的二进制兼容。
除此之外,胡伟武也提到,龙芯将进一步统一系统架构,构建标准规范体系,实现操作系统跨主板整机兼容和 CPU 代际兼容。
从龙芯 3A4000 开始,龙芯也将参考设计全面支持统一系统架构,开发支持 ACPI 主板、固件、内核及 OS 的参考设计,以及基于 ACPI/EC 笔记本标准的解决方案。
结语:我国自主 CPU 研发的里程碑
龙芯中科经过近二十年的发展,已经成为我国国产自主高性能通用处理器的技术领先者,不仅打破了我国缺乏自主研发 CPU 芯片的历史,同时也是我国形成自主知识产权计算机产业道路上的一座里程碑。
近二十年来,龙芯的自主 CPU 和 OS 已经趋于成熟。胡伟武称,龙芯 CPU 通用处理性能已达到 AMD 水平,OS 成熟度也已接近 Windows XP。
然而,龙芯尚未丰富的应用和产业不配套,无疑是摆在自主 CPU 和 OS 未来发展道路上的一个阻碍。未来,龙芯如何完善基础软件环境和配套芯片,推动 CPU 和 OS 生态的进一步成熟发展,这十分值得我们期待。