本章节属于基础知识,多整理于论文和网络来源。感谢各位作者。
- 1966年 IBM发明了DRAM存储器;五年后,Intel 1103(1k bit)DRAM出现。
- 经典异步接口在每次读写前,必须分别进行行选通与列选通,即便读写同一行里的数据,也不能省略任何步骤。其中Page Mode 的 DRAM 可以把一整行数据保存在集成于片上的灵敏放大器阵列中,访问同一行时,就不必重复进行行选通。
- 出现的原因:由于异步DRAM与同步总线在操作时存在额外等待时间
- 特点: SDRAM,即Synchronous DRAM,意为同步的 DRAM,其数据和指令都与时钟上升沿对齐。由于每个时钟周期,只在上升沿传送一次数据,它也被称为SDR SDRAM,以便与 DDR SDRAM 区别。最早的SDRAM由三星在1993 年生产。
存在时期:在 1996-2002 年期间,SDRAM 逐步取代了异步DRAM,逐步占领了内存市场。在 2003 年之后,SDRAM逐渐被存取速度更快的 DDR SDRAM 取代。
引入的机制: 同步时钟,多bank,流水线,brust读写
- 出现的原因:速度的提升要求
- 特点:Double Data Rate Synchronous Dynamic Random Access Memory,也就是双倍速率同步动态随机存取存储器。
- 时期:2003年取代SDRAM成为主流内存选择,2005年后逐渐被DDR2 SDRAM取代。
- 引入的机制:2bit预取技术,差分时钟、数据采样脉冲,片上DLL
2bit预取技术:使得DDR SDARM能够同时在时钟信号的上升沿和下降沿完成数据传输
差分时钟:CK 和 CK#,由于DRAM存储器工作在较高的时钟频率下,故稳定的时钟信号变得相当重要。DDR SDRAM将指令信号的采样点设定在差分时钟CK 上升沿和 CK# 下降沿的交叉点上,同时将数据信号采样点设定在CK 和 CK# 的所有交叉点上,这样可以抑制温度、电阻等因素对时钟精度的影响,显著提高时钟精度。
数据采样脉冲:为信号完整性,DDR SDRAM引入与数据采样脉冲DQS。DQS 是一个双向端口,写数据时,DQS信号由控制器提供,其上升沿和下降沿分别与两个数据各自的中心对齐;读数据时,DQS由内存器件提供,其上升沿和下降沿分别与两个数据各自的起始边沿对齐。
片上DLL:DDR SDRAM大大提高了数据传送频率,这也就意味着时钟树延时 (Clock Insertion Delay) 将会明显影响数据传输质量,甚至导致读写出错。为解决这一问题,DDR SDRAM引入片上延时锁定回路DLL(delay lock loop)产生精确的时间延时,调整数据传输时序。在通常情况下DLL处于开启状态,但也可以通过控制模式寄存器关闭DLL。
- 出现的原因:传输速度的进一步提升要求
- 时期: DDR2标准2003年制定,2005年起DDR2 SDRAM开始逐步取代DDR SDRAM,而2009年之后又逐渐被DDR3 SDRAM所取代。
- 引入的机制: 4-bit预取技术,FBGA封装形式,下调工作1.8V电压,引入双通道内存,离线驱动调整OCD,Post CAS,片内终结器ODT
4-bit预取技术:使得数据传输频率四倍于存储器核心频率,进一步提高了存储器数据传输效率
FBGA封装形式:用FBGA封装形式替代DDR的TSOP芯片封装形式,通过减小管脚长度减小寄生阻抗和寄生电容大小,同时提供了更好的电气性能与散热性,为内存的稳定工作与未来频率的发展提供了良好的保障。
下调工作1.8V电压:输入电压由DDR标准的2.5V下降到1.8V电压,从而明显降低了器件的功耗及发热量。
引入双通道内存:这需要INTEL芯片组的支持,内存的CAS延迟、容量需要相同。INTEL的弹性双通道的出现使双通道的形成条件更加宽松,不同容量的内存甚至都能组建双通道,提高了内存性能。
离线驱动调整OCD:DDR2通过离线驱动调整OCD可以提高信号的完整性。DDR2 SDRAM通过调整上拉(pull-up)/下拉(pull-down)的电阻值使两者电压相等。使用OCD通过减少DQ-DQS的倾斜来提高信号的完整性;通过控制电压来提高信号品质。
Post CAS:这是一个提高DDR2内存传输效率的改进。在Post CAS操作中,CAS信号(读写/命令)能够被插到RAS信号后面的一个时钟周期,CAS命令可以在附加延迟(Additive Latency)后面保持有效。在DDR2标准中,附加延时AL(Additive Latency)取代了DDR标准中的tRCD(RAS到CAS和延迟),AL周期数可以在0,1,2,3,4中进行设置。由于CAS信号放在了RAS信号后面一个时钟周期,因此ACT和CAS信号永远也不会产生碰撞冲突。
片内终结器ODT:
- 出现的原因:传输速度的进一步提升要求
- 时期: DDR3 SDRAM标准规范2006年开始开发,到2009年DDR3取代DDR2成为内存市场的主打产品。
- 引入的机制: 8-bit预取技术,下调工作1.5V电压
8-bit预取技术:在一个存储器核心周期内可以传输8bit的数据,数据传输能力在DDR2基础上再度加倍。
- 出现的原因:DDR4最重要的使命当然是提高频率和带宽。DDR4内存的每个针脚都可以提供2Gbps(256MB/s)的带宽,DDR4-3200那就是51.2GB/s,比之DDR3-1866高出了超过70%。
- 时期: DDR4内存标准规范的正式公布是2012年9月底,不过DDR4内存规格原计划是在2011年制定完成,2012年开始投入生产并上市的。
- 引入的机制:Bank Group, 访问机制 ,下调工作1.2V电压
Bank Group:在DDR在发展的过程中,一直都以增加数据预取值为主要的性能提升手段。但到了DDR4时代,数据预取的增加变得更为困难,所以推出了Bank Group的设计。Bank Group架构又是怎样的情况?具体来说就是每个Bank Group可以独立读写数据,这样一来内部的数据吞吐量大幅度提升,可以同时读取大量的数据,内存的等效频率在这种设置下也得到巨大的提升。DDR4架构上采用了8n预取的Bank Group分组,包括使用两个或者四个可选择的Bank Group分组,这将使得DDR4内存的每个Bank Group分组都有独立的激活、读取、写入和刷新操作,从而改进内存的整体效率和带宽。如此一来如果内存内部设计了两个独立的Bank Group,相当于每次操作16bit的数据,变相地将内存预取值提高到了16n,如果是四个独立的Bank Group,则变相的预取值提高到了32n。
访问机制:对于DDR3内存来说,目前数据读取访问的机制是双向传输。而在DDR4内存中,访问机制已经改为了点对点技术,这是DDR4整个存储系统的关键性设计。在DDR3内存上,内存和内存控制器之间的连接采用是通过多点分支总线来实现。这种总线允许在一个接口上挂接许多同样规格的芯片。我们都知道目前主板上往往为双通道设计四根内存插槽,但每个通道在物理结构上只允许扩展更大容量。这种设计的特点就是当数据传输量一旦超过通道的承载能力,无论你怎么增加内存容量,性能都不见的提升多少。这种设计就好比在一条主管道可以有多个注水管,但受制于主管道的大小,即便你可以增加注水管来提升容量,但总的送水率并没有提升。因此在这种情况下可能2GB增加到4GB你会感觉性能提升明显,但是再继续盲目增加容量并没有什么意义了,所以多点分支总线的好处是扩展内存更容易,但却浪费了内存的位宽。
因此,DDR4抛弃了这样的设计,转而采用点对点总线:内存控制器每通道只能支持唯一的一根内存。相比多点分支总线,点对点相当于一条主管道只对应一个注水管,这样设计的好处可以大大简化内存模块的设计、更容易达到更高的频率。不过,点对点设计的问题也同样明显:一个重要因素是点对点总线每通道只能支持一根内存,因此如果DDR4内存单条容量不足的话,将很难有效提升系统的内存总量。当然,这难不道开发者,3DS封装技术就是扩增DDR4容量的关键技术。总体来说,DDR3便于扩展;DDR4是拼单内存的大容量(基于3DS的封装)
3DS技术最初由美光提出的,它类似于传统的堆叠封装技术,比如手机芯片中的处理器和存储器很多都采用堆叠焊接在主板上以减少体积.堆叠焊接和堆叠封装的差别在于,一个在芯片封装完成后、在PCB板上堆叠;另一个是在芯片封装之前,在芯片内部堆叠。一般来说,在散热和工艺允许的情况下,堆叠封装能够大大降低芯片面积,对产品的小型化是非常有帮助的。在DDR4上,堆叠封装主要用TSV硅穿孔的形式来实现。
所谓硅穿孔,就用激光或蚀刻方式在硅片上钻出小孔,然后填入金属联通孔洞,这样经过硅穿孔的不同硅片之间的信号可以互相传输。在使用了3DS堆叠封装技术后,单条内存的容量最大可以达到目前产品的8倍之多。举例来说,目前常见的大容量内存单条容量为8GB(单颗芯片512MB,共16颗),而DDR4则完全可以达到64GB,甚至128GB。
下调工作1.2V电压:这是每一代DDR进化的必备要素,DDR4已经降至1.2V
首先来看功耗方面的内容。DDR4内存采用了TCSE ( Temperature Compensated Self-Refresh,温度补偿自刷新,主要用于降低存储芯片在自刷新时消耗的功率)、TCARtemperature Compensated Auto Refresh,温度补偿自动刷新,和T CSE类似)、DBI(Data Bus Inversion,数据总线倒置,用于降低VDDQ电流,降低切换操作)等新技术。
这些技术能够降低DDR4内存在使用中的功耗。当然,作为新一代内存,降低功耗最直接的方法是采用更新的制程以及更低的电压。目前DDR4将会使用20nm以下的工艺来制造,电压从DDR3的1.5V降低至DDR4的1.2V,移动版的SO-DIMMD DR4的电压还会降得更低。而随着工艺进步、电压降低以及联合使用多种功耗控制技术的情况下,DDR4的功耗表现将是非常出色的。
RDIMM;SO-DIMM;VLP RDIMM;LRDIMM