[置顶] MemSolid2.0:PCIe SSD高温保护技术详解

从服务器到一个大型的数据中心,温度控制技术存在于每个层次当中。服务器中的风扇,数据中心的风冷和液冷系统以及冷热通道隔离技术都是为了将设备或者数据中心的温度控制在合理的范围内。

从PCIe SSD的设计和使用角度来说,温度对于设备性能、稳定性及寿命都有非常大的影响。温度过高会引发data retention问题, 也就是说随着环境温度的升高,电子会更快地从浮栅极逃离,最终会导致Cell单元的电压状态改变,导致数据不可读。 并且如果设备过热,损坏电路中的元器件,电路可能失效。MemSolid2.0中的高温保护技术就是为了降低高温对PBlaze4造成的不利影响,保证数据一致性和设备寿命。

      PBlaze4 安装了多个温度传感器用于监控设备不同部分的温度,高温保护技术主要会用到Board Temperature Sensor和Controller Temperature Sensor两个带内传感器的值(既设备的核温和板温),这两个温度数据均可以通过S.M.A.R.T信息查到(补充信息:PBlaze4的带外管理功能会用到oob sensor1、oob sensor2以及Board Temperature Sensor的值)。基于精确的核温和板温数据,Memblaze为PBlaze4设计了可靠的温度保护逻辑,而这个保护逻辑算法就是高温保护技术的核心。


PBlaze4上温度传感器精度值

在高温保护技术中有三个比较重要的温度值,其中包括两个温度警戒点和一个性能开始恢复的温度临界点。



MemSolid2.0高温保护技术示意图

在温度上升到第一警戒点(上图中T1st threshold,这一温度阈值可通过NVMe setfeature指令进行设置)时,PBlaze4会向主机端发送critical warning 的警告并自动降低读写性能,以防止温度进一步升高,当温度下降后,自动恢复满性能,需要指出的是这个过程无须用户干预,对于用户而言完全透明。

如果温度进一步升高至第二警戒点(上中T2nd threshold)时,所有读写操作会立刻停止,以防止电路过热损坏NAND中的数据,但此时需要技术人员重新检测散热环境后,方可继续使用该产品。

还有一个临界值的点为Trestore,当设备温度从第一警戒点降到T restore时,设备性能会逐步恢复到正常水平。最后需要指出的是,三个温度临界点均是选取核温和板温中较高的值。

欲知更多关于高温保护的技术细节,请回复本公众号,我们的工程师将给予详细的解答。MemSolid2.0及MemSpeed2.0两大技术集合的介绍仍在继续。该系列技术文章可以通过回复MemSolid2.0、MemSpeed2.0或者技术名称(如“元数据保护”)查看原文。

欲知更多关于高温保护的技术细节,请回复Memblaze公众号(搜索“Memblaze”即可),我们的工程师将给予详细的解答。MemSolid2.0及MemSpeed2.0两大技术集合的介绍仍在继续。该系列技术文章可以通过回复Memblaze公众号MemSolid2.0、MemSpeed2.0或者技术名称(如“元数据保护”)查看原文。


你可能感兴趣的:([置顶] MemSolid2.0:PCIe SSD高温保护技术详解)