Memblaze解决方案工程师李月宽发表了主题为《NVMeSSD data reliability and protection》的演讲,这个主题分享中他介绍了NVMe SSD的可靠性评定标准、PBlaze4中提高数据可靠性的技术等内容。
元数据保护
图3:PBlaze4的元数据保护技术
如上图所示PBlaze元数据保护技术主要通过pSLC和多副本实现。pSLC 是MLC 的变体,是同一个NAND颗粒上划分出来的一块区域,具有SLC低错误率和高寿命的特点,而且一般pSLC 的擦写次数可以达到20000次,是MLC擦写寿命的6倍。PBlaze4的元数据会有4个副本,并且跨LUN,跨channel进行存储。这种机制通过增加元数据的冗余度保障数据安全,而且元数据被分散存储在多个NAND颗粒上,所以只要有一个LUN 可以工作,元数据就能被读取更新。
掉电保护技术
首先是提高电容的容量,这种方法比较容易实现,不必增加额外的电路设计。但是这种方案成本较高,需要使用超级电容或者多个电容实现。
第二种方法是改变电压。这种方法的优势是成本较低,可以使用常见的铝电解电容实现。但是其缺陷是电路设计复杂,需要升压和降压的电压转换器。并且占用的PCB面积也较大。
对于两种效果,Memblaze通过测试做了对比。测试结果如图7:
图7
基于以上理论与测试结果,PBlaze4拥有完备的掉电保护解决方案。
从PCIe SSD的设计和使用角度来说,温度对于设备性能、稳定性及寿命都有非常大的影响。PBlaze4安装了多个温度传感器用于监控设备不同部分的温度, Memblaze为PBlaze4设计了可靠的温度保护逻辑,而这个保护逻辑算法就是高温保护技术的核心。
图9:高温保护
在温度上升到第一警戒点(上图中T1st threshold,这一温度阈值可通过NVMe setfeature指令进行设置)时,PBlaze4会向主机端发送critical warning的警告并自动降低读写性能,以防止温度进一步升高,当温度下降后,自动恢复满性能,需要指出的是这个过程无须用户干预,对于用户而言完全透明。
如果温度进一步升高至第二警戒点(上中T2nd threshold)时,所有读写操作会立刻停止,以防止电路过热损坏NAND中的数据。此时需要技术人员重新检测散热环境后,方可继续使用该产品。
还有一个临界值的点为Trestore,当设备温度从第一警戒点降到T restore时,设备性能会逐步恢复到正常水平。最后需要指出的是,三个温度临界点均是选取核温和板温中较高的值。