海量小文件存储低效的根源及优化实践

【摘要】海量小文件,为什么会成为世界性难题?一切的根源探索还得从海量小文件的实际场景出发,如何产生、如何存储、如何成难题。透过现象看本质,优化才有方向,目标才能明确。

海量小文件,不仅是一个行业难题,更是一个世界性难题,各行各业的诸多场景下都存在类似困境。此类问题难以根治,一部分原因是传统存储解决方案无法高效匹配海量小文件的场景,另一部分原因是从传统存储切换到对象存储的成本略高。此前,针对影像系统和打印系统的海量小文件场景,我们曾花费大量的时间和精力来优化海量小文件的业务存储。借此机会抛砖引玉,来深入聊一下海量小文件问题,分享些许我们在海量小文件优化上的一点心得。

对于海量小文件的定义,行业上尚未有精确规定,更像一个事实标准,而非定义标准。一般情况下,单个文件的体积并不大,一般为数十KB至数MB,但数量规模数十万甚至百万以上级别之巨,这类场景我们称为“海量小文件”。海量小文件通常呈现出一种非结构化文件的大小与数量极不平衡的特性,也正是难以根治的症结所在。

在金融保险的业务系统中,以寿险为例,有两大核心系统最易形成海量小文件场景:一是影像系统,影像系统中需要存储大量非结构化数据,如保险人相关的证件、图片、PDF文件等,同时还有海量的业务过程文件,如交易报文、日志记录等;二是打印系统,打印系统会生成大量的电子保单,同样存在大量过程文件,如渠道交易图像、电子签名照片、电子合同、相关OCR文件等。这两大系统中图像类文件在MB级别,中间过程文件在KB级别,相对比之下中间过程文件的数量级远高于影像类文件,单个系统存储的非结构化数据量在TB级别以上。伴随业务高峰期的

你可能感兴趣的:(大数据及数据管理(治理)专栏,分布式,人工智能,安全)