自2006年至今十余年来,金融行业内容管理系统通常采用Documentum+DB+NAS的整体解决方案,如下图1所示,Documentum结合DB的索引能力和NAS的存储能力,向上为影像平台等业务提供文档数据的存储和检索读取服务。

杉岩海量对象存储系统完美替代Documentum_第1张图片

近年来随着非结构化数据的爆发性增长,由于Documentum系统架构问题,此套解决方案出现了明显性能瓶颈,杉岩海量对象存储系统(SandStone MOS)采用全分布式架构,针对海量文件场景提供可线性扩展的持续快速访问性能,同时提供全方位的海量数据保护支持和数据生命周期管理功能,能够完美替代Documentum。作为金融行业内容管理系统的未来核心模块,不仅要提供现在和未来的服务保障,更要能够完美接纳客户现有数据,所以需要提供平滑友好的Documentum迁移方案。

Documentum应用架构

基于Documentum的应用平台如图2所示,存储仓库(Repository)作为数据及元数据的最终存放位置,包含内容存储系统(Content Store)及元数据存储系统(Metadata Store); 内容服务器(Content Server)位于存储仓库之上,通过封装好的接口给上层应用提供处理文档数据的调用接口;上层应用(Web Application、Desktop Application等)通过调用内容服务器提供的API接口,给最终用户提供友好的文档内容管理功能,轻松应对文档的存档、搜索、分类、处理、安全保密和归档保存等一系列工作。

杉岩海量对象存储系统完美替代Documentum_第2张图片

Documentum模块介绍

存储仓库(Repository)

一个存储仓库是一个基本的内容和元数据存储单元,包含内容存储系统(Content Store)和元数据存储系统(Metadata Store),如图3是一个最小的存储仓库结构,默认情况下Documentum通过主机本地文件系统存储内容,通过关系数据库(RDBMS,Relational Database Management System)管理元数据及其相互关系,另外一个仓库可以同时包含多个内容存储系统,并且这些内容存储系统可以是不同类型,比如关系数据库、本地文件系统、NAS等。

杉岩海量对象存储系统完美替代Documentum_第3张图片

内容服务器(Content Server)

内容服务器负责内容和元数据的生命周期管理,用户无需关心文件和元数据具体存在哪里,通过一个接口即可访问内容(content)。一个Content Server只能对应一个Repository,但是一个Repository可以配置多个Content Server,这样有如下好处:

  1. 通过多个Content Server分担压力,提高整体性能

  2. 通过远程Content Server为远端用户提供优质服务

  3. 通过多Content Server提供高可用和灾备恢复支持

杉岩海量对象存储系统完美替代Documentum_第4张图片

杉岩NAS异构特性介绍

传统NAS设备在已经存放了数千万级别文件数量的情况下,性能急剧下降,读写延迟可达到5-10秒,在杉岩对象存储实施的过程中,由于NAS接口性能的瓶颈,导致现有数据的迁移周期长达数月之久,为此我们开发了NAS异构特性。

如图5所示,SandStone MOS纳管NAS设备的元数据,无需立即触发数据内容搬迁,应用统一使用S3接口即可访问NAS和MOS的数据,通过生命周期转移策略,可以后期平滑迁移NAS文件到SandStone MOS,数据内容搬迁过程中无需停机,业务切割时间窗极短。

杉岩海量对象存储系统完美替代Documentum_第5张图片