分布式文件系统的未来

对于目前经典的几种分布式文件系统,主要有Lustre、GPFS、Ceph和Glusterfs,各自技术上细致的优缺点网上也有很多,此文就再不赘述。对于在MapReduce计算领域兴起的GFS和HDFS,更多的是可以归为接口类,是满足特定应用的非传统意义的文件系统(传统文件系统一般指支持POSIX文件操作的)。很多人认为随着HDFS等的兴起,传统分布式文件系统趋向于没落,但从新版GPFS和Ceph等看,传统的也在不断进步和完善,甚至由于架构的完整性优势,在支持Hadoop等新型运算上,其效率一点也不低于HDFS,这在ceph上表现更为突出。对于在高性能计算领域应用最广的lustre文件系统,Intel也推出了商业版,并通过自己开发的商业模块支持hadoop环境。自RedHat收购Gluster后,Glusterfs也侧重在往云和容器方向,由于其代码的简洁性,深得一些人喜爱。

作为分布式文件系统领域内的一名技术研发人员,随着对各家分布式文件系统的了解和熟悉,隐约有些自己的看法,借此文也发表些自己对这些分布式文件系统未来发展的看法。

先说Lustre,它在2000年左右开源,当时正是对象存储风风火火之时,在推出到1.6时,在高性能领域内的用户就很可观了,国内好多超算的存储系统正是基于此。现在已经到2.8,饱受诟病的元数据服务也推出了多元数据服务功能。但优点的延长线往往是其缺点,其追求复杂功能的结果就是代码复杂,稳定性差。远观Lustre这艘船,浑身是破洞和补丁,虽然也有很多辛勤的工程师在维护着它继续向前,但速度已勉为其难,搁浅应该是迟早的事了。

再说GPFS,一直认为是个好东西,IBM在大机技术上的领先时没得说的,就是后来的脑残CEO先是转软件、后是转云服务,基本就自废武功了。目前对于新的GPFS研发团队,从种种现象看,也岌岌可危,如果早十年能将此块独立,估计结果不至于如此。

对于Glustrefs,架构和代码是如此简洁,应该是受益于FUSE技术。但基于FUSE技术,分布式文件系统的一致性很难保证,结果方向一转,往NFS去了,但这明显不是解决问题的办法。除了努力贴上云和容器,自身的优点没有保持,缺点也不思改进,如果是避难就热点的态度,估计未来也悬。

还有ceph成为了最近的热点,其实开始在高性能计算领域,Ceph一直很失落,但在云和大数据来临之际,其发展迅速。主要是其独特的架构,撞上了云这只耗子。可以预见的是,ceph在此领域内将是风光无限,从国内的XSKY团队的研发传来的消息,也令人鼓舞。

对于传统分布式文件系统的未来,以上几种我认为都将被淘汰,当然不包括到其他领域大放光彩。新出现的王者,应该架构上有更好的设计,代码也是简洁明了,功能和性能都会杠杠的,因为这些的基础已经出现,SPDK会让存储服务实现得高效简洁,成熟和高效的分布式内存数据库也会被新的系统借鉴或采用。

这些观点也是空余闲暇之时,天马行空式的胡思乱想,不妨贴出来与大家一起共同探讨。

你可能感兴趣的:(内核开发,文件系统,大数据,数据库)