GFS系统理解

GFS基本概念

GFS是一个面向大规模数据密集型应用的,可伸缩的分布式文件系统。虽然运行在廉价的硬件设备上,依然提供了灾难冗余的能力,为客户机提供高性能的服务。

GFS的基本应用前提

首先,组件 失效被认为是常态事而不意外。以通常的标准来衡量,GFS的文件非常巨大(数GB的文件非常普遍,通常文件大小在100MB以上,支持小文件,不需要对小文件做专门的优化),所以I/O操作和Block的尺寸需要重新考虑。大部份文件修改是在文件尾部追加数据,而不是覆盖原有的数据(读操作主要是大规模的流式顺序读取以及小规模的随机读取,随机读取效率不高,通常把小规模合并,批量读取)。应用系统与文件系统API协同设计,引入原子的的记录追加操作,保证多个客户端能够同时进行追加操作。

GFS接口

在传统文件系统的API接口函数(文件以目录的形式组织,用路径名标识,支持创建新文件,删除文件,打开文件,关闭文件,读和写文件)的基础上,提供了快照和记录追加功能。

快照:以低成本创建一个文件或者目录树的拷贝。

记录追加:允许多个客户端同时对一个文件进行数据追加操作,同时保证每个客户端的追加操作都是原子的。

GFS架构

一个GFS集群包含一个单独的Master节点(逻辑上的单独),多台Chunk服务器,并且同时被多个客户端访问。所有的机器运行Linux操作系统GFS存储的文件被分割成大小固定的Chunk,并分配一个全球唯一的64位Chunk标志。Chunk服务器把Chunk以Linux文件的形式保存在本地磁盘上,并根据指定的Chunk标志和字节范围来读写数据块,出于可靠性的考虑,每个快都会复制到多个块服务器上。




你可能感兴趣的:(c++相关)