wmnmtm

开源主流分布式文件系统简单介绍

文章目录

一、分布式文件系统简介
- 1.特点
- 2.主要指标及分类对比
- 3.AFS与NFS
二、开源分布式文件系统
- 1.GFS
- - （1）GFS与NFS，AFS的区别
  - （2）BigTable
  - （3）Chubby
  - （4）特点1
- 2.HDFS
- - （1）HDFS与Ceph对比
  - （2）特点1
  - （3）特点2
- 3. Ceph
- - （1）Ceph特点1
  - （2）Ceph特点2
  - （3）特点3
- 4. Lustre
- - （1）特点1
  - （2）特点2
- 5.MogileFS
- - （1）特点1
  - （2）特点2
  - （3）特点3
- 6.mooseFS
- - （1）mooseFS简介
- 7.FastDFS
- - （1）特点1
  - （2）特点2
  - （3）特点3
- 8.TFS
- - （1）特点1
  - （2）特点2
- 9.GridFS文件系统
- 10.NFS
- - （1）多服务器存储
  - （2）pNFS
  - （3）AFS
- 11.PFS(parallel file system)
- 12.OpenStack Swift
- - （1）OpenStack Swift 和Ceph对比
- 13.GlusterFS
- - （1）特点简介1
  - （1）特点简介2
三、参考：

一、分布式文件系统简介

1.特点

数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。
是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。
通透性。 让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。
容错。 即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。
GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。
可以组建包含大量廉价服务器的海量存储系统。
通过内部的冗余复制，保证文件的可以用性，在海量存储系统中，容错能力非常重要
可扩展性强，增加存储节点和追踪器都比较容易
在对个文件副本之间就进行负载均衡，可以通过横向扩展来确保性能的提升
进行特定的索引文件计算

普通存储方案：Rsync、DAS(IDE/SATA/SAS/SCSI等块)、NAS(NFS、CIFS、SAMBA等文件系统)、SAN(FibreChannel, iSCSI, FoE存储网络块)，Openfiler、FreeNas(ZFS快照复制)由于生产环境中往往由于对存储数据量很大，而SAN存储价格又比较昂贵，因此大多会选择分布式
存储来解决以下问题

海量数据存储问题
数据高可用问题(冗余备份)问题
较高的读写性能和负载均衡问题
支持多平台多语言问题
高并发问题

数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。
是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。
通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。
容错。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。
分布式文件管理系统很多，hdfs只是其中一种。适用于一次写入多次查询的情况，不支持并发写情况，小文件不合适。

为什么小文件不适合呢？瓶颈在于存储元数据信息。元数据信息存放在namenode上，为保证数据安全和快速读写，namenode把信息放到磁盘一份和内存一份。

业界对于分布式文件系统应用，大致有以下场景

大文件冷数据，比如片库
并行读写，高though put，比如HPC 和视频在线编辑
海量write once read many 的小文件
mapreduce 或者ml /dl 任务的输入和输出

对于开源的分布式文件系统，多说几句

1.GlusterFS 文件系统标准的posix接口支持，可以做分布式的软件NAS，效果莫的HPC共享存储，k8s/openstack共享存储；主要特点如下

实现了一个stack式可插拔的plugin模式，将文件系统的各种feature做成了不同的插件，比如stripe，replicate，hashErasureCode，consistent-hash等。胖客户端的设计导致了client的cpu利用率会比较高，虽然用c语言实现了协程做以应对网络io的高并发。
成熟的3.x版本，服务器端没有强一致性的元数据设计，最新的4.x版本变化很大，主要是解决强者一性、集群扩展性瓶颈等问题
扩容麻烦，副本rebalance效果不好，坑比较大
国内有中科院高能所的刘爱贵博士出来做这方面的创业，提供商业化支持

2.cephfs，其底层是一个对象存储系统，即ceph的rados对象存储，主要特点如下

rados的crush算法比较有特点，是一种伪随机算法，既考虑了硬件的物理拓扑，也考虑了单点失败后，数据修复或者复制过程中，最小化data migrate。相对于一致性hash等副本allocation算法，在大规模的场景下，效果比较要好；
rados的基础上，ceph支持块存储ceph RBD，对象ceph RGW，文件系统cephfs；ceph RBD和ceph RGW比较成熟，ceph最初是跟着openstack一起火起来。ceph也可以作为openstack/k8s社区有用来共享存储，不过RBD只支持ReadWrite once，不支持多个共享写；
回到cephfs上。cephfs设计的比较理想化，对目录树做了动态分区，每个分区是主备高可用，metadata server只是内存cache，持久化在rados中。cephfs的特性过于复杂，bug比较多。后期社区修改了bug，但是稳定性方面有待加强。目前只有单目录树的主备方式是可用的，三节点多活问题很多。社区方面，国内也一些创业公司和传统厂家在做ceph相关的产品，比如北京的xsky吧。
目前ceph社区的关注点主要是本地存储引擎bluestore，以及用户态的block io stack（intel的spdk）。据说国内主流云数据库解决方案也是在ceph rbd基础上做的分布式存储引擎。

3.Lustre，比较老牌的分布式文件系统，部署在多个san阵列上，不支持副本，支持分布式锁，主要做HPC高性能计算；luster对posix的语义应该支持的比较好。之前intel在维护社区，主要目的是为了卖自己的cpu给一些HPC用户，后来intel是退出了。

4.HDFS只支持追加写，设计中没有考虑修改写、截断写、稀疏写等复杂的posix语义，目的并不是通用的文件系统，一般作为hadoop ecosystem的存储引擎；HDFS在bigdata领域使用很广泛，但其实big data用s3也是可以的。

5.moosefs 比较接近GoogleFS的c++实现，通过fuse支持了标准的posix，算是通用的文件系统，社区不是太活跃；

7.还有一些专有的文件系统，比如早年的fastDFS，tfs，BeeFS。大致思想跟facebook Haystack比较像，一个专有的图片存储系统的原型，适合小文件和worm场景（write once read many）。一般大型网站，搞视频流媒体之类，都会有一套类似的解决方案。
8. 京东开源了一个ContainerFS，主要是给k8s用。

2.主要指标及分类对比

3.AFS与NFS

网络文件系统

早期的unix和nethud也是一种网络操作系统，网络操作系统和网络文件系统是一种包含关系。

(NFS) 最早由Sun微系统公司作为TCP/IP网上的文件共享系统开发。Sun公司估计现在大约有超过310万个系统在运行NFS，大到大型计算机、小至PC机，其中至少有80%的系统是非Sun平台。

Andrew文件系统

(AFS) 结构与NFS相似，由卡内基·梅隆大学信息技术中心(ITC)开发、现由前ITC职员组成的Transarc公司负责开发和销售。AFS较NFS有所增强。

分布式文件系统

(DFS) 是AFS的一个版本，作为开放软件基金会(OSF)的分布式计算环境(DCE)中的文件系统部分。

如果文件的访问仅限于一个用户，那么分布式文件系统就很容易实现。可惜的是，在许多网络环境中这种限制是不现实的，必须采取并发控制来实现文件的多用户访问，表现为如下几个形式：

只读共享任何客户机只能访问文件，而不能修改它，这实现起来很简单。

受控写操作采用这种方法，可有多个用户打开一个文件，但只有一个用户进行写修改。而该用户所作的修改并不一定出现在其它已打开此文件的用户的屏幕上。

并发写操作这种方法允许多个用户同时读写一个文件。但这需要操作系统作大量的监控工作以防止文件重写，并保证用户能够看到最新信息。这种方法即使实现得很好，许多环境中的处理要求和网络通信量也可能使它变得不可接受。

NFS和AFS的区别在于对并发写操作的处理方法上。当一个客户机向服务器请求一个文件(或数据库记录)，文件被放在客户工作站的高速缓存中，若另一个用户也请求同一文件，则它也会被放入那个客户工作站的高速缓存中。当两个客户都对文件进行修改时，从技术上而言就存在着该文件的三个版本(每个客户机一个，再加上服务器上的一个)。有两种方法可以在这些版本之间保持同步：

无状态系统在这个系统中，服务器并不保存其客户机正在缓存的文件的信息。因此，客户机必须协同服务器定期检查是否有其他客户改变了自己正在缓存的文件。这种方法在大的环境中会产生额外的LAN通信开销，但对小型LAN来说，这是一种令人满意的方法。NFS就是个无状态系统。

回呼(Callback)系统在这种方法中，服务器记录它的那些客户机的所作所为，并保留它们正在缓存的文件信息。服务器在一个客户机改变了一个文件时使用一种叫回叫应答(callbackpromise)的技术通知其它客户机。这种方法减少了大量网络通信。AFS(及OSFDCE的DFS)就是回叫系统。客户机改变文件时，持有这些文件拷贝的其它客户机就被回叫并通知这些改变。

无状态操作在运行性能上有其长处，但AFS通过保证不会被回叫应答充斥也达到了这一点。方法是在一定时间后取消回叫。客户机检查回叫应答中的时间期限以保证回叫应答是当前有效的。回叫应答的另一个有趣的特征是向用户保证了文件的当前有效性。换句话说，若一个被缓存的文件有一个回叫应答，则客户机就认为文件是当前有效的，除非服务器呼叫指出服务器上的该文件已改变了

二、开源分布式文件系统

1.GFS

（1）GFS与NFS，AFS的区别

首先来说一下GFS和NFS、AFS的区别：NFS、GFS都是Remote Access Model，需要用RPC进行，每次对文件的修改立马会反馈给服务器。AFS使用的是Upload/ Download Model，拷贝文件到本地，只有关闭本地文件的时候才会把所有的更新返回，同时使用了callback函数，只有callback说本地缓存有效才能使用。

GFS用单一主控机+多台工作机的模式，由一台主控机(Master)存储系统全部元数据，并实现数据的分布、复制、备份决策，主控机还实现了元数据的checkpoint和操作日志记录及回放功能。工作机存储数据，并根据主控机的指令进行数据存储、数据迁移和数据计算等。其次，GFS通过数据分块和复制（多副本，一般是3）来提供更高的可靠性和更高的性能。当其中一个副本不可用时，系统都提供副本自动复制功能。同时，针对数据读多于写的特点，读服务被分配到多个副本所在机器，提供了系统的整体性能。最后，GFS提供了一个树结构的文件系统，实现了类似与Linux下的文件复制、改名、移动、创建、删除操作以及简单的权限管理等

（2）BigTable

Bigtable是一个为管理大规模结构化数据而设计的分布式存储系统，可以扩展到PB级数据和上千台服务器。本质上说，Bigtable是一个键值（key-value）映射。按作者的说法，Bigtable是一个稀疏的，分布式的，持久化的，多维的排序映射。稀疏的意思是行列时间戳的维度可以不一样，分布式是以为BigTable本身就是建立在GFS上，持久化就是它在GFS上建立可以保持数据的稳定性。用GFS来存储日志和数据文件；按SSTable文件格式存储数据；用Chubby管理元数据。主服务器负责将片分配给片服务器，监控片服务器的添加和删除，平衡片服务器的负载，处理表和列族的创建等。注意，主服务器不存储任何片，不提供任何数据服务，也不提供片的定位信息。

客户端需要读写数据时，直接与片服务器联系。因为客户端并不需要从主服务器获取片的位置信息，所以大多数客户端从来不需要访问主服务器，主服务器的负载一般很轻。

（3）Chubby

Consensus：在一个分布式系统中，有一组的Process，它们需要确定一个Value。于是每个Process都提出了一个Value，consensus就是指只有其中的一个Value能够被选中作为最后确定的值，并且当这个值被选出来以后，所有的Process都需要被通知到。

在GFS中，进行数据传递的时候，Master需要选择一个chunkserver作为临时的Master响应客户端的请求，这个就是一个consensus的问题。

Chubby是一个 lock service，一个针对松耦合的分布式系统的lock service。所谓lock service，就是这个service能够提供开发人员经常用的“锁”，“解锁”功能。通过Chubby，一个分布式系统中的上千个client都能够对于某项资源进行“加锁”，“解锁”。
那么，Chubby是怎样实现这样的“锁”功能的？就是通过文件。

Chubby中的“锁”就是文件，在上例中，创建文件其实就是进行“加锁”操作，创建文件成功的那个server其实就是抢占到了“锁”。用户通过打开、关闭和读取文件，获取共享锁或者独占锁；并且通过通信机制，向用户发送更新信息。

（4）特点1

Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节，但Google并没有将该系统的软件部分作为开源软件发布。
下面分布式文件系统都是类 GFS的产品。
Goolge的法宝：GFS、BigTable、Chubby、MapReduce。
chunkserver提供存储。GFS会将文件划分为定长数据块，每个数据块都有一个全局唯一不可变的id（chunk_handle），数据块以普通Linux文件的形式存储在chunkserver上，出于可靠性考虑，每个数据块会存储多个副本，分布在不同chunkserver。
GFS master就是GFS的元数据服务器，负责维护文件系统的元数据，包括命名空间、访问控制、文件-块映射、块地址等，以及控制系统级活动，如垃圾回收、负载均衡等。

2.HDFS

（1）HDFS与Ceph对比

Ceph对比HDFS优势在于易扩展，无单点。HDFS是专门为Hadoop这样的云计算而生，在离线批量处理大数据上有先天的优势，而Ceph是一个通用的实时存储系统。虽然Hadoop可以利用Ceph作为存储后端（根据Ceph官方的教程死活整合不了，自己写了个简洁的步骤: http://www.kai-zhang.com/cloud-computing/Running-Hadoop-on-CEPH/），但执行计算任务上性能还是略逊于HDFS（时间上慢30%左右 Haceph: Scalable Meta- data Management for Hadoop using Ceph）。

（2）特点1

适用于一次写入多次查询的情况，不支持并发写情况，小文件不合适。
Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch，后者是一个开源的网络搜索引擎，本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用， 是Google开创其帝国的重要基石。

（3）特点2

HDFS是GoogleFS的开源实现。HDFS1.0版本架构是一种经典的分布式文件系统架构，包括个部分：独立的元数据服务器（name node），客户端（client），数据节点（data node）。文件被切分为大小相同的chunk分布在不同的data node上。Name node维护file与chunk的映射关系以及chunk的位置信息。Client跟data node交互进行数据读写。

这里主要看下HDFS2.0版本的架构改进，主要是亮点：

```
 NameNode HA
```
- 1

HDFS1.0中mds是一个单点故障，虽然很多厂家有自己的HA方案，但是并不同意。HDFS2.0版本推出了官方的HA方案，主要思路是主备两个MDS，两个MDS共享一个san，用这个san来存储mds的日志文件。这种HA方案依赖于第三方san的可靠性。

2. MDS federation

相当于MDS cluster。每个namenode都可以单独向外提供服务。每个namenode都管理所有的datanode。缺点是根目录下的某个子目录的所有文件只能位于一个namenode上。跟ZXDFS目前分域的方案实现比较像，只是没主域的概念。Client启动时要扫描所有的MDS以获取根目录下子目录跟namenode的对应关系。

3. Ceph

（1）Ceph特点1

是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。并使用Ceph完成了他的论文。说 ceph 性能最高，C++编写的代码，支持Fuse，并且没有单点故障依赖，于是下载安装，由于 ceph 使用 btrfs 文件系统，而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持。
可是ceph太不成熟了，它基于的btrfs本身就不成熟，它的官方网站上也明确指出不要把ceph用在生产环境中。

（2）Ceph特点2

Ceph是一个可以按对象/块/文件方式存储的开源分布式文件系统，其设计之初，就将单点故障作为首先要解决的问题，因此该系统具备高可用性、高性能及可扩展等特点。该文件系统支持目前还处于试验阶段的高性能文件系统BTRFS(B-Tree文件系统)，同时支持按OSD方式存储，因此其性能是很卓越的，因为该系统处于试商用阶段，需谨慎引入到生产环境

特性

1）Ceph底层存储是基于RADOS（可靠的、自动的分布式对象存储），它提供了LIBRADOS/RADOSGW/RBD/CEPH FS方式访问底层的存储系统，如下图所示
2）通过FUSE，Ceph支持类似的POSIX访问方式；Ceph分布式系统中最关键的MDS节点是可以部署多台，无单点故障的问题，且处理性能大大提升
3）Ceph通过使用CRUSH算法动态完成文件inode number到object number的转换，从而避免再存储文件metadata信息，增强系统的灵活性

优点

1）支持对象存储（OSD）集群，通过CRUSH算法，完成文件动态定位，处理效率更高
2）支持通过FUSE方式挂载，降低客户端的开发成本，通用性高
3）支持分布式的MDS/MON，无单点故障
4）强大的容错处理和自愈能力5）支持在线扩容和冗余备份，增强系统的可靠性

缺点

1）目前处于试验阶段，系统稳定性有待考究

应用场景

1）全网分布式部署的应用
2）对实时性、可靠性要求比较高官方宣传，存储容量可轻松达到PB级别

源码路径：https://github.com/ceph/ceph

参考
http://ceph.com/

（3）特点3

Ceph主要架构来自于加州大学SantaCruz. 分校Sage Weil的博士论文。07年毕业后全职投入ceph的开发。12年才有stable版本发布。目前开发者社区是由Inktank公司主导并提供商业支持。

特点1.

采用集中式元数据管理，整体架构包括client（在kernel实现），MDS和OSD。文件目录树由MDS维护。文件被切分为大小相同的object，每个object被hash到不同的OSD（数据节点）上，OSD负责维护具体的文件数据。

特点2.

支持元数据服务器集群，将目录树动态划分为若干子树，每个子树都有两个副本在两个MDS上提供服务，一个MDS同时支持多个不同的子树：

特点3

统一存储架构，支持多种接口。去掉MDS并增加若干Http proxy server后，就是P2P的对象存储，支持S3接口。去掉MDS并增加iSICSI Target Server还可以对外提供block接口。

特点4
Ceph中的一致性通过primary副本来保护。每个对象有一个主副本，客户端只跟主副本打交道，主副本所在的OSD负责把数据写到其他副本。

特点5

虚拟化环境的集成，支持多种元计算框架例如OpenStack、CloudStack、OpenNebula，Ceph已经可以集成到openstack作为cinder（弹性块存储，类似amazon的EBS）的一种实现。

商业应用：
目前ceph被视为一种实验性的文件系统，目前并无大型商业应用。根据Inktank公司公布的调查结果，目前在一些中小型的企业和组织中有商业应用，生产环境尚未有超过1P的案例。目前有些openstack厂家也在验证使用ceph为云计算环境提供虚拟化存储的可行性。

4. Lustre

（1）特点1

Lustre是一个大规模的、安全可靠的，具备高可用性的集群文件系统，它是由SUN公司开发和维护的。
该项目主要的目的就是开发下一代的集群文件系统，可以支持超过10000个节点，数以PB的数据量存储系统。
目前Lustre已经运用在一些领域，例如HP SFS产品等。
适合存储小文件、图片的分布文件系统研究

（2）特点2

Lustre是linux+cluster的缩写。Lustre是一个并行的分布式文件系统，主要应用领域是HPC（high performance compute）。目前Top100的超级计算机中，超过60的都是在使用lustre。

特点1：

传统的体系结构：MDS（元数据服务器） OSS（数据服务器）Client。MDS、OSS分别将元数据信息、数据信息持久化存储到本地文件系统中，本地文件系统采用的是ext4。每个文件会被切分成多个大小相等的object，多个object条带化到多个OSS上。MDS负责存储和管理file跟object映射关系。

特点2：

支持上万个客户端的并发读写。HPC领域的重要应用场景是多个客户端并发读写同一个文件。Lustre通过Distributed Lock Manager解决多客户端并发读写的问题。Lock包括两种，一个种是fileinode的锁，一种是file data的锁。Inode锁由mds统一管理，file data锁则由OSS管理，file data锁支持字节范围的锁。

商业支持发展：
最初组织Lustre开发的公司先被sun收购。Sun被oracle收购后大部分开发人员离开并组织了新公司，目前新公司已经被intel收购。由于lustre本身开源，传统SAN硬件厂家例如HDS、Dell、netapp也将lustre捆绑自己的硬件提供解决方案，并提供lustre技术支持。每年都会召一次全球Lustre用户大会LUG（lustre user group）。

5.MogileFS

（1）特点1

由memcahed的开发公司danga一款perl开发的产品，目前国内使用mogielFS的有图片托管网站yupoo等。
MogileFS是一套高效的文件自动备份组件，由Six Apart开发，广泛应用在包括LiveJournal等web2.0站点上。
MogileFS由3个部分组成：
　　第1个部分是server端，包括mogilefsd和mogstored两个程序。前者即是 mogilefsd的tracker，它将一些全局信息保存在数据库里，例如站点domain,class,host等。后者即是存储节点(store node)，它其实是个HTTP Daemon，默认侦听在7500端口，接受客户端的文件备份请求。在安装完后，要运行mogadm工具将所有的store node注册到mogilefsd的数据库里，mogilefsd会对这些节点进行管理和监控。
　　第2个部分是utils（工具集），主要是MogileFS的一些管理工具，例如mogadm等。
　　第3个部分是客户端API，目前只有Perl API(MogileFS.pm)、PHP，用这个模块可以编写客户端程序，实现文件的备份管理功能。

（2）特点2

开发语言：perl

开源协议：GPL

依赖数据库

Trackers(控制中心):负责读写数据库，作为代理复制storage间同步的数据

Database:存储源数据（默认mysql）

Storage:文件存储

除了API，可以通过与nginx集成，对外提供下载服务

源码路径：https://github.com/mogilefs

参考

https://code.google.com/p/mogilefs/wiki/Start?tm=6

其它参考
http://blog.csdn.net/qiangweiloveforever/ariticle/details/7566779

http://weiruoyu.blog.51cto.com/951650/786607

http://m.blog.csdn.net/blog/junefsh/18079733

（3）特点3

MooseFS本质上是GoogleFS或HDFS的c实现。
集中式元数据管理，元数据服务器主备。

oosefs的功能特点：

     支持snapshot

     实现了文件回收站

     支持动态扩容

     小文件读写优化

     Client支持多种操作系统包括：LinuxFreeBSD OpenSolaris和MacOS

商业应用：

     中小型企业，学校、web网站。

存放普通文件、img、weblog等分结构化数据。

Web server备份。

Kvm xen虚拟机镜像文件。

6.mooseFS

持FUSE，相对比较轻量级，对master服务器有单点依赖，用perl编写，性能相对较差，国内用的人比较多

（1）mooseFS简介

MooseFS是一个高可用的故障容错分布式文件系统，它支持通过FUSE方式将文件挂载操作，同时其提供的web管理界面非常方便查看当前的文件存储状态。

特性

1）从下图中我们可以看到MooseFS文件系统由四部分组成：Managing Server 、Data Server 、Metadata Backup Server 及Client
2）其中所有的元数据都是由Managing Server管理，为了提高整个系统的可用性，Metadata Backup Server记录文件元数据操作日志，用于数据的及时恢复
3）Data Server可以分布式部署，存储的数据是以块的方式分布至各存储节点的，因此提升了系统的整体性能，同时Data Server提供了冗余备份的能力，提升系统的可靠性
4）Client通过FUSE方式挂载，提供了类似POSIX的访问方式，从而降低了Client端的开发难度，增强系统的通用性

元数据服务器（master）:负责各个数据存储服务器的管理，文件读写调度，文件空间回收以及恢复

元数据日志服务器（metalogger）:负责备份master服务器的变化日志文件，以便于在master server出问题的时候接替其进行工作

数据存储服务器（chunkserver）:数据实际存储的地方，由多个物理服务器组成，负责连接管理服务器，听从管理服务器调度，提供存储空间，并为客户提供数据传输；多节点拷贝;在数据存储目录，看不见实际的数据

优点

1）部署安装非常简单，管理方便
2）支持在线扩容机制，增强系统的可扩展性
3）实现了软RAID，增强系统的并发处理能力及数据容错恢复能力
4）数据恢复比较容易，增强系统的可用性5）有回收站功能，方便业务定制
缺点

1）存在单点性能瓶颈及单点故障
2）MFS Master节点很消耗内存
3）对于小于64KB的文件，存储利用率较低
应用场景

1）单集群部署的应用
2）中、大型文件
参考

http://portal.ucweb.local/docz/spec/platform/datastore/moosefsh

http://www.moosefs.org/

http://sourceforge.net/projects/moosefs/?source=directory

7.FastDFS

（1）特点1

是一款类似Google FS的开源分布式文件系统，是纯C语言开发的。
FastDFS是一个开源的轻量级分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。
官方论坛 http://bbs.chinaunix.net/forum-240-1.html
FastDfs google Code http://code.google.com/p/fastdfs/
分布式文件系统FastDFS架构剖析 http://www.programmer.com.cn/4380/

（2）特点2

FastDFS是国人开发的一款分布式文件系统，目前社区比较活跃。如上图所示系统中存在三种节点：Client、Tracker、Storage，在底层存储上通过逻辑的分组概念，使得通过在同组内配置多个Storage，从而实现软RAID10,提升并发IO的性能、简单负载均衡及数据的冗余备份；同时通过线性的添加新的逻辑存储组，从容实现存储容量的线性扩容。

文件下载上，除了支持通过API方式，目前还提供了apache和nginx的插件支持，同时也可以不使用对应的插件，直接以Web静态资源方式对外提供下载。

目前FastDFS(V4.x)代码量大概6w多行，内部的网络模型使用比较成熟的libevent三方库，具备高并发的处理能力。

特性

1）在上述介绍中Tracker服务器是整个系统的核心枢纽，其完成了访问调度（负载均衡），监控管理Storage服务器，由此可见Tracker的作用至关重要，也就增加了系统的单点故障，为此FastDFS支持多个备用的Tracker，虽然实际测试发现备用Tracker运行不是非常完美，但还是能保证系统可用。
2）在文件同步上，只有同组的Storage才做同步，由文件所在的源Storage服务器push至其它Storage服务器，目前同步是采用Binlog方式实现，由于目前底层对同步后的文件不做正确性校验，因此这种同步方式仅适用单个集群点的局部内部网络，如果在公网上使用，肯定会出现损坏文件的情况，需要自行添加文件校验机制。
3）支持主从文件，非常适合存在关联关系的图片，在存储方式上，FastDFS在主从文件ID上做取巧，完成了关联关系的存储。
优点

1）系统无需支持POSIX(可移植操作系统)，降低了系统的复杂度，处理效率更高
2）支持在线扩容机制，增强系统的可扩展性
3）实现了软RAID，增强系统的并发处理能力及数据容错恢复能力
4）支持主从文件，支持自定义扩展名
5）主备Tracker服务，增强系统的可用性
缺点

1）不支持断点续传，对大文件将是噩梦（FastDFS不适合大文件存储）
2）不支持POSIX通用接口访问，通用性较低
3）对跨公网的文件同步，存在较大延迟，需要应用做相应的容错策略
4）同步机制不支持文件正确性校验，降低了系统的可用性
5）通过API下载，存在单点的性能瓶颈
应用场景

1）单集群部署的应用
2）存储后基本不做改动
3）小中型文件根据
目前官方提供的材料，现有的使用FastDFS系统存储容量已经达到900T，物理机器已经达到100台（50个组）

安装指导_FastDFS

源码路径：https://github.com/happyfish100/fastdfs
参考

https://code.google.com/p/fastdfs/

http://bbs.chinaunix.net/forum-240-1.html

http://portal.ucweb.local/docz/spec/platform/datastore/fastdfs

（3）特点3

Fast DFS是一种纯轻量级的分布式文件系统，主要有国内开发者贡献。主要特点是结构简单，维护成本低，一般用于小型网站。架构特点：

 不维护目录树，client每次新建文件的时候由负载均衡器Tracker Server生成一个file id和path给client

 没有file和chunk概念，Tracker server只是负责轮选storage server给client使用。

 Storage server分成不同的group，每个group之间是简单的镜像关系。

 读写文件时tracker负责不同组以及组内的负载均衡。

 Strage server就是把文件写入到本地的文件系统中。

8.TFS

TFS（Taobao !FileSystem）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构，可将文件名映射到文件的物理地址，简化了文件的访问流程，一定程度上为TFS提供了良好的读写性能。
官网： http://code.taobao.org/p/tfs/wiki/index/

（1）特点1

TFS（Taobao File System）是由淘宝开发的一个分布式文件系统，其内部经过特殊的优化处理，适用于海量的小文件存储，目前已经对外开源；

TFS采用自有的文件系统格式存储，因此需要专用的API接口去访问，目前官方提供的客户端版本有：C++/JAVA/PHP。

特性

1）在TFS文件系统中，NameServer负责管理文件元数据，通过HA机制实现主备热切换，由于所有元数据都是在内存中，其处理效率非常高效，系统架构也非常简单，管理也很方便；
2）TFS的DataServer作为分部署数据存储节点，同时也具备负载均衡和冗余备份的功能，由于采用自有的文件系统，对小文件会采取合并策略，减少数据碎片，从而提升IO性能；
3）TFS将元数据信息（BlockID、FileID）直接映射至文件名中，这一设计大大降低了存储元数据的内存空间；
优点

1）针对小文件量身定做，随机IO性能比较高；
2）支持在线扩容机制，增强系统的可扩展性；
3）实现了软RAID，增强系统的并发处理能力及数据容错恢复能力；
4）支持主备热倒换，提升系统的可用性；
5）支持主从集群部署，其中从集群主要提供读/备功能；
缺点

1）TFS只对小文件做优化，不适合大文件的存储；
2）不支持POSIX通用接口访问，通用性较低；
3）不支持自定义目录结构，及文件权限控制；
4）通过API下载，存在单点的性能瓶颈；
5）官方文档非常少，学习成本高；
应用场景

1）多集群部署的应用
2）存储后基本不做改动
3）海量小型文件
根据目前官方提供的材料，对单个集群节点，存储节点在1000台以内可以良好工作，如存储节点扩大可能会出现NameServer的性能瓶颈，目前淘宝线上部署容量已达到1800TB规模（2009年数据）
安装及使用

安装指导

TFS_配置使用

源代码路径：http://code.taobao.org/p/tfs/src/

参考
别人总结的：https://www.bbsmax.com/A/o75NxYxzW3/
https://www.bbsmax.com/A/GBJr77kZ50/
https://blog.csdn.net/wangxingqian/article/details/8932378
很好

http://rdc.taobao.com/blog/cs/?p=128

http://elf8848.iteye.com/blog/1724423

http://baike.baidu.com/view/1030880.htm

http://blog.yunnotes.net/index.php/install_document_for_tfs/

（2）特点2

TFS的总体架构也是仿照HDFS，这里看下区别：

 HDFS中一个file由多个chunk组成。TFS反过来，一个64Mchunk会存放多个file。相当于小文件聚合。

 TFS的filename包含了很多元数据信息力例如文件的chunkid和fileid，这样显著减轻了MDS的压力。

 文件在chunk中的偏移量mds不需要关心，具体维护是datanode来做的，减少了mds维护的元数据信息。

 为了防止磁盘碎片，datanode利用ext4的一些特性，例如fallocate，首先利用fallocate为每个chunk文件分配好空间。

 Mds在为每个新文件分配chunk时，采用的是一致性hash的方法定位新chunk的位置。这样有利于集群的线性扩容。

9.GridFS文件系统

MongoDB是一种知名的NoSql数据库，GridFS是MongoDB的一个内置功能，它提供一组文件操作的API以利用MongoDB存储文件，GridFS的基本原理是将文件保存在两个Collection中，一个保存文件索引，一个保存文件内容，文件内容按一定大小分成若干块，每一块存在一个Document中，这种方法不仅提供了文件存储，还提供了对文件相关的一些附加属性（比如MD5值，文件名等等）的存储。文件在GridFS中会按4MB为单位进行分块存储。
MongoDB GridFS 数据读取效率 benchmark
http://blog.nosqlfan.com/html/730.html
nginx + gridfs 实现图片的分布式存储安装（一年后出问题了）
http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/05/2038285.html
基于MongoDB GridFS的图片存储
http://liut.cc/blog/2010/12/about-imsto_my-first-open-source-project.html
nginx+mongodb-gridfs+squid
http://1008305.blog.51cto.com/998305/885340

10.NFS

NFS 是Network File System的缩写，即网络文件系统。一种使用于分散式文件系统的协定，由Sun公司开发，于1984年向外公布。功能是通过网络让不同的机器、不同的操作系统能够彼此分享个别的数据，让应用程序在客户端通过网络访问位于服务器磁盘中的数据，是在类Unix系统间实现磁盘文件共享的一种方法。

NFS 的基本原则是“容许不同的客户端及服务端通过一组RPC分享相同的文件系统”，它是独立于操作系统，容许不同硬件及操作系统的系统共同进行文件的分享。

nfsd：它是基本的NFS守护进程，主要功能是管理客户端是否能够登录服务器；mountd：它是RPC安装守护进程，主要功能是管理NFS的文件系统。当客户端顺利通过nfsd登录NFS服务器后，在使用NFS服务所提供的文件前，还必须通过文件使用权限的验证。它会读取NFS的配置文件/etc/exports来对比客户端权限;idmapd：主要功能是进行端口映射工作。当客户端尝试连接并使用RPC服务器提供的服务（如NFS服务）时，rpcbind会将所管理的与服务对应的端口提供给客户端，从而使客户可以通过该端口向服务器请求服务。

使用NFS mount到了客户端之后，客户端访问远程文件就像访问本地文件一样。mount之后，路径访问每次只能访问当前目录，需要一次RPC，所以用户端最好进行缓存。为什么不能直接把整个目录全部返回，因为服务器不知道用户端在该目录下的文件有没有mount别的文件系统，这样贸然返回全部，很浪费资源，而且客户端不一定用得到。当然也存在有时候需要返回全部的情况，但是NFS v4.2才有，目前该版本还在开发中。

在NFSv3维护缓存一致性的时候，采用的是30s原则。使用了一个叫做租约的东西。AFS是读取最近关闭的版本的数据。Unix是能够获得最近多有的写操作；HTTP：没有进行一致性操作，每次读取数据，都要判断是否是最新的数据。在30s内服务器不会做出改变，客户端使用write-through 缓存，并且再超过30s以后检查缓存。客户端提供会话和缓存，服务器做了一个本地服务器能够做的一切。（属于无状态缓存，stateless）

有无状态的保存（服务器需要保存客户端状态么？）

无状态：简单，更快速，容易从崩溃之后恢复；不会有因为追踪状态而消耗资源的问题；
有状态：更快，可能。能够提供更好的语义操作。
客户端访问分布式文件时需要handle，这个handle来自于服务器，有inode number，还有根据当前inode随机生成的数字。

（1）多服务器存储

如果只有一个服务器来响应请求的话，那么负载过大，这个服务器会变成瓶颈。考虑到负载均衡和调度更新，可以使用多服务器。

NFSv3中，每个服务器都存了不同的文件，并且都有自己的NFS命名空间。具体怎么挂载就是客户端的事情。每次用户端访问一个文件，需要遍历命名空间来找到mount的节点。负载均衡方面系统管理员手动地将文件子树赋给另外一个。

（2）pNFS

直接送到存储媒介而不需要通过文件系统。

Storage Devices是保存文件实际数据的设备，由一台或者多台数据服务器构成。当Clients获得了文件的layout后，就可以直接向Storage Devices发送数据了。由于Storage Devices包含多台数据服务器 Clients可以同时执行多个I/O请求，从而提升了系统吞吐量。pNFS只是Clients和Server之间的通信协议，Clients和Storage Devices传输数据时需要使用专门的存储协议。目前RFC定义了三种存储协议：file layout(RFC5661)、block layout(RFC5663)、object layout(RFC5664)

Server是支持pNFS特性的一台NFS服务器，Server中保存了文件的布局结构（layout）。文件布局是对文件在Storage Devices中存储方式的一种说明，Clients在读写数据前需要先向Server请求文件的layout，通过layout，Clients就可以知道文件存储在哪个Storage Device中了，以及是如何存储的。读写操作完成后，Clients需要将layout返还给Server。如果是写操作，Clients可能会修改layout，写操作完成后需要更新Server中的layout。

（3）AFS

客户端获取整个文件并从服务器获得回调函数，在v3版本的时候是使用64KB的chunk，当然也支持整个文件。服务器使用回调当数据发生了变化。客户端使用write-back整个文件关闭的时候。（cache+callback）

AFS中，服务器也是服务独立的文件集合，但是在命名空间上只有一个。AFS内部会进行连接，帮客户找到文件在的服务器volumn，而不需要用户进行。遍历命名空间，就可以找到对应的volumn进行管理。在负载均衡上面，使用轮流改变volumn来获得。

11.PFS(parallel file system)

IBM GPFS文件系统是一种专门为群集环境设计的高性能、可扩展的并行文件系统。GPFS可以在群集中的多个节点间实现对共享文件系统中文件的快速存取操作，并提供稳定的故障恢复和容错机制。主要就是HPC，超算进行。

解决metadata服务器瓶颈的方法：IBM GPFS并行文件系统与其它并行文件系统之间最大的区别在于GPFS不需要专用的元数据（Meta Data）管理服务器，所有元数据分散在磁盘阵列中，并可以由任何I/O节点管理。这样的设计避免了并行文件系统中最可能产生性能瓶颈的因素——Meta Data Server。

在文件系统层面，每个GPFS集群中可以创建最多256个文件系统，每个文件系统都对应多个管理服务器（可以由任何I/O节点承担）。当任何一个文件系统管理服务器宕机时，都会有另外一个服务器自动接替其工作，保证并行文件系统的高可用性。

12.OpenStack Swift

（1）OpenStack Swift 和Ceph对比

网友qfxhz：” Ceph虽然也有一些缺点问题，但是瑕不掩瑜，还是感觉Ceph更好一点， Ceph存储集成了对象存储和块存储，而Swift系统只能处理对象存储，不支持块存储和文件存储。“
　　网友momo： “还是选择Swift吧。Ceph很重要的一个短板就是安全性。云计算节点上的RADOS客户端直接与RADOS服务器交互所使用的网络与Ceph用于未加密复制流量的网络相同。如果某个Ceph客户端节点被入侵，攻击者便能得到存储网络的所有流量。“
　　网友yehuafeilang：“ceph毕竟不是一个专门的对象存储系统，其对象存储服务其实是在block服务上模拟出来的，所以和专门的对象存储swift比起来，在部署规模，使用成本上会有比较大的差距;但是，因为不是所有的云都需要大规模的对象存储，考虑到跨地域场景时，swift的部署也很复杂，所以在刚开始搭建openstack云服务时，或者是对象存储业务量不是很大时，为了节省系统搭建时间，使用ceph提供S3服务也是个不错的选择。“
　　网友fatelyliang：存储不像服务器，它承载的内容是企业最重要的数据和信息，对他的可靠性、完整性、可用性、安全性、运行性能、与企业中的云计算平台关系、存储特征的可定义性等各部分的要求都应该是企业信息化基础架构中最重要的一个判断。存储设备的损坏、更换等都是对企业影响非常大的一个事情!除非系统可以轻易停机!因此，在目前的状态下，开源的存储我会更建议应用在开发测试环境、容灾环境等重要性级别相对稍低的地方，充分验证在以上几个判断依据的结论之后，结合企业的实际指标判断应该选取那一个!
　　Ceph这样的系统一般不支持跨机房，跨地域的大规模部署。如果部署只在单一地域，没有计划扩展到多个地域时，Ceph会是很好的选择。但是，如果要考虑大规模部署的话，Swift可能更为适合。因为它的多地域能力会胜过 Ceph。从安全角度来看，Swift封闭的复制网络更为安全，但是，如果云基础架构本身已经很安全，存储安全性优先级便会降低，这时可能Ceph更适合。其实，在同一个云基础架构里同时拥有这两种选择也是可行的。比如说，可以使用Ceph作为本地高性能存储，而Swift则作为多地域Glance后台，但是，拥有这两种选择的解决方案花费必然更多，对于资金雄厚的企业来说为了避免长时间纠结，可以一试。对于中小企业来讲还是得悉心衡量利弊以及自身的需求，做好整体把控为妙。关于Swift和Ceph二者的选择，更重要的是要从两者的架构角度分析各自的优缺点，并且需要结合自身的应用场景、技术实力、运营实力来进行评估，具体问题具体分析，不必纠结，正所谓寸有所长，尺有所短，选择最合适的才是最好的。

Ceph用C++编写而Swift用Python编写，性能上应当是Ceph占优。但是与Ceph不同，Swift专注于对象存储，作为OpenStack组件之一经过大量生产实践的验证，与OpenStack结合很好，目前不少人使用Ceph为OpenStack提供块存储，但仍旧使用Swift提供对象存储。

13.GlusterFS

（1）特点简介1

GlusterFS是Red Hat旗下的一款开源分布式文件系统，它具备高扩展、高可用及高性能等特性，由于其无元数据服务器的设计，使其真正实现了线性的扩展能力，使存储总容量可轻松达到PB级别，支持数千客户端并发访问；对跨集群，其强大的Geo-Replication可以实现集群间数据镜像，而且是支持链式复制，这非常适用于垮集群的应用场景

特性

1）目前GlusterFS支持FUSE方式挂载，可以通过标准的NFS/SMB/CIFS协议像访问本体文件一样访问文件系统，同时其也支持HTTP/FTP/GlusterFS访问，同时最新版本支持接入Amazon的AWS系统
2）GlusterFS系统通过基于SSH的命令行管理界面，可以远程添加、删除存储节点，也可以监控当前存储节点的使用状态
3）GlusterFS支持集群节点中存储虚拟卷的扩容动态扩容；同时在分布式冗余模式下，具备自愈管理功能，在Geo冗余模式下，文件支持断点续传、异步传输及增量传送等特点
Yuyj GlusterFS.png

优点

1）系统支持POSIX(可移植操作系统)，支持FUSE挂载通过多种协议访问，通用性比较高
2）支持在线扩容机制，增强系统的可扩展性
3）实现了软RAID，增强系统的并发处理能力及数据容错恢复能力
4）强大的命令行管理，降低学习、部署成本
5）支持整个集群镜像拷贝，方便根据业务压力，增加集群节点
6）官方资料文档专业化，该文件系统由Red Hat企业级做维护，版本质量有保障

缺点

1）通用性越强，其跨越的层次就越多，影响其IO处理效率
2）频繁读写下，会产生垃圾文件，占用磁盘空间

应用场景

1）多集群部署的应用
2）中大型文件根据目前官方提供的材料，现有的使用GlusterFS系统存储容量可轻松达到PB

术语：

brick：分配到卷上的文件系统块；
client：挂载卷，并对外提供服务；
server：实际文件存储的地方；
subvolume：被转换过的文件系统块；
volume：最终转换后的文件系统卷。

参考

http://www.gluster.org/

http://www.gluster.org/wp-content/uploads/2012/05/Gluster_File_System-3.3.0-Administration_Guide-en-US.pdf

http://blog.csdn.net/liuben/article/details/6284551

（1）特点简介2

特点1：去中心化的分布式元数据架构

  采用DHT的方式将每个file按照filename映射到节点上，

 通过Davies Meyer hash函数对filename取hash值

如果file被rename，那么按照新的name计算hash后的新节点上会新建一个pointer，指向原来文件元数据所在节点。

特点2：模块化、协议栈式的文件系统

目前支持三种基本的功能和属性：

              Replicator         副本，相当于raid1

              Stripe               条带，相当于raid0

              Distributed     分布式，相当于DHT

以上任意两个模块可以组合在一起。当时系统一旦选择其中一个属性，后面不能再修改。

目前主要的用法是Distributed+Replicator。选择了Distributed+Replicator后，某个文件就会在Gluster集群的两个节点上各有一份镜像。

其他：

     存储节点上支持多种文件系统ext3、ext4、xfs、zfs

     存储节点的硬件可以是JBOD，也可以是FC san

     NAS集群功能通过CTDB实现

     通过一个用户态的轻量级的nfsserver提供NFS接口

     CIFS通过linux自带的Samba实现

全兼容Hadoop，可以替代HDFS

Client端提供最新的KVM的补丁，可以为KVM的虚拟机提供存储能力。

商业应用：
最初GlusterFS由Gluster INC提供商业服务。被intel收购后将全部源码开源。也有第三方的存储厂家提供基于GlusterFS的解决方案

三、参考：

（1）https://blog.csdn.net/faychu/article/details/47124271
（2）https://blog.csdn.net/qq_33314107/article/details/80978669
（3）https://blog.csdn.net/c602273091/article/details/78643889#%E6%99%AE%E9%80%9A%E7%9A%84%E5%AD%98%E5%82%A8%E6%96%B9%E6%B3%95
（4）https://blog.csdn.net/Prepared/article/details/72491036
（5）https://blog.csdn.net/zzq900503/article/details/80020725
（6）https://blog.csdn.net/enweitech/article/details/82414361
（7）https://blog.csdn.net/load2006/article/details/14119025
（8）https://blog.csdn.net/qq_33314107/article/details/80978669
（9）链接：https://www.zhihu.com/question/26993542/answer/129451667

你可能感兴趣的:(分布式文件系统,分布式存储)

php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
RustFS一款Rust 驱动的高性能分布式存储系统 ❀͜͡傀儡师 rust 分布式开发语言
演示地址：https://play.rustfs.com/browser访问账号（默认rustfsadmin）。访问密钥（默认rustfsadmin）。下载mchttps://dl.min.io/client/mc/release可以直接在Linux系统上安装mc（，然后访问Docker容器内的RustFS服务。下载并安装：wgethttps://dl.min.io/client/mc/relea
深度剖析：Ceph分布式存储系统架构 TechVision大咖圈 ceph 分布式架构分布式存储
一文带你彻底搞懂Ceph的架构奥秘，从小白到架构师的进阶之路！文章目录1.Ceph简介：存储界的"多面手"什么是Ceph？为什么选择Ceph？2.核心组件架构：四大金刚的分工合作Monitor（MON）：集群的"大脑"ObjectStorageDevice（OSD）：数据的"家园"MetadataServer（MDS）：文件系统的"管家"Manager（MGR）：集群的"助手"3.三大存储接口：一
GlusterFS 分布式文件系统详解 Sally璐璐运维运维
一、核心特性高扩展性GlusterFS采用无共享架构，支持横向扩展，只需添加服务器节点即可提升存储容量和性能，理论上可达PB甚至EB级规模，且扩展过程对上层应用完全透明。例如，一个初始4节点、20TB的集群可无缝扩展至100节点、500TB规模，仅需执行简单扩容命令，无需中断服务或数据迁移。详细扩容步骤：准备新服务器并安装GlusterFS软件确保操作系统版本兼容安装glusterfs-serve
数据集全解析：从基础概念到实践应用的完整指南
数据集全解析：从基础概念到实践应用的完整指南一、数据集的本质与核心价值1.1数据集的定义与范畴数据集（Dataset）是按照特定格式组织的一组数据的集合，它可以是结构化数据（如关系型数据库中的表格）、半结构化数据（如JSON、XML文件）或非结构化数据（如图像、文本、音频、视频等）。从表现形式看，数据集可以是一个文件（如CSV、Excel表格）、一个数据库表，也可以是分布式存储的海量数据集合（如H
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
二进制部署Kubernetes1.32.4最新版本高可用集群及附加组件 Nova_CaoFc 容器云技术专栏 kubernetes 容器云原生
一、前言在云原生技术席卷全球的今天，Kubernetes（K8s）已成为容器编排领域的事实标准。当大家都习惯了kubeadm、kubeasz等自动化工具一键部署的便利时，选择通过二进制方式手动搭建K8s集群更像是一场"知其然亦知其所以然"的深度修行。这种方式将带您穿透抽象层，直面etcd的分布式存储机制、kube-apiserver的RESTful接口设计、kubelet与CRI的交互细节，以及各
Redis集群部署指南：高可用与分布式实践东窗西篱梦 redis 分布式数据库
目录1.原理与理论2.背景与目的3.详细部署步骤（手动操作）步骤1：安装Redis5.0.4步骤2：配置Redis服务步骤3：修改关键配置步骤4：启动所有节点步骤5：构建集群步骤6：验证集群状态4.常见问题与解决方案节点无法加入集群集群槽位未完全分配主从切换失败客户端重定向错误5.总结与心得1.原理与理论Redis集群通过分片（Sharding）实现数据分布式存储，核心机制包括：槽位分配（Slot
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
NoSQL数据库的分布式存储优化数据库管理艺术 nosql 分布式数据库 ai
NoSQL数据库的分布式存储优化关键词：NoSQL、分布式存储、数据分片、一致性哈希、CAP定理、读写优化、水平扩展摘要：本文深入探讨NoSQL数据库在分布式环境下的存储优化策略。我们将从基础概念出发，分析NoSQL数据库的架构特点，详细讲解分布式存储的核心算法和数学模型，并通过实际代码示例展示优化技术的实现。文章还将覆盖实际应用场景、工具推荐以及未来发展趋势，为读者提供全面的NoSQL分布式存储
鸿蒙分布式文件系统开发完全指南操作系统内核探秘操作系统内核揭秘 OS harmonyos 华为 ai
鸿蒙分布式文件系统开发完全指南关键词：鸿蒙系统、分布式文件系统、HarmonyOS、跨设备文件共享、文件管理、开发指南、系统架构摘要：本文将全面介绍鸿蒙分布式文件系统的核心概念、架构设计、开发方法和实际应用。我们将从基础概念入手，逐步深入探讨其技术原理，并通过实际代码示例展示如何开发基于鸿蒙分布式文件系统的应用。无论您是初学者还是有经验的开发者，都能从本文中获得实用的开发知识和技巧。背景介绍目的和
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
从 TCP/IP 协议栈角度深入分析网络文件系统 (NFS)
一、引言：NFS与TCP/IP的关系概述网络文件系统(NetworkFileSystem,NFS)是一种分布式文件系统协议，允许客户端通过网络访问远程服务器上的文件系统，就像访问本地文件系统一样。NFS是SunMicrosystems在20世纪80年代开发的，旨在提供一种透明的、与平台无关的文件共享机制。从设计理念来看，NFS的核心目标是"消除本地文件和远程文件之间的区别"，使用户能够像操作本地文
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
[转载] [Mark]分布式存储必读论文 weixin_30945039 大数据数据库
原文:http://50vip.com/423.html分布式存储泛指存储存储和管理数据的系统，与无状态的应用服务器不同，如何处理各种故障以保证数据一致，数据不丢，数据持续可用，是分布式存储系统的核心问题，也是极具挑战的问题。本文总结了分布式存储领域的经典论文，供大家参考。TheGoogleFileSystem.SanjayGhemawat,HowardGobioff,andShun-TakLeu
Java分布式存储炼金术：故障检测与自愈的魔法阵墨夶 Java学习资料1 java 分布式开发语言
一、环境搭建：魔法阵的基础1.1依赖库与工具“准备炼金材料：框架、锁、断路器！”org.ap
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
速通Ceph分布式存储（含超详细图解）来自于狂人云计算
前言云计算存储架构图示例存储节点集群RAID控制层物理存储层分布式存储管理层存储接口层接入层OSD主机1OSD主机2OSD主机N磁盘1磁盘2磁盘3磁盘4磁盘5磁盘6RAID0/10/5RAID控制器1RAID0/10/5RAID控制器2RAID0/10/5RAID控制器NMonitor集群大脑OSD数据守护进程MDS元数据服务对象存储块存储文件存储对象网关RBDMDS客户端接入层存储接口层分布式存
分布式存储系统的设计原理逻辑混乱的哲学家分布式
```html分布式存储系统的设计原理分布式存储系统的设计原理随着互联网的快速发展，数据量呈指数级增长，传统的单机存储系统已经无法满足大规模数据处理的需求。在这种背景下，分布式存储系统应运而生。分布式存储系统通过将数据分散存储在多台服务器上，不仅提高了系统的可靠性、扩展性和性能，还降低了单点故障的风险。本文将探讨分布式存储系统的核心设计原理。数据分片与负载均衡分布式存储系统的一个关键特性是数据分片
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
分布式存储引擎OceanBase，UpdateServer 实现机制——存储引擎「已注销」数据库
UpdateServer存储引擎如下图所示。UpdateServer存储引擎与Bigtable存储引擎看起来很相似，不同点在于：UpdateServer只存储了增量修改数据，基线数据以SSTable的形式存储在Chunkserver上,而Bigtable存储引擎同时包含某个子表的基线数据和增量数据；UpdateServer内部所有表格共用MemTable以及SSTable，而Bigtable中每个
【云计算摩尔狮】：一文读懂10 种分布式数据库 -带你快速解锁分布式存储世界摩尔狮云计算分布式数据库云计算运维
一、关系型vs非关系型1.1关系型1.1.1什么是关系型？关系型数据库指的是使用关系模型（二维表格模型）来组织数据的数据库，由二维表及其之间的联系所组成的一个数据组织。1.1.2常见关系型数据库常见关系型数据库管理系统（ORDBMS）：Oracle、MySql、MicrosoftSQLServer、SQLite、PostgreSQ、IBMDB2。1.1.3关系型的优势●采用二维表结构非常贴近正常开
【大数据】分布式文件系统算法大雨淅淅大数据大数据
目录一、分布式文件系统算法概述二、分布式文件系统算法分类三、分布式文件系统算法实现3.1分布式文件系统算法C语言实现3.2分布式文件系统算法JAVA实现四、分布式文件系统算法应用五、分布式文件系统算法发展趋势一、分布式文件系统算法概述分布式文件系统是一种允许通过网络将物理上分散存储的文件系统资源逻辑上集中管理的系统。它通过将文件数据分布在多个服务器上，提高了数据的可用性、可靠性和扩展性。二、分布式
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方