tasnrh

Ceph分布式存储系统

Ceph是根据加州大学Santa Cruz分校的Sage Weil的博士论文所设计开发的新一代自由软件分布式文件系统，其设计目标是良好的可扩展性(PB级别以上)、高性能及高可靠性。Ceph其命名和UCSC（Ceph 的诞生地）的吉祥物有关，这个吉祥物是“Sammy”，一个香蕉色的蛞蝓，就是头足类中无壳的软体动物。这些有多触角的头足类动物，是对一个分布式文件系统高度并行的形象比喻。

其设计遵循了三个原则：数据与元数据的分离，动态的分布式的元数据管理，可靠统一的分布式对象存储机制。本文将从Ceph的架构出发，综合性的介绍Ceph分布式文件系统特点及其实现方式。

一、Ceph基本架构

Ceph是一个高可用、易于管理、开源的分布式存储系统，可以在一套系统中同时提供对象存储、块存储以及文件存储服务。其主要由Ceph存储系统的核心RADOS以及块存取接口、对象存取接口和文件系统接口组成，如图所示

Ceph的底层是RADOS，它的意思是“A reliable,autonomous, distributed object storage”。 RADOS作为Ceph分布式文件系统的一个子项目，是为了满足Ceph的需求而设计的，但是，其也可以单独作为一种分布式数据存储系统，给其他的有类似需求的分布式文件系统提供数据存储服务。Ceph文件系统, Ceph对象存储和Ceph块设备从RADOS的存储集群中读去和写入数据。

Ceph作为一个分布式存储系统，其对外提供的接口，决定了其通用性以及扩展性。如上图架构图中所示的那样，Ceph对外提供了丰富多样的服务接口，包括多种编程语言接口LIBRADOS（备注，上图来自Ceph中文社区，社区人员在翻译的过程中将字母L遗失掉了）、对象存储接口(RADOSGW)、块存储接口（RBD)以及文件系统接口(Ceph FS)。其中LIBRADOS编程接口是其他各种客户端接口的基础，其他接口都是基于LIBRADOS来进行扩展实现的。

1.1. RADOS

Ceph中RADOS(Reliable Autonomic Distributed Object Store)存储集群是所有其他客户端接口使用和部署的基础。RADOS由两个组件组成：

OSD： Object StorageDevice，提供存储资源。
Monitor：维护整个Ceph集群的全局状态。

典型的RADOS部署架构由少量的Monitor监控器以及大量的OSD存储设备组成，它能够在动态变化的基于异质结构的存储设备集群之上提供一种稳定的、可扩展的、高性能的单一逻辑对象存储接口。

RADOS系统的架构如图所示：

我们看到，RADOS不是某种组件，而是由OSD(Object Storage Device)集群和Monitor集群组成。通常，一个RADOS系统中，OSD集群是由大量的智能化的OSD节点组成；Monitor集群是由少量的Monitor节点组成。OSD集群负责存储所有对象的数据。Monitors集群负责管理Ceph集群中所有成员、关系、属性以及数据分发等信息。

1.2. Ceph客户端接口(Clients)

我们将Ceph架构中除了底层基础RADOS之上的LIBRADOS、RADOSGW、RBD以及Ceph FS统一称为Ceph客户端接口。而LIBRADOS又是Ceph其它如RADOSGW、RBD以及Ceph FS的基础。简而言之就是RADOSGW、RBD以及Ceph FS根据LIBRADOS提供的多编程语言接口开发。所以他们之间是一个阶梯级的关系。

1.2.1. RADOSGW

RADOSGW(RADOS Gmeway)，又叫Ceph对象存储网关，是一个底层基于librados向客户端提供RESTful接口的对象存储接口。目前Ceph支持两种API接口：

(1) S3.compatible：S3兼容的接口，提供与Amazon S3大部分RESTfuI API接口兼容的API接口。

(2) Swift.compatible：提供与OpenStack Swift大部分接口兼容的API接口。Ceph的对象存储使用网关守护进程（radosgw）, radosgw结构图如图所示：

在实际的Ceph集群中，radosgw是一个监听RESTfulAPI访问的后台进程，s3 API和Swift APl使用同一个命名空间，即共享同一个命名空间；所以，你可以用其中一个接口写入数据而又用另外一个接口读出数据。

1.2.2. RBD

一个数据块是一个字节序列（例如，一个512字节的数据块）。基于数据块存储接口最常见的介质，如硬盘，光盘，软盘，甚至是传统的9磁道的磁带的方式来存储数据。块设备接口的普及使得虚拟块设备成为构建像Ceph海量数据存储系统理想选择。

在一个Ceph的集群中， Ceph的块设备支持自动精简配置，调整大小和存储数据。Ceph的块设备可以充分利用 RADOS功能，实现如快照，复制和数据一致性。Ceph的RADOS块设备（即RBD）通过RADOS协议与内核模块或librbd的库进行交互。。RBD的结构如图所示：

在Ceph中，如果客户端要想使用存储集群服务提供的块存储，必须要先安装相应的Linux内核模块Kernel Module，或者使用librbd编程接口。

1.2.3. Ceph FS

Ceph文件系统（CEPH FS）是一个POSIX兼容的文件系统，使用Ceph的存储集群来存储其数据。Ceph的文件系统使用相同的Ceph的存储集群系统比如Ceph的块设备，Ceph的S3和SwiftAPI对象存储，或本机绑定（librados）。CEPH FS的结构图如下所示：

CEPH FS是一个符合POSIX标准的文件系统接口，同时支持用户空间文件系统FUSE。在CEPH FS中，与对象存储接口与块存储接口最大的不同就是在集群中增加了文件系统元数据服务节点MDS(Ceph Metadata Server)。MDS也支持多台机器分布式的部署，以实现系统的高可用性。文件系统客户端需要安装对应的Linux内核模块Ceph FS KernelObject或者Ceph FS FUSE组件。

二、Ceph数据存储

2.1. 数据存储过程

Ceph存储集群从客户端接收文件，每个文件都会被客户端切分成一个或多个对象，然后将这些对象进行分组，再根据一定的策略存储到集群的OSD节点中，其存储过程如图所示：

图中，对象的分发需要经过两个阶段的计算，才能得到存储该对象的OSD，然后将对象存储到OSD中对应的位置。

(1) 对象到PG的映射。PG(PlaccmentGroup)是对象的逻辑集合。PG是系统向OSD节点分发数据的基本单位，相同PG里的对象将被分发到相同的OSD节点中(一个主OSD节点多个备份OSD节点)。对象的PG是由对象ID号通过Hash算法，结合其他一些修正参数得到的。

(2) PG到相应的OSD的映射，RADOS系统利用相应的哈希算法根据系统当前的状态以及PG的ID号，将各个PG分发到OSD集群中。OSD集群是根据物理节点的容错区域(比如机架、机房等)来进行划分的。

Ceph中的OSD节点将所有的对象存储在一个没有分层和目录的统一的命名空问中。每个对象都包含一个ID号、若干二进制数据以及相应的元数据。

ID号在整个存储集群中是唯一的；元数据标识了所存储数据的属性。一个对象在OSD节点中的存储方式大致如图所示。

而对存储数据的语义解释完全交给相应的客户端来完成，比如，Ceph FS客户端将文件元数据(比如所有者、创建日期、修改日期等)作为对象属性存储在Ceph中。

2.2. CRUSH算法

Ceph作为一个高可用、高性能的对象存储系统，其数据读取及写入方式是保证其高可用性及高性能的重要手段。对于已知的数据对象，Ccph通过使用CRUSH(ControlledReplication Under Scalable Hashing)算法计算出其在Ceph集群中的位置，然后直接与对应的OSD设备进行交互，进行数据读取或者写入。

例如其写入数据的其主要过程如图所示。

首先，客户端获取Ceph存储系统的状态信息Cluster Map，然后根据状态信息以及将要写入的Pool的CRUSH相关信息，获取到数据将要写入的OSD，最后

OSD将数据写入到其中相应的存储位置。其中相关概念的解释如下：

(1) 集群地图(Cluster Map)：Ceph依赖于客户端以及OSD进程中保存有整个集群相关的拓扑信息，来实现集群的管理和数据的读写。整个集群相关的拓扑信息就称之为“Cluster Map”。Cluster Map主要保存Monitor集群、OSD集群、MDS集群等相关的拓扑结构信息以及状态信息。

(2) 存储池(P001)：是对Ceph集群进行的逻辑划分，主要设置其中存储对象的权限、备份数目、PG数以及CRUSH规则等属性。

在传统的存储系统中，要查找数据通常是依赖于查找系统的的文件索引表找到对应的数据在磁盘中的位置。而在Ceph对象存储系统中，客户端与OSD节点都使用CRUSH算法来高效的计算所存储数据的相关信息。相对于传统的方式，CRUSH提供了一种更好的数据管理机制，它能够将数据管理的大部分工作都分配给客户端和OSD节点，这样为集群的扩大和存储容量的动态扩展带来了很大的方便。CRUSH是一种伪随机数据分布算法，它能够在具有层级结构的存储集群中有效的分发对象副本。

CRUSH算法是根据集群中存储设备的权重来进行数据分发的，数据在各个OSD设备上近似均匀概率分布。CRUSH中，数据在存储设备上的分布是根据一个层次化的集群地图(Cluster Map)来决定的。集群地图是由可用的存储资源以及由这些存储资源构建的集群的逻辑单元组成。比如一个Ceph存储集群的集群地图的结构可能是一排排大型的机柜，每个机柜中包含多个机架，每个机架中放置着存储设备。数据分发策略是依照数据的存放规则(placement rules)进行定义的，存放规则是指数据在备份以及存放时应该遵循的相关约定，比如约定一个对象的三个副本应该存放在三个不同的物理机架上。

给定一个值为x的整数，CRUSH将根据相应的策略进行哈希计算输出一个

有序的包含n个存储目标的序列：

CRUSH(x)=(osd1，osd2，osd3osdn)

CRUSH利用健壮的哈希函数，其得到的结果依赖于集群地图Cluster Map、存放规贝则(placementmles)和输入x。并且CRUSH是一个伪随机算法，两个相似的输入得到的结果是没有明显的相关性的。这样就能确保Ceph中数据分布是随机均匀的。

2.3. 数据一致性

Ceph中，为了保持数据的一致性，在PG内部通常会进行对象的净化过程(scrubobjects)。数据净化通常每天进行一次(通常在数据I/O量不大，进行系统维护时进行)。OSD设备还能够通过进行数据对象bit-for-bit的对比进行深度的数据净化，用以找到普通数据净化中不易察觉的问题(比如磁盘扇区损坏等)。通过数据维护和净化，为数据的一致性提供了保障。

三、扩展性和高可用性

在传统的分布式系统中，客户端通常与一个中央节点进行交互，这样通常存在着单点故障问题，而且不利于系统的扩展。Ceph中客户端是直接与OSD节点进行交互，而不需要通过中心节点。对同一个对象，Ceph通常会在不同的OSD节点上创建多个备份，这样就保证了数据可靠性和高可用性。Ceph对元数据服务器也采用高可用的集群管理，这样也提高了系统元数据的的高可用性。Ceph的良好的高可用性和扩展性是系统设计的核心，这其中用到了很多精巧的设计和算法，下面就对实现Ceph的一些关键的实现技术进行介绍。

3.1. 高可用性的Monitor集群

在Ceph的客户端读或者写数据之前，他们必须先通过Ceph Monitor来获取最新的Cluster Map的副本。如果只有一个Monitor节点，Ceph存储集群也可以正常工作，但是这样会有单点的风险(如果这一台Monitor节点宕机了，整个Ceph

集群就无法正常工作)。Ceph中支持多台Monitor节点组成高可用的集群来提高整个Ceph系统的高可用性。Ceph中通过Paxos算法来保持Monitor集群中各个节点的状态一致性。

3.2. 高可用性的MDS集群

在通过Ceph FS接口使用Ceph集群时，Ceph集群中需要部署MDS(Metadata Server)进程，通常也是使用集群的方式进行部署。MDS集群的主要作用是将所有的文件系统元数据(目录、文件拥有者、访问权限等)存放在高可用的内存中。这样，客户端简单的文件操作(ls，cd等)将由MDS集群快速的响应，而不用消耗OSD设备的I/O，实现了元数据与数据的分离。为Ceph FS文件系统接口将能提供了性能上的保证。

Ccph FS旨在提供POSIX兼容的文件系统接口，依赖于MDS中运行的ceph-mds进程，该进程不仅能够作为一个单一的进程运行，还可以分布式的运行在多个服务器上，实现了高可用性和扩展性。

(1) 高可用性：通常在Ceph集群中有多个ceph-mds进程在运行。当一个Ceph-mds出现运行故障时，备用的其他的ceph-mds能够立刻接替失效的ceph-mds的工作。这个过程主要依赖于Ceph中的日志机制并且通过高可用的Monitor进程来完成相关的恢复工作。

(2) 扩展性：Ceph集群中可以分布式的部署多个ceph-mds进程实例，他们共同完成Ceph文件系统相关的工作，并且能够动态的实现负载均衡。

3.3. 超大规模智能守护（OSD）

在许多传统的集群架构中，往往设立一个中心节点来掌控整个集群的全部元数据信息，这样不仅会因为单点问题对系统的高可用性造成影响，而且中心节点的性能也会成为系统横向扩展的瓶颈。在Ceph就没有这样的瓶颈，在Ceph中，每个Ceph的客户端和OSD节点都保存有整个系统相关的拓扑信息。这样，客户端就能直接和存储数据的OSD节点进行交互，OSD节点相互之间也能直接进行交互。Ceph中去中心节点的架构能够带来以下一些好处：

(1) OSD节点能直接为客户端提供服务：我们知道，任何网络设备都有一个并发连接的上限。中心节点结构的分布式集群中，中心节点往往是整个系统性能的瓶颈。Ceph中客户端能与存放数据的OSD节点直接通信，而不用经过任何的中心节点，这样整个系统不仅没有单点问题，而且性能就得到了很大的提升。

(2) OSD节点参与系统的维护：通常一个OSD节点加入到Ceph存储集群中，要向集群中的Monitor节点汇报自己的状态。如果OSD节点宕机，则需要系统能自动检测出来。这通常是由Monitor节点周期性的对各个OSD节点中的相关服务进行检测来实现。如果Monitor节点检测的周期间隔太短会影响系统的性能；而如果检测周期间隔太长，则会使整个系统有较长的时间处于不一致的状态。Ceph中允许OSD节点对相邻的OSD节点的状态进行检测，如果相邻的节点有状态变化，OSD节点则会主动向整个集群进行汇报，同时集群中相关的Cluster Map得到更新。这样大大减轻了Monitor节点的压力。系统的扩展性和高可用性得到很大的提升。

(3) OSD节点定期的数据清洁：数据清洁是指，一个OSD节点中存储的对象与另外一个存储该对象副本的OSD节点之间进行对象的元数据对比，依此来找出文件系统相关的错误。Ceph中OSD节点能够自动的进行数据清洁(通常是一天一次)。除了普通的数据清洁，Ceph中OSD节点还可以通过对相同对象不同副本中的数据进行按位(bit-for-bit)的深度数据清洁(通常一周一次)。这种数据清洁机制对系统的数据一致性有很大的帮助。

(4) 数据智能备份：和Ceph客户端一样，Ceph OSD节点也使用CRUSH算法。但是和客户端使用CRUSH算法来查找数据不同，Ceph OSD节点使用该算法来计算对象的备份副本应该被存储在哪个位置。数据智能备份的大致流程如图所示：

3.4. 智能负载均衡

当在Ceph集群中增加或减少OSD设备时，集群会执行负载再均衡的过程(rebalancing)。首先，集群地图(Cluster Map)会得到更新，PG ID以及OSD集群相关的信息都会得到更新。如下图，简单展示了增加OSD存储设备时数据再均衡的大致过程。其中，一些PG从其原来所处的OSD存储设备迁移到了新的OSD存储设备。在数据再均衡过程中，CRUSH保持稳定，有许多的PG还是依然保留其原有的配置。并且由于进行了数据的迁出，原有OSD设备中的剩余容量也会相应的有所增加。整个数据再均衡过程也是利用的CRUSH算法，数据依然是均衡的分布在新的OSD集群中。

四、小结

在本文中，我们介绍了Ceph分布式文件系统的基本架构、工作机制及原理。并且从架构和原理的基础上论述了其优良的特性。综合看来，Ceph分布式文件系统有如下的特点：

(1) Ceph的核心RADOS通常是由少量的负责集群管理的Monitor进程和大量的负责数据存储的OSD进程构成，采用无中心节点的分布式架构，对数据进行分块多份存储。具有良好的扩展性和高可用性。

(1) Ceph分布式文件系统提供了多种客户端，包括对象存储接口、块存储接口以及文件系统接口，具有广泛的适用性，并且客户端与存储数据的OSD设备直接进行数据交互，大大提高了数据的存取性能。

(2) Ceph作为分布式文件系统，其能够在维护 POSIX 兼容性的同时加入了复制和容错功能。从2010 年 3 月底，以及可以在Linux 内核（从2.6.34版开始）中找到 Ceph 的身影，作为Linux的文件系统备选之一，Ceph.ko已经集成入Linux内核之中。虽然目前Ceph 可能还不适用于生产环境，但它对测试目的还是非常有用的。Ceph 不仅仅是一个文件系统，还是一个有企业级功能的对象存储生态环境。现在，Ceph已经被集成在主线 Linux 内核中，但只是被标识为实验性的。在这种状态下的文件系统对测试是有用的，但是对生产环境没有做好准备。但是考虑到Ceph 加入到 Linux 内核的行列，不久的将来，它应该就能用于解决海量存储的需要了。

五、参考资料

Ceph 中文文档：http://docs.openfans.org/ceph

http://docs.openfans.org/ceph/ceph4e2d658765876863/ceph-1

分布式存储的技术选型之HDFS、Ceph、MinIO对比 Linux运维老纪勇敢向前迎接运维开发之挑战分布式 hdfs ceph 云原生运维开发大数据云计算
分布式存储的技术选型比：HDFS、Ceph、MinIO对比一文读懂分布式存储在当今数字化时代，数据呈爆炸式增长，分布式存储技术应运而生，成为大数据存储与管理的得力助手。它将数据分散存于多台独立设备，构建起一个庞大而可靠的虚拟存储体系，有效突破了传统集中式存储的性能瓶颈，大幅提升了可靠性、可用性及存取效率，轻松应对海量数据的存储挑战。分布式存储的应用场景极为广泛。在大数据处理领域，如互联网公司应对海
nfs-ganesha(用户态NFS)编译、安装和使用沙拉OK Ceph分布式存储运维 ceph nfs 经验分享
前面的文章介绍了基于社区或自己项目编译rpm包搭建Ceph分布式存储集群的方法。本篇介绍使用nfs-ganesha源码编译、安装，客户端使用用户态nfs协议挂载使用Ceph文件存储和对象存储的方法。编译与安装nfs-ganesha一、获取源码源码可直接从github上gitclone，也可以使用自己库维护的代码：github：[email protected]:nfs-ganesha/n
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
ceph KVM使用rbd做存储 SkTj
博客：https://blog.csdn.net/bobpen/article/details/40112939博客：http://www.aboutyun.com/thread-13195-1-1.html导言很多cepher都会使用RBD块存储功能，下面介绍qemu-kvm访问RBD的方法。操作目前Ubuntu14.04.x和CentOS7.1(如使用CentOS7建议升级到7.1，CentO
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
KVM+GFS分布式存储系统构建 KVM 高可用 wkysdhr 分布式
一、案例分析本案例主要使用KVM及GlusterFS技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，GlusterFS会自动同步同一组卷
【mysql】mysql之优化向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
python 物理引擎摩擦力_Python物理引擎简单的艾伦 python 物理引擎摩擦力
Python的强大源自众多领域大牛的支持，例如物理引擎方面，就有N多模块支持PyODEPyODEisasetofopen-sourcePythonbindingsforTheOpenDynamicsEngine,anopen-sourcephysicsengine.PyMunkpymunkisaeasy-to-usepythonic2dphysicslibrarythatcanbeusedwhen
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
k8s 存储(PV、PVC、SC、本地存储、NFS) 大江东去了吗 kubernetes java linux
存储持久化相关三个概念:PersistentVolume(PV)是对具体存储资源的描述，比如NFS、Ceph、GlusterFS等，通过PV可以访问到具体的存储资源;PersistentVolumeClaim(PVC)Pod想要使用具体的存储资源需要对接到PVC，PVC里会定义好Pod希望使用存储的属性，通过PVC再去申请合适的存储资源(PV)，匹配到合适的资源后PVC和PV会进行绑定，它们两者是
cephadm搭建ceph文件集群存储 L__liurs 服务器
一、基础配置1、配置主机名[root@ecs-cd34~]hostnamectlset-hostnamenode1[root@ecs-cd34~]execbash#主机名生效2、配置hosts解析（根据自己的服务器id修改）cat>>/etc/hosts/etc/docker/daemon.json<
存储集群消除pg数量过多的告警大大金 ceph
[root@xxxxxxxxxxxxxx~]#ceph-scluster334cfe7e-9ccc-483d-8d2c-218fde3a5fdehealthHEALTH_WARNtoomanyPGsperOSD(307>max300)nodeep-scrubflag(s)setmonmape1:3monsat{node1=100.88.28.11:6789/0,node2=100.88.28.12
linux搭建ceph集群浓黑的daidai linux ceph 服务器
linux三节点搭建ceph集群主机IP主机名称172.26.50.75node1172.26.50.112node2172.26.50.228node3ceph-mon，ceph-mgr，ceph-mds都搭建在node1上，node2和node3上搭建ceph-osd，每个机器1个osdCeph是一个分布式的存储系统，可以在统一的系统中提供唯一的对象、块和文件存储，Ceph的大致组件如下：1.
3. ceph-mimic版本部署 Martin_wjc 7 存储 ceph chrome 前端
ceph-mimic版本部署一、ceph-mimic版本部署1、环境规划2、系统基础环境准备2.1关闭防火墙、SELinux2.2确保所有主机时间同步2.3所有主机ssh免密2.4添加所有主机解析3、配置ceph软件仓库4、安装ceph-deploy工具5、ceph集群初始化6、所有ceph集群节点安装相关软件7、客户端安装ceph-common软件8、在ceph集群中创建cephmonitor组
upmap的存储池osd坏盘处理问题奋斗的松鼠 ceph
写在前面喜欢ceph的话欢迎关注奋斗的cepher微信公众号阅读更多好文！在《坏盘处理时osd为什么不要rm》文章中，松鼠哥对比了多组各种osd处理与数据的情况，有一个细节，那就是如果osd在重建前后要保持pg映射的一致性，那么存储池做均衡使用的是crush-compat模式，同时有读者老铁留言，说当存储池使用了upmap模式做存储池均衡的话，osd重建前后将不能保持相同的pg映射。因为松鼠哥对存
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十四）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十九）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十三）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【初出江湖】分布式之什么是分布式存储？无休居士微服务与分布式分布式分布式存储分布式存储的应用场景集中式存储分布式数据库分布式文件系统
目录标题分布式存储分布式存储系统特点分布式存储原理分布式存储的应用场景分布式存储和集中式存储的区别分布式存储分布式存储是一种将数据分散存储在多个节点上的存储方式。与传统的集中式存储相比，分布式存储将数据分布在多个节点上，每个节点都可以独立地存储和访问数据。这种分布式的存储方式可以提供更高的可靠性、可扩展性和性能。在分布式存储系统中，数据通常被分割成多个块或对象，并分布在多个存储节点上。每个节点都可
缓存读写策略 Cache Aside Pattern，开发必备架构师修炼缓存缓存 java 读写策略分布式
我们在前面讲到了当我们业务面临大量写并发的时候，将数据库开发成分布式存储系统，然后又介绍了NoSql数据库与关系型数据库互相配合，以用来更好的服务与我们的业务发展。但随着并发的持续增加，存储数据量的增多，数据库的磁盘IO逐渐成了系统的瓶颈，我们需要一种访问更快的组件来降低请求响应时间，提升整体系统性能，这时我们就会使用到缓存。至于缓存这个概念，这里就不去多说了，我相信大家都懂，也知道它的作用是为了
ceph rgw：bucket policy实现牛牛Blog Ceph ceph rgw bucket policy实现
cephrgw：bucketpolicy实现相比于aws，rgw的bucketpolicy实现的还不是很完善，有很多细节都不支持，并且已支持的特性也在很多细节方面与s3不同，尤其是因为rgw不支持类似s3的accountuser结构，而使用tenant作为替代而导致的一些不同。并且在文档中还提及，为了修正这种不同，以及支持更多特性，在不久后会重写rgw的Authentication/Authori
ceph rgw java_ceph rgw multisite基本用法 weixin_39587113 ceph rgw java
Realm：Zonegroup：理解为数据中心，由一个或多个Zone组成，每个Realm有且仅有一个MasterZonegroup，用于处理系统变更，其他的称为SlaveZonegroup，元数据与MasterZonegroup保持一致；Zone:Zone是一个逻辑概念，包含一个或者多个RGW实例。每个Zonegroup有且仅有一个MasterZone，用于处理bucket和user等元数据变更。
一文读懂CEPH RGW基本原理 shichungang ceph 分布式大数据云计算
一文读懂CEPHRGW基本原理一、RGW简介二、RGW的组成结构三、Rgw用户信息四、BUCKET与对象索引信息五、RGW对象与RADOS对象的关系六、上传对象的处理流程七、RGW的双活机制八、RGW版本管理机制与CLS机制九、结语本文从RGW的基本原理出发，从整体上描述RGW的框架结构，突出关键结构之间的关联关系，从基础代码分析关键环节的实现细节，以达到清晰说明RGW模块“骨架”的效果。一、RG
【mysql】mysql之存储引擎学习向往风的男子 DBA mysql 学习数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【ceph学习】ceph如何进行数据的读写（2）陶二先生 ceph osd
本章摘要上文说到，librados/IoctxImpl.cc中调用objecter_op和objecter的op_submit函数，进行op请求的封装、加参和提交。本文详细介绍相关函数的调用。osdc中的操作初始化Op对象，提交请求设置Op对象的时间，oid，操作类型等信息。//osdc/Objector.h//mid-levelhelpersOp*prepare_mutate_op(consto
【ceph学习】ceph如何进行数据的读写（3）陶二先生 ceph osd messenger
本章摘要上文说到，osdc中封装请求，使用message中的相关机制将请求发送出去。本文详细介绍osd服务端如何进行请求的接收。osd初始化osd启动时，定义了message变量ms_public，该变量绑定public网络，负责接收客户端的请求。ms_public会启动对应的线程进行接收，并指定接收函数。//ceph_osd.ccMessenger*ms_public=Messenger::cr
云原生应用(7)之Docker容器数据持久化存储机制技术路上的苦行僧云原生应用与架构设计云原生 docker 容器 docker容器数据持久化
一、Docker容器数据持久化存储介绍物理机或虚拟机数据持久化存储由于物理机或虚拟机本身就拥有大容量的磁盘，所以可以直接把数据存储在物理机或虚拟机本地文件系统中，亦或者也可以通过使用额外的存储系统（NFS、GlusterFS、Ceph等）来完成数据持久化存储。Docker容器数据持久化存储由于Docker容器是由容器镜像生成的，所以一般容器镜像中包含什么文件或目录，在容器启动后，我们依旧可以看到相
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Ceph分布式存储系统

Ceph分布式存储系统

一、Ceph基本架构

1.1. RADOS

1.2. Ceph客户端接口(Clients)

1.2.1. RADOSGW

1.2.2. RBD

1.2.3. Ceph FS

二、Ceph数据存储

2.1. 数据存储过程

2.2. CRUSH算法

2.3. 数据一致性

三、扩展性和高可用性

3.1. 高可用性的Monitor集群

3.2. 高可用性的MDS集群

3.3. 超大规模智能守护（OSD）

3.4. 智能负载均衡

四、小结

五、参考资料

你可能感兴趣的:(Ceph分布式存储系统)