skdkjzz

ceph存储 "ceph集群浅析五"Ceph的工作原理及流程

本文将对Ceph的工作原理和若干关键工作流程进行扼要介绍。如前所述，由于Ceph的功能实现本质上依托于RADOS，因而，此处的介绍事实上也是针对RADOS进行。对于上层的部分，特别是RADOS GW和RBD，由于现有的文档中（包括Sage的论文中）并未详细介绍，因而本文或有语焉不详之处，还请读者多多包涵。

本文将首先介绍RADOS中最为核心的、基于计算的对象寻址机制，然后说明对象存取的工作流程，之后介绍RADOS集群维护的工作过程，最后结合Ceph的结构和原理对其技术优势加以回顾和剖析。

5.1 寻址流程

Ceph系统中的寻址流程如下图所示[1]。

上图左侧的几个概念说明如下：

File —— 此处的file就是用户需要存储或者访问的文件。对于一个基于Ceph开发的对象存储应用而言，这个file也就对应于应用中的“对象”，也就是用户直接操作的“对象”。

Ojbect —— 此处的object是RADOS所看到的“对象”。Object与上面提到的file的区别是，object的最大size由RADOS限定（通常为2MB或4MB），以便实现底层存储的组织管理。因此，当上层应用向RADOS存入size很大的file时，需要将file切分成统一大小的一系列object（最后一个的大小可以不同）进行存储。为避免混淆，在本文中将尽量避免使用中文的“对象”这一名词，而直接使用file或object进行说明。

PG（Placement Group）—— 顾名思义，PG的用途是对object的存储进行组织和位置映射。具体而言，一个PG负责组织若干个object（可以为数千个甚至更多），但一个object只能被映射到一个PG中，即，PG和object之间是“一对多”映射关系。同时，一个PG会被映射到n个OSD上，而每个OSD上都会承载大量的PG，即，PG和OSD之间是“多对多”映射关系。在实践当中，n至少为2，如果用于生产环境，则至少为3。一个OSD上的PG则可达到数百个。事实上，PG数量的设置牵扯到数据分布的均匀性问题。关于这一点，下文还将有所展开。

OSD —— 即object storage device，前文已经详细介绍，此处不再展开。唯一需要说明的是，OSD的数量事实上也关系到系统的数据分布均匀性，因此其数量不应太少。在实践当中，至少也应该是数十上百个的量级才有助于Ceph系统的设计发挥其应有的优势。

Failure domain —— 这个概念在论文中并没有进行定义，好在对分布式存储系统有一定概念的读者应该能够了解其大意。

基于上述定义，便可以对寻址流程进行解释了。具体而言， Ceph中的寻址至少要经历以下三次映射：

（1）File -> object映射

这次映射的目的是，将用户要操作的file，映射为RADOS能够处理的object。其映射十分简单，本质上就是按照object的最大size对file进行切分，相当于RAID中的条带化过程。这种切分的好处有二：一是让大小不限的file变成最大size一致、可以被RADOS高效管理的object；二是让对单一file实施的串行处理变为对多个object实施的并行化处理。

每一个切分后产生的object将获得唯一的oid，即object id。其产生方式也是线性映射，极其简单。图中，ino是待操作file的元数据，可以简单理解为该file的唯一id。ono则是由该file切分产生的某个object的序号。而oid就是将这个序号简单连缀在该file id之后得到的。举例而言，如果一个id为filename的file被切分成了三个object，则其object序号依次为0、1和2，而最终得到的oid就依次为filename0、filename1和filename2。

这里隐含的问题是，ino的唯一性必须得到保证，否则后续映射无法正确进行。

（2）Object -> PG映射

在file被映射为一个或多个object之后，就需要将每个object独立地映射到一个PG中去。这个映射过程也很简单，如图中所示，其计算公式是：

hash(oid) & mask -> pgid

由此可见，其计算由两步组成。首先是使用Ceph系统指定的一个静态哈希函数计算oid的哈希值，将oid映射成为一个近似均匀分布的伪随机值。然后，将这个伪随机值和mask按位相与，得到最终的PG序号（pgid）。根据RADOS的设计，给定PG的总数为m（m应该为2的整数幂），则mask的值为m-1。因此，哈希值计算和按位与操作的整体结果事实上是从所有m个PG中近似均匀地随机选择一个。基于这一机制，当有大量object和大量PG时，RADOS能够保证object和PG之间的近似均匀映射。又因为object是由file切分而来，大部分object的size相同，因而，这一映射最终保证了，各个PG中存储的object的总数据量近似均匀。

从介绍不难看出，这里反复强调了“大量”。只有当object和PG的数量较多时，这种伪随机关系的近似均匀性才能成立，Ceph的数据存储均匀性才有保证。为保证“大量”的成立，一方面，object的最大size应该被合理配置，以使得同样数量的file能够被切分成更多的object；另一方面，Ceph也推荐PG总数应该为OSD总数的数百倍，以保证有足够数量的PG可供映射。

（3）PG -> OSD映射

第三次映射就是将作为object的逻辑组织单元的PG映射到数据的实际存储单元OSD。如图所示，RADOS采用一个名为CRUSH的算法，将pgid代入其中，然后得到一组共n个OSD。这n个OSD即共同负责存储和维护一个PG中的所有object。前已述及，n的数值可以根据实际应用中对于可靠性的需求而配置，在生产环境下通常为3。具体到每个OSD，则由其上运行的OSD deamon负责执行映射到本地的object在本地文件系统中的存储、访问、元数据维护等操作。

和“object -> PG”映射中采用的哈希算法不同，这个CRUSH算法的结果不是绝对不变的，而是受到其他因素的影响。其影响因素主要有二：

一是当前系统状态，也就是在《“Ceph浅析”系列之四——逻辑结构》中曾经提及的cluster map。当系统中的OSD状态、数量发生变化时，cluster map可能发生变化，而这种变化将会影响到PG与OSD之间的映射。

二是存储策略配置。这里的策略主要与安全相关。利用策略配置，系统管理员可以指定承载同一个PG的3个OSD分别位于数据中心的不同服务器乃至机架上，从而进一步改善存储的可靠性。

因此，只有在系统状态（cluster map）和存储策略都不发生变化的时候，PG和OSD之间的映射关系才是固定不变的。在实际使用当中，策略一经配置通常不会改变。而系统状态的改变或者是由于设备损坏，或者是因为存储集群规模扩大。好在Ceph本身提供了对于这种变化的自动化支持，因而，即便PG与OSD之间的映射关系发生了变化，也并不会对应用造成困扰。事实上，Ceph正是需要有目的的利用这种动态映射关系。正是利用了CRUSH的动态特性，Ceph可以将一个PG根据需要动态迁移到不同的OSD组合上，从而自动化地实现高可靠性、数据分布re-blancing等特性。

之所以在此次映射中使用CRUSH算法，而不是其他哈希算法，原因之一正是CRUSH具有上述可配置特性，可以根据管理员的配置参数决定OSD的物理位置映射策略；另一方面是因为CRUSH具有特殊的“稳定性”，也即，当系统中加入新的OSD，导致系统规模增大时，大部分PG与OSD之间的映射关系不会发生改变，只有少部分PG的映射关系会发生变化并引发数据迁移。这种可配置性和稳定性都不是普通哈希算法所能提供的。因此，CRUSH算法的设计也是Ceph的核心内容之一，具体介绍可以参考[2]。

至此为止，Ceph通过三次映射，完成了从file到object、PG和OSD整个映射过程。通观整个过程，可以看到，这里没有任何的全局性查表操作需求。至于唯一的全局性数据结构cluster map，在后文中将加以介绍。可以在这里指明的是，cluster map的维护和操作都是轻量级的，不会对系统的可扩展性、性能等因素造成不良影响。

一个可能出现的困惑是：为什么需要同时设计第二次和第三次映射？难道不重复么？关于这一点，Sage在其论文中解说不多，而笔者个人的分析如下：

我们可以反过来想像一下，如果没有PG这一层映射，又会怎么样呢？在这种情况下，一定需要采用某种算法，将object直接映射到一组OSD上。如果这种算法是某种固定映射的哈希算法，则意味着一个object将被固定映射在一组OSD上，当其中一个或多个OSD损坏时，object无法被自动迁移至其他OSD上（因为映射函数不允许），当系统为了扩容新增了OSD时，object也无法被re-balance到新的OSD上（同样因为映射函数不允许）。这些限制都违背了Ceph系统高可靠性、高自动化的设计初衷。

如果采用一个动态算法（例如仍然采用CRUSH算法）来完成这一映射，似乎是可以避免静态映射导致的问题。但是，其结果将是各个OSD所处理的本地元数据量爆增，由此带来的计算复杂度和维护工作量也是难以承受的。

例如，在Ceph的现有机制中，一个OSD平时需要和与其共同承载同一个PG的其他OSD交换信息，以确定各自是否工作正常，是否需要进行维护操作。由于一个OSD上大约承载数百个PG，每个PG内通常有3个OSD，因此，一段时间内，一个OSD大约需要进行数百至数千次OSD信息交换。

然而，如果没有PG的存在，则一个OSD需要和与其共同承载同一个object的其他OSD交换信息。由于每个OSD上承载的object很可能高达数百万个，因此，同样长度的一段时间内，一个OSD大约需要进行的OSD间信息交换将暴涨至数百万乃至数千万次。而这种状态维护成本显然过高。

综上所述，笔者认为，引入PG的好处至少有二：一方面实现了object和OSD之间的动态映射，从而为Ceph的可靠性、自动化等特性的实现留下了空间；另一方面也有效简化了数据的存储组织，大大降低了系统的维护管理开销。理解这一点，对于彻底理解Ceph的对象寻址机制，是十分重要的。

5.2 数据操作流程

此处将首先以file写入过程为例，对数据操作流程进行说明。

为简化说明，便于理解，此处进行若干假定。首先，假定待写入的file较小，无需切分，仅被映射为一个object。其次，假定系统中一个PG被映射到3个OSD上。

基于上述假定，则file写入流程可以被下图表示[3]：

如图所示，当某个client需要向Ceph集群写入一个file时，首先需要在本地完成5.1节中所叙述的寻址流程，将file变为一个object，然后找出存储该object的一组三个OSD。这三个OSD具有各自不同的序号，序号最靠前的那个OSD就是这一组中的Primary OSD，而后两个则依次是Secondary OSD和Tertiary OSD。

找出三个OSD后，client将直接和Primary OSD通信，发起写入操作（步骤1）。Primary OSD收到请求后，分别向Secondary OSD和Tertiary OSD发起写入操作（步骤2、3）。当Secondary OSD和Tertiary OSD各自完成写入操作后，将分别向Primary OSD发送确认信息（步骤4、5）。当Primary OSD确信其他两个OSD的写入完成后，则自己也完成数据写入，并向client确认object写入操作完成（步骤6）。

之所以采用这样的写入流程，本质上是为了保证写入过程中的可靠性，尽可能避免造成数据丢失。同时，由于client只需要向Primary OSD发送数据，因此，在Internet使用场景下的外网带宽和整体访问延迟又得到了一定程度的优化。

当然，这种可靠性机制必然导致较长的延迟，特别是，如果等到所有的OSD都将数据写入磁盘后再向client发送确认信号，则整体延迟可能难以忍受。因此，Ceph可以分两次向client进行确认。当各个OSD都将数据写入内存缓冲区后，就先向client发送一次确认，此时client即可以向下执行。待各个OSD都将数据写入磁盘后，会向client发送一个最终确认信号，此时client可以根据需要删除本地数据。

分析上述流程可以看出，在正常情况下，client可以独立完成OSD寻址操作，而不必依赖于其他系统模块。因此，大量的client可以同时和大量的OSD进行并行操作。同时，如果一个file被切分成多个object，这多个object也可被并行发送至多个OSD。

从OSD的角度来看，由于同一个OSD在不同的PG中的角色不同，因此，其工作压力也可以被尽可能均匀地分担，从而避免单个OSD变成性能瓶颈。

如果需要读取数据，client只需完成同样的寻址过程，并直接和Primary OSD联系。目前的Ceph设计中，被读取的数据仅由Primary OSD提供。但目前也有分散读取压力以提高性能的讨论。

5.3 集群维护

前面的介绍中已经提到，由若干个monitor共同负责整个Ceph集群中所有OSD状态的发现与记录，并且共同形成cluster map的master版本，然后扩散至全体OSD以及client。OSD使用cluster map进行数据的维护，而client使用cluster map进行数据的寻址。

在集群中，各个monitor的功能总体上是一样的，其相互间的关系可以被简单理解为主从备份关系。因此，在下面的讨论中不对各个monitor加以区分。

略显出乎意料的是，monitor并不主动轮询各个OSD的当前状态。正相反，OSD需要向monitor上报状态信息。常见的上报有两种情况：一是新的OSD被加入集群，二是某个OSD发现自身或者其他OSD发生异常。在收到这些上报信息后，monitor将更新cluster map信息并加以扩散。其细节将在下文中加以介绍。

Cluster map的实际内容包括：

（1） Epoch，即版本号。Cluster map的epoch是一个单调递增序列。Epoch越大，则cluster map版本越新。因此，持有不同版本cluster map的OSD或client可以简单地通过比较epoch决定应该遵从谁手中的版本。而monitor手中必定有epoch最大、版本最新的cluster map。当任意两方在通信时发现彼此epoch值不同时，将默认先将cluster map同步至高版本一方的状态，再进行后续操作。

（2）各个OSD的网络地址。

（3）各个OSD的状态。OSD状态的描述分为两个维度：up或者down（表明OSD是否正常工作），in或者out（表明OSD是否在至少一个PG中）。因此，对于任意一个OSD，共有四种可能的状态：

—— Up且in：说明该OSD正常运行，且已经承载至少一个PG的数据。这是一个OSD的标准工作状态；

—— Up且out：说明该OSD正常运行，但并未承载任何PG，其中也没有数据。一个新的OSD刚刚被加入Ceph集群后，便会处于这一状态。而一个出现故障的OSD被修复后，重新加入Ceph集群时，也是处于这一状态；

—— Down且in：说明该OSD发生异常，但仍然承载着至少一个PG，其中仍然存储着数据。这种状态下的OSD刚刚被发现存在异常，可能仍能恢复正常，也可能会彻底无法工作；

—— Down且out：说明该OSD已经彻底发生故障，且已经不再承载任何PG。

（4）CRUSH算法配置参数。表明了Ceph集群的物理层级关系（cluster hierarchy），位置映射规则（placement rules）。

根据cluster map的定义可以看出，其版本变化通常只会由（3）和（4）两项信息的变化触发。而这两者相比，（3）发生变化的概率更高一些。这可以通过下面对OSD工作状态变化过程的介绍加以反映。

一个新的OSD上线后，首先根据配置信息与monitor通信。Monitor将其加入cluster map，并设置为up且out状态，再将最新版本的cluster map发给这个新OSD。

收到monitor发来的cluster map之后，这个新OSD计算出自己所承载的PG（为简化讨论，此处我们假定这个新的OSD开始只承载一个PG），以及和自己承载同一个PG的其他OSD。然后，新OSD将与这些OSD取得联系。如果这个PG目前处于降级状态（即承载该PG的OSD个数少于正常值，如正常应该是3个，此时只有2个或1个。这种情况通常是OSD故障所致），则其他OSD将把这个PG内的所有对象和元数据复制给新OSD。数据复制完成后，新OSD被置为up且in状态。而cluster map内容也将据此更新。这事实上是一个自动化的failure recovery过程。当然，即便没有新的OSD加入，降级的PG也将计算出其他OSD实现failure recovery。

如果该PG目前一切正常，则这个新OSD将替换掉现有OSD中的一个（PG内将重新选出Primary OSD），并承担其数据。在数据复制完成后，新OSD被置为up且in状态，而被替换的OSD将退出该PG（但状态通常仍然为up且in，因为还要承载其他PG）。而cluster map内容也将据此更新。这事实上是一个自动化的数据re-balancing过程。

如果一个OSD发现和自己共同承载一个PG的另一个OSD无法联通，则会将这一情况上报monitor。此外，如果一个OSD deamon发现自身工作状态异常，也将把异常情况主动上报给monitor。在上述情况下，monitor将把出现问题的OSD的状态设为down且in。如果超过某一预订时间期限，该OSD仍然无法恢复正常，则其状态将被设置为down且out。反之，如果该OSD能够恢复正常，则其状态会恢复为up且in。在上述这些状态变化发生之后，monitor都将更新cluster map并进行扩散。这事实上是自动化的failure detection过程。

由之前介绍可以看出，对于一个Ceph集群而言，即便由数千个甚至更多OSD组成，cluster map的数据结构大小也并不惊人。同时，cluster map的状态更新并不会频繁发生。即便如此，Ceph依然对cluster map信息的扩散机制进行了优化，以便减轻相关计算和通信压力。

首先，cluster map信息是以增量形式扩散的。如果任意一次通信的双方发现其epoch不一致，则版本更新的一方将把二者所拥有的cluster map的差异发送给另外一方。

其次，cluster map信息是以异步且lazy的形式扩散的。也即，monitor并不会在每一次cluster map版本更新后都将新版本广播至全体OSD，而是在有OSD向自己上报信息时，将更新回复给对方。类似的，各个OSD也是在和其他OSD通信时，将更新发送给版本低于自己的对方。

基于上述机制，Ceph避免了由于cluster map版本更新而引起的广播风暴。这虽然是一种异步且lazy的机制，但根据Sage论文中的结论，对于一个由n个OSD组成的Ceph集群，任何一次版本更新能够在O(log(n))时间复杂度内扩散到集群中的任何一个OSD上。

一个可能被问到的问题是：既然这是一种异步和lazy的扩散机制，则在版本扩散过程中，系统必定出现各个OSD看到的cluster map不一致的情况，这是否会导致问题？答案是：不会。事实上，如果一个client和它要访问的PG内部的各个OSD看到的cluster map状态一致，则访问操作就可以正确进行。而如果这个client或者PG中的某个OSD和其他几方的cluster map不一致，则根据Ceph的机制设计，这几方将首先同步cluster map至最新状态，并进行必要的数据re-balancing操作，然后即可继续正常访问。

通过上述介绍，我们可以简要了解Ceph究竟是如果基于cluster map机制，并由monitor、OSD和client共同配合完成集群状态的维护与数据访问的。特别的，基于这个机制，事实上可以自然而然的完成自动化的数据备份、数据re-balancing、故障探测和故障恢复，并不需要复杂的特殊设计。这一点确实让人印象深刻。

至此为止，本系列文章已经较为系统地介绍了Ceph的设计思想、逻辑架构、工作原理和主要操作流程。最为技术的部分已经结束。之后应该还有两篇，分别会介绍Ceph与OpenStack的故事，以及笔者个人对于Ceph的一些思考。

k8s rook-ceph MountDevice failed for volume pvc An operation with the given Volume ID already exists 时空无限 Kubernetes kubernetes ceph
https://github.com/rook/rook/issues/4896环境kubeadm搭建的k8s集群，rook-ceph部署的ceph存储，monpod所在宿主机和挂载客户端机器pod所在机器不在一个二层网络里。故障pod挂载不上pvc，describepod信息如下MountDevicefailedforvolumepvcAnoperationwiththegivenVolumeI
CentOS7部署ceph 假面生存储 linux
CEPH简介不管你是想为云平台提供Ceph对象存储和/或Ceph块设备，还是想部署一个Ceph文件系统或者把Ceph作为他用，所有Ceph存储集群的部署都始于部署一个个Ceph节点、网络和Ceph存储集群。Ceph存储集群至少需要一个CephMonitor和两个OSD守护进程。而运行Ceph文件系统客户端时，则必须要有元数据服务器（MetadataServer）。CephOSDs:CephOSD守
Ceph存储架构详解 wespten 虚拟化技术 SDN NFV 云计算技术 OpenStack 数据库存储块存储文件存储对象存储分布式网络存储 ceph 架构
1、Ceph三大存储接口Ceph能够提供企业中三种常见的存储需求：块存储、文件存储和对象存储。正如Ceph官方所定义的一样“Cephuniquelydeliversobject,block,andfilestorageinoneunifiedsystem.”，Ceph在一个统一的存储系统中同时提供了对象存储、块存储和文件存储，即Ceph是一个统一存储，能够将企业企业中的三种存储需求统一汇总到一个存
Ceph概述、准备ceph部署环境、cephadm概述、安装Ceph集群、ceph块存储、存储池、rbd镜像管理、ceph客户端配置 Mick方 ceph
ceph概述ceph可以实现的存储方式：块存储：提供像普通硬盘一样的存储，为使用者提供“硬盘”文件系统存储：类似于NFS的共享方式，为使用者提供共享文件夹对象存储：像百度云盘一样，需要使用单独的客户端Ceph存储集群至少需要一个Ceph监视器、Ceph管理器和CephOSD(对象存储守护程序)。运行Ceph文件系统客户端时，需要Ceph元数据服务器。监视器：CephMonitor（ceph-mon
分布式存储ceph——（4）openstack对接ceph存储后端 WickJohn
一、使用rbd方式提供存储如下数据：（1）image：保存glanc中的image；（2）volume存储：保存cinder的volume；保存创建虚拟机时选择创建新卷；image（3）vms的存储：保存创建虚拟机时不选择创建新卷；image二、实施步骤：（1）客户端也要有cent用户：useraddcent&&echo"123"|passwd--stdincentecho-e'Defaults:
1 初识Ceph DaemonXiao
Ceph是加州大学SantaCruz分校的SageWeil专为博士论文设计的分布式文件系统，支持对象存储、块存储和文件存储。从2004年新建第一个文件夹至今，经历了多次迭代，目前已是分布式存储的首选。1.1Ceph的功能组件图1.1Ceph功能组件的整体架构（1）Ceph核心组件在Ceph存储中，包含了几个重要的核心组件，分别是CephOSD、CephMonitor和CephMDS。一个Ceph的
二 Ceph存储工作原理及实现假面生存储 linux
认识Cephceph是一个能提供文件存储，快存储和对象存储的分布式存储系统。它提供了一个可无限伸缩的Ceph存储集群ceph构架参考官网：https://ceph.io/中文官网：http://docs.ceph.org.cn/ceph架构中文图示RADOS：Ceph的高可靠,高可拓展,高性能,高自动化都是由这一层来提供的,用户数据的存储最终也都是通过这一层来进行存储的。可以说RADOS就是cep
【星海随笔】ceph存储池活跃的煤矿打工人 ceph
ceph部件很多。写到一个文章里太多了。每个分开写，找起来舒服一些PG（PlacementGroup）是一个逻辑概念，用于数据的分布和复制。注：OSD是负责物理存储的进程，它管理存储在磁盘上的数据。cephpoolceph容器创建池cephosdpoolcreate[]在Ceph中，PG（PlacementGroup）是数据复制和分布的基本单位。一个PG包含多个对象，并且这些对象在多个OSD（Ob
Ceph应用王德发666 ceph
ceph补充1Ceph管理1.1资源池的管理上面我们已经完成了Ceph集群的部署，但是我们如何向Ceph中存储数据呢？首先我们需要在Ceph中定义一个Pool资源池。Pool是Ceph中存储Object对象抽象概念。我们可以将其理解为Ceph存储上划分的逻辑分区，Pool由多个PG组成；而PG通过CRUSH算法映射到不同的OSD上；同时Pool可设置副本size大小，默认副本数量为3。一个Pool
k8s k3s云容器性能测试-边端云端性能测试东方狱兔云存储云计算中间件
感谢公司同事的指导测试目标：验证性能监控功能的CPU/memory/网络/存储性能监控是否工作测试思路：CPU/Memory:在MECk3s集群里创建POD，在POD里为集群加压e.g.memtester网络:创建两个pod分别起在两个物理节点上，使用iperf3给网络加压存储:通过MEC创建一块大磁盘,，通过DD或其他工具将磁盘写满(e.g.ceph存储整体约30T，创建一块盘3T，预期存储已用
ceph资源池pool管理沈阳最速传说と疾走の猛虎！贵物刀一郎です缓存
之前我们已经完成了Ceph集群的部署，但是我们如何向Ceph中存储数据呢？首先我们需要在Ceph中定义一个Pool资源池。Pool是Ceph中存储Object对象抽象概念。我们可以将其理解为Ceph存储上划分的逻辑分区，Pool由多个PG组成；而PG通过CRUSH算法映射到不同的OSD上；同时Pool可以设置副本size大小，默认副本数量为3。一个pool资源池应该包含多少PG数？OSD总数官方推
Ceph应用管理 GnaW1nT ceph
目录资源池Pool管理创建CephFS文件系统MDS接口服务端操作客户端操作创建Ceph块存储系统RBD接口创建Ceph对象存储系统RGW接口OSD故障模拟与恢复资源池Pool管理我们如何向Ceph中存储数据呢？首先我们需要在Ceph中定义一个Pool资源池。Pool是Ceph中存储Object对象抽象概念。我们可以将其理解为Ceph存储上划分的逻辑分区，Pool由多个PG组成；而PG通过CRUS
CentOS7部署ceph Long里小花荣 php 服务器网络
CEPH简介不管你是想为云平台提供Ceph对象存储和/或Ceph块设备，还是想部署一个Ceph文件系统或者把Ceph作为他用，所有Ceph存储集群的部署都始于部署一个个Ceph节点、网络和Ceph存储集群。Ceph存储集群至少需要一个CephMonitor和两个OSD守护进程。而运行Ceph文件系统客户端时，则必须要有元数据服务器（MetadataServer）。CephOSDs:CephOSD守
《Ceph源码分析》——第1章，第5节RADOS weixin_34413103 swift
本节书摘来自华章出版社《Ceph源码分析》一书中的第1章，第1.5节RADOS，作者常涛，更多章节内容可以访问云栖社区“华章计算机”公众号查看1.5RADOSRADOS是Ceph存储系统的基石，是一个可扩展的、稳定的、自我管理的、自我修复的对象存储系统，是Ceph存储系统的核心。它完成了一个存储系统的核心功能，包括：Monitor模块为整个存储集群提供全局的配置和系统信息；通过CRUSH算法实现对
ceph存储 object的attr和omap操作大隐隐于野存储专栏 ceph omap
这里有一个ceph的原则，就是所有存储的不管是块设备、对象存储、文件存储最后都转化成了底层的对象object，这个object包含3个元素data，xattr，omap。data是保存对象的数据，xattr是保存对象的扩展属性，每个对象文件都可以设置文件的属性，这个属性是一个key/value值对，但是受到文件系统的限制，key/value对的个数和每个value的大小都进行了限制。如果要设置的对
ceph存储 MoonSoin 云原生 k8s ceph windows 云原生
ceph一.存储分类1.本地存储的文件系统ext3ext4efsntfs2.网络存储nfs网络文件系统hdfs分布式网络文件系统glusterfs分布式网络文件系统3.传统存储(1).DASSAS,SATA,SCSI,IDE,USB,无论是那种接口,都是存储设备驱动下的磁盘设备,而磁盘设备其实就是一种存储,这种存储是直接接入主板总线上去的(2).NASNFS,CIFS,FTP,几乎所有的网线存储设
【ceph】Rados的客户端RadosClient|MonClient|Osdc bdview 运维 java 大数据数据库分布式
本文介绍Ceph客户端方面的某些模块的实现。(摘抄自：https://blog.csdn.net/CSND_PAN/article/details/78707756)客户端主要是实现了接口，让外部可以调用实现访问操作。上层可以通过调用这些接口来访问Ceph存储。Ceph的客户端通过一套名为librados的接口进行集群的访问，这里的访问包括：1)对集群的整体访问2)对象的访问两类接口，这套接口(A
Kubernetes集群部署Rook Ceph实现文件存储，对象存储，块存储大風起雲飛揚 kubernetes ceph 容器云原生块存储对象存储文件存储
Kubernetes集群部署RookCeph部署Ceph集群1.RookCeph介绍RookCeph是Rook项目中的一个存储方案，专门针对Ceph存储系统进行了优化和封装。Ceph是一个高度可扩展的分布式存储系统，提供了对象存储、块存储和文件系统的功能，广泛应用于提供大规模存储解决方案。将Ceph与Rook结合，目的是利用Rook的云原生存储编排能力来简化Ceph在Kubernetes环境中的部
Ceph存储体系架构？ cherry@kerry ceph 架构
Ceph体系架构主要由RADOS和RADOSGW和RBD以及CephFS构成。RADOS（Reliable,AutonomicDistributedObjectStore）是Ceph的底层核心，RADOS本身也是分布式存储系统，CEPH所有的存储功能都是基于RADOS实现。RADOS由两个组件组成：OSD和Monitor。OSD主要提供存储资源，每一个disk、SSD、RAIDgroup或者一个分
ceph块存储学习吃面包的刺猬 ceph 学习
目录ceph的组件和功能ceph的数据读写流程ceph存储池学习ceph的组件和功能CephOSD：功能是存储数据，处理数据的复制、恢复、平衡数据分布，并将一些相关数据提供给CephMonitor,。CephMonitor:功能是维护整个集群健康状态，提供一致性的决策，包含了Monitormap、OSDmap、PG（PlacementGroup）map和CRUSHmap。CephMDS：功能是保存
ProxmoxVE安装及Ceph存储配置夜雨声声到天明 linux java hadoop 大数据 redis
一.系统安装1.选择agree2.磁盘选择好之后就点击next3.国家选择china4设置密码,mail随便写5.命名以及ip设置6.等待安装完了之后又个reboot点击就好,此处不贴图了至此系统安装已完成二.系统配置1.取消订阅sed-i.bak"s/data.status!=='Active'/false/g"/usr/share/javascript/proxmox-widget-toolk
ceph存储服务结构介绍以及速度优化的方法小果运维 ceph ceph 存储分布式优化速度
ceph存储服务结构介绍：Ceph提供了多种存储服务，包括CephFS、RBD、RADOSGateway(RGW)以及通过Librados和RADOS库提供的服务。以下是这些存储服务的简要介绍和结构：CephFS（Ceph文件系统）：结构：CephFS是Ceph提供的分布式文件系统，它基于RADOS（可扩展自动分布式对象存储）构建。CephFS包括MetadataServer（MDS）和OSD组件
API资源对象StorageClass；Ceph存储；搭建Ceph集群；k8s使用ceph dumplings。 Linux相关 ceph kubernetes 容器
API资源对象StorageClass;Ceph存储;搭建Ceph集群;k8s使用cephAPI资源对象StorageClassSC的主要作用在于，自动创建PV，从而实现PVC按需自动绑定PV。下面我们通过创建一个基于NFS的SC来演示SC的作用。要想使用NFS的SC，还需要安装一个NFSprovisioner，provisioner里会定义NFS相关的信息（服务器IP、共享目录等）github地
Ceph存储叫我家驹范存储
存储raid：独立磁盘阵列性能raid0条带卷性能最高的，没有冗余，不具备容错功能raid1100%容错raid5最少三块性能不如raid0容错不如raid1raid0+raid1性能+容错raid时代-->分布式存储（ceph）时代1PB级别用raid很难实现分布式文件系统文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点连接分布式文件系统的设计基于客户机/服务器模式
ceph mds高可用和挂载cephfs 花花遴20102967
CephFSCephFilesystem：ceph的文件系统，主要用于文件共享，类似NFSMDS：metadataservice，元数据服务，CephFS的运行依赖于MDS。MDS的守护进程是ceph-mdsceph-mds作用：ceph-mds进程自身的管理主要用于存储CephFS上存储文件相关的元数据，协调对ceph存储集群的访问部署MDS服务可以部署在mgr，mon节点，在ceph-mgr1
04 Ceph集群部署 MappleZF kubernetes 分布式存储 ceph
kubernetes集群对接Ceph存储文章目录kubernetes集群对接Ceph存储一、Ceph集群部署环境准备1.1配置ceph的yum源1.2安装ceph-deploy1.3安装ceph包1.4创建ceph集群1.4.1创建mon&mgr1.4.2修改集群配置文件（optional）1.4.3部署initialmonitor1.4.4添加2mon1.4.5创建cephkeyring1.4.
部署 Ceph 集群详解 LlinCK Ceph 分布式存储存储 ceph 运维运维开发
文章目录一、部署方式二、服务器准备2.1OSD服务器2.2Mon监视服务器2.3ceph-mgr管理服务器2.4Ceph-deploy部署服务器2.5服务器环境准备2.6拓扑设计三、部署RADOS集群3.1配置yum仓库3.2创建ceph普通用户3.3配置主机名解析3.4配置参数优化3.5在ceph-deploy安装ceph部署工具3.6初始化mon节点3.7初始化ceph存储节点3.8配置mon
CEPH简介 allway2
CEPH简介无论您是要向CloudPlatform提供Ceph对象存储和/或Ceph块设备服务，部署Ceph文件系统还是将Ceph用于其他目的，所有CephStorageCluster部署都首先要设置每个Ceph节点，您的网络和Ceph。存储集群。一个Ceph存储群集至少需要一个Ceph监视器，Ceph管理器和CephOSD（对象存储守护程序）。运行Ceph文件系统客户端时，也需要CephMeta
块存储、文件存储、对象存储的区别 weixin_30682415
参考文章链接：一篇文章让你理解Ceph的三种存储接口(块设备、文件系统、对象存储)：https://blog.csdn.net/wangmingshuaiguo/article/details/92628036Ceph介绍及原理架构分享：https://www.jianshu.com/p/cc3ece850433RedHatCeph存储—《深入理解Ceph架构》：http://ceph.org.c
Red Hat Ceph存储—《深入理解Ceph架构》老马农 ceph
目录第1章概览第2章存储集群架构2.1存储池2.2身份认证2.3PG(s)2.4CRUSH2.5I/O操作2.5.1副本I/O2.5.2纠删码I/O2.6自管理的内部操作2.6.1心跳2.6.2同步2.6.3数据再平衡与恢复2.6.4校验(或擦除)2.7高可用2.7.1数据副本2.7.2Mon集群2.7.3CephX第3章客户端架构3.1本地协议与Librados3.2对象的监视与通知3.3独占锁
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

ceph存储 "ceph集群浅析五"Ceph的工作原理及流程

你可能感兴趣的:(ceph存储)