老马农

Red Hat Ceph存储—《深入理解Ceph架构》

第1章概览

第2章存储集群架构

2.1 存储池

2.2 身份认证

2.3 PG(s)

2.4 CRUSH

2.5 I/O操作

　　2.5.1 副本I/O

　　2.5.2 纠删码I/O

2.6 自管理的内部操作

　　2.6.1 心跳

　　2.6.2 同步

　　2.6.3 数据再平衡与恢复

　　2.6.4 校验(或擦除)

2.7 高可用

　　2.7.1 数据副本

　　2.7.2 Mon集群

　　2.7.3 CephX

第3章客户端架构

3.1 本地协议与Librados

3.2 对象的监视与通知

3.3 独占锁

3.4 对象映射索引

3.5 数据条带化

第4章加密

第1章概览

Red Hat Ceph是一个分布式的数据对象存储，系统设计旨在性能、可靠性和可扩展性上能够提供优秀的存储服务。分布式对象存储是存储的未来，因为它们适应非结构化数据，并且客户端可以同时使用现代及传统的对象接口进行数据存取。例如：

本地语言绑定接口(C/C++, Java, Python)

RESTful 接口(S3/Swift)

块设备接口

文件系统接口

Red Hat Ceph所具备的强大功能可以改变您公司(或组织)的IT基础架构和管理海量数据的能力，特别是对于像RHEL OSP这样的云计算平台。Red Hat Ceph具有非常好的可扩展性——数以千计的客户端可以访问PB级到EB级甚至更多的数据。【译者注：数据的规模可以用KB,MB,GB,TB,PB,EB,YB等依次表示，比如1TB=1024GB】

每一个Ceph部署的核心就是’Ceph存储集群’。集群主要是由2类后台守护进程组成：

Ceph OSD 守护进程：Ceph OSD为Ceph客户端存储数据提供支持。另外，Ceph OSD利用Ceph节点的CPU和内存来执行数据复制、数据再平衡、数据恢复、状态监视以及状态上报等功能。

Ceph 监视器：Ceph监视器使用存储集群的当前状态维护Ceph存储集群映射关系的一份主副本。

Ceph客户端接口与Ceph存储集群进行数据读写上的交互。客户端要与Ceph存储集群通信，则需要具备以下条件：

Ceph配置文件，或者集群名称（通常名称为ceph）与监视器地址

存储池名称

用户名及密钥所在路径

Ceph客户端维护对象ID和存储对象的存储池名称，但它们既不需要维护对象到OSD的索引，也不需要与一个集中的对象索引进行通信来查找数据对象的位置。为了能够存储并获取数据，Ceph客户端首先会访问一台Ceph mon并得到最新的存储集群映射关系，然后Ceph客户端可以通过提供的对象名称与存储池名称，使用集群映射关系和CRUSH算法（可控的、可扩展的、分布式的副本数据放置算法）来计算出提供对象所在的PG和主Ceph OSD，最后，Ceph客户端连接到可执行读写操作的主OSD上进而达到数据的存储与获取。客户端和OSD之间没有中间服务器，中间件或总线。

当一个OSD需要存储数据时（无论客户端是Ceph Block设备，Ceph对象网关或其他接口），从客户端接收数据然后将数据存储为对象。每一个对象相当于文件系统中存放于如磁盘等存储设备上的一个文件。

【注】

一个对象的ID在整个集群中是唯一的，（全局唯一）而不仅仅是本地文件系统中的唯一。

Ceph OSD将所有数据作为对象存储在扁平结构的命名空间中（例如，没有目录层次结构）。对象在集群范围内具有唯一的标识、二进制数据、以及由一组名称/值的键值对组成的元数据。而这些语义完全取决于Ceph的客户端。例如，Ceph块设备将块设备镜像映射到集群中存储的一系列对象上。

【注】

由唯一ID、数据、名称/值构成键值对的元数据组成的对象可以表示结构化和非结构化数据，以及前沿新的数据存储接口或者原始老旧的数据存储接口。

第2章存储集群架构

为了有效的实现无限可扩展性、高可用性以及服务性能，Ceph存储集群可以包含大量的Ceph节点。每个节点利用商业硬件以及智能的Ceph守护进程实现彼此之间的通信：

存储和检索数据

数据复制

监控并报告集群运行状况（心跳）

动态的重新分布数据（回填）

确保数据完整性（清理及校验）

失败恢复

对于读写数据的Ceph客户端接口来说，Ceph存储集群看起来就像一个存储数据的简单存储池。然而，存储集群背后却是对客户端接口完全透明的方式并且会执行许多复杂的操作。Ceph客户端和Ceph OSD都使用CRUSH算法（可控的、可扩展的、分布式的副本数据放置算法），后面的章节会详细讲解CRUSH算法。

2.1 存储池

Ceph存储集群通过‘存储池’这一逻辑划分的概念对数据对象进行存储。可以为特定类型的数据创建存储池，比如块设备、对象网关，亦或仅仅是为了将一组用户与另一组用户分开。

从Ceph客户端来看，存储集群非常简单。当有Ceph客户端想读写数据时（例如，会调用I/O上下文），客户端总是会连接到存储集群中的一个存储池上。客户端指定存储池名称、用户以及密钥，所以存储池会充当逻辑划分的角色，这一角色使得对数据对象访问进行控制。

实际上，存储池不只是存储对象数据的逻辑划分，它还扮演着Ceph存储集群是如何分布及存储数据的角色，当然了，这些复杂的操作对客户端来说也是透明的。Ceph存储池定义了：

存储池类型：在以前的老版本中，一个存储池只是简单的维护对象的多个深拷贝。而现在，Ceph能够维护一个对象的多个副本，或者能够使用纠删码。正因为保证数据持久化的2种方法（副本方式与纠删码方式）存在差异，所以Ceph 支持存储池类型。存储池类型对于客户端也是透明的。

PG：在EB规模的存储集群中，一个Ceph存储池可能会存储数百万或更多的数据对象。因为Ceph必须处理数据持久化（副本或纠删码数据块）、清理校验、复制、重新再平衡以及数据恢复，因此在每个对象基础上的管理就会出现扩展性和性能上的瓶颈。Ceph通过散列存储池到PG的方式来解决这个瓶颈问题。CRUSH则分配每一个对象到指定的PG中，每个PG再到一组OSD中。

CRUSH规则集：Ceph中，高可用、持久化能力以及性能是非常重要的。CRUSH算法计算用于存储对象的PG，同时也用于计算出PG的OSD Acting Set【译者注：acting set即为活跃的osd集合，集合中第一个编号的osd即为主primary OSD】。 CRUSH也扮演着其他重要角色：即CRUSH可以识别故障域和性能域（例如，存储介质类型、nodes, racks, rows等等）。CRUSH使得客户端可以跨故障域（rooms, racks, rows等等）完成数据的写入以便当节点出现粒度比较大的问题时（例如，rack出问题）集群仍然可以以降级的状态提供服务直至集群状态恢复。CRUSH也可使客户端能够将数据写入特定类型的硬件中（性能域），例如SSD或具有SSD日志的硬盘驱动器，亦或具有与数据驱动相同驱动的日志硬盘驱动器。对于存储池来说，CRUSH规则集决定了故障域以及性能域。

数据持久化方式:在EB规模的存储集群中，硬件故障因为可预期所以一般并不算异常。当使用数据对象表示较大粒度的存储接口时（例如块设备），对于这种大粒度存储接口来说，对象的丢失（不管是1个还是多个）都可能破坏数据的完整性进而导致数据不可用。因此，数据丢失是不可容忍也是不能接受的。Ceph提供了2种持久化方式：第1种为副本存储池方式，这种方式将多份相同内容的数据对象通过CRUSH进行故障域的隔离来存储到不同的节点上（比如将对象分别存储在硬件相互隔离的不同节点上），这样即使硬件问题也不会对数据的持久化能力产生什么大的影响；第2种为纠删码存储池方式，这种方式将对象存储到K+M 个块中，其中K表示数据块,M 表示编码块。K+M的和表示总的OSD数量，可以支持最多同时有M 个OSD出现问题，数据也不会丢失。

从客户端角度来看，Ceph对外呈现显得优雅而简单。客户端只需要读取或写入数据到存储池。但是，存储池在数据持久化，性能以及高可用方面发挥着重要的作用。

2.2 身份认证

为了识别用户并防止中间人攻击，Ceph提供了cephx认证系统来验证用户和守护进程。

【注】

cephx协议并不处理传输中的数据加密（例如SSL/TLS）也不处理静态数据加密。

Cephx使用共享的密钥进行认证，这也意味着客户端和mon都会有客户端密钥副本。认证协议也就是双方都能够向对方证明他们拥有密钥的副本，而不会实际泄露密钥。这种方式提供了相互认证的机制，意味着集群确信用户拥有密钥以及用户确信集群拥有密钥的副本。

2.3 PG(s)

Ceph将存储池分片处理成在集群中均匀且伪随机分布的PG。CRUSH算法将每个对象分配到一个指定的PG中，并且将每个PG分配到对应的Acting Set集合中—也就是在Ceph客户端和存储对象副本的OSD之间创建一个间接层。如果Ceph客户端直接就能知道对象存放到具体的哪个OSD中的话，那么Ceph客户端和Ceph OSD之间耦合性就太强了。相反的，CRUSH算法会动态的将对象分配到PG中，然后再将PG分配到一组Ceph的OSD中。有了这个间接层之后，当新Ceph OSD加入或者Ceph OSD出现问题时，Ceph存储集群就可以动态的进行数据再平衡。通过在数百到数千个放置组的环境中管理数百万个对象，Ceph存储集群可以高效地增长和收缩以及从故障中恢复。

下面的图描述了CRUSH是如何将对象分配到PG中，以及PG分配到OSD中的。

相对整体集群规模来说，如果存储池设置的PG较少，那么在每个PG上Ceph将会存储大量的数据；如果存储池设置的PG过大，那么Ceph OSD将会消耗更多的CPU与内存，不管哪一种情况都不会有较好的处理性能。所以，为每个存储池设置适当数量的PG，以及分配给集群中每个OSD的PG数量的上限对Ceph性能至关重要。

【译者注】

PG是对象的集合，在同一个集合里的对象放置规则都一样（比如同一集合中的对象统一都存储到osd.1, osd.5. osd.8这几台机器中）；同时，一个对象只能属于一个PG，而一个PG又对应于所放置的OSD列表；另外就是每个OSD上一般会分布很多个PG。

2.4 CRUSH

Ceph会将CRUSH规则集分配给存储池。当Ceph客户端存储或检索存储池中的数据时，Ceph会自动识别CRUSH规则集、以及存储和检索数据这一规则中的顶级bucket。当Ceph处理CRUSH规则时，它会识别出包含某个PG的主OSD，这样就可以使客户端直接与主OSD进行连接进行数据的读写。

为了将PG映射到OSD上，CRUSH 映射关系定义了bucket类型的层级列表（例如在CRUSH映射关系中的types以下部分）。创建bucket层级结构的目的是通过其故障域和(或)性能域（例如驱动器类型、hosts、chassis、racks、pdu、pods、rows、rooms、data centers）来隔离叶子节点。

除了代表OSD的叶子节点之外，层次结构的其余部分可以是任意的，如果默认类型不符合你的要求，可以根据自己的需要来定义它。 CRUSH支持一个有向无环图的拓扑结构，它可以用来模拟你的Ceph OSD节点在层级结构中的分布情况。因此，可以在单个CRUSH映射关系中支持具有多个Root节点的多个层级结构。例如，可以创建SSD的层级结构、使用SSD日志的硬盘层级结构等等。

【译者注】

CRUSH的目的很明确，就是一个PG如何与OSD建立起对应的关系

2.5 I/O操作

Ceph客户端从Ceph mon获取‘集群映射关系Cluster map’，然后对存储池中的对象执行I/O操作。对于Ceph如何将数据存于目标中来说，存储池的CRUSH规则集和PG数的设置起主要的作用。拥有最新的集群映射关系，客户端就会知道集群中所有的mon和OSD的信息。但是，客户端并不知道对象具体的存储位置（不知道对象具体存在哪个OSD上）。

对于客户端来说，需要的输入参数仅仅是对象ID和存储池名称。逻辑上也比较简单：Ceph将数据存储在指定名称的存储池中（例如存储池名称为livepool）。当客户端想要存储一个对象时（比如对象名叫 “john”, “paul”,”george”, “ringo”等），客户端则会以对象名、根据对象名信息计算的hash码、存储池中的PG数、以及存储池名称这些信息作为输入参数，然后CRUSH（可控的、可扩展的、分布式的副本数据放置算法）就会计算出PG的ID（PG_ID）以及PG对应的主OSD信息（译者注：根据设置的副本数（比如3副本）则计算出的列表如[osd.1, osd.3, osd.8]，这里的第一个osd.1就是主OSD）。

Ceph客户端经过以下步骤来计算出PG ID信息。

1. 客户端输入存储池ID以及对象ID（例如，存储池pool=”liverpool”, 对象ID=”john”）。

2. CRUSH获取对象ID后对其进行HASH编码。

3. CRUSH根据上一步的HASH编码与PG总数求模后得到PG的ID。（译者注：例如HASH编码后为186，而PG总数为128，则求模得58，所以这个对象会存储在PG_58中；另外这也可以看出PG数对存储的影响，因为涉及到对象与PG的映射关系，所以轻易不要调整PG数）

4. CRUSH计算对应PG ID的主OSD。

5. 客户端根据存储池名称得到存储池ID（例如”liverpool”=4）。

6. 客户端将PG ID与存储池ID拼接（例如 4.58）

7. 客户端直接与Activtin Set集合中的主OSD通信，来执行对象的IO操作（例如，写入、读取、删除等）。

【译者注】

pool的名称与ID（ID=4, 存储池名称为default.rgw.log）

Ceph存储集群的拓扑和状态在会话（I/O上下文）期间相对比较稳定。与客户端在每个读/写操作的会话上查询存储相比，Ceph客户端计算对象存储位置的速度要更快些。CRUSH算法不但能使客户端可以计算出对象应当存储的位置，同时也使得客户端可以和Acting Set集合中的主OSD直接交互来实现对象的存储与检索。

由于EB规模的存储集群一般会有数千个OSD存储节点，所以客户端与Ceph OSD之间的网络交互并不是什么大的问题。即使集群状态发生变化，客户端也可以通过Ceph mon查询到更新的集群映射关系。

2.5.1 副本I/O

和Ceph客户端一样， Ceph OSD也是通过与Ceph mon交互来获取到最新的集群映射关系。Ceph OSD也使用CRUSH算法，但是用这个算法是用来计算对象的副本应该存储在什么位置（译者注：客户端用CRUSH是用来找主OSD以及计算出Acting Set列表，而OSD用CRUSH则是主OSD定位对应的副本是谁）。在典型的写操作场景下，Ceph客户端使用CRUSH算法计算对象所在的PG ID以及Acting Set列表中的主OSD，当客户端将对象写到主OSD时，主OSD会查看这个对象应该存储的副本个数（例如，osd_pool_default_size = n），然后主OSD根据对象ID、存储池名称、集群映射关系这些信息再根据CRUSH算法来计算出Acting Set列表中的从属OSD（译者注：除列表中第一个OSD外，其它的都是从属OSD）。主OSD将对象写入从属OSD中，当主OSD收到从属OSD回复的ACK确认并且主OSD自身也完成了写操作后，主OSD才会给Ceph客户端回复真正写入成功的ACK确认。

通过有代表性的Ceph客户端（主OSD）执行数据复制的能力，Ceph OSD守护进程相对的减轻了Ceph客户端的这一职责，同时确保了数据高可用以及安全性。

【注】

比较典型的就是主OSD和从属OSD在部署时会将故障域进行隔离（比如不同时配置到一个rack上或一个row上，亦或是同一个node上）。CRUSH计算从属OSD的ID也会考虑故障域信息。

2.5.2 纠删码I/O

纠删码实际上是一种前向错误纠正编码，这种编码会将K个数据块通过补充N个编码块的方式，将原始数据扩展为更长的消息编码，以便当N个数据块出现问题时数据依旧不会丢失。随着时间的推移，开发了不同的纠删编码算法，其中最早和最常用的算法之一是Reed-Solomon算法。可以通过等式 N = K + M 对这一算法进行理解，等式中 K 表示数据块的个数，M 代表了编码块的个数，而 N 则是在纠删编码过程中创建的总的块的个数。值 M 可以简化为 N - K ，也就是说在计算原始的K个数据块时 N - K 个冗余块也一并需要计算出来。这种方法保证只要N个块中的K有效就可以访问所有原始数据。换句话说，即使有 N - K 个块出现了故障，对外提供服务的数据仍旧是没有问题的。例如配置（N=16，K=10）或者纠删编码 10/16，10个基本的块（K）中会有额外补充的6个块( M = K-N, 如16-10 = 6 ) 。这16个块（N）可能对应16个OSD。即使有6个OSD出现问题，原始文件也可以从这10个已经验证的数据块中重建恢复。这就意味着不会有任何的数据丢失，因此纠删码也具备比较高的容错能力。

和副本存储池类似，纠删码存储池也是由up set列表中的主OSD来接收所有的写操作。在副本存储池中，Ceph对PG中的每个对象在从属OSD上都会有一份一样的数据对象；而对于纠删码存储池来说，可能略有不同。每个纠删码存储池都会以 K+M 个块来存储每一个对象。对象(的数据内容)会被切分成 K 个数据块以及 M 个编码块。纠删码存储池创建时也需要配置成 K+M 的大小(size)以便每个块都可以存储到Activtin Set列表中的每个OSD上。对象的属性存储这些块的等级。主OSD负责数据划分到 K+M 个块的纠删编码以及将这些编码信息发送到其它的OSD上。同时主OSD也会维护PG的权威日志（译者注：权威日志实际是一种进度控制机制，尤其当某些节点出现问题时，可以根据权威日志进行数据的恢复）。

例如，使用5个OSD (K + M = 5) 创建纠删码存储池，支持其中2个 (M = 2) 块的数据丢失。

将对象写入纠删码存储池中的时候（比如对象名叫 NYAN , 内容为 ABCDEFGHI )纠删码计算函数会将对象的内容按长度平分成3个块（即，分成K个数据块）,第一个块内容为 ABC ，第二个块内容为DEF ，第三个块内容为 GHI ，如果块内长度不是 K 的倍数，那么平分后最后的一块所剩余的空位就会进行填充以使其长度为K（比如内容串为ABCDEFGHIJ, 则3个数据块内容依次为ABCD, EFGH, IJ..，最后的IJ长度不够就会填充）；除了将内容按K切分外，纠删码函数也要创建另外2个编码块，即第4个块内容为 XYZ ,第5个块内容为 GQC 。这里的每一个块内容都对应Action Set列表中的一个OSD。这些块有相同的名称都叫 NYAN , 但块存在不同的OSD中。除了名称之外，数据块创建的对应序号需要存储在对象的属性中( shard_t ) 。包括 ABC 内容的第一个块存储在 OSD5 上，而包括 YXY 内容的第4个块则存储在 OSD3 上。

（译者注：注意上图中，5个块的名称都叫NYAN，每个块的内容为K个均分的内容，同时被切分后的每个块都有一个唯一序号shard, 每个块都对应不同的OSD，即块按HOST进行故障域隔离）

【译者注】

比如以下配置及图例中，K=4， M=2 并且以rack作为故障域）

$ ceph osd erasure-code-profile set myprofile \

　k=4 \

　m=2 \

　crush-failure-domain=rack //没有2个块存储在同一个rack上

$ ceph osd pool create ecpool 12 12 erasure myprofile

$ echo ABCDEFGHIJKL | rados —pool ecpool put NYAN -

$ rados —pool ecpool get NYAN -

ABCDEFGHIJKL

如果从纠删码存储池中读取对象 NYAN，解码函数需要读取3个块：包括ABC 的第一个块，包括GHI 的第3个块以及包括YXY 的第4个块；然后重构出对象的内容ABCDEFGHI 。解码函数来通知第2个块和第5个块缺失（一般称为‘纠删或擦写’）。可在这2个缺失的块中，第5个块缺失可能因为OSD4 状态是OUT而读不到，只要读到3个块可读的话，解码函数就可以被调用：因为OSD2对应的是最慢的块，所以读取时排除掉不在考虑之内。

将数据拆分成不同的块是独立于对象放置规则的。CRUSH规则集和纠删码存储池配置决定了块在OSD上的放置。例如，在配置中如果使用lrc（局部可修复编码）插件来创建额外块的话，那么恢复数据的话则需要更少的OSD。例如lrc配置信息：K=4, M=2, L=3 中，使用jerasure插件库来创建6个块（K+M ），但局部值(L=3 )则要求需要再创建2个局部块。额外创建的局部块个数可以通过(K+M)/L 来计算得出。如果0号块的OSD出现问题，那么这个块的数据可以通过块1，块2以及第一个局部块进行恢复。在这个例子中，恢复也只需要3个块而不是5个块。关于CRUSH、纠删码配置、以及插件的内容，可以参考存储策略指南。

【注】

纠删码存储池的对象映射是失效的，不能设置为有效状态。关于对象映射的更多内容，可以参考对象映射章节。

【注】

纠删码存储池目前公支持RADOS网关（RGW），对于RADOS的块设备(RBD)目前还不支持。

2.6 自管理的内部操作

Ceph集群也会自动的执行一些自身状态相关的监控与管理工作。例如，Ceph的OSD可以检查集群的健康状态并将结果上报给后端的Ceph mon；再比如，通过CRUSH算法将对象映射到PG上，再将PG映射到具体的OSD上；同时，Ceph OSD也通过CRUSH算法对OSD的故障等问题进行自动的数据再平衡以及数据恢复。以下部分我们将介绍Ceph执行的一些操作。

2.6.1 心跳

Ceph OSD加入到集群中并且将其状态上报到Ceph mon。在底层实现上，Ceph OSD的状态就是up或为down ,这一状态反映的就是OSD是否运行并为Ceph客户端的请求提供服务。如果Ceph OSD在集群中的状态是donw且为in ，那么表明此OSD是有问题不能提供服务的；如果Ceph OSD并没有运行（比如服务crash掉了），那么这个Ceph OSD也不能上报给Ceph mon其自身状态为down 。Ceph mon会定期的ping 这些OSD以此来确信这些OSD是否仍在运行。当然了，Ceph也提供了更多的机制，比如使Ceph OSD可以评判与之关联的OSD是否状态为down （译者注：比如在副本OSD间相互ping状态的关系，没有副本关系的话，OSD之间不会建立连接亦即更不会ping彼此），以及更新Ceph的集群映射关系并上报给Ceph mon。由于OSD分担了部分工作，所以对于Ceph mon来说，工作内容相对要轻量很多。

2.6.2 同步

Ceph OSD守护进程执行‘同步’，这里的同步指的是将存储放置组（PG）的所有OSD中对象状态（包括元数据信息）达到一致的过程。同步问题通常都会自行解决无需人为的干预。

【注】

即使Ceph mon对于OSD存储PG的状态达成一致，这也并不意味着PG拥有最新的内容。

当Ceph存储PG到OSD的acting set列表中的时候，会将它们分别标记为主，从等等。惯例上，Acting set列表中的第一个是主OSD，主OSD也负责协调组内的PG进行同步操作，这里的主OSD也是唯一接收客户端的写入对象到给定PG请求的OSD。

当一系列的OSD负责一个放置组PG，则这一系列的OSD，我们称它们为一个Acting Set。Acting Set可能指的是当前负责放置组的Ceph OSD守护进程或者某个有效期内，负责特定放置组的OSD守护进程。

Acting Set中的部分Ceph OSD可能不会一直是up 状态。当Acting Set中的OSD状态是up 状态时，那么这个OSD也是Up Set中的成员。相对Acting Set来说，Up Set是非常重要的，因为当OSD失败时，Ceph可以将PG重新映射到其他Ceph OSD上。

【注】

对于PG包括osd.25, osd.32, osd.61 的Acting Set列表，列表中第一个OSD即osd.25 是主OSD。哪果主OSD失败，那么从属OSD 即osd.32 就会成为新的主OSD，同时原主osd.25 也会从Up Set列表中删除。

2.6.3 数据再平衡与恢复

当我们向Ceph存储集群中新增加Ceph OSD的时候，集群映射关系随着新增加的OSD同时也会更新。因此，由于这一变化改变了计算CRUSH时提供的输入参数，所以也就间接的改变了对象的放置位置。CRUSH算法是伪随机的，但会均匀的放置数据。所以集群中新增加一台OSD时，也只会有一小部分的数据发生迁移。一般迁移的数据量是集群总数据量与OSD数量的比值（例如，在有50个OSD的集群中，当新增加一台OSD时也只有1/50 或者2%的数据受到迁移影响）。

下面的图示描述了部分的PG（非全部PG）从已有的OSD 1，OSD 2上迁移到新OSD 3上达到数据再平衡的过程（因为对大型集群的影响要小得多，所以过程相对粗略一些）。即使在再平衡过程中，CRUSH也是稳定的。大部分的PG仍然保留着原始的配置，由于新增加了OSD，所以每个OSD都会增加一些（可用的）容量，因此在重新平衡完成后，新的OSD上也不会出现负载峰值的情况。

2.6.4 校验（或擦除）

作为Ceph中维护数据一致性以及整洁性的部分，Ceph OSD 守护进程也可以完成PG内的对象清理工作，意思就是Ceph OSD守护进程比较副本间PG内的对象元数据信息。校验/擦除（通常是天级别的调度策略）捕获异常或文件系统的一些错误。同时，Ceph OSD守护进程也可以进行更深层次的比较（对象数据本身的按位比较），而这种深层次的比较（可以发现驱动盘上坏的扇区）一般是周级别的调度策略。

2.7 高可用

除了通过CRUSH算法实现高可扩展性外，Ceph也需要支持高可用性。这就意味着即使集群处于降级状态或某个Ceph mon出现问题情况下（译者注：这里出问题的mon个数不能超过mon总数的一半，否则集群会阻塞所有操作），客户端仍旧可以进行数据的读写。

2.7.1 数据副本

在副本存储池中，Ceph需要对象的多个副本在降级状态下运行。理想情况下，即使Acting Set中的一个OSD出现问题，Ceph存储集群也可以支持客户端读写操作。基于此，Ceph默认也是一个对象保持3副本的设置，写操作则要求至少2个副本为clean状态（译者注：具体设置多少个副本为clena才支持写操作，这要依赖于设置存储池时的配置，例如，在ceph osd dump | grep pool输出中的replicated size 3 min_size 2，这里的2就是至少有多少个副本为clean，在这个存储池上的写操作才被支持，而这个值是可以再更新的）。如果有2个OSD出现问题，Ceph仍然可以保留数据不会丢失，但是就不能进行写操作了。

在纠删码存储池中，Ceph需要多个OSD来存储对象分割后的块以便在降级状态仍然可以操作。与副本存储池类似，理想情况下，在降级状态下纠删码存储池也支持Ceph客户端进行读写操作。基于此，我们则建议设置K+M=5 通过5个OSD来存储块信息，同时设置M=2 以保证即使2个OSD出现问题也可以根据剩余的OSD进行数据的恢复重建。

2.7.2 Mon集群

在客户端进行数据读写之前，客户端必须从Ceph mon端获取最新的集群映射关系。一个Ceph存储集群可以与一台mon进行通信发起操作，然而这就存在单点问题（例如这个单点的mon出现问题，Ceph客户端则不能进行数据的读写）。

为了提供服务的可靠性以及容错性，Ceph支持mon组成集群方式提供服务。在mon集群中，延迟和其他的故障可能导致一个或多个mon落后于集群当前的状态。基于此，Ceph必须在集群状态的各种mon实例之间达成一致。对于集群当前的状态，Ceph也总是使用大多数的mon(例如,1,2:3, 3:5, 4:6等等)或者Paxos算法进行一致性确认。同时，mon集群内机器间也需要NTP时间服务防止时钟漂移。

2.7.3 CephX

cephx 认证协议的操作方式与Kerberos类似。

用户/角色调用Ceph客户端来与mon交互，不像Kerberos，每一个monitor都可以对用户进行认证并分发密钥，所以使用cephx 不存在单点问题或瓶颈。mon返回类似于Kerberos的包含会话密钥信息的结构以便调用方可以根据密钥对接Ceph的所提供的服务。这里的会话密钥本身使用了用户的永久密钥进行加密，因此只有用户自已才可以从Ceph mon请求服务。客户端使用会话密钥从monitor处获取想要的服务，mon则通过认证使得客户端有权限对接OSD来完成数据交互。Ceph mon和OSD共享一个秘钥，因此客户端可以使用mon提供的凭证与群集中的任何OSD或元数据服务器进行交互。和Kerberos类似，cephx 凭证也有超时时间，所以并不能使用一个超时的凭证偷偷的对集群进行攻击。只要用户的密钥在到期前不泄露的话，这种身份认证的形式可以防止攻击者以其他用户的身份创建伪造消息或更改其他用户的合法消息访问通信介质。

如果使用cephx 认证，管理员必须先设置用户。在下面的图示中，client.admin 用户通过命令行执行ceph auth get-or-create-key 命令，创建用户以及密钥。Ceph的auth 子系统生成用户名以及密钥，并将其存于mon中以及将用户名与密钥返回给调用命令的client.admin 用户。这也就意味着客户端与mon共享同一个密钥。

【注】

client.admin 用户必须以安全的方式向用户提供用户ID和密钥。

第3章客户端架构

Ceph客户端在数据存储的接口方面还是存在比较大的差异的。Ceph的块设备提供了可以像挂载本地物理驱动盘一样的块存储，而Ceph对象网关则通过用户的管理提供了兼容S3与Swift的Restful对象存储接口。而对于这些接口，都是使用的RADOS（可靠且自动分布式的对象存储）协议与Ceph存储集群进行的交互；同时这些接口也都有一些相同的基本前提：

Ceph配置文件，或集群名称（通常为ceph ）与mon地址

存储池名称

用户名以及密钥的路径

Ceph客户倾向于遵循一些类似的模式，例如对象的监视-通知以及条带化。下面大概介绍下Ceph客户端里使用的RADOS,librados以及常见的模式。

3.1 本地协议与Librados

现代的应用需要有异步通信能力简单的对象存储接口，Ceph存储集群就有这个能力并提供简单的接口。此接口提供了对集群直接、并行的对象存取。

存储池操作

快照

读/写对象

创建或删除

整个对象或字节范围

追加或截断

创建/设置/获取/删除 XATTRs

创建/设置/获取/删除 K/V对

复合操作和双重ack语义

3.2 对象的监视与通知

Ceph客户端可以为对象注册持久的关注点，并保持与主OSD的会话开启。客户端可以向所有观察者发送通知消息和数据，并在观察者收到通知时接收通知。这使得客户端可以使用任何对象作为同步/通信的通道。

3.3 独占锁

独占锁提供一种功能特性：任一客户端可以对RBD中资源进行’排它的’锁定（如果有多个终端对同一RBD资源进行操作时）。这有助于解决当有多个客户端尝试写入同一对象时发生冲突的场景。此功能基于前一节中介绍的对象的监视与通知。因此，在写入时，如果一个客户端首先在对象上建立独占锁，那么其它的客户端如果想写入数据的话就需要在写入前先检查是否在对象上已经放置了独占锁。

设置了这一特性的话，同一时刻只有一个客户端能够对RBD资源进行修改，尤其像快照创建与删除这种改变RBD内部结构的时候。这一特性对于失败的客户端也起到了一些保护的作用，例如，虚拟机没有响应了，然后在其他地方使用同一块磁盘启动它的副本，那么这个无响应的虚拟机将在Ceph中被列入黑名单，并且无法破坏新的虚拟机中数据。

强制的独占锁功能特性默认是不开启的，但是可以在创建镜象时显示的通过加入—image-features参数来开启这一特性，例如：

rbd -p mypool create myimage —size 102400 —image-features 5

这里的5是1与4的和值，其中1使得分层特性生效，4使得独占锁特性生效。所以执行上面这个命令后会创建100GB的RBD镜象，同时既支持分层特性也支持独占锁特性。

强制的独占锁也是后面提到的对象索引映射使用的前提。如果没有开启强制的独占锁，那么对象索引映射也不会生效。

独占锁也为mirror这块内容做了不少的工作。

3.4 对象映射索引

对象映射索引也是一种功能特性，可以在客户端写入rbd映像时跟踪RADOS对象是否已经存在了。当有写入操作时，写操作被转义为RADOS对象中的偏移，如果对象映射索引功能开启那么对于存在的RADOS对象就会被跟踪到。所以当对象已经存在时我们就可以提前知道。对象映射索引保存在librbd客户端机器内存中，所以对于不存在的对象就省去了再去查询OSD的这一步开销。

对象映射索引对于一些操作还是比较有利的，即：

调整大小

导出操作

复制操作

扁平化

删除

读取

缩小操作就像是对尾部对象的部分删除。

导出操作知道哪些对象被RADOS请求。

复制操作知道哪些对象存在并需要复制。它不需要遍历潜在的数百或数千个可能的对象。

扁平化操作将所有父对象拷贝到克隆中，以便可以将克隆与父项分离，即可以删除从子克隆到父快照的引用。因此，不是对所有潜在的对象，仅是对存在的对象进行复制。

删除操作仅删除镜象中存在的对象。

读取操作对于不存在的对象会直接跳过。

因此，对于调整大小（仅缩小）、导出操作、复制操作、扁平化和删除等操作，这些操作需要针对所有可能受到影响的RADOS对象（无论它们是否存在）发布操作。如果启用对象映射索引特性的话，对象若不存在就不需要发布操作了。

例如，我们有一个RBD镜象，有1TB的数据且比较稀疏，可能拥有数百或数千个RADOS对象。如果不开启对象映射索引的话，执行删除操作则需要对每一个潜在的目标对象发布删除对象操作；但是如果开启了这一特性，那么只需要对真正存在的对象发布一个删除对象的操作就可以了。

对象映射索引对于克隆是比较有价值的（自身没有实际对象但可以从父对象那获取）。当有一个克隆的镜象时，克隆初始并没有什么对象，所有对克隆对象的读操作都会重定向到父对象中。开启对象映射索引可以改善读操作，首先对于克隆对象向OSD发布读操作，如果读失败了，那么再向克隆对象的父对象发布读操作。读操作会直接忽略掉根本不存在的对象。

对象映射索引默认是不开启的，但是可以在创建镜象时显示的通过加入—image-features参数来开启这一特性。同时独占锁也是对象映射索引功能特性的使用前提。如果不开启独占锁功能特性则对象映射索引也不会生效。创建镜象时如果开启对象映射索引，可以执行：

rbd -p mypool create myimage —size 102400 —image-features 13

这里的13是1、4、8的和值，其中1 使得分层特性生效,4 使得独占锁特性生效,8 使得对象映射索引特性生效。所以执行上面这个命令后会创建100GB的RBD镜象，同时既支持分层特性也支持独占锁特性和对象映射索引特性。

3.5 数据条带化

存储设备一般在吞吐量上都有限制，这就会影响到服务的性能和伸缩性。因此，存储系统一般会提供条带化方案来提高性能与吞吐能力（即，将有序的信息分割成多个区段后存储到多个设备上）。关于条带化最常见的就是RAID（译者注：磁盘阵列RAID，意为将多个磁盘组合成一个容量更大的磁盘组，利用单块盘存储的叠加效果来提升整个磁盘存储冗余能力。采用这种方案后，将存储的数据切割成许多个区段数据，然后分别存放在各个硬盘上）。与Ceph中条带化最相似的RAID类型就是RAID 0或’条带化卷’。Ceph的条带化提供了RAID 0级的吞吐能力以及n路RAID镜像的可靠性和快速的数据恢复能力。

Ceph提供3种客户端对接类型：Ceph块设备(CephRBD)、Ceph文件系统(CephFS)、Ceph对象存储(一般是Ceph RGW)。数据存储方面，Ceph客户端会将用户提交的数据转换为Ceph存储集群内部的格式存储到集群中，在提供给用户的接口上也是按照这3种类型完成的：块设备镜像、对象存储的RESTful接口、以及CephFS系统目录。

【提示】

存储在Ceph存储集群中的对象自身并没有条带化。 Ceph对象存储，Ceph块设备和Ceph文件系统将客户端数据条带化后存储在Ceph集群内的多个对象中。如果想充分发挥并行能力，使用librados库直接将数据写入到Ceph存储集群的Ceph客户端必须执行条带化（以及并行I/O）。

最简单的Ceph条带化格式即为条带数量为1的单个对象。 Ceph客户端将条带单元块写入到Ceph存储集群对象中，直到对象达到其最大容量，然后再为额外的条带化数据创建另一个对象。对于较小的块设备镜像、S3或Swift对象来说，这种简单的条带化方式可能就完全能够满足需求，然而，这种简单的形式并没有最大限度的利用Ceph在整个放置组中分布数据的能力，因此并不能有较大的性能提升。下面图示描述了这种最简单的条带化方式:

（译者注：例如每一个对象存储上限是4M，同时每一个单元块占1M，这时我们有一个8M大小的文件想进行存储，这样前4M存储在对象0中，后4M就创建另一个对象1来存储）

如果可以预知存储需求为较大的图像，或较大的S3对象或Swift对象（例如视频），若想有较大的读写性能提升，则可以通过将客户端数据条带化分割存储到多个对象上。如果客户端将条带单元块并行的写入到对应对象中，由于对象映射到不同的PG上进而会映射到不同的OSD上，每个写操作都以最大化速并行进行，那么写性能的提升是相当明显的。如果完全只对一块磁盘写入操作的话，受限就比较多：磁头的移动（例如每次6ms的寻址时间开销）、设备的带宽（例如每秒最大100MB）。通过扩展多个对象上的写入（映射到不同的PG以及OSD上），Ceph不但可以降低每个驱动盘的寻址时间，同时也可以合并多个驱动盘的吞吐能力以获取更快的读写速度。

【注】

条带化独立于对象的副本。由于CRUSH跨OSD复制对象，所以条带化也会自动完成复制。

在下面的图示中，客户端跨越对象集(对象集 1)来获取条带数据。对象集中由4个对象组成，第1个条带单元块是存储在object 0中的stripe unit 0，第4个条带单元块是存储在 object 3中的stripe unit 3。当写完第4个单无块时，客户端会判断对象集是否已满，如果没有满的话，客户端继续将条带单元块写入第1个对象中（下图中的object 0）。如果对象集已满，那么客户端就会创建一个新的对象集(下图中的对像集 2)，然后将第1个条带单元块（stripe unit 16）写入到新对象集中的第1个对象中（下图中的object 4）。

Ceph数据条带化过程中，有3个比较重要的参数会对条带化产生影响：

对象大小：Ceph存储集群中可以配置对象大小的上限值（比如2M、4M等），对象大小也应该足够的大以便与条带单元块相适应，同时设置对象的大小也应该是单元块大小的倍数。Red Hat则建议对象大小比较合理的值是16MB。

条带宽度：条带化中的单元块大小也是可配置的（例如64kb）。Ceph客户端将写入对象的数据划分为相同大小的条带单元块（因为写入的数据不一定是单元块的倍数，所以最后剩余的一个单元块可能大小与其它的不一样）。条带宽度应该是对象大小的一个分数（比如对象是4M，单元块是1M，则一个对象能包含4个单元块），以便对象可以包含更多条带单元块。（译者注：条带宽度也是指同时可以并发读或写的条带数量。一般这个数量等于RAID中的物理硬盘数量）

条带数量：根据条带数量，Ceph客户端将一批条带单元块写入到一系列对象中。这里的一系列对象也就是对象集。在Ceph客户端写入对象集中最后一个对象之后会返回到对象集中的第1个对象。

【重要提示】

在服务上线生产环境前，最好对条带化进行性能上的测试，因为一旦数据写入，就无法再更改条带参数信息了。

一旦Ceph客户端将条带化数据映射到条带单元块上，进而映射到对象上，在对象最终以文件形式存储在磁盘上之前，Ceph的CRUSH算法会将对象映射到PG中，然后再将PG映射到OSD守护进程中。

【注】

由于客户端写入单个存储池中，因此条带化到对象中的所有数据都会映射到同一个存储池的PG内。所以也会使用相同的CRUSH映射关系以及相同的访问控制策略。

【译者注】

在Ceph存储中，涉及条带化的主要是order、stripe_unit和stripe_count这3个参数。由这3个参数确定了数据的写入与存储编排方式。默认情况order是22，也即对象大小为4MB(2的22次方)，strip_unit大小与对象大小一致（也是4M），strip_count为1（对象集中只有1个对象）。

第4章加密

LUKS磁盘加密及带来的好处

在Linux系统中，可以使用LUKS方法对磁盘分区进行加密，由于LUKS是对整个块设备进行加密，所以对于便携式存储能够起到较好的数据保护作用。

可以使用ceph-ansible工具创建加密的OSD存储节点，这样可以对OSD上存储的数据进行保护。更详细的内容可以参考《Red Hat Linux 企业版—Red Hat Ceph存储 2 安装指南》中的Ceph OSD配置章节。

如何使用ceph-ansible创建加密的磁盘分区

在OSD安装过程中，ceph-ansible会调用ceph-disk工具来完成创建加密分区的工作。

除了数据和日志分区外（ceph data和ceph journal)，ceph-disk 工具也会创建一个小的密码箱分区以及名称为cephx client.osd-lockbox 的用户。ceph密码箱分区包含一个密钥文件，client.osd-lockbox 用户使用这个密钥文件获取LUKS私钥，从而对ceph data和ceph journal分区进行解密。

之后，ceph-disk会再调用cryptsetup 工具为ceph data和ceph journal分区创建2个dm-crypt设备。其中dm-crypt设备使用ceph data和ceph journal的GUID作为标识。

ceph-ansible如何处理LUKS密钥

ceph-ansible工具将LUKS私钥存储在Ceph monitor监视器的K/V存储中。每个OSD都有自己的密钥将存储在dm-crypt设备上加密的OSD数据和日志进行解密。加密分区在服务启动时就自动的进行了解密操作。

作者：620T
链接：https://www.jianshu.com/p/462358d8da67
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(ceph)

Ceph存储阈值调整：优化nearfull_ratio参数 mixboot Ceph ceph
Ceph存储阈值调整：优化nearfull_ratio参数前言在Ceph存储系统的管理中，合理设置存储阈值参数对于确保系统稳定运行至关重要。如何调整nearfull_ratio参数，以及这一参数对Ceph集群的影响。Ceph存储阈值概述Ceph存储系统主要有三个与容量相关的重要阈值参数：近满阈值(nearfull_ratio)：默认为0.85或85%，当集群使用空间达到此比例时，Ceph会发出警告
Ceph OSD.419 故障分析
CephOSD.419故障分析1.问题描述在Ceph存储集群中，OSD.419无法正常启动，系统日志显示服务反复重启失败。2.初始状态分析观察到OSD.419服务启动失败的系统状态：systemctlstatusceph-osd@419●[email protected]:loaded(/usr/lib/systemd
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
ceph报错整理时空无限 Kubernetes ceph linux 运维 kubernetes
xxdaemonshaverecentlycrashedceph-scluster:id:d82dfc33-6a35-4fa4-b5f0-c32979b714cdhealth:HEALTH_WARN74daemonshaverecentlycrashedcephcrashlsIDENTITYNEW2024-07-26T06:17:34.480675Z_bd4c30b7-2347-4307-a9e6
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【ceph】ceph集群更换osd时，找不到坏盘位置，怎么查找坏盘对应的序列号---业内称“点灯”
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Ceph集群管理实战 wespten OpenStack vSphere 虚拟化云平台 SDN 数据库存储块存储文件存储对象存储分布式网络存储 linux 运维服务器
配置完Ceph集群后，我们即可对Ceph集群进行数据存储。在后续使用过程中，Ceph提供了常用的命令对Ceph集群进行必要的运维。常见的集群状态查看、磁盘使用率查看、添加磁盘、删除坏盘等操作。详情可参考：WelcometoCeph—CephDocumentation1、Ceph的常用命令本节给出的Ceph常用命令可以作为最基本的集群运维命令。1）查看集群状态命令。[root@installer~]
深度剖析：Ceph分布式存储系统架构 TechVision大咖圈 ceph 分布式架构分布式存储
一文带你彻底搞懂Ceph的架构奥秘，从小白到架构师的进阶之路！文章目录1.Ceph简介：存储界的"多面手"什么是Ceph？为什么选择Ceph？2.核心组件架构：四大金刚的分工合作Monitor（MON）：集群的"大脑"ObjectStorageDevice（OSD）：数据的"家园"MetadataServer（MDS）：文件系统的"管家"Manager（MGR）：集群的"助手"3.三大存储接口：一
【无标题】 KellenKellenHao tomcat java
一、tomcat安装 #关闭防火墙与SELinux [root@proxy_host~]#rz rzwaitingtoreceive.**[root@proxy_host~]#ls anaconda-ks.cfg ceph-release-1-1.el7.noarch.rpm apache-tomcat-8.5.40.tar.gznginx-1.27.3.tar.gz #解压到指定路径
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
rook-ceph配置dashboard代理无法访问
在ceph-tools的pod中看看dashboard是否开启kubectl-nrook-cephexec-itrook-ceph-tools-7b75b967db-jn68d–bashcephmgrservices查看集群内地址使用curl测试能否访问cephmgrmoduledisabledashboard关闭cephmgrmoduleenabledashboard开启rook中关于ceph部
速通Ceph分布式存储（含超详细图解）来自于狂人云计算
前言云计算存储架构图示例存储节点集群RAID控制层物理存储层分布式存储管理层存储接口层接入层OSD主机1OSD主机2OSD主机N磁盘1磁盘2磁盘3磁盘4磁盘5磁盘6RAID0/10/5RAID控制器1RAID0/10/5RAID控制器2RAID0/10/5RAID控制器NMonitor集群大脑OSD数据守护进程MDS元数据服务对象存储块存储文件存储对象网关RBDMDS客户端接入层存储接口层分布式存
使用kolla安装OPENSTACK qhqh310 openstack
安装centos7一、根据这个做一个模板1、编辑host文件10.103.129.146control-110.103.129.147node-110.103.129.148node-210.103.129.149network-110.103.129.150ceph-110.103.129.151ceph-210.103.129.152control-210.103.129.153network
ceph计算PG
计算公式：pg_num={(TargetPGsperOSD)x(OSD#)x(%Data)}/Size注释：TargetPGsperOSD：预估每个OSD的PG数，一般取100计算。当预估以后集群OSD数不会增加时，一般取100计算OSD#：集群OSD数量。%Data：预估该pool占该OSD集群总容量的近似百分比。Size：该pool的副本数。
分布式存储Ceph之PG状态详解 jiangxi_ ceph 运维 ceph pgp 分布式 linux
1.PG介绍一，PG的复杂如下：在架构层次上，PG位于RADOS层的中间。a.往上负责接收和处理来自客户端的请求。b.往下负责将这些数据请求翻译为能够被本地对象存储所能理解的事务。是组成存储池的基本单位，存储池中的很多特性，都是直接依托于PG实现的。面向容灾域的备份策略使得一般而言的PG需要执行跨节点的分布式写，因此数据在不同节点之间的同步、恢复时的数据修复也都是依赖PG完成。2.PG状态表正常的
ceph创建pool时pg_num的配置 lvbibir 数据库
pg_num用此命令创建存储池时：cephosdpoolcreate{pool-name}pg_num确定pg_num取值是强制性的，因为不能自动计算。常用的较为通用的取值：少于5个osd，pg_num设置为128osd数量在5到10个时，pg_num设置为512osd数量在10到50个时，pg_num=4096osd数量大于50是，需要理解ceph的权衡算法，自己计算pg_num取值自行计算pg
ceph 通过 crush rule 修改故障域时空无限 ceph ceph
创建故障域为osd的crushrulecephosdcrushrulecreate-replicatedreplicated_osd_leveldefaultosd设置pool使用新创建的crushrulecephosdpoolsetceph-filesystem-data0crush_rulereplicated_osd_level查看有哪些crushrulecephosdcrushruleli
Rsync实操 KellenKellenHao excel
Rsync实操一.rsync命令 #类似于cp [root@user2~]#[email protected]:/root [email protected]'spassword: [root@user1~]#ls anaconda-ks.cfgceph-release-1-1.el7.noarch.rpminfo.sh二、使用rsync备份push方式服务器：
离线部署openstack 2024.1需求说明、初始化及实例创建过程分析查士丁尼·绵 openstack openstack
背景在ubuntu22.04离线部署openstack2024.1集群，外置存储为cephreef，提供：1、计算虚拟化；2、网络虚拟化，支持协议flat、vlan、vxlan；3、存储对接ceph；4、webUI；5、management网络为bond0，对应vlan10；6、self-service网络为bond0，对应vlan15；7、external网络对应bond1，对应vlan20、2
安装ceph时,出现Some monitors have still not reached quorum
现象：安装ceph时，在获取节点的证书时，也即下面这条语句时遇到问题ceph-deployadminceph1ceph2ceph3报错如下：[ceph3][INFO]Runningcommand:sudoceph--cluster=ceph--admin-daemon/var/run/ceph/ceph-mon.ceph3.asokmon_status[ceph3][ERROR]admin_soc
OpenStack私有云实战答案：Heat编排+KVM优化+Ceph存储对接与排障全解行家说竞赛 #云计算应用赛项 openstack ceph
【题目1】1.2.1Heat编排-创建用户[1分]编写Heat模板create_user.yaml，创建名为heat-user的用户。使用自己搭建的OpenStack私有云平台，使用heat编写摸板(heat_template_version:2016-04-08)创建名为”chinaskills”的domain，在此domain下创建名为beijing_group的租户，在此租户下创建名为clo
【k8s安装redis】k8s环境无pvc的情况下安装redis哨兵集群汪碧康 kubernetes docker redis kubernetes redis docker 容器哨兵 pvc
文章目录简介一.条件及环境说明：二.需求说明：三.实现原理及说明四.详细步骤4.1.规划节点标签4.2.创建configmap配置4.3.创建三个statefulset和serviceheadless配置4.4.创建哨兵deployment配置和service配置五.安装说明简介k8s集群中搭建有状态的服务会相对较麻烦，像搭建redis目前比较主流的做法主要是采用共享存储ceph、nas来实现数据
springboot2.6+awssdk2访问ceph bucket
版本信息：SpringBoot2.6.6awssdk2.17.100Ceph：Quincyv17.2.01、添加cephmaven依赖：父pom文件：。。。。。。2.17.100。。。。。。software.amazon.awssdkbom${awssdk.version}pomimport子pom文件：
【SCI论文写作】机器学习与时间序列医疗健康预测——（EEG）的获取与预处理：Python 实现 LIUDAN'S WORLD 医学 AI python 人工智能前端
当前时间：2025-05-29脑电图（Electroencephalography,EEG）作为一种非侵入性的神经生理监测技术，在医疗健康领域，尤其是在神经科学研究、疾病诊断（如癫痫、睡眠障碍）、脑机接口（BCI）等方面扮演着至关重要的角色。原始EEG信号通常包含复杂的生理信息，但也极易受到各种噪声和伪迹的污染，这为后续的数据分析和解读带来了巨大挑战。因此，对EEG数据进行系统有效的预处理是确保分
ES将快照仓库创建到ceph Nobe_yt es6 elasticsearch
这是在ES6.8.7环境进行的，测试7.6.2也是可以的。注意：所有的ES节点都需要安装对应版本的repository-s3插件。步骤一：提前准备好对象存储，和bukect"access_key":"xxxxxx""secret_key":"xxxxxx""bucket"："xxxxxx"步骤二：设置访问s3账号密码,根据步骤一中准备好的bukect的access_key,secret_key。#
Ceph---ceph 12.2.12 full ratio(s) out of order yysalad ceph
实际使用ceph12.2.12的过程中遇到fullratio(s)outoforder原因：osd_failsafe_full_ratio小于full_ratio解决方法：设置full_ratio小于等于osd_failsafe_full_ratiocephosdset-full-ratio0.97
ceph recovery 相关参数时空无限 ceph ceph
RECOVERY恢复/回填选项修改mClock最大回填/恢复限制的步骤可以修改的最大回填/恢复选项列在“恢复/回填选项”部分。mClock的修改默认回填/恢复限制由osd_mclock_override_recovery_settings选项，设置为默认为false。尝试修改任何默认恢复/回填限制而不设置门控选项，会将该选项重置为mClock默认值，并在集群日志中记录一条警告消息。请注意，默认值可
ceph性能调优时空无限 ceph ceph
硬件方面CPUceph的进程对cpu的依赖强弱MDS>OSD>MON一个MDS进程给4核cpu一个OSD进程给2核cpu一个MON进程给1核cpu内存ceph的进程对cpu的依赖强弱MON>OSD一个MON进程给2G内存一个OSD进程给1G内存（osd使用一个物理磁盘）如果使用多个物理磁盘作为一个OSD，每个OSD进程就需要分配大于1G的内存，另外集群处于recovery状态时，内存消耗会明显增加
017 Ceph的集群管理_3 weixin_30614587 shell 开发工具运维
一、验证OSD1.1osd状态运行状态有：up，in，out，down正常状态的OSD为up且in当OSD故障时，守护进程offline，在5分钟内，集群仍会将其标记为up和in，这是为了防止网络抖动如果5分钟内仍未恢复，则会标记为down和out。此时该OSD上的PG开始迁移。这个5分钟的时间间隔可以通过mon_osd_down_out_interval配置项修改当故障的OSD重新上线以后，会触
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地