基于Ceph对象存储构建实践

存储发展

数据存储是人类永恒的话题和不断探索的主题

  • 绳结记事

    原始社会,文字未发明之前 ,人们所使用的一种记事方法,在绳子上打结记事。

  • 穿孔卡

    穿孔卡片是始于20世纪的主要存储方法,也是最早的机械化信息存储形式,进入20世纪60年代后,逐渐被其他存储手段取代。目前穿孔卡片已经极少使用,除非用于读出当年存储的历史数据。

  • 磁鼓存储器

    20世纪50年代,磁鼓作为内存储器应用于IBM 650。在后续的IBM 360/91和DEC PDP-11中,磁鼓也用作交换区存储和页面存储。磁鼓的代表性产品是IBM 2301固定头磁鼓存储器。磁鼓是利用铝鼓筒表面涂覆的磁性材料来存储数据的。鼓筒旋转速度很高,因此存取速度快。它采用饱和磁记录,从固定式磁头发展到浮动式磁头,从采用磁胶发展到采用电镀的连续磁介质。这些都为后来的磁盘存储器打下了基础。

    磁鼓最大的缺点是存储容量太小。一个大圆柱体只有表面一层用于存储,而磁盘的两面都可用来存储,显然利用率要高得多。因此,当磁盘出现后,磁鼓就被淘汰了。

  • 磁带

    磁带是从1951年起被作为数据存储设备使用的,磁带是所有存储媒体中单位存储成本最低、容量最大、标准化程度最高的常用存储介质之一。从 20 世纪 70 年代后期到 80 年代出现了小型的盒式磁带,长度为 90 分钟的磁带每一面可以记录大约 660KB的数据。

  • 软盘

    软盘发明于1969年,直径是8英寸,单面容量80KB。4年后,5.25英寸、容量为320KB的软盘诞生了。软盘的发展趋势是盘片直径越来越小,而容量却越来越大,可靠性也越来越高。图2-10是三种典型的软盘,其中a为不同外观尺寸的软盘,b中3.5英寸软盘的容量为1.44MB,曾经作为主要的移动存储介质被广泛使用。到了20世纪90年代后期,出现了容量为250MB的3.5英寸软盘产品,但由于兼容性、可靠性、成本等原因,并未被广泛使用,如今已难寻踪迹。

  • 光盘

    早期光盘主要用于电影行业,第一张光盘于1987年进入市场, 直径为30cm,每一面可以记录60分钟的音视频。

  • 硬盘存储器

    第一款硬盘驱动器是IBM Model 350 Disk File, 于 1956 年制造,包含了 50 张 24 英寸的盘片,总容量不到5MB,机械硬盘发展至今,单盘容量已经超过16T了 。

存储的三种方式

块存储

基于Ceph对象存储构建实践_第1张图片

DAS

直接附加存储(Directed Attached Storage,DAS)作为一种最简单的外接存储方式,通过数据线直接连接在各种服务器或客户端扩展接口上。它本身是硬件的堆叠,不带有任何存储操作系统,因而也不能独立于服务器对外提供存储服务。DAS常见的形式是外置磁盘阵列,通常的配置就是RAID控制器+一堆磁盘。DAS安装方便、成本较低的特性使其特别适合于对存储容量要求不高、服务器数量较少的中小型数据中心。

SAN

存储区域网络(Storage Area Network,简称SAN),SAN默认指FC-SAN,SAN存储有两种结构:

  • FC-SAN

    典型的SAN利用光纤通道(Fiber Channel,FC)技术连接节点,并使用光纤通道交换机(FC Switch)提供网络交换。不同于通用的数据网络,存储区域网络中的数据传输基于FC协议栈。在FC协议栈之上运行的SCSI协议提供存储访问服务。与之相对的iSCSI存储协议,则提供了一种低成本的替代方式,即将SCSI协议运行于TCP/IP协议栈之上。为了区别这两种存储区域网络,前者通常称为FC SAN,后者称为IP SAN。

  • IP-SAN

    由于FC-SAN的高成本,人们就开始考虑构建基于以太网技术的存储网络,使得的iSCSI可以实现在IP网络上运行SCSI协议。但是在SAN中,传输的指令是 SCSI的读写指令,不是IP数据包。iSCSI(互联网小型计算机系统接口)是一种在TCP/IP上进行数据块传输的标准。它是由Cisco和IBM两家发起的,并且得到了各大存储厂商的大力支持。iSCSI可以实现在IP网络上运行SCSI协议,使其能够在诸如高速千兆以太网上进行快速的数据存取备份操作。为了与之前基于光纤技术的FC SAN区分开来,这种技术被称为IP SAN。

优点
  • 高性能,集中化的管理,稳定性和安全性得到保障
缺点
  • 成本昂贵,磁盘阵列的兼容性限制了设备选择空间及资源共享

NAS存储

基于Ceph对象存储构建实践_第2张图片

图片来源:redhat官网

Network Attached Storage 网络附加存储,采用 NFSCIFS 协议访问数据,以文件为传输协议,通过 TCP/IP实现网络化存储,可扩展性好、价格便宜、用户易管理,如目前在集群计算中应用较多的NFS文件系统。

优点
  • 造价成本低,有一个服务器,装上网络文件存储软件,就可以提供给其他服务器挂载访问。
  • 文件级的数据共享
缺点
  • 读写速率低

对象存储

基于Ceph对象存储构建实践_第3张图片

块存储读写快、不利于数据共享,文件存储数据共享方便、但是读写慢,能否弄一个读写快而且可以共享数据的存储,于是对象存储就诞生了。块存储和文件存储是我们比较熟悉的两种主流的存储类型,而对象存储(Object-based Storage)是一种新的网络存储架构。

3个核心概念

对象

对象是对象存储中的最小单元,比如照片就是一个对象,对象由元数据信息(MataData,包含Length,lastModify等),用户数据(Data),用户自定义的数据信息(拍摄者、拍摄设备等)和文件名(Key)组成。

基于Ceph对象存储构建实践_第4张图片

存储桶

作为存放对象的容器

用户

对象存储的使用者,存储桶的拥有者,每个用户使用AccessKeyId 和 SecretAccessKey对称加密的方法来验证某个请求的发送者身份。

对象存储适合存什么

用来存海量非结构化数据的,对象存储将数据以对象的方式存储,而不是以传统的文件和数据块的形式存储,每个对象都要存储数据、元数据和一个唯一的标识符。

  • 图片
  • 视频
  • 音频
  • 文档
  • 代码js/html
缺点

应用代码需要改动,无法修改对象,需要一次性完整写入

优点

无限扩容

基于Ceph的对象存储构建实践

什么是Ceph

加州大学 Santa Cruz 分校的 Sage Weil(DreamHost 的联合创始人)博士论文设计的新一代自由软件分布式文件系统。软件定义存储(Software Defined Storage, SDS)。统一的存储解决方案。 提供了三种存储方式:块存储、文件存储、对象存储。Ceph的架构如下:

基于Ceph对象存储构建实践_第5张图片

图片来源:Ceph官网

Ceph组件

Ceph Monitor(监视器,简称Mon)

Mon通过保存一份集群状态映射来的维护整个集群的健康状态。它分别为每个组件维护映射信息。所有集群节点都向Mon节点汇报状态信息

RADOS

(Reliable Autonomix Distributed Object Store),是存储集群的基础。在Ceph中所有的数据都是以对象的形式存储,RADOS就负责存这些数据,不考虑它们的类型。

Ceph对象存储设备OSD

Ceph 分布式对象存储系统的对象存储守护进程。它负责把对象存储到本地文件系统,并使之通过网络可访问。

RADOS网关(RGW)

提供了兼容Amazon S3和OpenStack对象存储API(Swift)的restful API接口。支持多租户和OpenStack Keystone身份验证。

MDS(Ceph元数据服务器)

为CephFS跟踪文件层次结构和存储元数据。

librados

librados库为PHP,Ruby,Java,Python,C和C++这些编程语言提供了方便地访问RADOS接口的方式。

RBD(RADOS块设备)

Ceph块设备,原名是 RADOS 块设备,提供可靠的分布式和高性能块存储磁盘给客户端,将块数据以顺序条带化的形式分散存储在的多个 OSD 上,支持自动精简配置、动态调整大小、完整和增量快照、写实复制克隆等企业级特性,而且RBD服务已经被封装成了基于 librados 的一个原生接口。

CephFS(Ceph Filesystem)

Ceph文件系统提供了一个使用Ceph存储集群存储用户数据的与POSIX兼容的文件系统。和RBD、RGW一样,基于librados封装了原生接口。

Ceph的特点

  • 高性能

    摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。

  • 高可用性

    数据强一致性,多种故障场景自愈

  • 高扩展性

    去中心化、灵活扩展

  • 特性丰富

    支持三种存储接口:块存储、对象存储、文件存储

    支持多种语言(Python、C++、Java、PHP、Ruby等)驱动,自定义接口

基于Ceph的对象存储实践

客户端通过 4,7 层负载均衡,基于HTTP协议,将请求转发至对象存储网关(Rados GateWay), 对象存储网关通过Sockets与集群通信,至此,完成了整个数据的传输。

基于Ceph对象存储构建实践_第6张图片

用户认证

基于Ceph对象存储构建实践_第7张图片

  1. 应用在发送请求前,使用用户私有秘钥(secret key)、请求内容等,采用与RGW网关约定好的算法计算出数字签名后,将数字签名以及用户访问秘钥access_key封装在请求中发送给RGW网关
  2. RGW网关接受到请求后,使用用户访问秘钥作为索引送RADOS集群中读取用户信息,并从用户信息中获取到用户私有秘钥。
  3. 使用用户私有秘钥、请求内容等,采用与应用约定好的算法计算数字签名。
  4. 判断RGW生成的数字签名和请求的签名是否匹配,如果匹配,则认为请求是真实的,用户认证通过,如果匹配返回 S3 error: 403 (SignatureDoesNotMatch)

对象存储IO路径分析

基于Ceph对象存储构建实践_第8张图片

应用通过http协议将请求发送至对象存储网关,网关收到 I/O 请求后,从http语义中解析出S3或Swift数据并进行一系列检查,检查通过后,根据不同API操作请求执行不同的数据处理逻辑,通过 librados 接口从 RADOS Cluster中 GET 或者 PUT 数据,完成整个I/O过程。

作者:张健伟
来源:宜信技术学院

你可能感兴趣的:(程序员笔记)