Ceph分布式文件系统

什么是分布式文件系统
  • 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连
  • 分布式文件系统的设计基于客户机/服务器模式

常用的分布式文件系统:LustreHadoopFastDFSCephGlusterFS

什么是Ceph
  • Ceph是一个分布式文件系统
  • 具有高扩展、高可用、高性能的特点
  • Ceph可以提供对象存储、块存储、文件系统存储
  • Ceph可以提供EB级别的存储空间(EB->PB->TB->GB)
  • 软件定义存储(Software Defined Storage)作为存储行业的一大发展趋势,已经越来越受到市场的认可
Ceph组件
  • OSDs:存储设备
  • Monitors:集群监控组件
  • RBD:对象存储网关
  • MDSs:存放文件系统的元数据(对象存储和块存储不需要该组件)
  • Client:ceph客户端

准备四台虚拟机,其三台作为存储集群节点,一台安装为客户端,实现如下功能:
创建1台客户端虚拟机
创建3台存储集群虚拟机
配置主机名、IP地址、YUM源
修改所有主机的主机名
配置无密码SSH连接
配置NTP时间同步
创建虚拟机磁盘

拓扑结构如图。

Ceph分布式文件系统_第1张图片
Ceph分布式文件系统_第2张图片

一:安装前准备

(1)物理机为所有节点配置yum源服务器。

[root@room9pc01 ~]# yum -y install vsftpd
[root@room9pc01 ~]# mkdir  /var/ftp/ceph
[root@room9pc01 ~]# mount -o loop \
rhcs2.0-rhosp9-20161113-x86_64.iso  /var/ftp/ceph
[root@room9pc01 ~]# systemctl  restart  vsftpd

(2)修改所有节点都需要配置YUM源(这里仅以node1为例)。

[root@node1 ~]# cat /etc/yum.repos.d/ceph.repo
[mon]
name=mon
baseurl=ftp://192.168.4.254/ceph/rhceph-2.0-rhel-7-x86_64/MON
gpgcheck=0
[osd]
name=osd
baseurl=ftp://192.168.4.254/ceph/rhceph-2.0-rhel-7-x86_64/OSD
gpgcheck=0
[tools]
name=tools
baseurl=ftp://192.168.4.254/ceph/rhceph-2.0-rhel-7-x86_64/Tools
gpgcheck=0

注:高版本的系统需要安装epel镜像,作为yum的补充镜像,可以提前安装好
wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo
(3)修改/etc/hosts并同步到所有主机。
警告:/etc/hosts解析的域名必须与本机主机名一致!!!!

 [root@node1 ~]# cat /etc/hosts
... ...
192.168.4.10  client
192.168.4.11     node1
192.168.4.12     node2
192.168.4.13     node3
警告:/etc/hosts解析的域名必须与本机主机名一致!!!!
[root@node1 ~]# for i in 10 11  12  13
> do
> scp  /etc/hosts  192.168.4.$i:/etc/
> done
[root@node1 ~]# for i in  10 11  12  13
> do
> scp  /etc/yum.repos.d/ceph.repo  192.168.4.$i:/etc/yum.repos.d/
> done

(4)配置无密码连接(包括自己远程自己也不需要密码)。

[root@node1 ~]# ssh-keygen   -f /root/.ssh/id_rsa    -N ''
[root@node1 ~]# for i in 10  11  12  13
> do
> ssh-copy-id  192.168.4.$i
> done

二:配置NTP时间同步

(1)真实物理机创建NTP服务器。

[root@room9pc01 ~]#  yum -y install chrony
[root@client ~]#  cat /etc/chrony.conf
server 0.centos.pool.ntp.org iburst
allow 192.168.4.0/24
local stratum 10
[root@room9pc01 ~]# systemctl  restart  chronyd
如果有防火墙规则,需要清空所有规则
[root@room9pc01 ~]# iptables -F

(2)其他所有节点与NTP服务器同步时间(以node1为例)。

[root@node1 ~]#  cat /etc/chrony.conf
server 192.168.4.254   iburst
[root@node1 ~]# systemctl  restart  chronyd

三:准备存储磁盘

(1)物理机上为每个虚拟机准备3块磁盘。(可以使用命令,也可以使用图形直接添加)

 [root@room9pc01 ~]# virt-manager

部署ceph集群

  • 安装部署工具ceph-deploy
  • 创建ceph集群
  • 准备日志磁盘分区
  • 创建OSD存储空间
  • 查看ceph状态,验证

一:部署软件

(1)在node1安装部署工具。

[root@node1 ~]#  yum -y install ceph-deploy
[root@node1 ~]#  ceph-deploy  --help

(2)创建目录

[root@node1 ~]#  mkdir ceph-cluster
[root@node1 ~]#  cd ceph-cluster/

二:部署Ceph集群

(1)创建Ceph集群配置。
注:这个是初始化创建Mon节点的,如果实际应用中,mon跟osd在不同的机器上
则这里初始化的是单独的Mon节点(mon1,mon2,mon3…)

[root@node1 ceph-cluster]# ceph-deploy new node1 node2 node3

(2)给所有节点安装软件包(所有节点,mon,osd)。

[root@node1 ceph-cluster]# ceph-deploy install node1 node2 node3

(3)初始化所有节点的mon服务(主机名解析必须对)

[root@node1 ceph-cluster]# ceph-deploy mon create-initial
常见错误及解决方法(非必要操作,有错误可以参考):
  • 如果提示如下错误信息:
    [node1][ERROR ] admin_socket: exception getting command descriptions: [Error 2] No such file or directory

解决方案如下(在node1操作):
先检查自己的命令是否是在ceph-cluster目录下执行的!!!!如果时确认是在该目录下执行的create-initial命令,依然保存,可以使用如下方式修复。

[root@node1 ceph-cluster]# vim ceph.conf      #文件最后追加以下内容
public_network = 192.168.4.0/24
修改后重新推送配置文件:
[root@node1 ceph-cluster]# ceph-deploy --overwrite-conf config push node1 node2 node3
  • 如果提示报错:
    Failed to execute command: ceph-mon --cluster ceph --mkfs -i mon3 --keyring /var/lib/ceph/tmp/ceph-mon3.mon.keyring --setuser 167 --setgroup 167
    解决方案
    直接在该主机(mon3)上执行下
    ceph-mon --cluster ceph --mkfs -i mon3 --keyring /var/lib/ceph/tmp/ceph-mon3.mon.keyring --setuser 167 --setgroup 167
    然后再尝试
    ceph-deploy mon create-initial

三:创建OSD

(1)准备磁盘分区(node1、node2、node3都做相同操作)

[root@node1 ceph-cluster]#  parted  /dev/vdb  mklabel  gpt
[root@node1 ceph-cluster]#  parted  /dev/vdb  mkpart primary  1M  50%
[root@node1 ceph-cluster]#  parted  /dev/vdb  mkpart primary  50%  100%
[root@node1 ceph-cluster]# chown  ceph.ceph  /dev/vdb1
[root@node1 ceph-cluster]# chown  ceph.ceph  /dev/vdb2
//这两个分区用来做存储服务器的日志journal盘,生产环境中,vdb的必须使用固态盘
[root@node1 ceph-cluster]# vim /etc/udev/rules.d/70-vdb.rules
ENV{DEVNAME}=="/dev/vdb1",OWNER="ceph",GROUP="ceph"
ENV{DEVNAME}=="/dev/vdb2",OWNER="ceph",GROUP="ceph"

(2)初始化清空磁盘数据(仅node1操作即可)

[root@node1 ceph-cluster]# ceph-deploy disk  zap  node1:vdc   node1:vdd    
[root@node1 ceph-cluster]# ceph-deploy disk  zap  node2:vdc   node2:vdd
[root@node1 ceph-cluster]# ceph-deploy disk  zap  node3:vdc   node3:vdd   

(3)创建OSD存储空间(仅node1操作即可)

[root@node1 ceph-cluster]# ceph-deploy osd create \
 node1:vdc:/dev/vdb1 node1:vdd:/dev/vdb2  
//创建osd存储设备,vdc为集群提供存储空间,vdb1提供JOURNAL缓存,
//一个存储设备对应一个缓存设备,缓存需要SSD,不需要很大
[root@node1 ceph-cluster]# ceph-deploy osd create \
 node2:vdc:/dev/vdb1 node2:vdd:/dev/vdb2
[root@node1 ceph-cluster]# ceph-deploy osd create \
 node3:vdc:/dev/vdb1 node3:vdd:/dev/vdb2 

(4)常见错误(非必须操作)
使用osd create创建OSD存储空间时,如提示run ‘gatherkeys’,可以使用如下命令修复:

[root@node1 ceph-cluster]#  ceph-deploy gatherkeys node1 node2 node3 

四:验证测试

(1) 查看集群状态

[root@node1 ~]#  ceph  -s

(2)常见错误(非必须操作)
如果查看状态包含如下信息:

health: HEALTH_WARN
clock skew detected on  node2, node3…  

clock skew表示时间不同步,解决办法:请先将所有主机的时间都使用NTP时间同步!!!

Ceph要求所有主机时差不能超过0.05s,否则就会提示WARN,如果使用NTP还不能精确同步时间,可以手动修改所有主机的ceph.conf,在[MON]下面添加如下一行:
mon clock drift allowed = 1
如果状态还是失败,可以尝试执行如下命令,重启ceph服务:
[root@node1 ~]# systemctl restart ceph\*.service ceph\*.target

创建Ceph块存储

使用Ceph集群的块存储功能,实现以下目标:

  • 创建块存储镜像
  • 客户端映射镜像
  • 创建镜像快照
  • 使用快照还原数据
  • 使用快照克隆镜像
  • 删除快照与镜像

一:创建镜像

(1)查看存储池。

[root@node1 ~]# ceph osd lspools
0 rbd,

(2)创建镜像、查看镜像

[root@node1 ~]# rbd create demo-image --image-feature  layering --size 10G
[root@node1 ~]# rbd create rbd/image --image-feature  layering --size 10G
[root@node1 ~]# rbd list
[root@node1 ~]# rbd info demo-image
rbd image 'demo-image':
    size 10240 MB in 2560 objects
    order 22 (4096 kB objects)
    block_name_prefix: rbd_data.d3aa2ae8944a
    format: 2
    features: layering

二:动态调整

(1)缩小容量
[root@node1 ~]# rbd resize --size 7G image --allow-shrink
[root@node1 ~]# rbd info image

(2)扩容容量

[root@node1 ~]# rbd resize --size 15G image
[root@node1 ~]# rbd info image

三:通过KRBD访问

(1)集群内将镜像映射为本地磁盘

[root@node1 ~]# rbd map demo-image
/dev/rbd0
[root@node1 ~]# lsblk
… …
rbd0          251:0    0   10G  0 disk
[root@node1 ~]# mkfs.xfs /dev/rbd0
[root@node1 ~]# mount  /dev/rbd0  /mnt

(2)客户端通过KRBD访问
#客户端需要安装ceph-common软件包
#拷贝配置文件(否则不知道集群在哪)
#拷贝连接密钥(否则无连接权限)

[root@client ~]# yum -y  install ceph-common
[root@client ~]# scp 192.168.4.11:/etc/ceph/ceph.conf  /etc/ceph/
[root@client ~]# scp 192.168.4.11:/etc/ceph/ceph.client.admin.keyring \
/etc/ceph/
[root@client ~]# rbd map image
[root@client ~]#  lsblk
[root@client ~]# rbd showmapped
id pool image snap device    
0  rbd  image -    /dev/rbd0

(3) 客户端格式化、挂载分区

[root@client ~]# mkfs.xfs /dev/rbd0
[root@client ~]# mount /dev/rbd0 /mnt/
[root@client ~]# echo "test" > /mnt/test.txt

四:创建镜像快照

(1)查看镜像快照

 [root@node1 ~]# rbd snap ls image

(2)创建镜像快照

[root@node1 ~]# rbd snap create image --snap image-snap1
[root@node1 ~]# rbd snap ls image
SNAPID NAME            SIZE 
     4 image-snap1 15360 MB

(3) 删除客户端写入的测试文件

[root@client ~]# rm  -rf   /mnt/test.txt

(4) 还原快照

[root@client ~]# umount  /mnt         #客户端取消挂载
[root@node1 ~]# rbd snap rollback image --snap image-snap1
#客户端重新挂载分区
[root@client ~]# mount /dev/rbd0 /mnt/
[root@client ~]# ls  /mnt

四:创建快照克隆

(1)克隆快照

[root@node1 ~]#  rbd snap protect image --snap image-snap1
[root@node1 ~]#  rbd snap rm image --snap image-snap1    //会失败
[root@node1 ~]# rbd clone \
image --snap image-snap1 image-clone --image-feature layering
//使用image的快照image-snap1克隆一个新的image-clone镜像

(2)查看克隆镜像与父镜像快照的关系

[root@node1 ~]#  rbd info image-clone
rbd image 'image-clone':
    size 15360 MB in 3840 objects
    order 22 (4096 kB objects)
    block_name_prefix: rbd_data.d3f53d1b58ba
    format: 2
    features: layering
    flags: 
    parent: rbd/image@image-snap1
#克隆镜像很多数据都来自于快照链
#如果希望克隆镜像可以独立工作,就需要将父快照中的数据,全部拷贝一份,但比较耗时!!!
[root@node1 ~]#  rbd flatten image-clone
[root@node1 ~]#  rbd info image-clone
rbd image 'image-clone':
    size 15360 MB in 3840 objects
    order 22 (4096 kB objects)
    block_name_prefix: rbd_data.d3f53d1b58ba
    format: 2
    features: layering
    flags: 
#注意,父快照信息没了!

五:其他操作

(1) 客户端撤销磁盘映射

[root@client ~]# umount /mnt
[root@client ~]# rbd showmapped
id pool image        snap device    
0  rbd  image        -    /dev/rbd0
//语法格式:
[root@client ~]# rbd unmap /dev/rbd0

(2)删除快照与镜像

[root@node1 ~]# rbd snap rm image --snap image-snap
[root@node1 ~]# rbd  list
[root@node1 ~]# rbd  rm  image

块存储应用案例

延续以上实验内容,演示块存储在KVM虚拟化中的应用案例,实现以下功能:
Ceph创建块存储镜像
客户端安装部署ceph软件
客户端部署虚拟机
客户端创建secret
设置虚拟机配置文件,调用ceph存储

使用Ceph存储创建镜像。
KVM虚拟机调用Ceph镜像作为虚拟机的磁盘。

(1)创建磁盘镜像

[root@node1 ~]# rbd create vm1-image --image-feature  layering --size 10G
[root@node1 ~]# rbd create vm2-image --image-feature  layering --size 10G
[root@node1 ~]# rbd  list
[root@node1 ~]# rbd  info  vm1-image
[root@node1 ~]# qemu-img  info  rbd:rbd/vm1-image
image: rbd:rbd/vm1-image
file format: raw
virtual size: 10G (10737418240 bytes)
disk size: unavailable

(2)Ceph认证账户

Ceph默认开启用户认证,客户端需要账户才可以访问,
默认账户名称为client.admin,key是账户的密钥,
可以使用ceph auth添加新账户(案例我们使用默认账户)。

[root@node1 ~]# cat /etc/ceph/ceph.conf          //配置文件 
[global]
mon_initial_members = node1, node2, node3
mon_host = 192.168.2.10,192.168.2.20,192.168.2.30
auth_cluster_required = cephx                                   //开启认证
auth_service_required = cephx                           //开启认证
auth_client_required = cephx                             //开启认证
[root@node1 ~]# cat /etc/ceph/ceph.client.admin.keyring    //账户文件
[client.admin]
    key = AQBTsdRapUxBKRAANXtteNUyoEmQHveb75bISg==
    

(3)部署客户端环境

注意:这里使用真实机当客户端!!!
客户端需要安装ceph-common软件包,拷贝配置文件(否则不知道集群在哪),
拷贝连接密钥(否则无连接权限)。

[root@room9pc01 ~]# yum -y  install ceph-common
[root@room9pc01 ~]# scp 192.168.4.11:/etc/ceph/ceph.conf  /etc/ceph/
[root@room9pc01 ~]# scp 192.168.4.11:/etc/ceph/ceph.client.admin.keyring \
/etc/ceph/

(4)创建KVM虚拟机

使用virt-manager创建2台普通的KVM虚拟机。

(5)配置libvirt secret

编写账户信息文件(真实机操作)

[root@room9pc01 ~]# vim secret.xml            //新建临时文件,内容如下 

        
                client.admin secret
        

使用XML配置文件创建secret

[root@room9pc01 ~]# virsh secret-define --file secret.xml
733f0fd1-e3d6-4c25-a69f-6681fc19802b       

//随机的UUID,这个UUID对应的有账户信息
写账户信息文件(真实机操作)

[root@room9pc01 ~]# cat /etc/ceph/ceph.client.admin.keyring
设置secret,添加账户的密钥
[root@room9pc01] virsh secret-set-value \
--secret 733f0fd1-e3d6-4c25-a69f-6681fc19802b \
--base64 AQBTsdRapUxBKRAANXtteNUyoEmQHveb75bISg
//这里secret后面是之前创建的secret的UUID
//base64后面是client.admin账户的密码
//现在secret中既有账户信息又有密钥信息

(6)虚拟机的XML配置文件

每个虚拟机都会有一个XML配置文件,包括:
虚拟机的名称、内存、CPU、磁盘、网卡等信息

[root@room9pc01 ~]# vim /etc/libvirt/qemu/vm1.xml
//修改前内容如下

      
      
      
      
不推荐直接使用vim修改配置文件,推荐使用virsh edit修改配置文件,效果如下: [root@room9pc01] virsh edit vm1 //vm1为虚拟机名称

Ceph文件系统

延续前面的实验,实现Ceph文件系统的功能。具体实现有以下功能:
部署MDSs节点
创建Ceph文件系统
客户端挂载文件系统

添加一台虚拟机,部署MDS节点。
主机的主机名及对应的IP地址如表所示。

在这里插入图片描述

实现此案例需要按照如下步骤进行。

(1)添加一台新的虚拟机,要求如下:

IP地址:192.168.4.14
主机名:node4
配置yum源(包括rhel、ceph的源)
与Client主机同步时间
node1允许无密码远程node4

(2)部署元数据服务器

登陆node4,安装ceph-mds软件包

[root@node4 ~]# yum -y install ceph-mds 

登陆node1部署节点操作

[root@node1 ~]# cd  /root/ceph-cluster

//该目录,是最早部署ceph集群时,创建的目录

[root@node1 ceph-cluster]# ceph-deploy mds create node4

给nod4拷贝配置文件,启动mds服务
同步配置文件和key

[root@node1 ceph-cluster]# ceph-deploy admin node4

(3)创建存储池

[root@node4 ~]# ceph osd pool create cephfs_data 128

创建存储池,对应128个PG

[root@node4 ~]# ceph osd pool create cephfs_metadata 128

创建存储池,对应128个PG

(5)创建Ceph文件系统

[root@node4 ~]# ceph mds stat                     //查看mds状态
e2:, 1 up:standby
[root@node4 ~]# ceph fs new myfs1 cephfs_metadata cephfs_data
new fs with metadata pool 2 and data pool 1

注意,现写medadata池,再写data池
默认,只能创建1个文件系统,多余的会报错

[root@node4 ~]# ceph fs ls
name: myfs1, metadata pool: cephfs_metadata, data pools: [cephfs_data ]
[root@node4 ~]# ceph mds stat
e4: 1/1/1 up {0=node4=up:creating}

(6)客户端挂载

[root@client ~]# mount -t ceph 192.168.4.11:6789:/  /mnt/cephfs/ \
-o name=admin,secret=AQBTsdRapUxBKRAANXtteNUyoEmQHveb75bISg==

注意:文件系统类型为ceph
192.168.4.11为MON节点的IP(不是MDS节点)
admin是用户名,secret是密钥
密钥可以在/etc/ceph/ceph.client.admin.keyring中找到

创建对象存储服务器

延续前面的实验,实现Ceph对象存储的功能。具体实现有以下功能:
安装部署Rados Gateway
启动RGW服务
设置RGW的前端服务与端口
客户端测试

一:部署对象存储服务器

(1)准备实验环境,要求如下:
IP地址:192.168.4.15
主机名:node5
配置yum源(包括rhel、ceph的源)
与Client主机同步时间
node1允许无密码远程node5
修改node1的/etc/hosts,并同步到所有node主机
(2)部署RGW软件包

[root@node1 ~]# ceph-deploy install --rgw node5
同步配置文件与密钥到node5
[root@node1 ~]# cd /root/ceph-cluster
[root@node1 ~]# ceph-deploy admin node5

(3)新建网关实例
启动一个rgw服务

[root@node1 ~]# ceph-deploy rgw create node5

登陆node5验证服务是否启动

[root@node5 ~]# ps aux |grep radosgw
ceph      4109  0.2  1.4 2289196 14972 ?       Ssl  22:53   0:00 /usr/bin/radosgw -f --cluster ceph --name client.rgw.node4 --setuser ceph --setgroup ceph
[root@node5 ~]# systemctl  status ceph-radosgw@\*

(4)修改服务端口
登陆node5,RGW默认服务端口为7480,修改为8000或80更方便客户端记忆和使用

[root@node5 ~]#  vim  /etc/ceph/ceph.conf
[client.rgw.node5]
host = node5
rgw_frontends = "civetweb port=8000"

//node5为主机名
//civetweb是RGW内置的一个web服务

二:客户端测试

(1)curl测试

[root@client ~]# curl  192.168.4.15:8000
anonymous

(2)使用第三方软件访问
登陆node5(RGW)创建账户

[root@node5 ~]#  radosgw-admin user create \
--uid="testuser" --display-name="First User"
… …
"keys": [
        {
            "user": "testuser",
            "access_key": "5E42OEGB1M95Y49IBG7B",
            "secret_key": "i8YtM8cs7QDCK3rTRopb0TTPBFJVXdEryRbeLGK6"
        }
    ],
... ...
#
[root@node5 ~]# radosgw-admin user info --uid=testuser
//testuser为用户,key是账户访问密钥

(3)客户端安装软件

[root@client ~]#  yum install s3cmd-2.0.1-1.el7.noarch.rpm

修改软件配置(注意,除了下面设置的内容,其他提示都默认回车)

[root@client ~]#  s3cmd --configure
Access Key: 5E42OEGB1M95Y49IBG7BSecret Key: i8YtM8cs7QDCK3rTRopb0TTPBFJVXdEryRbeLGK6
S3 Endpoint [s3.amazonaws.com]: 192.168.4.15:8000
[%(bucket)s.s3.amazonaws.com]: %(bucket)s.192.168.4.15:8000
Use HTTPS protocol [Yes]: No
Test access with supplied credentials? [Y/n] n
Save settings? [y/N] y
//注意,其他提示都默认回车

(4)创建存储数据的bucket(类似于存储数据的目录)

[root@client ~]# s3cmd ls
[root@client ~]# s3cmd mb s3://my_bucket
Bucket 's3://my_bucket/' created
[root@client ~]# s3cmd ls
2018-05-09 08:14 s3://my_bucket
[root@client ~]# s3cmd put /var/log/messages s3://my_bucket/log/
[root@client ~]# s3cmd ls
2018-05-09 08:14 s3://my_bucket
[root@client ~]# s3cmd ls s3://my_bucket
DIR s3://my_bucket/log/
[root@client ~]# s3cmd ls s3://my_bucket/log/
2018-05-09 08:19 309034 s3://my_bucket/log/messages 

测试下载功能

[root@client ~]# s3cmd get s3://my_bucket/log/messages /tmp/

测试删除功能

[root@client ~]# s3cmd del s3://my_bucket/log/messages

你可能感兴趣的:(云计算,Linux云计算)