GlusterFS分布式集群文件系统

1、目的说明:

搭建测试环境,测试GlusterFS的类似网络RAID1相关功能和参数。实现实时备份,切换和故障恢复功能。

2、设备:虚拟机两台  10.1.1.3910.1.1.40,虚拟配置相同:2G 的单独硬盘挂在到/data目录,512M内存。

3、系统:CentOS release 5.8 (Final)

4、软件安装:

4.1 DAG RPM Repository 的更新包

   
   
   
   
  1. wget http://pkgs.repoforge.org/rpmforge-release/rpmforge-release-0.5.2-2.el5.rf.x86_64.rpm 
  2. rpm -ivh rpmforge-release-0.5.2-2.el5.rf.x86_64.rpm

4.2 fuse 支持库 (服务器端、客户端都安装)

GlusterFS需要安装fuse 支持库,通过yum源的方式安装即可。


   
   
   
   
  1. yum -y install fuse fuse-devel httpd-devel libibverbs-devel python-ctypes python 

 

4.3 GlusterFS 源码安装

4.3.1 server端安装GlusterFS

 

   
   
   
   
  1. wget http://download.gluster.org/pub/gluster/glusterfs/LATEST/glusterfs-3.3.0.tar.gz 
  2. tar xzvf glusterfs-3.3.0.tar.gz 
  3. cd glusterfs-3.3.0 
  4. ./configure --prefix=/usr/local/glusterfs-3.3.0 --enable-fusermount && make && make install 
  5. /usr/local/glusterfs-3.3.0/sbin/glusterfs -V 

 

   
   
   
   
  1. vi /etc/profile 
  2. 文件末尾追加如下几行: 
  3. GlusterFS_HOME=/usr/local/glusterfs-3.3.0 
  4. PATH=$GlusterFS_HOME/sbin:$PATH 
  5. export PATH 
  6. 保存退出。
  7.  
  8. source /etc/profile 

开启/关闭glusterfs服务:

 

   
   
   
   
  1. /etc/init.d/glusterd start  #开启 
  2. /etc/init.d/glusterd stop  #关闭 

 

4.3.2 client段安装GlusterFS(需求中不涉及客户端,此次测试中不测试。)

wget http://download.gluster.org/pub/gluster/glusterfs/3.1/3.1.3/CentOS/glusterfs-core-3.1.3-1.x86_64.rpm

rpm -ivh glusterfs-core-3.1.3-1.x86_64.rpm

wget http://download.gluster.org/pub/gluster/glusterfs/3.1/3.1.3/CentOS/glusterfs-fuse-3.1.3-1.x86_64.rpm

rpm -ivh glusterfs-fuse-3.1.3-1.x86_64.rpm

 

说明:之所以安装3.1.3版 本的客户端rpm包是因为在安装高版本时出错:rpmlib版本不匹配,不能进行安装。所以,选择了降低软件版本。目前最新的GlusterFS- 3.3.0的rpm包在CentOS-6.2上可以正常安装,不会报rpmlib错,CentOS-6.0没有测试。

至此安装过程完成。

5、应用配置过程

5.1 glusterfs卷类型介绍

5.1.1 Distributed Volumes

分布卷模式,卷中资源仅在一台服务器上存储,在存储池中非镜像或条带模式。

5.1.2 Distributed Replicated Volumes

分布镜像卷模式:创建一个两两互为备份的卷,存储池中一块硬盘损坏,不会影响到数据的使用,最少需要两台服务器才能创建分布镜像卷。

5.1.3 Distributed Striped Volumes

分布条带卷:每个文件分布在四台共享服务器上,通常用于大文件访问处理,最少需要 4 台服务器才能创建分布条带卷。

根据需求,我选择第二种类型的 Volumes,各位可根据自己环境的需求自行选择。

5.2 设置/etc/hosts (非必须)

 

   
   
   
   
  1. vi /etc/hosts 
  2. 文件末尾添加如下两行: 
  3. 10.1.1.39 glusterfs-39 
  4. 10.1.1.40 glusterfs-40 

5.3 Distributed Replicated Volumes配置过程

5.3.1 创建存储池

在配置 GlusterFS volumes 之前,需要创建一个包含存储服务器的存储池,而在创建存储池时,每个存储服务器的 GlusterFS service 必须是开启的。

glusterfs-39为主server,创建存储池:

 

   
   
   
   
  1. [root@glusterfs-39 ~]# gluster 
  2. gluster> peer probe glusterfs-40 
  3. Probe successful 
  4. gluster> peer status 
  5. Number of Peers: 1 
  6. Hostname: glusterfs-40 
  7. Uuid: 22084b3f-1cf1-4e78-b42d-899d79b93aa0 
  8. State: Peer in Cluster (Connected) 

gluster-40上查看存储池信息,相应出现一下信息:

   
   
   
   
  1. [root@glusterfs-40 ~]# gluster 
  2. gluster> peer status 
  3. Number of Peers: 1 
  4. Hostname: 10.1.1.39 
  5. Uuid: a57fe536-97e5-46e5-97a7-1fb46695d6d9 
  6. State: Peer in Cluster (Connected)
 

5.3.2 创建Replicated volumes

 

   
   
   
   
  1. gluster> volume create v1 replica 2 transport tcp glusterfs-39:/data/ glusterfs-40:/data/ 
  2. gluster>  volume info

5.3.3 启用volumes

   
   
   
   
  1. gluster> volume start v1 
  2. Starting volume v1 has been successful 
  3. gluster> volume status 
  4. Status of volume: v1 
  5. Gluster process                                     Port       Online   Pid 
  6. ----------------------------------------------------------------------------- 
  7. Brick glusterfs-39:/data                      24009  Y            3176 
  8. Brick glusterfs-40:/data                      24009  Y            3158 
  9. NFS Server on localhost                       38467  Y            3182 
  10. Self-heal Daemon on localhost           N/A       Y            3188 
  11. NFS Server on glusterfs-40                 38467  Y            3164 
  12. Self-heal Daemon on glusterfs-40     N/A       Y            3170 

6、客户端配置

6.1客户端挂载存储服务器卷使用:

   
   
   
   
  1. glusterfs -f /var/lib/glusterd/vols/v1/trusted-v1-fuse.vol /root/volume01/ -l /var/log/glusterfs.log

验证mount是否成功

   
   
   
   
  1. df –lh 
  2. Filesystem            Size  Used Avail Use% Mounted on 
  3. /dev/sda3             128G   33G   89G  28% / 
  4. /dev/sda1             1.9G   42M  1.8G   3% /boot 
  5. tmpfs                 2.0G     0  2.0G   0% /dev/shm 
  6. glusterfs#10.1.1.39:/v8 
  7.                       551G  1.4G  521G   1% /root/volume01 

出现红色字体部分表示已经挂载上存储服务器。

卸载卷

   
   
   
   
  1. umount /root/volume01 

 

至此,安装配置完成,可以正常挂载使用。不过想要实现高层次的使用,就要对GlusterFS的中继( translators )有更深层次的理解。以下列举一下各个中继的说明和配置示例,仅供参考。

 

7、GlusterFS 常用 translators(中继)介绍

 

7.1 storage/posix

type storage/posix

storage/posix 指定一个本地目录给 GlusterFS 内的一个卷使用。

配置例子:

volume posix-example

type storage/posix option directory /sda4

end-volume

 

7.2 protocol/server (服务器)

type protocol/server

服务器中继(protocol/server)表示本节点在 GlusterFS 中为服务器模式。

配置例子:

volume server-example

type protocol/server

option transport-type tcp

subvolumes brick                #定义好的卷

option auth.addr.brick.allow *  #指定可访问本卷的访问者,*为所有,可对访问者做限制,如192.168.1.*

end-volume

 

7.3 protocol/client (客户端)

type protocol/client

客户端中继(protocol/server)用于客户端连接服务器时使用。

配置例子:

volume client-example

type protocol/client

option transport-type tcp

option remote-host 192.168.1.13    #连接的服务器

option remote-subvolume brick      #连接的服务器卷名

end-volume

 

7.4 cluster/replicate(复制)

type cluster/replicate

复制中继(cluster/replicate,前身是 AFR) GlusterFS 提供了类似 RAID-1 的功能。

Replicate 会复制文件或者文件夹到各个 subvolumes 里。如一个卷(volume)内有两个子卷(subvolume),那就会有两份文件或文件夹的复本。

Replicate 只时还有高可用的功能,如果两个子卷中有一个子卷挂了,卷依然可以正常工作。当这个子卷重新启用时,会自动更新丢失的文件或文件夹,不过更新是通过客户端进行的。

配置例子:

volume replicate-example

type cluster/replicate

subvolumes brick3 brick4

end-volume

 

7.5 cluster/distribute (分布式)

type cluster/distribute

分布式中继(cluster/distribute,前身是 unify) GlusterFS 提供了类似 RAID-0 的功能。

Distribute 可把两个卷或子卷组成一个大卷,实现多存储空间的聚合。

配置例子:

volume distribute-example

type cluster/distribute

subvolumes repl1 repl2

end-volume

 

7.6 features/locks ()

type features/locks

锁中继(features/locks)只能用于服务器端的 posix 中继之上,表示给这个卷提供加锁(fcntl locking)的功能。

配置例子:

volume locks-example

type features/locks

subvolumes posix-example

end-volume

 

7.7 performance/read-ahead (预读)

type performance/read-ahead

预读中继(performance/read-ahead)属于性能调整中继的一种,用预读的方式提高读取的性能。

读取操作前就预先抓取数据。这个有利于应用频繁持续性的访问文件,当应用完成当前数据块读取的时候,下一个数据块就已经准备好了。额外的,预读中继也可以扮演读聚合器,许多小的读操作被绑定起来,当成一个大的读请求发送给服务器。预读处理有 page-size page-count 来定义,page-size 定义了,一次预读取的数据块大小,page-count 定义的是被预读取的块的数量不过官方网站上说这个中继在以太网上没有必要,一般都能跑满带宽。主要是在 IB-verbs 10G 的以太网上用。

配置例子:

volume readahead-example

type performance/read-ahead

option page-size  256   # 每次预读取的数据块大小

option page-count 4      # 每次预读取数据块的数量

option force-atime-update off  # 是否强制在每次读操作时更新文件的访问时间,不设置这个,访问时间将有些不精确,这个将影响预读转换器读取数据时的那一时刻而不是应用真实读到数据的那一时刻。

subvolumes

end-volume

 

7.8 performance/write-behind (回写)

type performance/write-behind

回写中继(performance/read-ahead)属 于性能调整中继的一种,作用是在写数据时,先写入缓存内,再写入硬盘。以提高写入的性能。回写中继改善了了写操作的延时。它会先把写操作发送到后端存储, 同时返回给应用写操作完毕,而实际上写的操作还正在执行。使用后写转换器就可以像流水线一样把写请求持续发送。这个后写操作模块更适合使用在 client 端,以期减少应用的写延迟。回写中继同样可以聚合写请求。如果 aggregate-size 选项设置了的话,当连续的写入大小累积起来达到了设定的值,就通过一个写操作写入到存储上。这个操作模式适合应用在服务器端,以为这个可以在多个文件并行被写入磁盘时降低磁头动作。

配置例子:

volume write-behind-example

type performance/write-behind

option cache-size 3MB    # 缓存大小,当累积达到这个值才进行实际的写操作

option flush-behind on   # 这个参数调整 close()/flush()太多的情况,适用于大量小文件的情况

subvolumes

end-volume

 

7.9 performance/io-threads (IO 线程)

type performance/io-threads

IO线程中继(performance/io-threads)属于性能调整中继的一种,作用是增加IO的并发线程,以提高 IO 性能。 IO 线程中继试图增加服务器后台进程对文件元数据读写 I/O 的处理能力。由于 GlusterFS 服务是单线程的,使用 IO 线程转换器可以较大的提高性能。这个转换器最好是被用于服务器端,而且是在服务器协议转换器后面被加载。

IO 线程操作会将读和写操作分成不同的线程。同一时刻存在的总线程是恒定的并且是可以配置的。

配置例子:

volume iothreads

type performance/io-threads

option thread-count 32 #  线程使用的数量

subvolumes

end-volume

 

7.10 performance/io-cache (IO 缓存)

type performance/io-cache

IO 缓存中继(performance/io-threads)属于性能调整中继的一种,作用是缓存住已经被读过的数据,以提高 IO 性能。

IO 缓存中继可以缓存住已经被读过的数据。这个对于多个应用对同一个数据多次访问,并且如果读的操作远远大于写的操作的话是很有用的(比如,IO 缓存很适合用于提供 web 服务的环境,大量的客户端只会进行简单的读取文件的操作,只有很少一部分会去写文件)。

IO 缓存中继检测到有写操作的时候,它就会把相应的文件从缓存中删除。 IO 缓存中继会定期的根据文件的修改时间来验证缓存中相应文件的一致性。验证超时时间是可以配置的。

配置例子:

volume iothreads

type performance/ io-cache

option cache-size 32MB  #可以缓存的最大数据量

option cache-timeout 1  #验证超时时间,单位秒

option priority   *:0   #文件匹配列表及其设置的优先级

subvolumes

end-volume

 

7.11 其它中继

其它中继还有

cluster/nufa(非均匀文件存取)

cluster/stripe(条带,用于大文件,分块存储在不用服务器)

cluster/ha(集群)

features/filter(过滤)

features/trash(回收站)

path-converter

quota

老的还有:

cluster/unify(和 distribute,可定义不同的调度器,以不同方式写入数据)。