集群搭建好之后网络,raid卡策略,磁盘都会影响集群的性能。为了避免因上述问题使得集群的性能受到影响,我们依次进行测试,最后得到基本的集群性能。
网络
首先是网络,ceph集群一大堆让人摸不着头脑的问题都出在网络上,所以我们在建立集群之前就可以测试网络,看其是否有问题,可以通过ping命令来测试网络的连通性,但最好使用iperf,测试下网络传输速度。
遇到有不少现场情况,因为光模块导致万兆网络只有百兆的速度,如果等集群建好之后性能不如意,花费大量时间排查发现是这个问题就太冤了。
iperf命令
选择一个节点作为iperf server
iperf -s
选择其他节点作为iperf client,比如server IP地址为192.168.12.4
iperf -c 192.168.12.4 -i 1 -t 5
[ 3] 0.0- 1.0 sec 575 MBytes 4.83 Gbits/sec
[ 3] 1.0- 2.0 sec 361 MBytes 3.03 Gbits/sec
[ 3] 2.0- 3.0 sec 618 MBytes 5.18 Gbits/sec
[ 3] 3.0- 4.0 sec 423 MBytes 3.55 Gbits/sec
[ 3] 4.0- 5.0 sec 519 MBytes 4.35 Gbits/sec
[ 3] 0.0- 5.0 sec 2.44 GBytes 4.19 Gbits/sec
iperf -c 192.168.12.4 -i 1 -t 10 |awk ‘/sec/ {print $8,9}’
一般ceph的内部通信网络是万兆网络,那通过iperf测试的速度为8-9Gbits/sec为正常,一次测试每个节点,没问题后接下来检查raid卡cache策略
raid卡cache策略
基于megacli的raid相关操作可参考我的《Raid操作与坏盘诊断》
总之,如果有BBU,设置raid cache为No Write Cache if Bad BBU
/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -aAll
/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp -NoCachedBadBBU -Immediate -Lall -aAll
测试带宽与IOPS
带宽和IOPS测试的时候要同时使用atop来看当前测试压力的瓶颈在哪里,以三节点集群为例,通常使用两台节点同时往集群写入数据就可以测出最大性能,但是如果硬件设备配置很高,这时候atop观察发现两台同时给压力集群还是没有满负荷跑,可以使用三个节点同时压:
通常带宽使用1M的数据块来顺序写测试,IOPS使用4K小文件随机写来测试
带宽测试的瓶颈往往在万兆网卡上,atop命令可以看到万兆卡被压红
IOPS的瓶颈往往在磁盘上,atop可以看到不同节点的磁盘轮番被压红,或者同时压红则正常。如果发现有一个节点始终没有太大的变化,就需要去排查分析是否有问题
注意无论是dd命令还是fio命令,都不要对系统盘写,尤其是直接对系统块设备写,会直接抹掉系统数据。
带宽
以集群提供的NAS文件夹为例,如果为3节点集群,可以利用其中两个节点向同一文件夹同时写入,最后将结果相加
以顺序写为例:
进入nas目录里(同时写入的两个节点of文件名取不同的,否则测试结果偏高),同时从两个节点写数据,带宽为1.7GB/s(两个节点测试结果之和)
dd命令
dd if=/dev/zero of=dd.client1 bs=1M count=40960 conv=fsync
IOPS测试
一般使用fio工具来测试IOPS,fio也可以测试带宽。
测试IOPS一般使用4K的数据块
测试带宽建议使用大于等于1M的数据块
我们使用集群提供的块服务(iscsi),如块名为rbd0
下图为同时从两个节点向/dev/rbd0写如数据的IOPS测试结果,同理,将两个IOPS的值相加即粗略得到集群的IOPS,记得上面说到的用atop查看三个节点的磁盘状态,最直观的就是是否压红