Lustre分布式存储文件系统介绍和故障分析

Lustre是应用广泛的linux开源分布式存储文件系统,其容量可轻易扩容到PB级别,在HPC、云上有相应的使用。

Lustre分布式存储文件系统介绍和故障分析_第1张图片

Lustre由元数据服务器MDS、数据存储服务器OSS组成。MDS服务器负责管理OSS服务器上的数据,并处理来自客户端的数据请求。每个OSS服务器的本地存储器,比如硬盘,被划分为多个raid阵列,每个阵列被虚拟为OST数据链路;一个oss服务器包含多个热备盘用于备份本地数据,热备盘并不保存某块硬盘的数据备份,而是使用全局数据推算的方法,保存oss服务器上的数据的数字特征,这使得任意一块硬盘发生故障,oss服务器可通过热备盘记录的数据恢复出本地所有的数据。Oss服务器的数据存储方式有条带和非条带方式,条带方式会将一份文件完整地存储在任意oss上,非条带方式则会打散文件并存到任意oss上;前者有助于数据恢复,后者有利于加快数据传输速度。

linux客户端使用lustre,需要安装相应的lustre客户端软件,并远程挂载MDS服务器上提供的lustre路径。为了指定lustre服务使用的网络驱动器,需要设置/etc/modprobe.d/lustre.conf文件的内容为:options lnetnetworks=tcp(你的网络驱动器)。启动lustre需要加载lnet和lustre模块,设mds服务器地址为192.168.2.1,启动代码如下:

modprobe lnet

modprobe lustre#有版本不需要

lctl network up

mount –t lustre 192.168.2.1@tcp:/lustre /lustre

 

linux客户端遇到无法挂载lustre的情况,依次检查:

1、  网络是否启用是否能ping通mds服务器

2、  是否加载和启用lnet和lustre服务

3、  检查/etc/modprobe.d/lustre.conf文件是否设置了正确的网络驱动器

4、  某些版本lustre可能会使用/etc/modprobe.d/lustre1w之类的奇怪文件作为lustre设置,检查这些文件

5、  Mds服务器是否宕机

6、  条带存储型的lustre系统的oss服务器发生故障,可能有一部分客户端能够连接,一部分客户端配置正确却不能连接。可以在管理节点上使用StorMan软件逐个检查oss服务器是否宕机

7、  使用lfs df命令查看ost是否存在故障

 

大部分无法挂载的情况,检查并更新配置,重启客户端,重启宕机的服务器,一般都能解决。如果oss服务器出现故障硬盘(硬盘灯常亮),需要及时更换新硬盘,lustre会自动在新硬盘上重建数据;如果坏硬盘数量超过热备盘,一般很难恢复所有数据。如果无法启动oss服务器,考虑内存、硬盘或者raid卡发生故障,这时候需要联系厂商售后更换故障零部件。

你可能感兴趣的:(linux,存储,分布式存储,HPC,Lustre)