2020年6月17日 天气 下雨

一个医院的客户打电话过来说,现在的PACS业务无法使用,因为客户使用的DELL EMC的Isilon的三节点的分布式存储,通过SMB共享给前端的PACS的一台windows 服务器,现在已经无法上传CT等片子
关于DELL EMC的Isilon存储池满带来的莫名奇怪的问题_第1张图片
这个是之前2019年巡检的截图,存储使用已经超过77%,当时已经提醒过客户,要注意可用的空间。
到达现场后,手动直接新建文件夹,无法写入,空间已经满。通过后来查看
关于DELL EMC的Isilon存储池满带来的莫名奇怪的问题_第2张图片

1、存储使用以及超过99%,已经无法进行写入,现在唯一的操作就是把数据进行迁移,
没有办法,和客户协商进行数据迁移,由于没有多余的剩余空间,数据进行迁移的时候非常的慢。
2、后来进行删除操作,发现在删除文件夹的时候重新刷新数据又回来了,也就是说不管如何强制删除都无法删除,后来发现DELL Isilon一个系统8.0的一个机制导致,也就是Multiscan的进程(复制节点之前的数据平衡),当数据满了以后系统响应慢,当对一个文件进行操作时候,在没有完成以后就会对文件进行锁,也就是出现了无法进行删除的操作

3、在知道这个机制后,在进行删除操作后,没有其他任何的操作,等待系统完成操作
4、等到第二天数据清理完成后,业务也恢复正常

此次事件的经历教训:
1、现在大数据都是分布式存储了,但是存储一定不要满了,在超过85%的时候就应该提前进行扩容或者进行数据迁移了,并且迁移的数据量一定要超过每天写入的数据量
2、分布式存储一但满了,进行迁移的时候非常的慢,因为分布式存储都是副本或者纠删码,所以进行迁移的时候都是双读双写(厂家不一样又可能也不一样),如果没有任何的剩余空间,节点之前要同步数据和数据清理就会卡死或者响应非常慢