最近由于运行了两年多的Hadoop集群,硬盘故障的现象愈加频繁,故开始着手更换集群磁盘,但是所有的DataNode的磁盘都不是热插拔的,导致,必须关机,卸开服务器然后更换磁盘。
经过这次之后,我想非常有必要专门总结一下Hadoop集群的服务器选择问题。
1. 硬盘更换方便: 硬盘是主要耗材, 服务器最好是具有热插拔硬盘能力的。
2. 专门的硬盘安装系统: 作为Hadoop DataNode节点的服务器,其主要功能就是存储、计算。其对硬盘的读写压力较大,较容易造成磁盘故障。因此非常有必要将系统磁盘,单独用一块磁盘来安装。比如可以配置一块300GB的SAS作为系统盘,这样就避免了,如果系统与HDFS数据存储分区共用时,故障磁盘的更换会影响到操作系统。
3. 合适的硬盘大小配置:DataNode主要需要较高的IO能力,而IO能力又与磁盘的个数有关,因此,在采购服务器的时候,可以选择支持较多硬盘的服务器类型。另,从运维部门的同学那里了解到,越大的磁盘的磁盘故障率要高一些,这个在采购磁盘的时候,要根据自己实际需要,也要考虑一下。
4. CPU个数:这个要根据集群的用途来选择。如果是数据密集型的,可以适当降低对CPU的要求,反之要尽量选择多核,并行能力强的CPU。
5. 配置远控卡:最好将远程控制卡作为标配配置到数据中心的每台服务器上。最近,在数据中心的一台做了RAID5的服务器上,发现磁盘只读,但是却不能确定是哪块磁盘有故障,导致后来只能通过软件修复磁盘数据,随机更换一块磁盘来处理。
6. 交换机要有带宽扩展功能:之前,我们发现高峰阶段集群内网间的流量已经跑满交换机,导致数据通信阻塞。但是我们发现我们的千兆交换机却不具有带宽扩展能力,因此又重新采购了3个交换机,一主两从,分别用4根网线连接到主交换机,这样将内网带宽扩展到4000Mb。
7. 线缆标准一定要达标:服务器都是千兆网卡,6类网线还是有必要的。
以上是现在能想到的一些注意点。