在生产环境部署CDH集群遇到的问题

机器都是新购置的,75台联想机器:

 型号 Thinkserver RD640  
结构 2U高度机架式服务器(2.5寸16盘位) *1
CPU Intel Xeon E5-2630v2(2.6GHz/6C/15M cache)* 2
内存 16GB R-ECC DDR3 1600内存 *8
硬盘 600GB SAS 10000rpm 热插拔硬盘 *12
网卡 双口Intel百兆/千兆自适应电口网卡(板载) *1
 双口Intel万兆光口网卡(外插,满配多模光模块) *1

10台曙光机器:
型号:曙光I620-G10(超微X9DR3-F主板)
CPU:Intel Xeon E5 2630v2 2.6G 6核*2;(Intel)
内存:16GB DDR3 内存*8;(三星)
磁盘:600G 2.5寸 10Krpm SAS*12;(日立)

在安装过程中发现联想的磁盘都没有分区格式化,不能够挂载,所以就先进行了磁盘分区格式化:
a. lsblk 查看磁盘分区情况
b. fdisk /dev/sdb  进行分区
c. 分区之后进行格式化,mkfs -t ext4 -c /dev/sdb1,这样格式化会很慢大概五十分钟能格式化完成,
因为-c是检查partitioin是否有坏轨所以很慢,去掉-c之后就很快了,有限一两分钟,不过没有使用这个方法,
在格式化过程中,还经常会出现连接断开的情况,所以就是使用了后台运行格式化程序nohup mkfs -t ext4 -c /dev/sdb1ohup &
但是后台运行也发现经常有的机器没有进行格式化,进程不知什么原因被停掉了。网络经常断开(ping该点也ping不通)这一现象,起初以为网络的原因,找了机器提供方(长城软件)来解决问题,
通过查看系统日志(/var/log/messages)发现在断开连接之后,有很多的系统加载信息,再通过last reboot命令发现有很多重启记录,而且机器断开连接都是重启的时间点
所以我们判定集群一直掉线是因为是机器一直重启的原因。再通过一番研究发现是系统版本的原因导致系统一直重启,使用的red hat6.5,里边有两个服务watchdog和bmc-watchdog,这两个服务会导致重启,把这两个服务停掉之后,问题解决,网络也不掉线了,进程也不会消失了。
d. 挂载 mount -a

将CDH安装好之后,发现有几个点的网络传输速度不行,跟机器提供方沟通解决这个问题。

在配置郁系统yum源的时候,直接将老集群机器上的系统yum源(red hat6.2)拷贝过来了,当安装mysqlJDBC驱动yum -y install mysql-connector-java的时候就报了版本依赖冲突的问题,后来将yum源改为了6.5系统版本的就好了

新集群有三个点经常报丢包的警告(Frame Process error)。后来长城软件的人处理网络好了。

你可能感兴趣的:(那些年,趟过的坑)