线上的mongodb是复制集模式的。为了便于监控mongodb的慢查询等状态,在3台机器上都部署了packetbeat,通过抓取27017端口的流量发送到ES集群。


但是第二天发现zabbix告警,显示某一台机器A(从节点)上的mongod进程宕了。日志显示是OOM导致的。

wKioL1moDJPhuzi-AAAgtHGJvxY891.png


再一想到,我们每天的mongodb的备份脚本是通过远程主机连接到机器A的27017端口进行dump数据的,通过对比zabbix的网卡流量趋势图、备份脚本的执行时间、message日志中OOM的时间点,可以分析出就是因为mongodump时候产生的大量的数据包被packetbeat抓取到并缓存住,造成服务器的内存被吃光了。


解决方法:

关闭这个机器A(从节点)上面的packetbeat进程,或者配置计划任务以确保备份数据的时候,packetbeat进程不要开启。




当然,这里我们还可以用cgroup限制住packetbeat使用的内存大小,这样的话,最多导致packetbeat宕掉,不会影响到mongod进程的正常工作。



############################################

具体配置步骤如下:


/etc/init.d/cgconfig start 

自动会在/cgroup/下生成一堆文件。


mkdir /cgroup/memory/packetbeat/    

echo 1024M > /cgroup/memory/packetbeat/memory.limit_in_bytes     ## 限制物理内存总量不超过1024M

echo 1050M > /cgroup/memory/packetbeat/memory.memsw.limit_in_bytes    ## 限制虚拟内存总量不超过1024M

## 带 memsw 的表示虚拟内存,即物理内存加交换区。不带 memsw 的那组仅包括物理内存。其中, limit_in_bytes 是用来限制内存使用的,其他的则是统计报告。



cgexec -g memory:packetbeat /etc/init.d/packetbeat start  即可启动packetbeat


通过cgroup限制后,当packetbeat使用的内存达到限额,进程会被kill。


参考:

http://www.topjishu.com/5898.html




###############

补充:CentOS7上使用cgroup的方法:

yum install libcgroup-tools -y

systemctl start cgconfig 

cgcreate -g  memory:/packetbeat

echo 2048M > /sys/fs/cgroup/memory/packetbeat/memory.limit_in_bytes  

echo 2048M > /sys/fs/cgroup/memory/packetbeat/memory.memsw.limit_in_bytes  

cgexec -g memory:packetbeat /etc/init.d/packetbeat start