在服务器的运行过程中,经常需要对服务器各种资源进行监控,例如:CPU的负载监控,内存利用率监控,磁盘的使用率监控等等,以在系统出现异常时及时报警,通知系统管理员,本文就是个人根据自己的需求以shell脚本实现对系统资源的监控报警以及一键查询
需求:
1.监控CPU负载情况,并且邮件报警
2.监控内存使用情况,并且邮件报警
3.监控磁盘空间使用情况,并且邮件报警
4.监控redis服务数据占用内存情况,并且邮件报警
1.邮件报警,得先搭一个邮件服务器,如何搭建一个简单的邮件服务器,在上一篇博文已经介绍过了,这里附上链接
https://blog.csdn.net/weixin_44901564/article/details/111914395
2.写shell脚本
注意:脚本里面定的报警标准只是为了测试邮件报警
#!/bin/bash
#===========================================================================================
#
# Use: Monitor system resources
# Author: xxx
# Create Time: 2020/12/28
#===========================================================================================
function fun_lock
{
local lock=1
set -o noclobber
if (echo "$$" > "$1" 2>/dev/null); then
lock=0
set +u
local foo=''
[ ""x == "$2"x ] || foo="$2 $1;"
trap "$foo ret=$?; rm -f $1; exit ${ret};" INT TERM EXIT
set -u
fi
set +o noclobber
return ${lock}
}
function fun_unlock
{
trap '' INT TERM EXIT
rm -f "$1"
}
function fun_print
{
#printf "%+35s %s\n" `echo -e "$1 \033[1;32m$2\033[0m"`
echo -e "$1 \033[1;32m$2\033[0m"
}
get_cpu_info(){
local cpu_num=$(sudo cat /proc/cpuinfo | grep "physical id" | uniq | wc -l) # 获取物理CPU个数
local cpu_core=$(sudo cat /proc/cpuinfo | grep "cpu cores" | uniq | awk '{print $4}') # 查看cpu核数
local cpu_logic_num=$(sudo cat /proc/cpuinfo | grep "processor" | wc -l) # 查看逻辑cpu个数
#获取当前CPU利用率
local cpu_user=$(top -b -n 1 | grep Cpu | awk '{print $2}' | cut -f 1 -d "%") # 用户空间占用百分比
local cpu_system=$(top -b -n 1 | grep Cpu | awk '{print $4}' | cut -f 1 -d "%") # 内核空间占用百分比
local cpu_idle=$(top -b -n 1 | grep Cpu | awk '{print $8}' | cut -f 1 -d "%") # 空闲CPU百分比
local cpu_iowait=$(top -b -n 1 | grep Cpu | awk '{print $10}' | cut -f 1 -d "%") # 获取等待输入输出占百分比
# 获取CPU负载信息
local load_1min=$(uptime | awk '{print $8}' | cut -f 1 -d ',') # 获取CPU 1分钟前到现在的负载平均值
local load_5min=$(uptime | awk '{print $9}' | cut -f 1 -d ',') # 获取CPU 5分钟前到现在的负载平均值
local load_15min=$(uptime | awk '{print $10}' | cut -f 1 -d ',') # 获取CPU 15分钟前到现在的负载平均值
echo -e "\033[1;35m#####################监控Cpu资源############### $time\033[0m"
fun_print "物理Cpu个数:" "$cpu_num"
fun_print "系统Cpu核数:" "$cpu_core"
fun_print "逻辑Cpu个数:" "$cpu_logic_num"
fun_print "用户空间占用Cpu百分比:" "$cpu_user"
fun_print "内核空间占用Cpu百分比:" "$cpu_system"
fun_print "空闲CPU百分比:" "$cpu_idle"
fun_print "获取等待输入输出占用Cpu百分比:" "$cpu_iowait"
echo ""
if [ $(echo "${cpu_idle} < 100" | bc) -eq 1 ];then
if [ ${USER} != "root" ];then
echo -e "\033[1;31mcpu利用率过高,当前Cpu利用率$(printf "%.2f" `echo "scale=2; 100-$cpu_idle" | bc`)%\033[0m"
echo "cpu利用率过高,当前cpu利用率$(printf "%.2f" `echo "scale=2; 100-$cpu_idle" | bc`)%" | sudo mail -s "cpu告警触发${time}" [email protected]
else
echo -e "\033[1;31mcpu利用率过高,当前cpu利用率$(printf "%.2f" `echo "scale=2; 100-$cpu_idle" | bc`)%\033[0m"
echo "cpu利用率过高,当前cpu利用率$(printf "%.2f" `echo "scale=2; 100-$cpu_idle" | bc`)%" | mail -s "cpu告警触发${time}" [email protected]
fi
fi
}
get_mem_info(){
local mem_total=$(free -h | grep "Mem" | awk '{print $2}') # 获取内存总量
local mem_used=$(free -h | grep "Mem" | awk '{print $3}') # 获取系统已经使用的内存总量
local mem_free=$(free -h | grep "Mem" | awk '{print $4}') # 获取系统空闲中的内存总量
local mem_swap=$(free -h | grep "Swap" | awk '{print $2}') # 获取交换分区大小
local mem_swap_used=$(free -h | grep "Swap" | awk '{print $3}') # 获取已使用的交换分区大小
local mem_swap_free=$(free -h | grep "Swap" | awk '{print $4}') # 获取空闲中的交换分区大小
echo -e "\033[1;35m#####################监控内存资源############## $time\033[0m"
fun_print "内存总量:" "$mem_total"
fun_print "已经使用的内存总量:" "$mem_used"
fun_print "空闲的内存总量:" "$mem_free"
fun_print "交换分区大小:" "$mem_swap"
fun_print "已经使用的交换分区大小:" "$mem_swap_used"
fun_print "空闲的交换分区大小:" "$mem_swap_free"
local mem_total_kb=$(free -m | grep "Mem" | awk '{print $2}')
local mem_used_kb=$(free -m | grep "Mem" | awk '{print $3}')
local mem_percentage=`echo "scale=2; $mem_used_kb/$mem_total_kb*100/1" | bc`
echo ""
if [ $(echo "${mem_percentage} > 10" | bc) -eq 1 ];then
if [ ${USER} != "root" ];then
echo -e "\033[1;31m内存利用率过高,当前内存利用率${mem_percentage}%\033[0m"
echo "内存利用率过高,当前内存利用率${mem_percentage}%" | sudo mail -s "内存告警触发${time}" [email protected]
else
echo -e "\033[1;31m内存利用率过高,当前内存利用率${mem_percentage}%\033[0m"
echo "内存利用率过高,当前内存利用率${mem_percentage}%" | mail -s "内存告警触发${time}" [email protected]
fi
fi
}
get_disk_info(){
local disk_total=$(df -h | sed -n 2p | awk '{print $2}') # 获取磁盘空间总大小
local disk_used=$(df -h | sed -n 2p | awk '{print $3}') # 获取已使用的磁盘空间大小
local disk_avail=$(df -h | sed -n 2p | awk '{print $4}') # 获取磁盘可用空间大小
local disk_percentage=$(df -h | sed -n 2p | awk '{print $5}') # 获取磁盘利用率
echo -e "\033[1;35m#####################监控磁盘空间############## $time\033[0m"
fun_print "磁盘空间大小:" "$disk_total"
fun_print "已使用磁盘空间大小:" "$disk_used"
fun_print "可用磁盘空间大小:" "$disk_avail"
fun_print "磁盘利用率:" "$disk_percentage"
echo ""
if [[ $(echo "${disk_percentage%?} > 10" | bc) -eq 1 ]];then
if [ ${USER} != "root" ];then
echo -e "\033[1;31m磁盘利用率过高,当前磁盘利用率${disk_percentage}\033[0m"
echo "磁盘利用率过高,当前磁盘利用率${disk_percentage}" | sudo mail -s "磁盘告警触发${time}" [email protected]
else
echo -e "\033[1;31m磁盘利用率过高,当前磁盘利用率${disk_percentage}\033[0m"
echo "磁盘利用率过高,当前磁盘利用率${disk_percentage}" | mail -s "磁盘告警触发${time}" [email protected]
fi
fi
}
get_redis_mem(){
local port=6378
local redis_used_memory=`redis-cli -p $port info | grep -w "used_memory"` # 数据占用的内存(bytes)
local redis_used_memory_human=`redis-cli -p $port info | grep -w "used_memory_human"` # 数据占用的内存(带单位,可读性好)
local redis_used_memory_rss=`redis-cli -p $port info | grep -w "used_memory_rss"` # redis占用的内存
local redis_used_memory_peak=`redis-cli -p $port info | grep -w "used_memory_peak"` # 占用内存峰值(bytes)
local redis_memory_peak_human=`redis-cli -p $port info | grep -w "used_memory_peak_human"` # 占用内存峰值(带单位,可读性好)
local redis_used_memory_lua=`redis-cli -p $port info | grep -w "used_memory_lua"` # 引擎占用的内存大小(bytes)
local redis_mem_fragmentation_ratio=`redis-cli -p $port info | grep -w "mem_fragmentation_ratio"` # 内存碎片率
local redis_mem_allocator=`redis-cli -p $port info | grep -w "mem_allocator"` # redis内存分配器版本,在编译时指定的。有libc、jemalloc、tcmalloc
echo -e "\033[1;35m#####################监控redis内存############# $time\033[0m"
echo $redis_used_memory
echo $redis_used_memory_human
echo $redis_used_memory_rss
echo $redis_used_memory_peak
echo $redis_memory_peak_human
echo $redis_used_memory_lua
echo $redis_mem_fragmentation_ratio
echo $redis_mem_allocator
echo ""
local used_internal_memory=$(echo ${
redis_used_memory_human} | awk -F: '{print $2}')
local used_internal_memory=${used_internal_memory%?}
if [ "${redis_used_memory}" > 1000 ];then
if [ ${USER} != "root" ];then
echo -e "\033[1;31mredis数据占用内存过高,当前redis数据占用内存${used_internal_memory}\033[0m"
echo "数据占用内存过高,当前数据占用内存${used_internal_memory}" | sudo mail -s "redis告警触发${time}" [email protected]
else
echo -e "\033[1;31mredis数据占用内存过高,当前redis数据占用内存${used_internal_memory}\033[0m"
echo "数据占用内存过高,当前数据占用内存${used_internal_memory}" | mail -s "redis告警触发${time}" [email protected]
fi
fi
}
###############################################################################################################################
#cd $(dirname `/usr/sbin/lsof -p $$ | gawk '$4 =="255r"{print $NF}'`) #进入当前脚本所在目录,需要系统装有lsof命令
lock_file=/tmp/monitor_server.lock # 定义操作锁文件路径
time=`date "+%Y-%m-%d %H:%M:%S"`
#获取操作锁
fun_lock $lock_file 2>/dev/null
[ $? -ne 0 ] && echo -e "\033[1;31m注意: 操作锁未解除,不能执行脚本!!!\033[0m" && exit 1
# 开始检查、监控
get_cpu_info
get_mem_info
get_disk_info
get_redis_mem
# 释放操作锁
fun_unlock $lock_file
Tips:最后需要将脚本放到定时任务才能达到监控的效果