Shell-系统分析

分析Linux系统以及状态的监视,提取Linux操作系统信息,获取操作系统运行状态,分析应用状态nginx,mysql,应用日志分析。

  1. VIM编辑器
  • 设置
    永久设置:修改vimrc文件
    临时关闭高亮模式:syntax off
    永久开启高亮模式,针对所有用户/etc/vimrc syntax on针对某个用户下,vim ~/.vimrc
  • 语法高亮 syntax on
  • 显示行号 set number set nonumber
  • 自动缩进 set autoindent set cindent
  • 自动加入文件头
  1. Shell编程高级知识
  • Shell高亮显示
    echo -e是处理特殊字符
    echo -e 终端颜色+显示内容+结束后颜色
    1为设置终端颜色,30m为灰色,0m为黑色
    echo -e "\e[1;30m Jeson say Hi~ \e[1;0m"
    tput sgr0初始化终端为正常屏幕,先设置文字颜色,再初始化终端
    echo -e "\e[1;30m" "Jeson say Hi~" $(tput sgr0)
  • Shell关联数组
    普通数组:只能用整数作为数组索引
    关联数组:可以使用字符串作为数组索引
    declare -A ass_array1声明关联数组变量
    ass_array1[index1]=pear赋值
  1. 主控脚本
#!/bin/bash
#经常使用的命令
resettem=$(tput sgr0)
declare -A ssharray
#关联数组
#declare -A声明数组变量-x变成环境变量-i定义为整数
i=0
numbers=""
#ls -I 排除后面的字符串ignore
for script_file in `ls -I "monitor.sh" ./`
do
    echo -e '\e[35m'"The script:" ${i} '==>' ${resettem} ${script_file}
    grep -E "^\#Program function" ${script_file}
    ssharray[$i]=${script_file}
    #echo ${ssharray[$i]}
    numbers="${numbers} | ${i}"
    i=$((i+1))
done
while true
do
    read -p "Please input one number in [ ${numbers} ]:" execshell
    #使用模式匹配,双方括号,非数字开头+表示一次或者多次
    if [[ ! ${execshell} = ~^[0-9]+ ]];then
        exit 0
    fi
    /bin/bash ./${ssharray[$execshell]}
done```
3. Shell对于系统资源提取及运行状态分析
提取操作系统信息,内核,系统版本,网络地址,分析系统的运行状态,CPU负载,内存及磁盘使用率。
操作系统使用内存和应用程序使用内存
`free -m`
系统使用内存=Total-Free
应用使用内存=Total-(Free+Cached+Buffers)
内存中cache和buffer区别
缓存区,cache用于打开的文件,最少使用原则
buffer,分缓存主要用于目录项,inode等文件系统,先进先出策略

!/bin/bash

clear
if [ $# -eq 0 ];then
#uname命令打印当前系统相关信息
reset_terminal=$(tput sgr0)
#check os type
os=$(uname -o)
echo -e '\e[1;32m'" operating system type: " $reset_terminal $os
#check os release version and name
os_name=$(cat /etc/issue|grep -e "Server")
echo -e '\E[32m'"check os release version and name:" $reset_terminal $os_name
#check architectureCPU指令集
architecture=$(uname -m)
echo -e '\E[32m'"check architecture" $reset_terminal $architecture
#check kernel release
kernelrelease=$(uname -r)
echo -e '\E[32m'"check kernel release" $reset_terminal $kernelrelease
#check hostname
hostname=$(uname -n)
#hostname=$(set|grep HOSTNAME)
#hostname=$(echo HOSTNAME)
echo -e '\E[32m'"check hostname" $reset_terminal $hostname
#check internal ip内网ip
internelip=$(hostname -I)
echo -e '\E[32m'"check internal ip" $reset_terminal $internelip
#check external ip外网ip返回出口ip,curl -s静默发送请求
externalip=$(curl -s http://ipecho.net/plain)
echo -e '\E[32m'"check external ip" $reset_terminal $externalip
#check dns
dns=$(cat /etc/resolv.conf | grep nameserver | awk '{print $NF}')
echo -e '\E[32m'"check dns" $reset_terminal $dns
#check if connected to internet or not
#比用$?要方便多了
ping -c 2 imooc.com &>/dev/null && echo "Internet:connected" || echo "Internet:disconnected"
#check logged in users
who>/tmp/who
echo -e '\E[32m'"logged in Users" $reset_terminal && cat /tmp/who
rm -f /tmp/who
fi```
根分区下/proc 读取文件分析系统状态
应用程序使用内存awk '/MemTotal/{total=$2}/MemFree/{free=$2}/^Cached/{cached=$2}/Buffers/{buffers=$2}END{print (total-free-cached-buffers)/1024}' /proc/meminfo
操作系统使用内存awk '/MemTotal/{total=$2}/MemFree/{free=$2}END{print (total-free)/1024}' /proc/meminfo

  • 操作系统负载
    load=1.0 满负荷 =0.5 没有满负荷 =1.7
    top -n 1 -b -n表示读取一次,-b表示读取信息更加全面
    top -n 1 -b | grep "load average"|awk '{print $12 $13 $14}'
  • 操作系统磁盘容量
    df -hP | grep -vE 'Filesystem|tmpfs' | awk '{print $1 " " $5}
  1. Shell分析程序或者应用状态
    利用操作系统命令ping,nslookup(检查dns),nm-tool,traceroute,dig,telnet,nc,curl(检查http响应是否成功)
    监控进程ps,netstat,pgrep(获得正在被调度的进程的相关信息)
    客户端命令mysql,ab,mongo,php,jstack,nginxstatus,nagios-libexec
  • nginx
    curl -m 5 设置最大传输时间 -s 静默模式 -w %{http_code}显示http返回状态码 -o /dev/null 输出
  • MySQL
    监控MySQL主从复制状态,通过IO/Thread同步
    shell,connect->show slave status->return data
    搭建主从复制环境(MySQL相关课程)。基于mysql客户端状态,获取主从复制状态,show slave status\G;格式化输出,每行输出,Slave_IO_RunningIO线程是否有链接到主服务器上,Seconds_Behind_Master主从同步的延时时间
    nc用于设置路由器 -z使用0输入/输出模式,只在扫描通信端口时使用,-w2设置等待连线的时间,mysql默认端口3306
    给监控单独配置一个用户,从服务器上。
    mysql -urep -prep -h10.156.11.233 -e "show slave status\G"
    也就是首先判断端口是否链接,然后登录客户端,然后执行相应的管理语句,返回状态信息进行判断。

整个检测判断分析代码:

#!/bin/bash
NginxServer='http://10.156.11.173/nginx_status'
Check_Nginx_Server(){
    Status=$(curl -m 5 -s -w %{http_code} ${NginxServer} -o /dev/null)
    if[ $Status -eq 000 -o $Status -ge 500 ];then
        echo -e 'check http server error! Response status code is ' $Status
    else
        #成功的话重新发起请求,获取数据
        Http_content=$(curl -s $(NginxServer))
        echo "check http server ok! Response status code is " $Http_content
    fi
}
Check_Nginx_Server
Mysql_Slave_Server='10.156.11.233'
Mysql_User='rep'
Mysql_Pass='rep'
Check_Mysql_Server(){
    #判断端口是否链接
    nc -z -w2 ${Mysql_Slave_Server} 3306 &>/dev/null
    if [ $? -eq 0 ];then
        echo "Connect ${Mysql_Slave_Server} ok!"
        mysql -u${Mysql_User} -p${Mysql_Pass} -h${Mysql_Slave_Server} -e "show slave status\G" | grep "Slave_IO_Running" | awk '{if($2!="yes"){print "slave IO thread not running";exit 1}}'
        if [ $? -eq 0 ];then
            mysql -u${Mysql_User} -p${Mysql_Pass} -h${Mysql_Slave_Server} -e "show slave statys\G" | grep "Seconds_Behind_Master"
    else
        echo "Connect Mysql server not succeeded"
    fi
}
Check_Mysql_Server```
5. Shell日志提取分析
nginx日志分析,webserver
  - 常见系统日志文件
    - 系统日志
/var/log/messages 系统主日志文件
/var/log/secure 认证,安全日志文件
/var/log/dmesg 和系统启动相关的日志文件
    - 应用服务
access.log nginx访问日志
mysqld.log mysql运行日志
xferlog 访问ftp服务器相关
    - 程序脚本
开发语言的日志:C,C++,Java,php
框架日志:Django,MVC,Servlet
脚本语言,shell,Python

  log_format,日志的格式
`cat /etc/nginx/nginx.conf | grep -A 2 log_format`
  - http状态码
    - 1** 信息,服务器收到请求,需要请求者继续执行操作
    - 2** 成功,操作被成功接收并处理
    - 3** 重定向,需要进一步操作以完成请求
    - 4** 客户端错误,请求包含语法错误或无法完成请求
    - 5** 服务器错误,服务器在处理请求的过程中发生了错误

  `cat /opt/logs/nginx/access.log | awk '{print $1}' | sort | uniq -c | sort -rn | more`
uniq命令删除文件中的重复行,-c在输出行前面加上每行在输入文件中出现的次数
sort排序,-r逆序,-n以数值排序,而不是字符
数据清洗,按照每一条数据特征点进行匹配,grep -i不区分大小写,-o精确输出,-E正则,使用原字符,`cat /opt/logs/nginx/access.log | grep -ioE "HTTP\/1\.[1|0]\"[[:blank:]][0-9]{3}" `

!/bin/bash

logfile_path='/opt/logs/nginx/access.log'
Check_http_status(){
http_status_codes=$(cat $logfile_path | grep -ioE "HTTP/1.[1|0]"[[:blank:]][0-9]{3}"|awk -F"[ ]+" '{if($2>100 && $2<200){i++}
else if($2>=200 && $2<300){j++}
else if($2>=300 && $2<400){k++}
else if($2>=400 && $2<500){n++}
else if($2>=500){p++}}END{
print i?i:0,j?j:0,k?k:0,n?n:0,p?p:0,i+j+k+n+p}')
echo 100-200 ${http_status_codes[0]}
echo 200-300 ${http_status_codes[1]}
echo 300-400 ${http_status_codes[2]}
echo 400-500 ${http_status_codes[3]}
echo 500+ ${http_status_codes[4]}
echo total ${http_status_codes[5]}
}
Check_http_status
Check_http_code(){
#关联数组
http_code=$(cat $logfile_path|grep -ioE "HTTP/1.[1|0]"[[:blank:]][0-9]{3}"|awk -v total=0 -F"[ ]+" '{
if($2!="")
{code[$2]++;total++}
else
{exit}
}END{
print code[404]?code[404]:0,code[403]?code[403]:0},total
}')
echo 404 $http_code[0]
echo 403 $http_code[1]
echo total $http_code[2]
}
Check_http_code

你可能感兴趣的:(Shell-系统分析)