linux日常

SA的一些工具(用来诊断系统/MySQL的问题)

参考文档1(下载):Linux Performance Analysis and Tools.pdf

参考文档2(下载):system preformence中文翻译版:性能之巅 洞悉系统、企业与云计算


架构

sysbench:172.17.100.107

MySQL:172.17.100.100


监控


iostat

iostat的部署

yum install sysstat -y


在107上通过sysbench对100写入数据

sysbench搭建参考:sysbench的搭建使用

sysbench --mysql-host=172.17.100.100 --mysql-port=3306 --mysql-user=tpcc --mysql-password=tpcc --test=/usr/local/sysbench/sysbench/tests/db/oltp.lua --oltp_tables_count=20 --oltp-table-size=10000000 --rand-init=on prepare

在100上启动iostat查看效果

iostat -d -m 10 1000 (-d表示展示磁盘使用情况,-c则是针对cpu,-m表示单位为MB,每10秒显示一行结果,显示1000行)

iostat -dxm 5(每5秒采集一次数据,一直显示)

关注点

w/s:每秒写入次数

r/s:每秒读次数

wMB/s:每秒写入量(MB)

await:IO平均处理时间+IO平均排队时间,该值也是一个综合指标,并不能完全反映磁盘性能(比如说排队时间很长);但这个指标很重要,反映了用户发起IO请求的平均延迟

svctm:并不是一个独立的事项,不能单独反映问题,直接无视

%util:并不能反映io的饱和度,即使是100%也不能表示io资源被用完

该参数参考文档:iostat指标算法详解


iftop

iftop的部署:iftop的部署

常用命令

常规显示eth0的各项流量统计

eg.

iftop -i eth0  

-F过滤某个段(只显示该段)

eg.

iftop -F 172.17.100.0/24 

iftop -F 172.17.100.107/255.255.255.0

-P把端口也显示出来(相当于后面在界面上点击D和S)

iftop -P

进入iftop界面后常用的敲击指令

S:显示本端端口

D:显示远端端口

T:显示总流量

l(小写的L):输入过滤选项,比如输入过滤的IP,就只显示这个IP了

L:变化刻度

界面上关注的指标

=>表示发送数据

<=表示接收数据

TX:发送

RX:接收

peak:峰值

rate:2s,20s,40s之前的流量情况

-------------------------

PS:这个iftop的截图是我在做压测的run阶段截取的,sysbench部署在107上,而压测数据库为100,在我前期导入数据的prepare阶段,显示100为接收状态,当我进行到run阶段的时候,这里确显示数据流向为发送状态了

prepare为数据的导入,所以很好理解数据从107发送过来,100接收

但是run阶段为什么是100在往107发送呢?这个还没有想清楚,或许后面写tcpdump的时候,我会来复盘一下


uptime

显示当前时间

启动时长(那个19:42表示已经启动了19个小时42分钟了)

当前用户总连接数(这个应该是指的登陆到该服务器的用户连接数,我试过用mysql从远端连接本地,显示的用户数仍然是1)

后面3个是系统分时段(1、5、15分钟)的平均负载,可以看到系统负载增减的一个趋势


top

上面uptime显示的内容其实在top的第一行就全部体现了,所以上面的命令可以说是real尴尬

top的用法挺多,个人常见的3个操作

M:按内存使用率从高到低排序

P:按CPU使用率从高到低排序

1:显示所有CPU的使用情况


htop

htop的部署:htop的部署

关于top和htop几个参数的意义,我就从别处粘贴过来了

PID:进行的标识号

USER:运行此进程的用户

PRI:进程的优先级

NI:进程的优先级别值,默认的为0,可以进行调整

VIRT:进程占用的虚拟内存值

RES:进程占用的物理内存值

SHR:进程占用的共享内存值

S:进程的运行状况,R表示正在运行、S表示休眠,等待唤醒、Z表示僵死状态

%CPU:该进程占用的CPU使用率

%MEM:该进程占用的物理内存和总内存的百分比

TIME+:该进程启动后占用的总的CPU时间

COMMAND:进程启动的启动命令名称


老实说可能是我比较愚钝,在我看来top和htop差不多,可能htop对内存,CPU通过类似进度条的展示让人感觉更直观一点

个人通常关注的几个指标

PID、VIRT、RES、CPU%、MEM%、command

关于VIRT、RES

VIRT表示进程申请的内存,而不是实际使用的内存;比如说进程申请了1G,但是当前使用了300M,那么VIRT显示为1G

VIRT=RES+swap out

RES和上面的VIRT相反,套用前面的例子,RES显示为300M;RES不包括swap out出的内存

排序查看方式与前面的top类似,不再赘述


vmstat

常用指令

vmstat 1(每1秒实时刷新vmstat的结果)

r: 运行队列中进程数量,这个值也可以判断是否需要增加CPU。(长期大于1)

b: 等待IO的进程数量。

swpd: 使用虚拟内存大小,如果swpd的值不为0,但是SI,SO的值长期为0,这种情况不会影响系统性能。

free: 空闲物理内存大小。

buff: 用作缓冲的内存大小。

cache: 用作缓存的内存大小,如果cache的值大的时候,说明cache处的文件数多,如果频繁访问到的文件都能被cache处,那么磁盘的读IO bi会非常小。


strace

常用参数

-T:记录各系统调用花费时间(图1的最后一列)

-tt:时分秒.微秒

-ttt:与tt精度一致,但是显示格式为unix格式;我个人而言喜欢用tt

-r:以第一个系统调用计时(图1的第一列)

-o:输出到文件

-p:pid(图1中的1419是mysqld的pid)

图1

如上图所示,T是一个较为常用的参数,通常看到的数值都是0.0....,如果在调试时发现一些T值大于1甚至更高,那么就需要关注一下了

此外对于一些报错的行,肯定是要重点关注的

在执行命令时,需要把需要调试的进程名写进去,比如这里我需要调试mysqld,就得写进去,只写pid是不能出现结果的。

通常不会让结果直接在屏幕上直接显示,而是导入到某个log里,再通过其他方式查看

写法如下

strace -Tr -tt -o putout.log 进程名 -p pid

之前用strace观测过mysql启动的过程,目前还没有太多的解决mysql故障的案例

追踪mysql语句的指令

strace -f -F -ff -o mysqld-strace -s 1024 -p mysql_pid

find ./ -name "mysqld-strace*" -type f -print |xargs grep -n "SELECT.*FROM"


ltrace

strace是系统层面的调试,ltrace是用户层面的调试,方法和参数与strace近乎一致


tcpdump

常用参数

-c:抓包数

-i:网口

-nn:把端口显示为数字(而非服务名)

-vvv:输出的详细信息

-XX:输出包头部

-q:打印输出

-s:设置抓包的长度,默认65535(Byte)

port:端口

tcpdump对mysql抓包

tcpdump -i eth0 -q -s 65535 -nn -vvv -XX -c 1000 port 3306 > dmp.log

然后结合pt-query-digest进行分析

pt-query-digest --type tcpdump dmp.log > report.log


日常操作


CentOS7开启防火墙

systemctl stop firewalld

systemctl mask firewalld

#安装

yum install -y iptables-services

#设置开机启动

systemctl enable iptables

systemctl stop iptables

systemctl start iptables

systemctl restart iptables

systemctl reload iptables

service iptables save


挂载(/data)

fdisk -l

#分区

fdisk /dev/vdb

#格式化

mkfs.ext4 /dev/vdb1

mkdir /data

echo '/dev/vdb1 /data ext4 defaults 1 1' >> /etc/fstab

#挂载

mount /dev/vdb1


调整时区

yum install -y ntp ntpdate

cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime


关闭Selinux

sed -i 's/enforcing/disabled/g' /etc/sysconfig/selinux

setenforce 0


sudo su切回root之后,必须要source才能正常执行

在/etc/bashrc里面添加一条

source /etc/profile


SecureCRT二次跳转



用户权限配置

groupadd user

useradd user -g user

passwd user

#输入密码

echo 'user ALL=(ALL)  NOPASSWD:/usr/sbin/*,/sbin/*,/usr/bin/*,!/usr/bin/passwd,!/usr/sbin/visudo,!/usr/sbin/useradd,!/usr/sbin/userdel,!/usr/bin/su,!/etc/passwd,!/etc/shadow,!/etc/group,!/etc/gshadow' >> /etc/sudoers

sed -i 's/#Port xx/Port xxxxxx/g' /etc/ssh/sshd_config

service sshd restart


基础硬件查看

CPU芯片信息:cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c

机器型号查看:dmidecode |grep"Product Name"



阿里云磁盘在线扩容

yum install cloud-utils-growpart -y

选择在线扩容完成

fdisk -l

growpart /dev/vda 1

resize2fs /dev/vda1

你可能感兴趣的:(linux日常)