做过Linux平台性能测试的童鞋平时可能会遇到如下问题:
1、 TCP端口号不够用导致并发上不去(即与服务器端建立新连接失败)
2、 TIME_WAIT状态连接过多导致应用服务器(Nginx、Haproxy、Redis、Tomcat等)性能下降或假死
等等
我们可以通过优化系统内核参数来解决上述问题,优化步骤如下:
Linux 平台
1、 参考附件1中sysctl.conf文件替换或修改系统中/etc/sysctl.conf
意义:
(1) 突破系统最大打开文件描述符数限制(系统级别)
(2) 提高系统网络负载
2、 使用命令“sysctl -p /etc/sysctl.conf”使步骤1修改生效
备注:error: “net.bridge.bridge-nf-call-ip6tables” is an unknown key 解决方法
modprobe bridge
lsmod|grep bridge
3、 修改/etc/security/limits.conf,添加如下内容:
* hard nofile 1024000
* soft nofile 1024000
意义:突破 进程最大打开文件描述符数限制(用户级别)
4、 重新登录服务器使其步骤3修改生效
备注:
(1) 修改过程中需注意:
a. 所有进程打开的文件描述符数不能超过/proc/sys/fs/file-max
b. 单个进程打开的文件描述符数不能超过user limit中nofile的soft limit
c. nofile的soft limit不能超过其hard limit
d. nofile的hard limit不能超过/proc/sys/fs/nr_open
(2) /etc/security/limits.conf里面修改文件描述符数量,建议带上账号,*号代表了所有账户!
1) 新建kdxf运行的账户(一般不使用root账户;现网安全起见一般会禁用root账户直接登录权限,需要从普通账户登录后切换至root)
2) 关闭Linux系统SELINUX和防火墙(需要重启操作系统,SELINUX安全系统控制过严,可能会影响进程访问操作系统某些资源)
修改/etc/selinux/config文件中SELINUX=”“为disabled
关闭防火墙使用命令:
chkconfig iptables off
chkconfig ip6tables off
3) 系统字符集编码配置(系统默认utf-8,在需要的时候可以修改系统字符集,需要重启操作系统)
修改/etc/sysconfig/i18n配置文件中的LANG
LANG="zh_CN.GB18030"
修改/etc/profile,增加两行:
export LANG=zh_CN.GB18030
export LC_ALL=zh_CN.GB18030
4) 产生core文件配置(该配置是应用程序在崩溃时能自动产生一个崩溃core文件,有助于开发定位崩溃原因)
修改/etc/profile,增加一行:
ulimit -c unlimited
修改/etc/sysctl.conf文件,设置
fs.suid_dumpable = 1
运行以下命令使得配置生效
sysctl -p
5) 用户最大进程数配置
Centos5环境修改/etc/security/limits.conf文件
Centos6环境修改/etc/security/limits.d/90-nproc.conf文件
kdxf hard nproc unlimited
kdxf soft nproc unlimited
注:这里kdxf代表运行应用程序的普通系统账户,请根据实际填写!
附件1:sysctl.conf
# Kernel sysctl configuration file for Red Hat Linux
# For binary values, 0 is disabled, 1 is enabled. See sysctl(8) and
# sysctl.conf(5) for more details.
# Controls IP packet forwarding
net.ipv4.ip_forward = 0
# Controls source route verification
net.ipv4.conf.all.rp_filter=0
net.ipv4.conf.default.rp_filter=0
# Do not accept source routing
net.ipv4.conf.default.accept_source_route = 0
# Controls the System Request debugging functionality of the kernel
kernel.sysrq = 0
# Controls whether core dumps will append the PID to the core filename.
# Useful for debugging multi-threaded applications.
kernel.core_uses_pid = 1
# Controls the use of TCP syncookies
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_fin_timeout = 12
net.ipv4.tcp_keepalive_time = 1200
net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.tcp_max_syn_backlog = 8192
# Disable netfilter on bridges.
net.bridge.bridge-nf-call-ip6tables = 0
net.bridge.bridge-nf-call-iptables = 0
net.bridge.bridge-nf-call-arptables = 0
# Controls the default maxmimum size of a mesage queue
kernel.msgmnb = 65536
# Controls the maximum size of a message, in bytes
kernel.msgmax = 65536
# Controls the maximum shared segment size, in bytes
kernel.shmmax = 68719476736
# Controls the maximum number of shared memory segments, in pages
kernel.shmall = 4294967296
# Disable IPv6
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
# Determines how often to check for stale neighbor entries.
net.ipv4.neigh.default.gc_stale_time=120
# Using arp_announce/arp_ignore to solve the ARP Problem
net.ipv4.conf.default.arp_announce = 2
net.ipv4.conf.all.arp_announce=2
vm.swappiness = 0
net.ipv4.tcp_max_tw_buckets = 50000
net.ipv4.tcp_max_syn_backlog = 1024
net.ipv4.tcp_synack_retries = 2
net.ipv4.conf.lo.arp_announce=2
# Controls the application is able to bind to not belong to the local network address
net.ipv4.ip_nonlocal_bind=1
fs.file-max = 1700000
2)参数及简单说明
net.ipv4.tcp_fin_timeout = 2 #保持在FIN-WAIT-2状态的时间,使系统可以处理更多的连接。此参数值为整数,单位为秒。
net.ipv4.tcp_tw_reuse = 1 #开启重用,允许将TIME_WAIT socket用于新的TCP连接。默认为0,表示关闭。
net.ipv4.tcp_tw_recycle = 1 #开启TCP连接中TIME_WAIT socket的快速回收。默认值为0,表示关闭。
net.ipv4.tcp_syncookies = 1 #开启SYN cookie,出现SYN等待队列溢出时启用cookie处理,防范少量的SYN攻击。默认为0,表示关闭。
net.ipv4.tcp_keepalive_time = 600 #keepalived启用时TCP发送keepalived消息的拼度。默认位2小时。
net.ipv4.tcp_keepalive_probes = 5 #TCP发送keepalive探测以确定该连接已经断开的次数。根据情形也可以适当地缩短此值。
net.ipv4.tcp_keepalive_intvl = 15 #探测消息发送的频率,乘以tcp_keepalive_probes就得到对于从开始探测以来没有响应的连接杀除的时间。默认值为75秒,也就是没有活动的连接将在大约11分钟以后将被丢弃。对于普通应用来说,这个值有一些偏大,可以根据需要改小.特别是web类服务器需要改小该值。
net.ipv4.ip_local_port_range = 1024 65000 #指定外部连接的端口范围。默认值为32768 61000。
net.ipv4.tcp_max_syn_backlog = 262144 #表示SYN队列的长度,预设为1024,这里设置队列长度为262 144,以容纳更多的等待连接。
net.ipv4.tcp_max_tw_buckets =5000 #系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数值将立刻被清楚并输出警告信息。默认值为180000。对于squid来说效果不是很大,但可以控制TIME_WAIT套接字最大值,避免squid服务器被拖死。
net.ipv4.tcp_syn_retries = 1 #表示在内核放弃建立连接之前发送SYN包的数量。
net.ipv4.tcp_synack_retries = 1 #设置内核放弃连接之前发送SYN+ACK包的数量。
net.core.somaxconn = 16384 #定义了系统中每一个端口最大的监听队列的长度, 对于一个经常处理新连接的高负载 web服务环境来说,默认值为128,偏小。
net.core.netdev_max_backlog = 16384 #表示当在每个网络接口接收数据包的速率比内核处理这些包的速率快时,允许发送到队列的数据包的最大数量。
net.ipv4.tcp_max_orphans = 16384 #表示系统中最多有多少TCP套接字不被关联到任何一个用户文件句柄上。如果超过这里设置的数字,连接就会复位并输出警告信息。这个限制仅仅是为了防止简单的DoS攻击。此值不能太小。
sysctl -p
3) 常见内核报错解析
net.ipv4.tcp_max_tw_buckets 错误:
Sep 23 04:45:54 localhost kernel: possible SYN flooding on port 80. Sending cookies.
Sep 23 04:45:55 localhost kernel: TCP: time wait bucket table overflow
Sep 23 04:45:55 localhost kernel: TCP: time wait bucket table overflow
Sep 23 04:45:55 localhost kernel: TCP: time wait bucket table overflow
Sep 23 04:45:55 localhost kernel: TCP: time wait bucket table overflow
Sep 23 04:45:55 localhost kernel: TCP: time wait bucket table overflow
Sep 23 04:45:55 localhost kernel: TCP: time wait bucket table overflow
如上错误是由于 net.ipv4.tcp_max_tw_buckets 设置过小导致,如果内核有如上错误,我们需要
增加 net.ipv4.tcp_max_tw_buckets 的值。
Too many open files 错误:
如果后台报错,大量的 too many open files 错误,一般主要是 JAVA 应用出现这类错误比较多。我们需
要设置内核打开文件最大数。
ulimit -SHn 51200 临时生效,如果想永久生效,需要写入到系统内核里面:
vi /etc/security/limits.conf
* soft nproc 65535
* hard nproc 65535
* soft nofile 65535
* hard nofile 65535
然后 exit 退出,重新登录即生效,也可以写在/etc/profile 文件里
Windows平台
1、 按附件2内容新建tcp.reg注册表文件并执行
意义:修改系统连接数限制
2、 重启系统,使其步骤1修改生效
附件2:tcp.reg
Windows Registry Editor Version 5.00
;修改TCP并发连接数为最大值
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters]
"TcpNumConnections"=dword:00fffffe
;修改分页池最大使用值被系统回收
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager\Memory Management]
"PoolUsageMaxium"=dword:00000032
;修复系统支持最大网络吞吐量
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\LanmanServer]
"MaxFreeConnections"=dword:00001000
"MinFreeConnections"=dword:00000100