该问题是在Linux下多线程通信的情况下出现该的,一台设备上多个线程向同一个IP地址的同一个端口发送UDP信息,而且是当程序正常工作一段时间之后,出现的。而且发送包的数量比较大,所以猜测可能连接跟踪表满了,导致丢包。所以查找资料,采用了如下方法:
iptables -A FORWARD -m state --state UNTRACKED -j ACCEPT
iptables -t raw -A PREROUTING -p tcp -m multiport --dport 9001,9000,9002 -j NOTRACK
iptables -t raw -A PREROUTING -p tcp -m multiport --sport 9001,9000,9002 -j NOTRACK
9000, 9001, 9002是程序中使用的端口。
解决 nf_conntrack: table full, dropping packet 的几种思路
nf_conntrack 工作在 3 层,支持 IPv4 和 IPv6,而 ip_conntrack 只支持 IPv4。目前,大多的 ip_conntrack_* 已被 nf_conntrack_* 取代,很多 ip_conntrack_* 仅仅是个 alias,原先的 ip_conntrack 的 /proc/sys/net/ipv4/netfilter/ 依然存在,但是新的 nf_conntrack 在 /proc/sys/net/netfilter/ 中,这个应该是做个向下的兼容:
$ pwd
/proc/sys/net/ipv4/netfilter
$ pwd
/proc/sys/net/netfilter
查看当前的连接数:
# grep ip_conntrack /proc/slabinfo
ip_conntrack 38358 64324 304 13 1 : tunables 54 27 8 : slabdata 4948 4948 216
查出目前 ip_conntrack 的排名:
$ cat /proc/net/ip_conntrack | cut -d ' ' -f 10 | cut -d '=' -f 2 | sort | uniq -c | sort -nr | head -n 10
nf_conntrack/ip_conntrack 跟 nat 有关,用来跟踪连接条目,它会使用一个哈希表来记录 established 的记录。nf_conntrack 在 2.6.15 被引入,而 ip_conntrack 在 2.6.22 被移除,如果该哈希表满了,就会出现:
nf_conntrack: table full, dropping packet
解决此问题有如下几种思路。
1.不使用 nf_conntrack 模块
首先要移除 state 模块,因为使用该模块需要加载 nf_conntrack。确保 iptables 规则中没有出现类似 state 模块的规则,如果有的话将其移除:
-A INPUT -m state –state RELATED,ESTABLISHED -j ACCEPT
注释 /etc/sysconfig/iptables-config 中的:
IPTABLES_MODULES="ip_conntrack_netbios_ns"
移除 nf_conntrack 模块:
$ sudo modprobe -r xt_NOTRACK nf_conntrack_netbios_ns nf_conntrack_ipv4 xt_state
$ sudo modprobe -r nf_conntrack
现在 /proc/net/ 下面应该没有 nf_conntrack 了。
2.调整 /proc/ 下面的参数
可以增大 conntrack 的条目(sessions, connection tracking entries) CONNTRACK_MAX 或者增加存储 conntrack 条目哈希表的大小 HASHSIZE
默认情况下,CONNTRACK_MAX 和 HASHSIZE 会根据系统内存大小计算出一个比较合理的值:
对于 CONNTRACK_MAX,其计算公式:
CONNTRACK_MAX = RAMSIZE (in bytes) / 16384 / (ARCH / 32)
比如一个 64 位 48G 的机器可以同时处理 48*1024^3/16384/2 = 1572864 条 netfilter 连接。对于大于 1G 内存的系统,默认的 CONNTRACK_MAX 是 65535。
对于 HASHSIZE,默认的有这样的转换关系:
CONNTRACK_MAX = HASHSIZE * 8
这表示每个链接列表里面平均有 8 个 conntrack 条目。其真正的计算公式如下:
HASHSIZE = CONNTRACK_MAX / 8 = RAMSIZE (in bytes) / 131072 / (ARCH / 32)
比如一个 64 位 48G 的机器可以存储 48*1024^3/131072/2 = 196608 的buckets(连接列表)。对于大于 1G 内存的系统,默认的 HASHSIZE 是 8192。
可以通过 echo 直接修改目前系统 CONNTRACK_MAX 以及 HASHSIZE 的值:
$ sudo su -c "echo 100000 > /proc/sys/net/netfilter/nf_conntrack_max"
$ sudo su -c "echo 50000 > /proc/sys/net/netfilter/nf_conntrack_buckets"
还可以缩短 timeout 的值:
$ sudo su -c "echo 600 > /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established"
3.使用 raw 表,不跟踪连接
iptables 中的 raw 表跟包的跟踪有关,基本就是用来干一件事,通过 NOTRACK 给不需要被连接跟踪的包打标记,也就是说,如果一个连接遇到了 -j NOTRACK,conntrack 就不会跟踪该连接,raw 的优先级大于 mangle, nat, filter,包含 PREROUTING 和 OUTPUT 链。
当执行 -t raw 时,系统会自动加载 iptable_raw 模块(需要该模块存在)。raw 在 2.4 以及 2.6 早期的内核中不存在,除非打了 patch,目前的系统应该都有支持:
$ sudo iptables -A FORWARD -m state --state UNTRACKED -j ACCEPT
$ sudo iptables -t raw -A PREROUTING -p tcp -m multiport --dport 80,81,82 -j NOTRACK
$ sudo iptables -t raw -A PREROUTING -p tcp -m multiport --sport 80,81,82 -j NOTRACK
上面三种方式,最有效的是 1 跟 3,第二种治标不治本。
“连接跟踪表已满,开始丢包”!相信不少用iptables的同学都会见过这个错误信息吧,这个问题曾经也困扰过我好长一段时间。此问题的解决办法有四种(nf_conntrack 在CentOS 5 / kernel <= 2.6.19中名为 ip_conntrack ):
一、关闭防火墙。 简单粗暴,直接有效
chkconfig iptables off chkconfig ip6tables off service iptables stop service ip6tables stop
切记:在防火墙关闭状态下,不要通过iptables指令(比如 iptables -nL)来查看当前状态!因为这样会导致防火墙被启动,而且规则为空。虽然不会有任何拦截效果,但所有连接状态都会被记录,浪费资源且影响性能并可能导致防火墙主动丢包!
二、加大防火墙跟踪表的大小,优化对应的系统参数
1、状态跟踪表的最大行数的设定,理论最大值 CONNTRACK_MAX = RAMSIZE (in bytes) / 16384 / (ARCH / 32)
以64G的64位操作系统为例,CONNTRACK_MAX = 64*1024*1024*1024/16384/2 = 2097152
即时生效请执行:
sysctl –w net.netfilter.nf_conntrack_max = 2097152
2、其哈希表大小通常为总表的1/8,最大为1/2。CONNTRACK_BUCKETS = CONNTRACK_MAX / 8
同样64G的64位操作系统,哈希最佳范围是 262144 ~ 1048576 。
运行状态中通过 sysctl net.netfilter.nf_conntrack_buckets 进行查看,通过文件 /sys/module/nf_conntrack/parameters/hashsize 进行设置
或者新建 /etc/modprobe.d/iptables.conf ,重新加载模块才生效:
options nf_conntrack hashsize = 262144
3、还有些相关的系统参数`sysctl -a | grep nf_conntrack`可以调优(/etc/sysctl.conf ):
net.netfilter.nf_conntrack_max = 1048576 net.netfilter.ip_conntrack_tcp_timeout_established = 3600 net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60 net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 120 net.netfilter.nf_conntrack_tcp_timeout_time_wait = 120
三、使用祼表,添加“不跟踪”标识。如下示例更适合桌面系统或随意性强的服务器。因为它开启了连接的状态机制,方便和外部通信。修改 /etc/sysconfig/iptables 文件:
*raw # 对TCP连接不启用追踪,解决ip_contrack满导致无法连接的问题 -A PREROUTING -p tcp -m tcp --dport 80 -j NOTRACK -A PREROUTING -p tcp -m tcp --dport 22 -j NOTRACK -A PREROUTING -p tcp -m tcp --dport 21 -j NOTRACK -A PREROUTING -p tcp -m tcp --dport 11211 -j NOTRACK -A PREROUTING -p tcp -m tcp --dport 60000:60100 -j NOTRACK -A PREROUTING -p tcp -s 192.168.10.1 -j NOTRACK -A OUTPUT -p tcp -m tcp --sport 80 -j NOTRACK -A OUTPUT -p tcp -m tcp --sport 22 -j NOTRACK -A OUTPUT -p tcp -m tcp --sport 21 -j NOTRACK -A OUTPUT -p tcp -m tcp --sport 11211 -j NOTRACK -A OUTPUT -p tcp -m tcp --sport 60000:60100 -j NOTRACK -A OUTPUT -p tcp -s 192.168.10.1 -j NOTRACK COMMIT *filter # 允许ping -A INPUT -p icmp -j ACCEPT # 对本地回路、第5张网卡放行 -A INPUT -i lo -j ACCEPT -A INPUT -i eth4 -j ACCEPT # 连接状态跟踪,已建立的连接允许传输数据 -A INPUT -m state --state ESTABLISHED,RELATED,INVALID,UNTRACKED -j ACCEPT # filter表里存在但在raw里不存在的,默认会进行连接状态跟踪 -A INPUT -s 192.168.10.31 -p tcp --dport 2669 -j ACCEPT -A INPUT -j REJECT --reject-with icmp-host-prohibited -A FORWARD -j REJECT --reject-with icmp-host-prohibited COMMIT
或者干脆对所有连接都关闭跟踪,不跟踪任何连接状态。不过规则就限制比较严谨,进出都需要显式申明。示例 /etc/sysconfig/iptables :
*raw # 对TCP/UDP连接不启用追踪,解决nf_contrack满导致无法连接的问题 -A PREROUTING -p tcp -j NOTRACK -A PREROUTING -p udp -j NOTRACK -A OUTPUT -p tcp -j NOTRACK -A OUTPUT -p udp -j NOTRACK COMMIT *filter # 允许ping -A INPUT -p icmp -j ACCEPT # 对本地回路和eth1放行 -A INPUT -i lo -j ACCEPT -A INPUT -i eth1 -j ACCEPT # 只允许符合条件的连接进行传输数据 -A INPUT -p tcp --dport 22 -j ACCEPT -A INPUT -p tcp --sport 80 -j ACCEPT -A INPUT -p udp --sport 53 -j ACCEPT -A INPUT -p udp --sport 123 -j ACCEPT # 出去的包都不限制 -A OUTPUT -p tcp -j ACCEPT -A OUTPUT -p udp -j ACCEPT # 输入和转发的包不符合规则的全拦截 -A INPUT -j REJECT --reject-with icmp-host-prohibited -A FORWARD -j REJECT --reject-with icmp-host-prohibited COMMIT
效果如下图:
四、删除连接跟踪模块`lsmod | grep nf_conntrack`,不使用连接状态的跟踪功能。
1、删除nf_conntrack和相关的依赖模块,示例:
rmmod nf_conntrack_ipv4 rmmod nf_conntrack_ipv6 rmmod xt_state rmmod xt_CT rmmod xt_conntrack rmmod iptable_nat rmmod ipt_REDIRECT rmmod nf_nat rmmod nf_conntrack
2、禁用跟踪模块,把它加到黑名单(/etc/modprobe.d/blacklist.conf ):
# 禁用 nf_conntrack 模块 blacklist nf_conntrack blacklist nf_conntrack_ipv6 blacklist xt_conntrack blacklist nf_conntrack_ftp blacklist xt_state blacklist iptable_nat blacklist ipt_REDIRECT blacklist nf_nat blacklist nf_conntrack_ipv4
3、去掉防火墙里所有和状态相关的配置(比如state状态,NAT功能),示例:
*filter # 允许ping -A INPUT -p icmp -j ACCEPT # 对本地回路和第2张网卡放行 -A INPUT -i lo -j ACCEPT -A INPUT -i eth1 -j ACCEPT # 对端口放行 -A INPUT -p tcp --dport 1331 -j ACCEPT # 对IP放行 -A INPUT -s 192.168.10.31 -j ACCEPT #允许本机进行DNS查询 -A INPUT -p udp --sport 53 -j ACCEPT -A OUTPUT -p udp -j ACCEPT -A INPUT -j REJECT --reject-with icmp-host-prohibited -A FORWARD -j REJECT --reject-with icmp-host-prohibited COMMIT
另外,防火墙的配置文件最好也改下,不要加载任何额外模块(/etc/sysconfig/iptables-config):
IPTABLES_MODULES="" # 不需要任何附加模块 IPTABLES_MODULES_UNLOAD="no" # 避免iptables重启后sysctl中对应的参数被重置为系统默认值 IPTABLES_SAVE_ON_STOP="no" IPTABLES_SAVE_ON_RESTART="no" IPTABLES_SAVE_COUNTER="no" IPTABLES_STATUS_NUMERIC="yes" IPTABLES_STATUS_VERBOSE="no" IPTABLES_STATUS_LINENUMBERS="no"
往往我们对连接的跟踪都是基于操作系统的(netstat / ss ),防火墙的连接状态完全是它自身实现产生的。
总结:防火墙有条件还是交给上层设备完成会更好,使用防火墙一定要做调优;如果不需要防火墙的跟踪功能,规则简单的可以开启NOTRACK选项,条件允许的情况下就删除它吧!
参考:
http://www.cnblogs.com/mydomain/archive/2013/05/19/3087153.html
http://my.oschina.net/kisops/blog/150995