在学习docker和k8s时大量的用到了iptables,那么iptables到底怎么玩,这篇文章告诉你答案。提起iptables/netfilter,我们应该听说过但在日常的工作中用到的机会并不多,那平时用不到是不是就不需要了解了呢,那肯定不是的,做技术嘛肯定是要有所追求的,当你越过每座山峰之后,你就能看到远处美好的风景[图片上传失败...(image-fa5084-1591493797514)]
那么iptables到底是个什么东西呢?说白了iptables就是一个用户态的命令行工具来操作内核态的netfilter,对进入本机的网络包进行一系列操作,比如 accept、reject、drop等等。下图说明了iptables的数据流向。
传说中的iptables由四表五链构成,那就看看这是个什么东西吧~
四表
raw表:主要用来决定是否对数据包进行状态跟踪(用的不多)。
mangle表:修改数据包的服务类型、TTL、并且可以配置路由实现QOS内核模块(用的不多)。
nat表:主要用来做网络地址转换SNAT、DNAT。
filter表:主要对数据包进行过滤,比如禁止某个ip数据包访问。
五链
PREROUTING链:在对数据包进行路由之前经过此链的处理,比如常见的做DNAT转换。
INPUT链:收到访问本机ip地址时经过此链处理,比如常见的在filter表上设置input链,拒绝或只允许某个ip访问。
FORWARD链:转发数据包时应用此链上的规则。
OUTPUT链:数据流出方向应用此链上的规则。
POSTROUTING链:对数据路由后应用此链上的规则,比如常见的做SNAT转换。
由上图可知,当一个数据包进入宿主机的某张网卡时,在四张表中的顺序如下:raw -> manager -> nat -> filter 。
数据如何在五条链中流转,根据目标ip是否是本机某张网卡的ip来判断。①:是本机数据包:prerouting -> input -> 本机进程处理数据 -> output -> postrouting 发送到网络中。
②:不是本机数据包:prerouting -> forward -> postrouting 发送到网络中。每条链中可以添加多条规则,执行时按照顺序执行,匹配到相应的规则后执行相应的动作,由于是顺序执行当链中的规则数量过多时,性能会有明显的损耗。
简单介绍了iptables的四表五链后,是时候具体来操作一波iptables看看效果了。iptables基本语法
iptables [-t 表名] 命令选项 [链名] [条件匹配] [-j 目标动作或跳转]-t 表名 不写的话默认是filter表 命令选项
-A 在指定链的末尾添加一条规则
-D 删除指定链的第几条规则,后面加上具体数字
-I 默认在链的头部插入一条规则,也可以指定插入第几条前面(-I chain num)
-F 删除链中所有的规则
-L 列出现有链中的全部规则
通用参数
-p 协议,tcp、udp、icmp等
-s 源地址
-d 目的地址
--sport 源地址端口
--dport 目的地址端口
-i 指定入口网卡
-o 指定出口网卡
处理动作
ACCEPT 允许数据包通过
DROP 丢弃数据包,数据发送方无法接受响应,直到过了超时时间
REJECT 拒绝此数据包,数据发送方能感知到被拒绝
SNAT 做源地址转换,如内网下访问外网,把源地址ip修改成路由器的公网ip
DNAT 做目标地址转换
MASQUERADE SNAT的另一种模式,适用于ip地址不固定的情况下
iptables 的语法大致就是以上内容,接下来搞几个简单的例子来测试一下,我在本地搭了3台虚拟机,ip 地址分别为 192.168.113.99、192.168.113.100、192.168.113.101。所有的iptables规则都在192.168.113.101这台机器上设置。
只允许192.168.113.100ping操作
iptables -t filter -A INPUT -p icmp ! 192.168.113.100 -j REJECT
这里在filter 表的INPUT链上添加了一条记录, 非 192.168.113.100 ip的ping 包直接拒绝掉,只有 192.168.113.100 可以ping通。
发往192.168.113.100 的imcp包全部丢弃
iptables -t filter -A OUTPUT -p icmp -d 192.168.113.100 -j DROP
这里在filter 表的OUTPUT链上添加了一条记录,丢弃了192.168.113.100 ping的响应包。只允许特定的端口放开
iptables -t filter -A INPUT -p tcp -m multiport --dport 22,80,8080 -j ACCEPT
查看filter 表上的具体规则
iptables -t filter -nvL
如图所示,操作filter 表的INPUT链,开放了9000:10000之间的tcp端口,同时也开放了22、80、8080端口,过input链时会从上往下顺序执行,当匹配到在这个范围内的端口时,把数据包传给用户态进程。最终没有匹配,会执行最后一条DROP掉。注意:如果第三条规则放到最前面,那就跪了,那ssh客户端直接断开连接了,就表示禁止访问所有tcp端口了。
接下来操作nat表,做nat地址的相关转换。当然,想要开启forward数据转发的话,需要如下操作,linux内核默认是关闭forward转发的。
echo 1 > /proc/sys/net/ipv4/ip_forward
把192.168.113.101:12000转发到192.168.113.100:8080
iptables -t nat -I PREROUTING -p tcp --dport 12000 -j DNAT --to-destination 192.168.113.100:8080
首先-t 操作nat表,在PREROUTING链上针对tcp协议,当发现访问本机是12000端口时,做DNAT协议转换,--to-destination 也可以简写成--to ,修改dst ip地址为 192.168.113.100。最后在POSTROUTING做SNAT转换,判断发往目标ip : port 为192.168.113.100 : 8080,修改源 ip 为192.168.113.101。
// SNAT 也可以这样写,适用于ip不固定的情况下
iptables -t nat -I POSTROUTING -p tcp -d 192.168.113.100 --dport 8080 -j MASQUERADE
iptables lb负载均衡
k8s里面service的实现有3种方式,当阅读官方文档发现有一种是根据iptables实现的,当集群中的pod数量比较多时,基于iptables做流量转发和lb策略性能会有所损耗(链表形式)
)。所以后续k8s默认使用ipvs实现了。之后再写k8sservice的实现时会说明ipvs的实现。接下来看看iptables如何做lb
分别在192.168.113.99、192.168.113.100 使用docker 启动两个nginx容器,占用虚拟机的8080端口,在192.168.101上设置iptables规则,如下图所示:
docker run -it --rm -p 8080:80 nginx
iptables两种负载均衡策略
随机:random
// DNAT 转换
iptables -A PREROUTING -t nat -p tcp --dport 12000 -m statistic --mode random --probability 0.5 -j DNAT --to-destination 192.168.113.100:8080
iptables -A PREROUTING -t nat -p tcp --dport 12000 -j DNAT --to-destination 192.168.113.99:8080
// SNAT 转换
iptables -t nat -I POSTROUTING -p tcp -d 192.168.113.100 --dport 8080 -j SNAT --to-source 192.168.113.101
iptables -t nat -I POSTROUTING -p tcp -d 192.168.113.99 --dport 8080 -j SNAT --to-source 192.168.113.101
由于有两个后端服务,做DNAT时第一个ip --probability 0.5 指定了50%的命中概率,没有命中第一条的概率也是50%,当没有命中第一条时就走到了第二条,所以两个服务被访问的概率都是50%。
轮训:nth
// DNAT 转换
iptables -A PREROUTING -t nat -p tcp --dport 12000 -m statistic --mode nth --every 2 --packet 0 -j DNAT --to-destination 192.168.113.100:8080
iptables -A PREROUTING -t nat -p tcp --dport 12000 -j DNAT --to-destination 192.168.113.99:8080
// SNAT 转换
iptables -t nat -I POSTROUTING -p tcp -d 192.168.113.100 --dport 8080 -j SNAT --to-source 192.168.113.101
iptables -t nat -I POSTROUTING -p tcp -d 192.168.113.99 --dport 8080 -j SNAT --to-source 192.168.113.101
轮训算法中有两个参数 :n 指每n个包,p 指第p个包。第一条规则指每2个包,第一个包走第一条规则,那第二个包就走第二条规则了。
总结:基于iptables的这两种方式,很容易实现四层网络代理转发,但是基于iptables做四层转发是单点的,挂了就GG了,所以业界最主流的玩法是lvs+keepalived做四层代理转发。而且lvs的性能比iptables更高。
前面我们对iptables做的操作都是直接在默认的5个链上操作的,一台服务器上可能有很多个iptables规则,如果全部放一块修改一处可能会对其他的有影响,而iptables支持自定义链,这时候我们把相同类型的规则全部放到同一个链中,便于维护。k8s和docker中就定义了好几个链。
// 创建一个mysql的自定义链
iptables -t filter -N MYSQL
// mysql 的链中只允许 192.168.113.99 的ip访问,其余全部reject掉
iptables -t filter -I MYSQL -s 192.168.113.99 -j ACCEPT
iptables -t filter -A MYSQL -j REJECT
// 将mysql的链添加到filter表的INPUT链中
iptables -t filter -I INPUT -p tcp --dport 3306 -j MYSQL
自定义链规则如下:
参考文档:
- https://scalingo.com/blog/iptables.html
- https://www.zsythink.net/archives/1625
- https://www.zsythink.net/archives/1199