一、Tc原理介绍
Linux流量控制的基本原理如下图所示。
Linux操作系统中的流量控制器TC(Traffic Control)用于Linux内核的流量控制,主要是通过在输出端口处建立一个队列来实现流量控制。接收包从输入接口(Input Interface)进来后,经过流量限制(Ingress Policing)丢弃不符合规定的数据包,由输入多路分配器(Input De-Multiplexing)进行判断选择:如果接收包的目的是本主机,那么将该包送给上层处理;否则需要进行转发,将接收包交到转发块(Forwarding Block)处理。转发块同时也接收本主机上层(TCP、UDP等)产生的包。转发块通过查看路由表,决定所处理包的下一跳。然后,对包进行排列以便将它们传送到输出接口(Output Interface)。一般我们只能限制网卡发送的数据包,不能限制网卡接收的数据包,所以我们可以通过改变发送次序来控制传输速率。Linux流量控制主要是在输出接口排列时进行处理和实现的。
tc 一般的配置都工作于 转发块(Forwarding Block) 与 输出接口(Output Interface) 之间。
二、TC规则
1. 流量控制包括以下几种方式:
1.1 SHAPING(限制):控制流量在某个值以下。限制值可以大大小于有效带宽,这样可以平滑突发数据流量,使网络更为稳定。shaping(限制)只适用于向外的流量。
1.2 SCHEDULING(调度):通过调度数据包的传输,可以在带宽范围内,按照优先级分配带宽。SCHEDULING(调度)也只适于向外的流量。
1.3 POLICING(策略):SHAPING用于处理向外的流量,而POLICIING(策略)用于处理接收到的数据。
1.4 DROPPING(丢弃):如果流量超过某个设定的带宽,就丢弃数据包,不管是向内还是向外。
2. Linux 流量控制过程分二种:
2.1队列控制 :即 QOS,TOS 瓶颈处的发送队列的规则控制,常见的有 SFQ、 PRIO。
2.2流量控制 即带宽控制 , 队列的排队整形, 一般为 TBF、 HTB。
3. Linux 流量控制算法分二种:
3.1无类算法 用于树叶级无分支的队列,例如:SFQ
3.2分类算法 用于多分支的队列,例如:PRIO 、TB、F HTB
4. 流量控制处理对象
Tc对象列表
- 流量的处理由三种对象控制:
- QDisc(排队规则)
量控制(traffic control)的基础。无论何时,内核如果需要通过某个网络接口发送数据包,它都需要按照为这个接口配置的qdisc(排队规则)把数据包加入队列。然后,内核会尽可能多地从qdisc里面取出数据包,把它们交给网络适配器驱动模块。最简单的QDisc是pfifo它不对进入的数据包做任何的处理,数据包采用先入先出的方式通过队列。不过,它会保存网络接口一时无法处理的数据包。 - Class(类别)
某些QDisc(排队规则)可以包含一些类别,不同的类别中可以包含更深入的QDisc(排队规则),通过这些细分的QDisc还可以为进入的队列的数据包排队。通过设置各种类别数据包的离队次序,QDisc可以为设置网络数据流量的优先级。 - FILTER(过滤器)
Filter(过滤器)用于为数据包分类,决定它们按照何种QDisc进入队列。无论何时数据包进入一个划分子类的类别中,都需要进行分类。分类的方法可以有多种,使用fileter(过滤器)就是其中之一。使用filter(过滤器)分类时,内核会调用附属于这个类(class)的所有过滤器,直到返回一个判决。如果没有判决返回,就作进一步的处理,而处理方式和QDISC有关。需要注意的是,filter(过滤器)是在QDisc内部,它们不能作为主体。
- QDisc(排队规则)
5. 结构原理
结构图
- 类(Class)组成一个树,每个类都只有一个父类,而一个类可以有多个子类。
- 某些QDisc(例如:CBQ和HTB)允许在运行时动态添加类,某些QDisc(例如:PRIO)不允许动态建立类。
允许动态添加类的QDisc可以有零个或者多个子类,由它们为数据包排队。 - 每个类都有一个子QDisc,默认情况下,这个子QDisc使用pfifo的方式排队,我们也可以使用其它类型的QDisc代替这个默认的QDisc。叶子QDisc有可以分类(这里是引入filter),每个子类只能有一个叶子QDisc。
- 当一个数据包进入一个分类QDisc,它会被归入某个子类。
我们可以使用以下三种方式为数据包归类,不过不是所有的QDisc都能够使用这三种方式。
FILTER
- tc过滤器(tc filter):原生支持的分类器 (参照Tc对象图)
如果过滤器附属于一个类,相关的指令就会对它们进行查询。过滤器能够匹配数据包头所有的域,也可以匹配由ipchains或者iptables做的标记。 - TOS服务类型(Type of Service):数据包中的TOS字段。
某些QDisc有基于服务类型(Type of Service,ToS)的内置的规则为数据包分类。 - skb->priority:即程序硬编码
用户空间的应用程序可以使用socket SO_PRIORITY选项在skb->priority域设置一个类的ID。
6. 命令规则
QDisc、类和过滤器都有ID。ID可以手工设置,也可以有内核自动分配。ID由一个主序列号和一个从序列号组成,两个数字用一个冒号分开。
- QDISC:
一个QDisc会被分配一个主序列号,叫做句柄(handle),然后把从序列号作为类的命名空间。句柄采用象10:一样的表达方式。习惯上,需要为有子类的QDisc显式地分配一个句柄。 - 类(CLASS):
在同一个QDisc里面的类分享这个QDisc的主序列号,但是每个类都有自己的从序列号,叫做类识别符(classid)。类识别符只与父QDisc有关,和父类无关。类的命名习惯和QDisc的相同。 - 过滤器(FILTER):
过滤器的ID有三部分,只有在对过滤器进行散列组织才会用到。详情请参考tc-filters手册页.
三、tc配置步骤
Linux流量控制主要分为建立队列、建立分类和建立过滤器三个方面。
基本实现步骤为:
(1) 针对网络物理设备(如以太网卡eth0)绑定一个队列QDisc;
(2) 在该队列上建立分类class;
(3) 为每一分类建立一个基于路由的过滤器filter;
(4) 最后与过滤器相配合,建立特定的路由表。
四、场景实例
场景一(TBF限速)
tbf算法介绍:
令牌桶过滤器 (TBF) 是一个简单的队列规定 : 只允许以不超过事先设定的速率到来的数据包通过 , 但可能允许短暂突发流量朝过设定值 .TBF 很精确 , 对于网络和处理器的影响都很小 , 实现是针对数据的字节数进行的 , 而不是针对数据包进行 , 常用于网关限速 .
TBF 的实现在于一个缓冲器 ( 桶 ), 不断地被一些叫做"令牌"的虚拟数据以特定速率填充着 . (token rate). 桶最重要的参数就是它的大小 , 也就是它能够存储令牌的数量 . 每个到来的令牌从数据队列中收集一个数据包 , 然后从桶中被删除 . 这个算法关联到两个流上——令牌流和数据流 , 于是我们得到 3 种情景 :
- A. 数据流以等于令牌流的速率到达 TBF. 这种情况下 , 每个到来的数据包都能对应一个令牌 , 然后无延迟地通过队列 .
- B. 数据流以小于令牌流的速度到达 TBF. 通过队列的数据包只消耗了一部分令牌 , 剩下的令牌会在桶里积累下来 , 直到桶被装满 . 剩下的令牌可以在需要以高于令牌流速率发送数据流的时候消耗掉 , 这种情况下会发生突发传输 .
- C. 数据流以大于令牌流的速率到达 TBF. 这意味着桶里的令牌很快就会被耗尽 . 导致 TBF 中断一段时间 , 称为"越限". 如果数据包持续到来 , 将发生丢包 . 此种情况最重要 , 因为它可以用来对数据通过过滤器的速率进行整形 . 令牌的积累可以导致越限的数据进行短时间的突发传输而不必丢包 , 但是持续越限的话会导致传输延迟直至丢包 .
场景介绍
测试机器 192.168.5.52 与 192.168.8.51
在192.168.8.52 上设置qdisc 进行流量控制。
配置步骤:
对192.168.8.52,进行tbf设定:
由于tbf 属于不可分类qdisc,配置步骤只有一步:
tc qdisc add dev eno16780032 handle 1: root tbf rate 10Mbit burst 10kbit limit 20Mbit
设定解释:
handle 设定qdisc 句柄号 ,省略则随机给定
rate 设定最大的发包速率,单位默认字节
burst 设定令牌通大小,单位默认字节 注:在 Intel 体系上 ,10 兆 bit/s 的reate需要至少 10k 字节的burst。
limit 带宽大小,控制总带宽,另外一个作用是,对没有获取到tokent 排队中包进行限制,达到limit 限定则丢弃。
TBF场景测试图
- 设定前
-
- 设定后
-
场景二(PRIO)
prio介绍:
prio qdisc 属于可分类qdisc,不可动态添加类的算法。
分类算法:主要作用是可以对多种数据流区别对待 . 一旦数据包进入一个分类的队列规定 , 它就得被送到某一个类中分类 ,
对数据包进行分类的工具是过滤器 . 过滤器会返回一个决定 , 队列规定就根据这个决定把数据包送入相应的类进行排队 .
每个子类都可以再次使用它们的过滤器进行进一步的分类 . 直到不需要进一步分类时 , 数据包才进入该类包含的队列规定排队 . 除了能够包含其它队列规定之外 , 绝大多数分类的队列规定能够流量整形。
PRIO 分类优先算法 ( 从左至右优先发包 ): 队列规定并不进行整形 , 它仅仅根据你配置的过滤器把流量进一步细分 .
你可以认为 PRIO 队列规定是 pfifo_fast 的一种衍生物 , 区别在每个频道都是一个单独的类 , 而非简单的 FIFO.
当数据包进入 PRIO 队列规定后 , 将根据你给定的过滤器设置选择一个类 . 缺省情况下有三个类 , 这些类仅包含纯 FIFO 队列规定而没有更多的内部结构 .
你可以把它们替换成你需要的任何队列规定 . 每当有一个数据包需要出队时 , 首先处理 :1 类 . 只有当标号更小的类中没有需要处理的包时 , 才会标号大的类 .
TOS标识位解释图
TOS 字段长度为4字节,16位,下图16个数字每一位数值位置对应TOS字段,如下图第一个数位表示TOS 0X0,数值表示类别。
场景介绍
测试机器 192.168.5.52 与 192.168.8.51
在192.168.8.52 上设置qdisc 进行流量控制。
通过iperf –S 选项设定 TOS包头字段使流量分类
配置步骤:
1.tc qdisc add dev eno16780032 root handle 1: prio priomap 1 2 2 2 1 2 0 0 1 1 1 1 1 1 1 1
2.tc qdisc add dev eno16780032 parent 1:1 handle 10: pfifo
tc qdisc add dev eno16780032 parent 1:2 handle 20: tbf rate 10mb buffer 10kb limit 15mb
tc qdisc add dev eno16780032 parent 1:3 handle 30: tbf rate 20kbit buffer 1600 limit 3000
设定解释:
第一步:给网卡定义一个根qdisc 使用prio算法。注:priomap 选项所设定的16个tos标识符与3个bond的
关系,可省略,这里为解析选项,使用的也是默认结构关系。
第二步:给三个band即三个缺省的class 配置子qdisc ,为了测试效果,这里给class10设定pfifo算法,避免测试时
ssh本身被限制挂起,给class20 、class30 使用tbf算法,限定不同的速率,以体现prio的分类特性,由于
条件限制,可能无法体现出 三个class的优先级特性。
第三步:由于prio 协议使用TOS 字段进行分类,在本案例中直接使用iperf 工具 直接定义流量包的tos 包头,
本例将省略 FILTERS 的配置。(可以配置filter有iptables-mangle表、cgroup)
适用场景:
该 prio算法可以实现流量分类效果,适用在多业务并存的场景。
PRIO场景测试图
- 设定前
忽略 - 设定后
-
场景三(CBQ)
CBQ介绍:
CBQ qdisc 属于可分类qdisc,可动态添加类的算法
CBQ 的工作机制是确认链路的闲置时间足够长 , 以达到降低链路实际带宽的目的 . 为此 , 它要计算两个数据包的平均发送间隔 . 操作期间 , 有效闲置时间的测量使用EWMA(exponential weighted moving average, 指数加权移动均值 ) 算法 , 也就是说最近处理的数据包的权值比以前的数据包按指数增加 . 计算出来的平均时间值减去 EWMA 测量值 , 得出的结果叫做"avgidle". 最佳的链路负载情况下 , 这个值应当是 0.
数据包严格按照计算出来的时间间隔到来 . 在一个过载的链路上 ,avgidle 值应当是负的 . 如果这个负值太严重 ,CBQ 就会暂时禁止发包 , 称为"overlimit"( 越限 ).
相反地 , 一个闲置的链路应该有很大 avgidle 值 , 这样闲置几个小时后 , 会造成链路允许非常大的带宽通过 . 为了避免这种局面 , 我们用 maxidle 来限 avgidle的值不能太大 .
理论上讲 , 如果发生越限 ,CBQ 就会禁止发包一段时间 ( 长度就是事先计算出来的传输数据包之间的时间间隔 ), 然后通过一个数据包后再次禁止发包 。
场景介绍
模拟的场景
假如有三种类型的流量需要控制:
- 是发往主机1的,其IP地址为192.168.8.51。其流量带宽控制在8Mbit,优先级为2;
- 是发往主机2的,其IP地址为192.168.8.53。其流量带宽控制在1Mbit,优先级为1;
- 是发往子网1的,其子网号为192.168.8.0,子网掩码为255.255.255.0。流量带宽控制在1Mbit,优先级为6
配置步骤:
配置子qdisc与class,及class 的子qdisc
- tc qdisc add dev eno16780032 root handle 1: cbq bandwidth 10Mbit avpkt 1000 cell 8 mpu 64
- tc class add dev eno16780032 parent 1:0 classid 1:1 cbq bandwidth 10Mbit rate 10Mbit maxburst 20 allot 1514 prio 8 avpkt 1000 cell 8 weight 1Mbit
- tc class add dev eno16780032 parent 1:1 classid 1:2 cbq bandwidth 10Mbit rate 8Mbit maxburst 20 allot 1514 prio 2 avpkt 1000 cell 8 weight 800Kbit split 1:0 bounded
- tc class add dev eno16780032 parent 1:1 classid 1:3 cbq bandwidth 10Mbit rate 1Mbit maxburst 20 allot 1514 prio 1 avpkt 1000 cell 8 weight 100Kbit split 1:0
- tc class add dev eno16780032 parent 1:1 classid 1:4 cbq bandwidth 10Mbit rate 1Mbit maxburst 20 allot 1514 prio 6 avpkt 1000 cell 8 weight 100Kbit split 1:0
注: 此处的子qdisc 是归属于class的,在定义class直接定义。这些qdisc使用 tc qdisc ls 命令查不到。与prio算法不一样。prio在创建qdisc 是class已创建,class的子dqisc 无法通过一般方式修改,故使用创建qdisc的方式。
建立分类器
6.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route
7.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 2 flowid 1:2
8.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 3 flowid 1:3
9.tc filter add dev eno16780032 parent 1:0 protocol ip prio 100 route to 4 flowid 1:4
修改路由
10.ip route add 192.168.8.51 dev eno16780032 realm 2
11.ip route add 192.168.8.53 dev eno16780032 realm 3
12.ip route add 192.168.8.0/24 dev eno16780032 realm 4
适用场景:
去除分类器来讲,该算法本身适用的场景,流量整形,调度,合理分配带宽
设定解释:
- 将一个cbq队列绑定到网络物理设备eno16780032上,其编号为1:0;网络物理设备eno16780032的实际带宽为10 Mbit,包的平均
大小为1000字节;包间隔发送单元的大小为8字节,最小传输包大小为64字节。 - 针对一个队列需建立一个根分类,然后再在其上建立子分类。对于分类,按其分类的编号顺序起作用,编号小的优先;一旦符合某
个分类匹配规则,通过该分类发送数据包,则其后的分类不再起作用。根分类1:1;分配带宽为10Mbit,优先级别为8。该队列的最大
可用带宽为10Mbit,实际分配的带宽为10Mbit,可接收冲突的发送最长包数目为20字节;最大传输单元加MAC头的大小为1514字节,
优先级别为8,包的平均大小为1000字节,包间隔发送单元的大小为8字节,相应于实际带宽的加权速率为1Mbit。 - 创建分类1:2,其父分类为1:1,分配带宽为8Mbit,优先级别为2。该队列的最大可用带宽为10Mbit,实际分配的带宽为 8Mbit,可接
收冲突的发送最长包数目为20字节;最大传输单元加MAC头的大小为1514字节,优先级别为1,包的平均大小为1000字节,包间隔发
送单元的大小为8字节,相应于实际带宽的加权速率为800Kbit,分类的分离点为1:0,且不可借用未使用带宽。 - 创建分类1:3,其父分类为1:1,分配带宽为1Mbit,优先级别为1。该队列的最大可用带宽为10Mbit,实际分配的带宽为 1Mbit,可接
收冲突的发送最长包数目为20字节;最大传输单元加MAC头的大小为1514字节,优先级别为2,包的平均大小为1000字节,包间隔发
送单元的大小为8字节,相应于实际带宽的加权速率为100Kbit,分类的分离点为1:0。 - 创建分类1:4,其父分类为1:1,分配带宽为1Mbit,优先级别为6。该队列的最大可用带宽为10Mbit,实际分配的带宽为1Mbit,可接
收冲突的发送最长包数目为20字节;最大传输单元加MAC头的大小为1514字节,优先级别为6,包的平均大小为1000字节,包间隔发
送单元的大小为8字节,相应于实际带宽的加权速率为100Kbit,分类的分离点为1:0。 - 针对根分类提供一个过滤器,然后为每个子分类提供路由映射。应用路由分类器到cbq队列的根,父分类编号为1:0;过滤协议为ip,
优先级别为100,过滤器为基于路由表。
7~9. 建立路由映射分类1:2, 1:3, 1:4 - 该路由是与前面所建立的路由映射一一对应。发往主机192.168.8.51的数据包通过分类2转发(分类2的速率8Mbit)。
- 发往主机192.168.8.53的数据包通过分类3转发(分类3的速率1Mbit).
- 发往子网192.168.8.0/24的数据包通过分类4转发(分类4的速率1Mbit)
注:一般对于流量控制器所直接连接的网段建议使用IP主机地址流量控制限制,不要使用子网流量控制限制。如一定需要对直连子网使用子网流量控制限制,则在建立该子网的路由映射前,需将原先由系统建立的路由删除,才可完成相应步骤。
场景测试图
-
配置解释图
- 测试效果
-
场景四(HTB)
该算法参考tbf算法,这里注重演示u32分类器。
环境与要求同上述 CBQ 的例子
配置步骤:
- tc qdisc add dev eth0 root handle 1: htb default 30
- tc class add dev eth0 parent 1: classid 1:1 htb rate 6mbit burst 15k
- tc class add dev eth0 parent 1:1 classid 1:10 htb rate 5mbit burst 15k
- tc class add dev eth0 parent 1:1 classid 1:20 htb rate 3mbit ceil 6mbit burst 15k
- tc class add dev eth0 parent 1:1 classid 1:30 htb rate 1kbit ceil 6mbit burst 15k
- tc qdisc add dev eth0 parent 1:10 handle 10: sfq perturb 10
- tc qdisc add dev eth0 parent 1:20 handle 20: sfq perturb 10
- tc qdisc add dev eth0 parent 1:30 handle 30: sfq perturb 10
添加过滤器 , 直接把流量导向相应的类 :
- U32="tc filter add dev eth0 protocol ip parent 1:0 prio 1 u32"
- $U32 match ip dport 80 0xffff flowid 1:10
- $U32 match ip sport 25 0xffff flowid 1:20
U32分类器
U32 是常用的分类器,分类器是对数据包进行分类工具 , 分类器用与把数据包分类并放入相应的子队列 ,
这些分类器在分类的队列规定内部被调用 . 为了决定用哪个类处理数据包 , 必须调用所谓的"分类器链" 进行选择 . 这个链中包含了这个分类队列规定所需的所有分类器 .
如图(结构图)所示分类器工作在拥有子类的class上,即树状的分支处。
当一个数据包入队的时候 , 每一个分支处都会咨询过滤器链如何进行下一步 .
你可以把后一个过滤器同时放在 1:1 处, 而得到效率的提高 .
另外使用 HTB 的时候应该把所有的规则放到根上。
注 : 数据包只能向"下"进行入队操作 ! 只有出队的时候才会上到网卡所在的位置来 . 他们不会落到树的最底层后送到网卡
u32分类器选项说明及示例:
-
根据源 / 目的地址
- 源地址段 'match ip src 1.2.3.0/24‘
- 目的地址段 'match ip dst 4.3.2.0/24'
单个 IP 地址 'match ip 1.2.3.4/32'
-
根据源 / 目的端口 , 所有 IP 协议
- 源端口 ‘match ip sport 80 0xffff’ 解释:0xffff 表所有数据包
- 目标端口 'match ip dport 80 0xffff'
-
根据 IP 协议 (tcp, udp, icmp, gre, ipsec)
- icmp 是 1:‘match ip protocol 1 0xff’ 解释:1 是根据 /etc/protocols 协议号来定
根据 fwmark
iptables -A PREROUTING -t mangle -i eth0 -j MARK --set-mark 6
tc filter add dev eth1 protocol ip parent 1:0 prio 1 handle 6 fw flowid 1:1
注 :handle 根据过滤器的不同 , 含义也不同按 TOS 字段
tc filter add dev ppp0 parent 1:0 protocol ip prio 10 u32 match ip tos 0x10 0xff flowid 1:4
参考资料
- IBM 开发者社区
https://www.ibm.com/developerworks/cn/linux/1412_xiehy_tc/index.html - MAN 手册(中文在线)
http://linux.51yip.com/search/tc - Tc 流控 HOWTO 文档
http://www.tldp.org/HOWTO/html_single/Traffic-Control-HOWTO/ - Linux系统文档
https://linux.die.net/