浅谈BBR

Linux从4.9版本开始内核默认安装编译了BBR算法。关于BBR的资料有很多，我在这里将一些简单易懂的原理作了记录整理。

在BBR出现以前TCP已经有了12流控算法，这些算法大都是基于丢包控制的拥塞避免，这意味着在数据传输过程中，只要丢包就被认为是网络拥塞，数据减半速率进行发送。当出现以下情况:包括瞬时流量过大、突发信号干扰丢包、数据校验错误丢包时，这种处理方式就成为了限制网络发送速率的瓶颈。

随着现代网络带宽越来越高，网络越来越复杂，过于保守的传统算法往往浪费大量可用带宽。这样的背景下，谷歌BBR算法诞生，与传统算法不同，它是基于带宽实时测量的算法。所以我们首先了解一下它是如何记录可用带宽和通信往返时间的。

测量可用带宽值BtlBW: BBR在每次收到对方的ack时，都要实时计算传输速率，该值等于应答数据量除以应答时间。同时以10个通信往返时间为周期，将周期内测量到的最大带宽值保存在BtlBW中。

测量通信往返时间值RTprop:实时测量通信往返时间RTT，将值保存在RTprop中。如果10秒内，该值没有变化，就会在在一个RTT时间内只发送4个包，通过大大幅减少进入网络的数据包的方式，使测量到的RTT整体变小，进而提升后续的发展速率。

BBR算法主要处理阶段包括:

传输起步阶段，与传统算法基本一致，每次发送速率翻倍增长。不同的是，如果连续三次翻倍增长后，对比发现速率增长小于25%，意味着带宽进入瓶颈，有部分数据进入了缓冲区。于是立即将发送速率减半，并进入排干阶段。

排干阶段主要目的通过减半速率让缓冲区逐渐清空数据。当outstanding package size(TCP发送出去还没被对方ack的值)≤BtlBW×RTT，这代表缓冲区数据已经处理完毕，所有流量都在链路中，就进入了稳健阶段。

该阶段主要任务就是稳定发包。

同时，由于网络中可用带宽不是一成不变的，所以稳健阶段在不停地周期性探测最大可用带宽的变化趋势。简单来说，就是周期性地将发送速率乘以一个大于1的系数，检查可用带宽是否增加；同一周期内，再将发送速率除以同样的系数，保持平稳，并探测可用带宽是否变小。

通过上述三个阶段的处理，BBR对传统算法进行了有效优化，实了无论带宽升降，TCP发送速率都是小范围的波动，避免了突发的速率骤然升降，更好利用了可用带宽。