由于硬件的发展速度快,本来占时间消耗小头的软件层,变成了大头,原本占性能比例非常小的的中断、上下文切换,也成为了性能优化的方向。
许多bypass kernel的方案开始发展起来,以前在千兆网卡普及的时代,就有用户态报文处理框架如netmap,需要自己加载一个特殊的内核模块,将驱动使用的内存mmap到用户空间,供用户进程使用。也有我们现在在用的DPDK。
得益于DPDK框架的发展,很多用户态协议栈开始长起来,如号称网络性能提升10倍的seastar、腾讯用于CDN场景的f-stack以及我们改造过的mTCP,都是基于dpdk框架,以polling的方式,直接在用户态处理TCP协议,以此提升网络性能。
技术要点:
1. Polling vs 中断 + 上下文切换
2. Hugepage
3. 网卡分流和多队列
4. 彻底的线程间shared-nothing架构
5. Run-to-completion调度模型