BPF介绍

上篇文章介绍了CSPF,BPF(BSD Packet Filter)是在其基础上又向前发展了一步。

本文从CSPF存在几个缺陷讲起:

1. 无法处理IP头可变长度这种情况

2. 翻译执行过滤规则时存在冗余分支

3. 必须模拟一个操作数堆栈

BPF解决了以上问题,其构成如下

1. 累加器(寄存器):用于保存操作结果

2. index寄存器:由于保存数据包中变量值(如可变IP头长度)

3. 临时存储器:内存实现的用于存放临时数据

4. 隐含的指令指针

指令集

指令集

地址模式

IP头可变长度的处理

内核中执行用户进程传入的代码,是一件非常危险的事情。所以,CSPF在设计虚拟机执行指令时,限制了每个指令的操作数的来源,用户只能通过PUSHWORD+n指令获取数据包的第n个字的内容,无法通过stack上的字来获取数据包指定位置内容,这导致了无法处理IP头中的可变长度内容。

BPF引入了index寄存器解决这个问题。可以通过ldx指令直接从数据包中将特定位置的内容保存到index寄存器,而从数据包中读取内容时可以采用用户传入常量+index寄存器值来实现。

下面从例子看怎么做到的:


检测TCP头的字节码

1. 装载数据包第14个字到累加器

2. 取低4位到累加器(通过AND操作)

3. 累加器中内容左移2位

4. 将累加器内容传输到 index寄存器

5. 转载数据包第(index寄存器值+16)个字到累加器

6. 比较累加器中的值与N,真值跳转到L1,假值跳转到L2

从上面的例子可以看出,通过引入index寄存器,配合tax指令。解决了IP头中可变长度变量处理的问题。

翻译执行过滤规则时存在冗余分支

第二个问题是stack machine与 register machine的问题。

stack machine下计算模型是一个  tree:


stack模型下,两个表达式都计算完成后,OR操作才会出栈这两个操作数,完成最终计算。但是,如果第一个操作数是True,实际上OR就能够返回True了,不需要再计算第二个操作数。这就是stack machine带来的冗余计算问题。

register machine下计算模型是一个控制流程图:

一个表达式完成后,能直接跳转到True,减少冗余计算。

BPF在这两个点上改进,对包过滤产生了巨大的性能提升。Linux也采用了这种模型的包过滤器方案,在Linux中叫做LPF,实际上就是BPF。

性能对比

你可能感兴趣的:(BPF介绍)