profile

这里3G要通过USB, 然后经过Net Filter过滤,通常这个规则是很少的,但是是必须的, 然后通过SDIO连接到WIFI芯片上,然后再通过无线连接到各种Device上面。

该说说目标了,客户的要求的目标比较远大, 你看上面列出来那个HW的产品,上行是7Mbps 下行是 5Mbps. 呵呵, 注意是bits的。而对于这个产品,客户的要求是这样的25Mbps/28Mbps, 整整高了5倍左右。 任重而道远啊。当然这个速度是下行速度。

首先是没有优化过的版本跑一下,得到的数据是13Mbps, 好像比上面那位兄台的要强很多了嘛,不过和客户的要求还差整整一倍呢。于是就开始优化,装备ftraceoprofile等工具。 监视统计信息。

首先看到的是  /proc/cpu/alignment, 这里记录一些非对其访问的次数:比如

probash-3.2# cat /proc/cpu/alignment
User:           0
System:         0
Skipped:        0
Half:           0
Word:           0
DWord:          0
Multi:          0
User faults:    4 (signal)

首先发现这里的有一个值异常的高, 而对于ARM9的架构,对于这种非4字节对其的访问是会由一个trap交给Kernel来处理,所以会很慢。 再追这个非对其访问来自于哪里以后发现是由tcp的栈上的访问。 最后发现这个是在我们的测试环境中的FEC的driver的问题,因为太网头是12个字节,这样减下来就导致,后面TCP的访问都不是4字节对齐的了。最后用在FEC的驱动中前面留了2个字节的padding,这样以后TCP的访问就都是4字节对齐的访问了。

经过这次优化以后,达到18Mbps.

然后接着看USB, 通过ftrace观察发现,在sdio要搬数据的时候, 会经常被USB的中断打断,因为3G modem用的中断模式进行USB传输,而这个频率是1ms一次,这样会造成CPU总是在相应中断,而FIFO中的数据不能搬运到WIFI上,因为WIFI是用的软中断来进行搬运。

intterupt(UBS) -> 2. softirq--> 3. list(WIFI) --> 4. two thread write SDIO(WIFI/task)

由于IRQ的优先级高,所以导致其他的task和softirq根本无法被调到。

所以调整到8ms以后,就可以达到23Mbps的速度了。

好了,眼看就达到目标了。

接下来就要看一些通用的方法了,上oprofile, 用oprofile以后发现,memcpy被调用很多次,接下来减少memcpy应该会增加不少性能。

定位以后可以发现是在WIFI driver里面做的memcpy,进一步观察发现,是因为wifi发现这个buffer前面的头太小了,要插入一个wifi的包头空间不够才会做这样的memcpy, 而这个包是从USB来的,那么就在USB生成包的时候预留更多的空间给wifi做报头,这样就不需要memcpy了。

在sdio的DMA中,用了sg-list 的DMA方式,这样也减少了一部分的memcpy,因为如果没有sg-list的DMA传输,driver就得把几个小buffer,copy成为一个大的buffer,然后进行DMA传输,有了sg-list传输以后,就可以通过组成一个sg-list的表然后把这些小的内存都进行DMA,进一步减少memcpy传输。

进行这些优化以后就达到了28Mbps的要求了。

其实这里面主要就几点, 调度, memcpy, 字节对齐访问。

你可能感兴趣的:(profile)