Intel TBB:Pipeline,软件流水线的威力

Intel TBB:Pipeline,软件流水线的威力

参观过工厂装配线的人一定对流水线这个名字不陌生,半成品在皮带机上流过一系列的流水线节点,每个节点以自己的方式进一步装配,然后传给下一节点。现代的高性能CPU均采用了这种流水线设计,将计算任务分为取指,译码,执行,访存,反馈等几个阶段。采用流水线设计的最大优点就是增加了系统吞吐量,例如,当第一条指令处于执行阶段的时候,译码单元可以在翻译第二条指令,而取指单元则可以去加载第三条指令。甚至,在某些节点还可以并行执行,例如,现代的MIMD多指令多数据的计算机,可以在同一时间执行多条指令,或者同时更新多个数据。

 

Intel认识到频率已成为CPU性能瓶颈之后,多核处理器应运而生。如今高性能程序设计的根本已经转变为如何更充分的利用CPU资源,更快更多地处理数据,而Intel所开发的开源 TBB库巧妙的利用了流水线这种思想,实现了一个自适应的高性能软件流水线TBB::pipeline。本文将会以text_filter为例,简单介绍pipeline的实现原理和一些关键技术点,以求达到抛砖引玉的效果。

 

介绍TBB::pipeline之前不得不先说一下TBB库的引擎-task scheduler,它又被称为TBB库的心脏[Intel TBB nutshell book],是所有算法的基础组件,用于驱动整个TBB库的运作。例如,TBB库所提供的parallel_for算法,里面就有task scheduler的踪影,pipeline也不例外。

 

先看看parallel_for的实现:

 

template< typename Range , typename Body>

 

void parallel_for( const Range& range, const Body& body, const simple_partitioner& partitioner=simple_partitioner() ) {

 

    internal::start_for<Range,Body,simple_partitioner>::run(range,body,partitioner);

 

}

 

再往下看:

 

    template< typename Range , typename Body, typename Partitioner>

 

    class start_for: public task {

 

        Range my_range;

 

        const Body my_body;

 

        typename Partitioner::partition_type my_partition;

 

        /*override*/ task* execute();

 

 

 

        //! Constructor for root task.

 

        start_for( const Range& range, const Body& body, Partitioner& partitioner ) :

 

...

 

        }

 

可以看到,class start_for是从task继承的,而这个class task,就是task scheduler中进行任务调度的基本元素---task,这也是TBB库的灵魂所在。相对于原生线程库(Raw Thread),例如POSIX thread(pthread)TBB库可以看作是一种对多线程更高层面的封装,它不再使用thread,而是以task作为基本的任务抽象,从而能够更好的整合计算资源并最优化的调度任务。TBB库的种种优点,如自动调整工作负荷,系统扩展性等,全是拜task scheduler所赐。TBB提供的每种算法都有其独特的应用背景,如果算法不能满足用户的需求,那么完全可以以task为基类派生出新类,扩展出新的任务执行和调度算法。这种思想贯穿了TBB的整个设计,而TBB::pipeline,也是这种思想的典型体现。

 

TBB::pipeline的优点:

 

保证数据执行的顺序

线程负载自动调节

更高的Cache命中率

系统扩展性

 

假如目前有这样一项任务,对一个文件的内容进行分析,将每一个字符串的首字符改为大写,然后写入一个新文件里。

 

一个传统的串行执行的解决方案是:

 

分别创建读入和写出文件

 

while (!EOF)

{

从文件读入一个字符串

首字符转化为大写字符

写入一个字符串到文件

}

关闭读入和写出文件的描述符

 

这么简单的过程,还有可能通过TBB::Pipeline来提供性能吗?我们来看看Pipeline的解决方案:

 

1.分别创建读入和写出文件描述符

 

2.建立三个task,分别是从文件读入一个字符串首字符转化为大写字符,“ 写入一个字符串到文件,其中需要指定从文件读入一个字符串写入一个字符串到文件这两个task为串行执行。(为什么要串行执行,请自行思考或者去看Intel TBBnutshell book)

 

3.启动Pipeline,Pipeline通过内建的task scheduler来调度这些task的运行。

 

 

用一个29MB的文件作为测试用例,在我的双核机器上串行执行的速度是 0.527582秒,而Pipeline的速度是0.446161,对于更复杂的逻辑,Pipeline的性能还会显著提升。性能提升的奥秘,就在于Pipeline能够自动根据系统情况,以并行方式执行首字符转化为大写字符这个task

 

具体的Pipeline的示例代码和使用,可以去参考Intel TBBnutshell book,这里想继续深究一下:

 

1.  为什么Pipeline可以保证数据执行的顺序?既然TBB归根到底是通过多线程执行任务,为什么不会在读入先后两个字符串后,后读入的字符串先被下一个task处理?Pipeline里是不是有一个类似于FIFO 先进先出队列之类的东西?

 

2.  为什么Pipeline能够自动地并行执行首字符转化为大写字符这个task?如果这个task被并行执行了,那么又怎么保证第一点?

 

3.  Pipeline是怎么保证那些task被串行执行的。

 

4.  所谓自动根据系统情况,进行任务调度是怎么一回事?

 

这些既是问题,也是Pipeline中的关键技术点,有心的可以去研读一下Pipeline的代码先睹为快。

 

Intel TBBnutshell book -- <Intel Threading Building Blocks Outfitting C++ for Multi-Core Processor Parallelism>

 

你可能感兴趣的:(Intel TBB:Pipeline,软件流水线的威力)