Intel TBB:Pipeline,软件流水线的威力

参观过工厂装配线的人一定对流水线这个名字不陌生，半成品在皮带机上流过一系列的流水线节点，每个节点以自己的方式进一步装配，然后传给下一节点。现代的高性能CPU均采用了这种流水线设计，将计算任务分为取指，译码，执行，访存，反馈等几个阶段。采用流水线设计的最大优点就是增加了系统吞吐量，例如，当第一条指令处于执行阶段的时候，译码单元可以在翻译第二条指令，而取指单元则可以去加载第三条指令。甚至，在某些节点还可以并行执行，例如，现代的MIMD多指令多数据的计算机，可以在同一时间执行多条指令，或者同时更新多个数据。

在Intel认识到频率已成为CPU性能瓶颈之后，多核处理器应运而生。如今高性能程序设计的根本已经转变为如何更充分的利用CPU资源，更快更多地处理数据，而Intel所开发的开源 TBB库巧妙的利用了流水线这种思想，实现了一个自适应的高性能软件流水线TBB::pipeline。本文将会以text_filter为例，简单介绍pipeline的实现原理和一些关键技术点，以求达到抛砖引玉的效果。

介绍TBB::pipeline之前不得不先说一下TBB库的引擎-task scheduler，它又被称为TBB库的心脏[Intel TBB nutshell book]，是所有算法的基础组件，用于驱动整个TBB库的运作。例如，TBB库所提供的parallel_for算法，里面就有task scheduler的踪影，pipeline也不例外。

先看看parallel_for的实现：

template< typename Range , typename Body>

void parallel_for( const Range& range, const Body& body, const simple_partitioner& partitioner=simple_partitioner() ) {

internal::start_for<Range,Body,simple_partitioner>::run(range,body,partitioner);

}

再往下看：

template< typename Range , typename Body, typename Partitioner>

class start_for: public task {

Range my_range;

const Body my_body;

typename Partitioner::partition_type my_partition;

/*override*/ task* execute();

//! Constructor for root task.

start_for( const Range& range, const Body& body, Partitioner& partitioner ) :

...

}

可以看到，class start_for是从task继承的，而这个class task，就是task scheduler中进行任务调度的基本元素---task，这也是TBB库的灵魂所在。相对于原生线程库(Raw Thread)，例如POSIX thread(pthread)，TBB库可以看作是一种对多线程更高层面的封装，它不再使用thread，而是以task作为基本的任务抽象，从而能够更好的整合计算资源并最优化的调度任务。TBB库的种种优点，如自动调整工作负荷，系统扩展性等，全是拜task scheduler所赐。TBB提供的每种算法都有其独特的应用背景，如果算法不能满足用户的需求，那么完全可以以task为基类派生出新类，扩展出新的任务执行和调度算法。这种思想贯穿了TBB的整个设计，而TBB::pipeline，也是这种思想的典型体现。

TBB::pipeline的优点：

保证数据执行的顺序

线程负载自动调节

更高的Cache命中率

系统扩展性

假如目前有这样一项任务，对一个文件的内容进行分析，将每一个字符串的首字符改为大写，然后写入一个新文件里。

一个传统的串行执行的解决方案是:

分别创建读入和写出文件

while (!EOF)

{

从文件读入一个字符串

首字符转化为大写字符

写入一个字符串到文件

}

关闭读入和写出文件的描述符

这么简单的过程，还有可能通过TBB::Pipeline来提供性能吗？我们来看看Pipeline的解决方案：

1.分别创建读入和写出文件描述符

2.建立三个task，分别是“从文件读入一个字符串”，“首字符转化为大写字符”,“ 写入一个字符串到文件”，其中需要指定“从文件读入一个字符串”和“写入一个字符串到文件”这两个task为串行执行。(为什么要串行执行，请自行思考或者去看Intel TBB的nutshell book)

3.启动Pipeline,让Pipeline通过内建的task scheduler来调度这些task的运行。

用一个29MB的文件作为测试用例，在我的双核机器上串行执行的速度是 0.527582秒，而Pipeline的速度是0.446161，对于更复杂的逻辑，Pipeline的性能还会显著提升。性能提升的奥秘，就在于Pipeline能够自动根据系统情况，以并行方式执行“首字符转化为大写字符”这个task。

具体的Pipeline的示例代码和使用，可以去参考Intel TBB的nutshell book，这里想继续深究一下：

1. 为什么Pipeline可以保证数据执行的顺序?既然TBB归根到底是通过多线程执行任务，为什么不会在读入先后两个字符串后，后读入的字符串先被下一个task处理?Pipeline里是不是有一个类似于FIFO 先进先出队列之类的东西？

2. 为什么Pipeline能够自动地并行执行“首字符转化为大写字符”这个task?如果这个task被并行执行了，那么又怎么保证第一点？

3. Pipeline是怎么保证那些task被串行执行的。

4. 所谓“自动根据系统情况，进行任务调度”是怎么一回事？

这些既是问题，也是Pipeline中的关键技术点，有心的可以去研读一下Pipeline的代码先睹为快。

Intel TBB的nutshell book -- <Intel Threading Building Blocks –Outfitting C++ for Multi-Core Processor Parallelism>

Intel TBB:Pipeline,软件流水线的威力

Intel TBB:Pipeline,软件流水线的威力

你可能感兴趣的:(Intel TBB:Pipeline,软件流水线的威力)