希望 MapReduce 直接支持多种输入/输出

希望在 MapReduce 加入这样3个功能:

 

1.      可以对不同的输入文件指定不同的RecordReader/Mapper

我对这个问题的解决办法是:使用不同的正则表达式来自动识别,很不优美,而且有局限

 

2.      一个 Map 可以输出多个不同的管道——目前只有一个

我对这个问题的解决办法是:给记录打标记,使用标记来识别管道编号

 

3.         每个Reduce可以输出多个不同的文件

我对这个问题的解决办法也是给记录打标记

 

这几个需求是在做equal join时发现的,使用这种模式,equal join的速度非常快。并且,还可用于group 时计算多个字段的distinct count

 

很希望MapReduce可以提供直接的支持。

 

你可能感兴趣的:(mapreduce,正则表达式)