Hadoop中解决跨split问题

Split是逻辑分块,通过RecorderReader的进行key-value化输入到Mapper的Map函数。逻辑上,Map由于拆分数据粒度的原因可能会造成需要的数据跨块或者跨Split。遇到这种问题,可以在RecordReader中解决。

常见的就是跨行问题。可以参考:http://blog.iamzsx.me/show.html?id=172007

你可能感兴趣的:(hadoop,split)