海量数据处理中的hash单调问题

参加百度的面试,面试官提了一个海量数据问题,貌似自己的回答没能让人家满意,纠结点是:


大规模数据一般先用hash来分为小的数据段,然后在内存里处理之,然而如果hash后hash值还是各不相同(及其变态的情况),怎么办?

 

回来思考了下,下面是自己的想法,大家说说看:

 

如果一遍hash后,数据还是十分单调,可以采用另一个hash函数,或者不是单纯按照hash值分类,而是按照hash后的值范围,例如,原来hash(query)%100, 现在可以1-10为一个文件,间隔10建立子数据集,应该能解决问题吧?

 

    轻拍。。。

你可能感兴趣的:(hash)