大数据排序算法总结学习

原址:https://blog.csdn.net/zhushuai1221/article/details/51781002

1、对于很大的数据量,考虑多级索引和桶排序;

 

2、建立一个足够大的bit数组当作hash表,以bit数组的下标来表示一个整数,以bit位中的0或1来表示这个整数是否在这个数组中存在,适用于无重复原始数据的搜索,原来每个整数需要4byte空间变为1bit,空间压缩率为32倍,扩展后可实现其他类型(包括重复数据)的搜索

 

3、bigdata排序思路

          a.把一个bigdata文件拆分成N个小文件,小文件容量小于当前机器的内存

          b.对小文件进行排序处理

          c.对小文件进行并归排序,一个个并归生成新的排序完成的文件,直到全部并归完成

 

4、位图,有容忍误差

bitmap算法的讲解:https://www.cnblogs.com/senlinyang/p/7885685.html

可以运用在快速查找、去重、排序、压缩数据等

延伸应用:布隆过滤器,https://blog.csdn.net/hguisu/article/details/7866173

 

5、内排和外排(map-reduce)

多路归并,小文件有序,依次从每个小文件开头取数据放入空白文件装填。

 

你可能感兴趣的:(数据结构与算法)