常用的链接记录

海量数据的处理
海量数据处理
常见的方法有Hash法,位图法,Bloom-filter法、数据库优化法、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法

分而治之/hash映射+hash统计+堆/快速/归并排序(先映射,然后统计,最后排序)
双层桶排序(求第K大,中位数,不重复或重复的数字):通过多次划分,逐步确定范围,最后在一个可以接受的范围内进行
Bloom filter(集合求交集、数据判重)/BitMap
Trie树/数据库/倒排索引
外排序
分布式处理之Hadoop/MapReduce

TopK问题(先映射,然后统计,最后排序)

热点ip,重叠词
采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
先hash取模分块,然后使用hashmap统计,采用桶排序取最前面

排序问题

你可能感兴趣的:(整理)