海量数据处理

相关文章

  • 海量数据处理之经典实例分析
    top k 问题中各种场景分析的很好:

单机+单核+足够大内存
单机+多核+足够大内存
单机+单核+受限内存
多机+受限内存

https://segmentfault.com/a/1190000000510258

  • 多路归并思路
    http://www.cnblogs.com/daoluanxiaozi/archive/2012/03/29/2423087.html
  • 外排序:如何给10^7个数据量的磁盘文件排序
    位图和多路归并、都有实现
    http://blog.csdn.net/v_JULY_v/article/details/6451990
    注:随机数产生必须srand()和rand()配合使用

    函数一:int rand(void);从srand (seed)中指定的seed开始,返回一个[seed, RAND_MAX(0x7fff))间的随机整数。
    函数二:void srand(unsigned seed);参数seed是rand()的种子,用来初始化rand()的起始值。
    可以认为rand()在每次被调用的时候,它会查看:
    1) 如果用户在此之前调用过srand(seed),给seed指定了一个值,那么它会自动调用srand(seed)一次来初始化它的起始值。
    2) 如果用户在此之前没有调用过srand(seed),它会自动调用srand(1)一次。
    参考链接:http://blog.sina.com.cn/s/blog_8cf0057a01011ekt.html

  • 倒排索引与正排索引
    概念解释的很清楚
    http://blog.sina.com.cn/s/blog_5b29caf701015tpa.html
  • 倒排索引关键词不重复Hash编码:(这个可以选择了解)
    https://github.com/julycoding/The-Art-Of-Programming-By-July/blob/master/ebook/zh/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95%E5%85%B3%E9%94%AE%E8%AF%8D%E4%B8%8D%E9%87%8D%E5%A4%8DHash%E7%BC%96%E7%A0%81.md
  • 海量数据中寻找中位数
    http://www.voidcn.com/blog/zhouwei1221q/article/p-3715373.html

教你如何迅速秒杀掉:99%的海量数据处理面试题(july总结很全面)
http://blog.csdn.net/v_july_v/article/details/7382693
海量数据处理之归并、堆排、前K方法的应用:一道面试题(一提多法)
http://www.ahathinking.com/archives/19.html
题集
http://blog.csdn.net/wdzxl198/article/details/8925892
https://github.com/nonstriater/Learn-Algorithms/blob/master/%E7%AE%97%E6%B3%95%E9%97%AE%E9%A2%98%E9%80%89%E7%BC%96/%E6%B5%B7%E9%87%8F%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86.md

你可能感兴趣的:(海量数据处理)