海量数据处理第43页

十道海量数据处理面试题与十个方法大总结【转】

第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。

keyeagle·2011-06-01 23:00

云计算现状

海量数据处理 搜索，电子商务平台，拥有海量用户的UGC平台，其提供的服务涉及的无论数据，还是运营产生的数据都是海量的。如果通过一个个的水平/垂直切割+分布式服务的构设来处理。

anghlq·2011-05-30 23:00

云计算管理浅析

集群计算，代表有hadoop，适用于那些大型计算类的数据挖掘，海量数据处理等。

anghlq·2011-05-29 23:00

位图法；海量数据处理之位图技巧；位图技巧；海量数据；编程珠玑第二章问题A；40亿整数；腾讯面试题

编程珠玑第二章开始提出了三个问题，其中第一个问题是这样的：一个顺序文件至多包括40亿个32位的整数，这些数是无序的，找出一个不在该文件中的32位整数。（可能有数字是不在该文件中的，因为2^32总共包括了42+亿个数，因此肯定有整数是不在该文件中的，这是鸽巢原理吧？）据说这是腾讯的一道面试题，大概描述如下：问题描述：问题的描述大概就是这样了。刚看到这个题目就想到了bitmap，很适合使用，下面简单说

jiqiren007·2011-05-28 11:00

海量数据处理分析

海量数据处理分析（作者北京迈思奇科技有限公司戴子良）原文地址： http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx

tianyalinfeng·2011-05-24 09:00

大数据量及海量数据处理算法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloo

Hou_Rj·2011-05-20 20:00

JBoss启动过程(译) zt

转自：http://www.blogjava.net/galaxyp/archive/2007/11/19/161648.html 海量数据处理汇总： http://www.blogjava.net

haoppywang·2011-05-18 15:00

海量数据Top K算法（C实现）

收获还是挺大的：（1）实现了Hash链表（2）实现了堆；（3）熟悉了C语言的文件操作； 海量数据处理的TopK算法就是在很大的文件中找出重复出现次数最多的前K个字符串；如果数据可以一次读入内存

randyjiawenjie·2011-05-13 16:00

海量数据处理(1)Bitmap, Bloom Filter, Hash(转)

http://dijunzheng2008.blog.163.com/blog/static/989598972010713251555/读书笔记。这一篇的Bitmap和BloomFilter，都是在大规模数据下出现的新方法。其实概念都不是特别复杂，但是没有接触过的话，不容易一下子想出来。1.Bitmap问题：数据库里存了很多800电话号码，数量特别大，以至于内存放不下，如何排序？方案：电话号码类

wangwh485·2011-05-12 17:00

海量数据处理：十道面试题与十个海量数据处理方法总结

原文转自：http://blog.csdn.net/v_JULY_v/archive/2011/03/26/6279498.aspx 第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个

isiqi·2011-05-11 16:00

海量数据处理常用思路和方法

大数据量的问题是很多面试笔试中经常出现的问题，比如google、淘宝、百度、腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloomfilte

kiddymeet·2011-05-10 14:10

海量数据处理常用思路和方法

大数据量的问题是很多面试笔试中经常出现的问题，比如google、淘宝、百度、腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloomfilte

kiddymeet·2011-05-10 14:10

php 大数据量及海量数据处理算法总结

下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloomfilter适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立has

·2011-05-07 21:15

海量数据处理系列——十道海量数据处理面试题与十个方法大总结

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。

lile269·2011-05-02 16:00

海量数据处理系列——BloomFilter

引自http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloomFilter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一.实例为了说明BloomFilter存在的重要意义，举一个实例：假设要你写一个网络蜘蛛（webcr

lile269·2011-05-02 16:00

海量数据处理系列——C语言下实现bitmap算法

bitmap是一个十分有用的结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的

lile269·2011-05-02 13:00

海量数据处理方法

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Blo

morlly·2011-05-02 11:00

海量数据处理利器 STL中哈希表 hash_map（C++）

对海量数据进行处理的时候经常要使用hash_map,java里使用hash_map比较简单，下面将介绍C++STL中哈希表hash_map的使用方法，主要内容引用下面链接内容。http://blogold.chinaunix.net/u2/82382/showart.php?id=20729590为什么需要hash_map用过map吧？map提供一个很常用的功能，那就是提供key-value的存储

lile269·2011-05-01 00:00

大数据量及海量数据处理算法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloo

ljl_xyf·2011-04-28 08:00

大数据量及海量数据处理算法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的

ljl_xyf·2011-04-28 08:00

海量数据处理专题（四）——Bit-map

http://blog.redfox66.com/post/2010/09/26/mass-data-4-bitmap.aspx【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7

kanglecjr·2011-04-23 17:00

海量数据处理专题（四）——Bit-map

http://blog.redfox66.com/post/2010/09/26/mass-data-4-bitmap.aspx【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7

kanglecjr·2011-04-23 17:00

海量数据处理专题（三）——Hash

http://blog.redfox66.com/post/2010/09/24/mass-data-topic-3-hash.aspx【什么是Hash】 Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射，pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入

kanglecjr·2011-04-23 16:00

海量数据处理专题（三）——Hash

http://blog.redfox66.com/post/2010/09/24/mass-data-topic-3-hash.aspx【什么是Hash】 Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射，pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入

kanglecjr·2011-04-23 16:00

海量数据处理专题（二）——Bloom Filter

来自：http://blog.redfox66.com/post/2010/09/24/mass-data-topic-2-bloom-filter.aspx 【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属

kanglecjr·2011-04-23 16:00

海量数据处理专题（二）——Bloom Filter

来自：http://blog.redfox66.com/post/2010/09/24/mass-data-topic-2-bloom-filter.aspx 【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属

kanglecjr·2011-04-23 16:00

海量数据处理专题（一）——开篇

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题

kanglecjr·2011-04-23 15:00

海量数据处理专题（一）——开篇

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题

kanglecjr·2011-04-23 15:00

海量数据处理常用思路和方法

大数据量的问题是很多面试笔试中经常出现的问题，比如 google、淘宝、百度、腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1

fly2wind·2011-04-19 08:00

从互联网技术开计算机热点

互联网是大规模应用，主要是海量数据处理带来的一些编程，基础还是传统的理论，不过很多方面有突破单个节点的技术： 1>更快的读，各种缓存产品，从http的缓存到应用缓存 2>更快的写

everlasting_188·2011-04-12 10:00

使用union避免map复制结构体降低效率

自己做的一个测试，留着以后好参考使用union关联longlong和一个struct中的2个32位的int,传递map则使用longlong，在取出的使用的时候则使用结构体正常使用，避免海量数据处理时

chlaws·2011-04-07 16:00

海量数据处理：十道面试题与十个海量数据处理方法总结

时间：二零一一年三月二十六日说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量数据处理的方法总结。有任何问题，欢迎交流、指正。

xljiulong·2011-04-03 17:00

TUP Masters第四期：与Yahoo!首席科学家深入云计算实战

首席科学家RaghuRamakrishnan担任讲师，就云计算技术、海量数据处理以及Yahoo！在云计算的研究及云计算实战经验等热点技术话题与国内的众多技术爱好者做了一番交流。在

tup2010·2011-04-02 16:00

海量数据处理常用思路和方法

（转载) http://www.yiihsia.com/2010/12/%e6%b5%b7%e9%87%8f%e6%95%b0%e6%8d%ae%e5%a4%84%e7%90%86%e5%b8%b8%e7%94%a8%e6%80%9d%e8%b7%af%e5%92%8c%e6%96%b9%e6%b3%95/ 大数据量的问题是很多面试笔试中经常出现的问题，比如 google、淘宝、百度、腾

bocai2015·2011-04-02 10:00

海量数据处理常用思路和方法

bocai2015·2011-04-02 10:00

SQL中海量数据处理（查询、删除）

1、合理建立索引，可在查询时优化2、删除所有数据 truncate table 【表】执行该操作时不写入日志文件而且快速3、如果仅删除1000万条数据中符合条件的300万条 A使用delete时条件中有索引比没有索引要快些 B不能使用 truncate table C可以一部分数据循环删除再收缩日志文件 D采用临时表的方法如果有最小序号先找

liuyunfan·2011-04-01 16:00

【转】十道海量数据处理面试题与十个方法大总结

http://blog.csdn.net/v_JULY_v/archive/2011/03/26/6279498.aspx 并关注该博主

Deutschester·2011-04-01 13:00

十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。

iteye_1364·2011-03-30 18:12

十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题

zhaohaolin·2011-03-30 18:00

十道海量数据处理面试题与十个方法大总结

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。

v_JULY_v·2011-03-26 10:00

十道海量数据处理面试题与十个方法大总结

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。

v_JULY_v·2011-03-26 10:00

海量数据处理专题之双层桶划分

【什么是双层桶】事实上，与其说双层桶划分是一种数据结构，不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候，我们可以将其分成一个个小的单元，然后根据一定的策略来处理这些小单元，从而达到目的。【适用范围】第k大，中位数，不重复或重复的数字【基本原理及要点】因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是

hit_kongquan·2011-03-25 20:00

海量数据处理专题（四）——Bit-map

【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表

hit_kongquan·2011-03-17 11:00

海量数据处理

海量数据处理问题实例：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

鹰击长空·2011-03-14 14:00

海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloom

beifenggo·2011-03-08 20:00

海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloom

beifenggo·2011-03-08 20:00

MapReduce

MapReduce是由Google公司的JeffreyDean和SanjayGhemawat开发的一个针对大规模群组中的海量数据处理的分布式编程模型。MapReduce实现了两个功能。

imaginecup·2011-03-07 11:00

构建海量数据处理性能的医院集群系统解决方案（集群、备份、冗余）

下载地址：http://www.docin.com/p-108140032.html更多IT类解决方案下载：http://www.docin.com/mydoc-5887523-1.html&folderId=73189

beermonkey·2011-02-09 23:57

海量数据处理汇总

海量数据处理分析（作者北京迈思奇科技有限公司戴子良）原文地址： http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx

rtxbc·2011-01-21 13:00

海量数据处理汇总

海量数据处理汇总笔者在实际工作中，有幸接触到海量的数据处理问题，对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面：一、数据量过大，数据中什么情况都可能存在。

jiagyao·2011-01-19 10:00

推荐频道

海量数据处理

十道海量数据处理面试题与十个方法大总结【转】

云计算现状

云计算管理浅析

位图法；海量数据处理之位图技巧；位图技巧；海量数据；编程珠玑第二章问题A；40亿整数；腾讯面试题

海量数据处理分析

大数据量及海量数据处理算法总结

JBoss启动过程(译) zt

海量数据Top K算法（C实现）

海量数据处理(1)Bitmap, Bloom Filter, Hash(转)

海量数据处理：十道面试题与十个海量数据处理方法总结

海量数据处理常用思路和方法

海量数据处理常用思路和方法

php 大数据量及海量数据处理算法总结

海量数据处理系列——十道海量数据处理面试题与十个方法大总结

海量数据处理系列——BloomFilter

海量数据处理系列——C语言下实现bitmap算法

海量数据处理方法

海量数据处理利器 STL中哈希表 hash_map（C++）

大数据量及海量数据处理算法总结

大数据量及海量数据处理算法总结

海量数据处理专题（四）——Bit-map

海量数据处理专题（四）——Bit-map

海量数据处理专题（三）——Hash

海量数据处理专题（三）——Hash

海量数据处理专题（二）——Bloom Filter

海量数据处理专题（二）——Bloom Filter

海量数据处理专题（一）——开篇

海量数据处理专题（一）——开篇

海量数据处理常用思路和方法

从互联网技术开计算机热点

使用union避免map复制结构体降低效率

海量数据处理：十道面试题与十个海量数据处理方法总结

TUP Masters第四期：与Yahoo!首席科学家深入云计算实战

海量数据处理常用思路和方法

海量数据处理常用思路和方法

SQL中海量数据处理（查询、删除）

【转】十道海量数据处理面试题与十个方法大总结

十道海量数据处理面试题与十个方法大总结

十道海量数据处理面试题与十个方法大总结

十道海量数据处理面试题与十个方法大总结

十道海量数据处理面试题与十个方法大总结

海量数据处理专题之双层桶划分

海量数据处理专题（四）——Bit-map

海量数据处理

海量数据处理方法总结

海量数据处理方法总结

MapReduce

构建海量数据处理性能的医院集群系统解决方案（集群、备份、冗余）

海量数据处理汇总

海量数据处理汇总