E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
十道
海量数据处理
面试题
本文转自风生水起的博文:http://www.cnblogs.com/end/archive/2011/06/01/2067207.html第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个
yaowj2
·
2012-11-26 11:00
从文件中查找出现次数最多的10个单词
十道
海量数据处理
:http://blog.csdn.net/v_july_v/article/details/6279498字典树参考:http://www.cnblogs.com/DiaoCow/archive
Bill_Ming
·
2012-11-16 17:00
十道
海量数据处理
面试题
时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的
海量数据处理
面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。
cws1214
·
2012-11-13 11:00
海量数据处理
优化方案
阅读更多笔者在实际工作中,有幸接触到海量的数据处理问题,这是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,在海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题。尤其在程序处理时,前面
洛神_access
·
2012-11-08 17:00
数据库优化
海量数据处理
优化方案
笔者在实际工作中,有幸接触到海量的数据处理问题,这是一项艰巨而复杂的任务。原因有以下几个方面: 一、 数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,在海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题。尤其在程序处理时,前面还
洛神_access
·
2012-11-08 17:00
数据库优化
海量数据处理
优化方案
阅读更多笔者在实际工作中,有幸接触到海量的数据处理问题,这是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,在海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题。尤其在程序处理时,前面
洛神_access
·
2012-11-08 17:00
数据库优化
海量数据处理
的各种方法小结
前几天看到一篇
海量数据处理
各种算法的文章,可以用来应对各大公司的
海量数据处理
面试题,现分享给大家,为表达对原作者的敬意,现把原文章出处信息摘在下面:标题:教你如何迅速秒杀掉:99%的
海量数据处理
面试题网址
onlyanyz
·
2012-11-07 10:00
面试
海量数据处理
海量数据处理
常用思路和方法
原文链接:http://blog.chinaunix.net/uid-26565142-id-3127581.html 1.Bloomfilter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结
xceman1997
·
2012-11-07 10:00
海量数据处理
专题(九)——外排序
【引言】在数据结构的课程上,我们学习了不少的排序算法,冒泡,堆,快排,归并等。但是这些排序方法有着共同的特点,那就是所有的操作都是在内存中完成的,算法过程中不需要IO,这就使得这样的算法总体上速度比较快,但是也随之出现了一个问题:当需要排序的数据量异常的大的时候,以上的算法就显得力不从心了。这时候,你需要一种另外的排序算法,它的名字叫“外排序”。通常的,设备的内存读取速度要比外存读取速度快得多(R
mysileng
·
2012-11-05 20:00
海量数据处理
专题(八)——倒排索引(搜索引擎之基石)
引言:在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。VSM检索模型VSM全称是VectorSpaceModel(向量空间模型),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中。
mysileng
·
2012-11-05 20:00
海量数据处理
专题(七)——数据库索引及优化
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。数据库索引什么是索引数据库索引好比是一本书前面的目录,能加快数据库的查询速度。例如这样一个查询:select*fromtable1whereid=44。如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止;有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找44(也就是在ID这一列找
mysileng
·
2012-11-05 20:00
海量数据处理
专题(六)——双层桶划分
【什么是双层桶】事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】第k大,中位数,不重复或重复的数字【基本原理及要点】因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。可以通过多次缩小,双层只是
mysileng
·
2012-11-05 20:00
海量数据处理
专题(四)——Bit-map
【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表
mysileng
·
2012-11-05 20:00
海量数据处理
专题(五)——堆
【什么是堆】概念:堆是一种特殊的二叉树,具备以下两种性质1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值2)树是完全平衡的,并且最后一层的树叶都在最左边这样就定义了一个最大堆。如下图用一个数组来表示堆:那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。你一定发觉了,最小的一个元素就是数组第一个元素,那么二叉堆这种
mysileng
·
2012-11-05 20:00
海量数据处理
专题(三)——Hash
【什么是Hash】Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。HASH主
mysileng
·
2012-11-05 20:00
海量数据处理
专题(二)——Bloom Filter
【什么是BloomFilter】BloomFilter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(falsepositive)。因此,BloomFilter不适合那些“零错误”的应用场合。而在能容忍低错误率的应
mysileng
·
2012-11-05 20:00
海量数据处理
专题(一)
大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 本贴从解决这类问题的方法入
mysileng
·
2012-11-05 20:00
教你如何迅速秒杀99%的
海量数据处理
面试题
教你如何迅速秒杀99%的
海量数据处理
面试题前言 一般而言,标题含有“秒杀”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名
mysileng
·
2012-11-05 19:00
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
xiaotom5
·
2012-11-04 19:00
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲
pi9nc
·
2012-11-04 12:00
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
gfsfg8545
·
2012-11-03 21:00
必须要加强的技术(近期)
nbsp; 1.自己写代码实现Ajax,webService(SOA),jquery掌握运行流程,及其原理 2.数据库(数据库设计要考虑什么),sql优化等(看数据库相关的数据,集群,
海量数据处理
lvwenwen
·
2012-11-02 12:00
必须要加强的技术(近期)
海量数据处理
常用思路和方法
转载http://blog.chinaunix.net/uid-26565142-id-3127581.html 《
海量数据处理
常用思路和方法》 (2012-03-09 18:53)
zhou85xin
·
2012-11-01 14:00
海量数据
海量数据处理
算法总结
1.BloomFilter【BloomFilter】BloomFilter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断,但不会漏掉判断。也就是BloomFilter判断元素不再集合,那肯定不在。如果判断元素存在集合中,有一定的概率判断错误。因此,
happyzhuque
·
2012-11-01 13:36
海量数据处理
海量数据处理
的常用思路和方法
http://blog.chinaunix.net/uid-26565142-id-3127581.html最近在研究个性化推荐系统,基础很是薄弱,没有
海量数据处理
相关经验,这篇文章算是分享了一些经验。
coolluyu
·
2012-10-31 16:00
海量数据处理
——学习资料(一)
所谓
海量数据处理
,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。
zhlj11
·
2012-10-31 13:00
数据结构
算法
海量数据
大数据中的SMAQ技术
围绕Google关于这方面的工作和Yahoo的Haoop中对MapReduce的实现,兴起了一个
海量数据处理
工具的生态系统。随着Map
可观
·
2012-10-31 13:00
mapreduce
hadoop
大数据
NoSQL
分布式系统测试在阿里云的实践
基于飞天大规模分布式系统,我们开发了弹性计算,海量邮箱服务,Key-Value存储引擎,结构化数据存储引擎和
海量数据处理
服务等一系列的上层服务,并且基于这些上层服务,我们
蓝魔雪儿
·
2012-10-29 14:45
存储
单元测试
大型网站系统架构分析 ——理论不懂就实践,实践不会就学理论!
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
kongls08
·
2012-10-26 22:00
大型网站系统架构分析
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
dcj3sjt126com
·
2012-10-24 22:00
系统架构
海量数据处理
--基础
一、Bloomfilter http://www.cnblogs.com/coser/archive/2012/02/23/2364894.html http://blog.csdn.net/jiaomeng/article/details/1495500适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将h
GM_LV
·
2012-10-21 08:00
【转】
海量数据处理
方法总结
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
youmu543
·
2012-10-16 18:00
[置顶] GraphLab:新的面向机器学习的并行框架
p=215 1.1GraphLab简介在海量数据盛行的今天,大规模并行计算已经随处可见,尤其是MapReduce框架的出现,促进了并行计算在互联网
海量数据处理
中的广泛应用。
cs870101
·
2012-10-15 13:00
mapreduce
多线程
框架
Graph
引擎
locking
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲
hudan2714
·
2012-10-13 16:00
mapreduce
面试
filter
url
query
文档
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
jazywoo123
·
2012-10-10 09:00
从hadoop框架与MapReduce模式中谈
海量数据处理
MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:
海量数据处理
jazywoo123
·
2012-10-10 09:00
mapreduce
框架
hadoop
数据库
hbase
存储
海量数据处理
之Bloom Filter详解
前言 本博客内曾已经整理过十道
海量数据处理
面试题与十个方法大总结。接下来,本博客内会重点分析那些
海量数据处理
的方法,并重写十道
海量数据处理
的面试题。如果有任何问题,欢迎不吝指正。谢谢。
jazywoo123
·
2012-10-10 09:00
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
jazywoo123
·
2012-10-10 09:00
海量数据处理
方法总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
xingfeng2010
·
2012-10-09 09:00
mapreduce
filter
url
存储
query
扩展
分布式系统测试在阿里云的实践
基于飞天大规模分布式系统,我们开发了弹性计算,海量邮箱服务,Key-Value存储引擎,结构化数据存储引擎和
海量数据处理
服务等一系
许呙兢 陈舟锋
·
2012-10-08 00:00
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog转自算法大牛级博客:http://blog.csdn.net/v_july_v/article/details
xwdpepsi
·
2012-10-04 18:00
mapreduce
面试
filter
url
query
文档
【算法】
海量数据处理
:有一千万条短信,有重复,以文本形式保存,一行一条,找出重复最少的前10条
题目:有一千万条短信,有重复,以文本形式保存,一行一条,找出重复最少的前10条思路:通过哈希表去重并统计出重复次数后,通过堆调整找出重复次数最少的前10条参考文章:http://gengning938.blog.163.com/blog/static/128225381201161994028740/,代码有改动。关于从n(n很大)个数字中查找前k个最小的数的方法,用堆调整的方法,具体参见:htt
kuzuozhou
·
2012-10-03 17:00
海量数据处理
面试题及解决方法
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
qiaochao911
·
2012-09-29 11:00
mapreduce
面试
filter
url
query
扩展
9月笔试和面试总结
笔试题是英语填词,C部分,C++部分,题目很基础,C部分做的不错,C++部分没有做 2优酷土豆的笔试: 笔试的时间是90分钟,然后题目涉及广泛从算法数据结构到
海量数据处理
,还有一些自己感觉莫名其
leochiang
·
2012-09-26 10:00
海量数据处理
1、有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。请用5分钟时间,找出重复出现最多的前10条。方法1:可以用哈希表的方法对1千万条分成若干组进行边扫描边建散列表。第一次扫描,取首字节,尾字节,中间随便两字节作为hashCode,插入到hashtable中。并记录其地址和信息长度和重复次数,1千万条信息,记录者几个信息还放得下。同hashcode且等长就是疑似相同,比较一下。相同记
wangkechuang
·
2012-09-25 20:00
算法
table
海量数据处理
分析
在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面: 一、数据量过大,数据中什么情况都可能存在。 如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面
gukeming888
·
2012-09-25 16:00
海量数据处理
海量数据处理
面试题集锦与Bit-map详解
第一部分、十五道
海量数据处理
面试题 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
itfafa
·
2012-09-25 14:00
海量数据
从Hadoop框架与MapReduce模式中谈
海量数据处理
(淘宝技术架构)
从hadoop框架与MapReduce模式中谈
海量数据处理
前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣
Ares_晓越
·
2012-09-22 00:29
mapreduce
hadoop
框架
存储
hbase
数据库
分布式计算
大数据时代:Hadoop解决数据处理三瓶颈
信息技术研究和分析的公司Gartner认为
海量数据处理
应该是将大量的不同种类以及结构化和非结构化
oO寒枫Oo
·
2012-09-19 15:53
hadoop
[置顶] 大型网站系统架构分析
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
gybyylx
·
2012-09-18 10:00
数据库
集群
负载均衡
服务器
FreeBSD
数据库服务器
上一页
30
31
32
33
34
35
36
37
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他