E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
为什么我们说
海量数据处理
技术会火
大数据处理技术正在改变目前计算机的运行模式。我们已经从中获得了大量收益,因为正是大数据处理技术给我们带来了搜索引擎Google。然而故事才刚刚开始,基于以下几个原因,我们说大数据处理技术正在改变着这个世界:1.它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据。2.它工作的速度非常快速:实际上几乎实时。3.它具有普及性:因为它所用的都是最普通低成本的硬
LuoXianXion
·
2012-02-29 19:00
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
fangaoxin
·
2012-02-29 10:00
mapreduce
面试
filter
url
query
扩展
vs 2008 开发环境 oralce occi开发配置
特别是对于
海量数据处理
时,occi提供的函数为Ora
viwii
·
2012-02-24 16:00
oracle
vs
2008
vc9
occi
为什么我们说
海量数据处理
技术会火
为什么我们说
海量数据处理
技术会火http://www.36kr.com/p/85415.html大数据处理技术正在改变目前计算机的运行模式。
yiboo
·
2012-02-24 15:00
数据库
Google
NoSQL
Yahoo
分布式计算
nosql数据库
大数据
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
bless_love
·
2012-02-16 15:17
京东碰到的一道面试题
京东碰到的一道面试题今天碰到这样一道面试题,由于没有
海量数据处理
的经验,特意帖出来,听听大家的意见!
zhangxl_blog
·
2012-02-15 15:00
转 -- 十道
海量数据处理
面试题与十个方法大总结
原址如下:http://blog.csdn.net/v_july_v/article/details/6279498
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang
edwzhang
·
2012-01-29 15:00
mapreduce
面试
filter
url
query
扩展
重启开源,分享无限--微软面试187题精选
题的解题中 前期回顾 我想,只要是稍微浏览过我博客的朋友都知道,本博客内总体上大致分为两个部分的内容:1、算法(如十六个经典算法研究系列);2、面试与编程(涉及到微软面试100题系列,程序员编程艺术系列,
海量数据处理
面试题集锦等等
szu030606
·
2012-01-22 10:00
十道
海量数据处理
面试题与十个方法大总结
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu。
szu030606
·
2012-01-22 10:00
大数据量,
海量数据处理
方法总结海量4
经典问题分析 上千万or亿数据(有重复),统计其中出现次数最多的前N个数据,分两种情况:可一次读入内存,不可一次读入。 可用思路:trie树+堆,数据库索引,划分子集分别统计,hash,分布式计算,近似统计,外排序 所谓的是否能一次读入内存,实际上应该指去除重复后的数据量。如果去重后数据可以放入内存,我们可以为数据
ssxxjjii
·
2012-01-19 15:00
海量数据
大数据量,
海量数据处理
方法总结海量3
7.倒排索引(Inverted index) 适用范围:搜索引擎,关键字查询 基本原理及要点:为何叫倒排索引?一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。以英文为例,下面是要被索引的文本: T0 = "it is what&nb
ssxxjjii
·
2012-01-19 15:00
海量数据
大数据量,
海量数据处理
方法总结海量2
3.bit-map 适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下 基本原理及要点:使用bit数组来表示某些元素是否存在,比如8位电话号码 扩展:bloom filter可以看做是对bit-map的扩展 问题实例: 1)已知某个文件内包含一些电话号码,每个号码为8
ssxxjjii
·
2012-01-19 15:00
海量数据
大数据量,
海量数据处理
方法总结海量1
http://vrlinux.com/wenzhangjingxuan/20101025/78066_6.html 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu,google,tx这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大
ssxxjjii
·
2012-01-19 15:00
海量数据
海量数据处理
:十道面试题与十个
海量数据处理
方法总结
时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道
海量数据处理
的面试题,第二部分为10个
海量数据处理
的方法总结。有任何问题,欢迎交流、指正。
liguangzhenghi
·
2012-01-16 09:00
mapreduce
面试
filter
url
query
扩展
海量数据处理
:十道面试题与十个
海量数据处理
方法总结
http://blog.csdn.net/v_JULY_v/article/details/6279498 第一部分、十道
海量数据处理
面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。
ssxxjjii
·
2012-01-14 23:00
海量数据
MapReduce初探
云计算的关键技术主要包括:虚拟化、
海量数据处理
、大规模分布式存储、消息通信、快速部署、资源调度、多租户技术、许可证管理与计费。。。
BeyondHaven
·
2012-01-11 17:00
mapreduce
编程
云计算
each
分布式存储
虚拟化
MapReduce初探
云计算的关键技术主要包括:虚拟化、
海量数据处理
、大规模分布式存储、消息通信、快速部署、资源调度、多租户技术、许可证管理与计费。。。
HavenZhao
·
2012-01-11 16:31
技术
分布式
color
C/C++
MapReduce初探
云计算的关键技术主要包括:虚拟化、
海量数据处理
、大规模分布式存储、消息通信、快速部署、资源调度、多租户技术、许可证管理与计费。。。
HavenZhao
·
2012-01-11 16:31
技术
分布式
云计算
color
许可证
SOA和云:2012将存储什么?
不过,这些预言并不是无稽之谈,移动应用和开放API快速改变着
海量数据处理
和消费导向的IT界,这种现象便是这类预言的论证基础。
Jeevak Kasarkod
·
2012-01-11 00:00
被神化的
海量数据处理
和高并发处理
其实任何简单的问题,只要规模大了都会成为一个问题,就如中国人口多,很多小问题都会变成大问题一样。但处理这种海量数据的方法无非就是分治和”人海”战术。使用人海战术的前提是问题的划分能够支持这种人海战术,其手段无非是切割(纵向,横向)和负载均衡。纵向分隔主要是按业务(功能)来分,也就是所谓面向服务架构,横向分隔方式比较多,主要依赖于所处理的对象属性,比如时间属性或者特定业务数据属性划分(比如铁路客票的
hawksoft
·
2012-01-10 23:00
数据库
负载均衡
分布式计算
sqlserver
数据中心
财务系统
大数据处理
海量数据处理
:十道面试题与十个
海量数据处理
方法总结 作者:July、youwang、yanxionglu。
jackyhongvip
·
2012-01-09 09:00
海量数据
海量数据处理
方法总结
转载自:http://goo.gl/0MPqC大数据量的问题是很多面试笔试中经常出现的问题,下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloomfilter适用范围:可以用来实现数据字
flychen
·
2012-01-06 02:00
Uncategorized
海量数据处理
专题(八)――倒排索引(搜索引擎之基石)
引言:在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。VSM检索模型VSM全称是VectorSpaceModel(向量空间模型),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中。
rosehacker2010
·
2011-12-26 19:34
职场
倒排索引
休闲
海量数据处理
搜索引擎之基石
海量数据处理
专题(七)――数据库索引及优化
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。数据库索引什么是索引数据库索引好比是一本书前面的目录,能加快数据库的查询速度。例如这样一个查询:select*fromtable1whereid=44。如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止;有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找44(也就是在ID这一列找
rosehacker2010
·
2011-12-26 19:24
职场
倒排索引
休闲
海量数据处理
数据库索引及优化
海量数据处理
专题(六)――双层桶划分
【什么是双层桶】事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】第k大,中位数,不重复或重复的数字【基本原理及要点】因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。可以通过多次缩小,双层只是
rosehacker2010
·
2011-12-26 19:41
职场
倒排索引
休闲
海量数据处理
双层桶划分
海量数据处理
专题(五)――堆
【什么是堆】概念:堆是一种特殊的二叉树,具备以下两种性质1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值2)树是完全平衡的,并且最后一层的树叶都在最左边这样就定义了一个最大堆。如下图用一个数组来表示堆:那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。你一定发觉了,最小的一个元素就是数组第一个元素,那么二叉堆这种
rosehacker2010
·
2011-12-26 19:36
职场
倒排索引
休闲
海量数据处理
石堆
海量数据处理
专题(四)――Bit-map
【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表
rosehacker2010
·
2011-12-26 19:42
职场
倒排索引
休闲
海量数据处理
bit-map
海量数据处理
专题(三)――Hash
【什么是Hash】Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。HASH主
rosehacker2010
·
2011-12-26 19:57
职场
hash
倒排索引
休闲
海量数据处理
海量数据处理
专题(二)――Bloom Filter
【什么是BloomFilter】BloomFilter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(falsepositive)。因此,BloomFilter不适合那些“零错误”的应用场合。而在能容忍低错误率的应
rosehacker2010
·
2011-12-26 19:10
filter
职场
休闲
海量数据处理
专题(一)――开篇
大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。本贴从解决这类问题的方法入手
rosehacker2010
·
2011-12-26 19:22
职场
休闲
海量数据处理专题(一)――开篇
大数据量的算法
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
xiaolang85
·
2011-12-26 15:00
mapreduce
算法
filter
url
query
扩展
海量数据处理
专题(八)——倒排索引(搜索引擎之基石)
引言:在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。VSM检索模型VSM全称是VectorSpaceModel(向量空间模型),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中。
zhongguoren666
·
2011-12-22 11:00
搜索引擎
vector
存储
query
文档
分布式存储
海量数据处理
专题(七)——数据库索引及优化
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。数据库索引什么是索引数据库索引好比是一本书前面的目录,能加快数据库的查询速度。例如这样一个查询:select*fromtable1whereid=44。如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止;有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找44(也就是在ID这一列找
zhongguoren666
·
2011-12-22 11:00
数据库
优化
mysql
性能优化
buffer
数据库服务器
海量数据处理
专题(六)——双层桶划分
【什么是双层桶】事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】第k大,中位数,不重复或重复的数字【基本原理及要点】因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后在一个可以接受的范围内进行。可以通过多次缩小,双层只是
zhongguoren666
·
2011-12-22 11:00
数据结构
算法
table
扩展
2010
磁盘
海量数据处理
专题(五)——堆
【什么是堆】概念:堆是一种特殊的二叉树,具备以下两种性质1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值2)树是完全平衡的,并且最后一层的树叶都在最左边这样就定义了一个最大堆。如下图用一个数组来表示堆:那么下面介绍二叉堆:二叉堆是一种完全二叉树,其任意子树的左右节点(如果有的话)的键值一定比根节点大,上图其实就是一个二叉堆。你一定发觉了,最小的一个元素就是数组第一个元素,那么二叉堆这种
zhongguoren666
·
2011-12-22 11:00
扩展
2010
海量数据处理
专题(四)——Bit-map
【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表
zhongguoren666
·
2011-12-22 11:00
filter
存储
扩展
byte
电话
2010
海量数据处理
专题(三)——Hash
【什么是Hash】Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。HASH主
zhongguoren666
·
2011-12-22 11:00
数据结构
加密
算法
汇编
百度
存储
海量数据处理
专题(二)——Bloom Filter
【什么是BloomFilter】BloomFilter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(falsepositive)。因此,BloomFilter不适合那些“零错误”的应用场合。而在能容忍低错误率的应
zhongguoren666
·
2011-12-22 11:00
数据结构
filter
url
存储
扩展
2010
海量数据处理
专题(一)——开篇
大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 本贴从解决这类问题的方法入
zhongguoren666
·
2011-12-22 11:00
mapreduce
数据库
面试
Google
腾讯
2010
php 大数据量及
海量数据处理
算法总结
转自:http://www.jb51.net/article/27064.htm大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法
leiyonglin
·
2011-12-21 23:00
海量数据处理
:十道面试题与十个
海量数据处理
方法总结
转http://blog.csdn.net/v_JULY_v/article/details/6279498
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu
gukesdo
·
2011-12-20 09:00
mapreduce
面试
filter
url
query
扩展
海量数据处理
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。s遍历文件b
tedious
·
2011-12-19 11:00
mapreduce
算法
filter
url
存储
query
十道
海量数据处理
面试题与十个方法大总结
转自:http://blog.csdn.net/v_JULY_v/article/details/6279498第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
onlyonename
·
2011-12-17 20:00
淘宝网北京 搜索 算法 java c++ 分布式 测试 等高端职位
数据计算平台研发工程师职责负责研究和开发海量数据存储及计算平台-负责计算平台的性能优化及应用优化-针对具体应用需求,提供分布式解决方案要求有相关项目编程经验,精通Java-有
海量数据处理
经验者优先,熟悉
晴��
·
2011-12-15 16:18
java
C++
算法
分布式
职场
搜索
休闲
海量数据处理
面试题集锦与Bit-map详解
十七道
海量数据处理
面试题与Bit-map详解作者:小桥流水,redfox66,July。
meijia_tts
·
2011-12-15 14:00
海量数据处理
:十道面试题与十个
海量数据处理
方法总结
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu。
梅佳
·
2011-12-14 16:25
算法
从hadoop框架与MapReduce模式中谈
海量数据处理
从hadoop框架与MapReduce模式中谈
海量数据处理
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣
hongsejiaozhu
·
2011-12-14 11:00
并行计算之计算模型
随着
海量数据处理
的需求增加,并行计算越来越发挥它巨大的作用。通过采用多线程(多进程)的模式对同一任务进行并行处理,可以大大节省处理时间,提高处理效率。
zhanglei8893
·
2011-12-13 22:00
多线程
数据结构
编程
c
算法
任务
海量数据处理
学习网站
常见
海量数据处理
:http://www.cnblogs.com/pkuoliver/archive/2010/10/02/mass-data-topic-1.html
tianmo2010
·
2011-12-11 21:00
常见的
海量数据处理
方法
一给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。 s遍历文
tianmo2010
·
2011-12-11 21:00
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他