E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
海量数据处理
专题(八)——倒排索引(搜索引擎之基石)
引言:在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。VSM检索模型VSM全称是VectorSpaceModel(向量空间模型),是IR(InformationRetrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中。
pkuoliver
·
2011-09-27 10:00
搜索引擎
海量数据
倒排索引
海量数据处理
常用的思路和方法
大数据量的问题是很多面试笔试中经常出现的问题,比如google、淘宝、百度、腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloomfilte
iamfranter
·
2011-09-26 23:00
我个人理解的 hadoop
待本文写完后目标是能够自己配置成功小型的hadoop服务器集群,能够写一个简单的hadoop应用demo,和一些基本的hadoop设计概念刚接触工作不久,做了一些关于服务器集群运算的任务,然后就开始熟悉到当前比较热门的hadoop框架下的
海量数据处理
tsaowe
·
2011-09-26 15:00
hadoop
海量数据处理
的几种方法总结
其实
海量数据处理
不外乎以下这思想:划分->处理->归并(聚集)当然有的时候根据最终目的不同,有可能处理过程中就可以扔掉很多冗余的数据了,那么经过多层处理也很快。
codingkid
·
2011-09-25 17:19
海量数据处理
海量数据处理
的几种方法总结
其实
海量数据处理
不外乎以下这思想:划分->处理->归并(聚集)当然有的时候根据最终目的不同,有可能处理过程中就可以扔掉很多冗余的数据了,那么经过多层处理也很快。
codingkid
·
2011-09-25 17:00
sql
数据库
数据挖掘
server
数据仓库
工具
磁盘
细节优化提升资源利用率(A)
这里通过介绍对于淘宝开放平台基础设置之一的TOPAnalyzer的代码优化,来谈一下对于
海量数据处理
的Java应用可以共享的一些细节设计(一个系统能够承受的处理量级别往往取决于细节,一个系统能够支持的业务形态往往取决于设计目标
lya041
·
2011-09-24 12:58
项目管理
职场
休闲
十七道
海量数据处理
面试题与Bit-map详解
十七道
海量数据处理
面试题与Bit-map详解转自:http://hi.baidu.com/luohb2325/blog/item/c512a355867f1c053b29352e.html十七道
海量数据处理
面试题与
ysdaniel
·
2011-09-24 11:00
海量数据处理
专题(五)——堆
海量数据处理
专题(五)——堆转自:http://hi.baidu.com/pakko/blog/item/ac48f61e8bc0e60441341795.html【什么是堆】概念:堆是一种特殊的二叉树
ysdaniel
·
2011-09-24 11:00
扩展
细节优化提升资源利用率
[email protected]
:weibo.com/fangweng 这里通过介绍对于淘宝开放平台基础设置之一的TOPAnalyzer的代码优化,来谈一下对于
海量数据处理
的
放翁(文初)的一亩三分地
·
2011-09-23 14:00
细节优化提升资源利用率
:放翁(文初)Email:
[email protected]
:weibo.com/fangweng这里通过介绍对于淘宝开放平台基础设置之一的TOPAnalyzer的代码优化,来谈一下对于
海量数据处理
的
youxinrencwx
·
2011-09-23 13:00
优化
细节优化提升资源利用率
[email protected]
:weibo.com/fangweng 这里通过介绍对于淘宝开放平台基础设置之一的TOPAnalyzer的代码优化,来谈一下对于
海量数据处理
的
cenwenchu79
·
2011-09-23 13:00
mapreduce
优化
api
存储
任务
磁盘
细节优化提升资源利用率
:放翁(文初)Email:
[email protected]
:weibo.com/fangweng这里通过介绍对于淘宝开放平台基础设置之一的TOPAnalyzer的代码优化,来谈一下对于
海量数据处理
的
wxyfighting
·
2011-09-23 13:00
优化
Hive开发流程
2009-09-26@taobao角色过程DevelopingSmokingProducing角色hive应用开发人员(DEV)负责编写Hivelet(用HiveQL编写的脚本),以满足
海量数据处理
需求
zhongl
·
2011-09-23 11:00
hive
trace
海量数据处理
之Bloom Filter详解
【转】http://blog.csdn.net/v_july_v/article/details/6685894
海量数据处理
之BloomFilter详解 前言 本博客内曾已经整理过十道
海量数据处理
面试题与十个方法大总结
caoruntao
·
2011-09-22 08:00
filter
bloom
十七道
海量数据处理
面试题与Bit-map详解
[转]http://blog.csdn.net/v_july_v/article/details/6685962 十七道
海量数据处理
面试题与Bit-map详解作者:小桥流水,redfox66,July。
caoruntao
·
2011-09-22 08:00
海量数据
海量数据处理
专题
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。s遍历文件b
michaelh0226
·
2011-09-21 17:00
算法
面试
海量数据
海量数据处理
专题
原文: http://bbs.xjtu.edu.cn/BMYAJBDVQSTVHSJUADPOGJEVMYLABIFCXFQP_B/con?B=Algorithm&F=M.1259224358.A&N=3682&T=0 最近有点忙,稍微空闲下来,发篇总结贴。 大数据量的问题是很多面试笔试中经常出现的问题,
michaelh0226
·
2011-09-21 16:00
海量数据
大型网站系统架构分析
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
snsssjsj
·
2011-09-19 22:00
系统架构
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
wangxingbao4227
·
2011-09-16 22:00
海量数据处理
系列——C语言下实现bitmap算法
bitmap是一个十分有用的结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。适用范围:可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下基本原理及要点:使用bit数组来表示某些元素是否存在,比如8位电话号码扩展:bloomfilter可以看做是对bit-map的
zhoubl668
·
2011-09-16 12:00
c
算法
filter
扩展
语言
电话
转:面试中的
海量数据处理
问题
———
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu。
丕子 friedvan
·
2011-09-16 08:00
技术
MapReduce
分布式
并行
海量数据
转:面试中的
海量数据处理
问题
———
海量数据处理
:十道面试题与十个
海量数据处理
方法总结作者:July、youwang、yanxionglu。
丕子 friedvan
·
2011-09-16 00:00
mapreduce
技术
分布式
海量数据
并行
十道
海量数据处理
面试题与十个方法大总结 .
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
a199228
·
2011-09-15 23:00
从Hadoop框架与MapReduce模式中谈
海量数据处理
【转】
从hadoop框架与MapReduce模式中谈
海量数据处理
前言 &
nhy520
·
2011-09-10 22:00
mapreduce
数据密集型计算:MapReduce与Hadoop的真正竞争力
互联网络用户的剧增和宽带网络的普及,使得互联网络服务的本质是以
海量数据处理
为中心的服务。
yeshuqiang
·
2011-09-09 18:00
mapreduce
大型网站采用什么系统架构保证性能稳定性
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
kindy1022
·
2011-09-06 15:00
海量数据处理
:十道面试题与十个
海量数据处理
方法总结
时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道
海量数据处理
的面试题,第二部分为10个
海量数据处理
的方法总结。有任何问题,欢迎交流、指正。
fangwei1235
·
2011-09-01 17:00
Hadoop Map/Reduce编程模型实现
海量数据处理
: 数字求和
HadoopMap/Reduce编程模型实现
海量数据处理
—数字求和魏仁言2010.8.24 Map/Reduce编程模型型的原理是:利用一个输入key/valuepair集合来产生一个输出的key/valuepair
yzhou86
·
2011-08-29 21:00
编程
hadoop
框架
String
负载均衡
任务
海量数据处理
算法设计
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
dy_252
·
2011-08-29 11:00
mapreduce
算法
filter
url
query
扩展
海量数据处理
专题(二)——Bloom Filter
海量数据向来都是百度,淘宝,腾讯面试的热点,虽然微软不看重这个,但是了解一下还是很有必要的。最近在写倒排索引,希望继续关注本博。===========================================================【什么是BloomFilter】BloomFilter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合
pkuoliver
·
2011-08-29 00:00
filter
海量数据
hash
bloom
海量数据处理
面试题
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
kesaihao862
·
2011-08-27 22:00
mapreduce
面试
filter
url
query
扩展
大型网站系统架构分析
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带
cyxlzzs
·
2011-08-27 13:14
服务器
数据库
数据库服务器
负载均衡
集群
freebsd
solution
architecture
大型网站系统架构分析
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将
CYXLZZS
·
2011-08-27 13:00
从几幅架构图中偷得半点
海量数据处理
经验
从几幅架构图中偷得半点
海量数据处理
经验分类: 27、Architecturedesign2011-08-1519:43 5489人阅读 评论(9) 收藏 举报 从几幅架构图中偷得半点
海量数据处理
经验
yangfanend
·
2011-08-24 12:00
Architecture
design
27
大型网站采用什么系统架构保证性能稳定性
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。另
eason26_li
·
2011-08-23 16:00
系统架构
大型网站采用什么系统架构保证性能稳定性
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能
eason26_li
·
2011-08-23 16:00
海量数据处理
常用思路和方法
大数据量的问题是很多面试笔试中经常出现的问题,比如google、淘宝、百度、腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloomfilte
scottgly
·
2011-08-23 11:00
mapreduce
filter
分布式计算
存储
文档
扩展
海量数据处理
面试题集锦与Bit-map详解
转:http://blog.csdn.net/v_july_v/article/details/6685962 十七道
海量数据处理
面试题与Bit-map详解作者:小桥流水,redfox66,July。
zmlcool
·
2011-08-22 14:00
算法
面试
filter
url
query
byte
从Hadoop框架与MapReduce模式中谈
海量数据处理
(淘宝技术架构)
从hadoop框架与MapReduce模式中谈
海量数据处理
前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣
izuoyan
·
2011-08-20 13:00
mapreduce
从Hadoop框架与MapReduce模式中谈
海量数据处理
(含淘宝技术架构)
从hadoop框架与MapReduce模式中谈
海量数据处理
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘
v_JULY_v
·
2011-08-20 13:00
mapreduce
hadoop
框架
hbase
存储
[
海量数据处理
]用2-Bitmap找出数组中不重复的整数
题目来自:http://blog.csdn.net/v_july_v/article/details/66859625.在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数。#include #include //用char数组存储2-Bitmap,不用考虑大小端内存的问题 unsignedcharflags[1000];//数组大小自定义 unsignedget_val(int
zhulei632
·
2011-08-19 15:00
测试
存储
重启开源,分享无限--微软面试187题精选
题的解题中前期回顾我想,只要是稍微浏览过我博客的朋友都知道,本博客内总体上大致分为两个部分的内容:1、算法(如十六个经典算法研究系列);2、面试与编程(涉及到微软面试100题系列,程序员编程艺术系列,
海量数据处理
面试题集锦等等
v_JULY_v Feng
·
2011-08-18 20:00
重启
开源
分享
海量数据处理
相关知识收集
十道
海量数据处理
面试题与十个方法大总结 http://blog.csdn.net/v_july_v/article/details/6279498
海量数据处理
面试题集锦与Bit-map详解 http:
zhulei632
·
2011-08-18 14:00
面试
filter
分布式计算
作业
重启开源,分享无限--微软面试187题精选
前期回顾 我想,只要是稍微浏览过我博客的朋友都知道,本博客内总体上大致分为两个部分的内容:1、算法(如十六个经典算法研究系列);2、面试与编程(涉及到微软面试100题系列,程序员编程艺术系列,
海量数据处理
面试题集锦等等
izuoyan
·
2011-08-18 13:00
面试
重启开源,分享无限--微软面试187题精选
题的解题中 前期回顾 我想,只要是稍微浏览过我博客的朋友都知道,本博客内总体上大致分为两个部分的内容:1、算法(如十六个经典算法研究系列);2、面试与编程(涉及到微软面试100题系列,程序员编程艺术系列,
海量数据处理
面试题集锦等等
v_JULY_v
·
2011-08-18 13:00
数据结构
编程
算法
优化
面试
微软
重启开源,分享无限--微软面试187题精选
题的解题中 前期回顾 我想,只要是稍微浏览过我博客的朋友都知道,本博客内总体上大致分为两个部分的内容:1、算法(如十六个经典算法研究系列);2、面试与编程(涉及到微软面试100题系列,程序员编程艺术系列,
海量数据处理
面试题集锦等等
v_JULY_v Feng
·
2011-08-18 12:00
开源
微软
无限
海量数据处理
专题(七)——数据库索引及优化
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。数据库索引什么是索引数据库索引好比是一本书前面的目录,能加快数据库的查询速度。例如这样一个查询:select*fromtable1whereid=44。如果没有索引,必须遍历整个表,直到ID等于44的这一行被找到为止;有了索引之后(必须是在ID这一列上建立的索引),直接在索引里面找44(也就是在ID这一列找
pkuoliver
·
2011-08-17 23:00
mysql
数据库
海量数据
性能优化
十道
海量数据处理
面试题与十个方法大总结
海量数据处理
:十道面试题与十个
海量数据处理
方法总结 ps:很佩服作者作为一个毕业生的实力,最近对海量数据有兴趣,故转过来学习学习 作者:July、youwang、yanxionglu。
shaorui23
·
2011-08-17 14:00
海量数据
海量数据处理
之Bloom Filter详解
海量数据处理
之BloomFilter详解 前言 本博客内曾已经整理过十道
海量数据处理
面试题与十个方法大总结。接下来,本博客内会重点分析那些
海量数据处理
的方法,并重写十道
海量数据处理
的面试题。
wishfly
·
2011-08-17 12:00
十七道
海量数据处理
面试题与Bit-map详解
十七道
海量数据处理
面试题与Bit-map详解作者:小桥流水,redfox66,July。文章性质:整理。
wishfly
·
2011-08-17 12:00
上一页
37
38
39
40
41
42
43
44
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他