E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
DM7新特性白皮书
针对可靠性,高性能,
海量数据处理
和安全性做了大量的研发和改进工作,极大提升了达梦数据库产品的...详细解读和小伙伴们一起来吐槽
李航421
·
2015-06-19 13:00
新特性
白皮书
DM7
[Hadoop]序列化机制
传统的计算机系统通过I/O操作与外界进行交流,Hadoop的I/O由传统的I/O系统发展而来,但又有些不同,Hadoop需要处理P、T级别的数据,所以在org.apache.hadoop.io包中包含了一些面向
海量数据处理
的基本输入输出工具
SunnyYoona
·
2015-06-18 09:00
hadoop
序列化
从Hadoop框架与MapReduce模式中谈
海量数据处理
(含淘宝技术架构)
从hadoop框架与MapReduce模式中谈
海量数据处理
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘
DavidBao
·
2015-06-16 21:00
mapreduce
hadoop
框架
hbase
存储
第一部分、十道
海量数据处理
面试题
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
ZhikangFu
·
2015-06-16 18:00
分布式系统的特点以及设计理念
正是这些分布式系统,使得Google可以处理高并发请求响应以及
海量数据处理
等。Apache旗下的Hadoop、Spark、Me
王璞
·
2015-06-12 00:00
NoSQL数据库的分布式算法
译者介绍:Juliashine是多年抓娃工程师,现工作方向是
海量数据处理
与分析,关注Hadoop与NoSQL生态体系。
BearCatYN
·
2015-06-10 15:00
数据库
NoSQL
分布式算法
04Top K算法问题
但这个寻找最大的k个数的问题的实用范围更广,因为它牵扯到了一个TopK算法问题,以及有关搜索引擎,
海量数据处理
等广泛的问题,所以本文特意对这个TopK算法问题,进行阐述以及实现。
gqtcgq
·
2015-06-09 11:00
海量数据处理
常用的数据结构:1.BloomFilter 大致思想是这样,把一个数据通过N个哈希函数映射到一个长度为M的数组的一位上,将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明该数据的存在。但不能保证完全正确性,但是此方法无比高效。2.哈希法 这个简单,无非是通过一些哈希函数把元素搞到一个指定的位置,简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函
zero__007
·
2015-06-07 10:00
说说这些年做的云计算和大数据项目
入行十几年了,做了不少分布计算、并行计算、内存计算、
海量数据处理
的项目,按照现在的分类,这些都属于云计算/大数据范畴。今天说说我做过的其中三个项目,只三个。
laxcus
·
2015-06-06 10:00
大数据
CARY
11g包dbms_parallel_execute在
海量数据处理
过程中的应用
11g包dbms_parallel_execute在
海量数据处理
过程中的应用一.1BLOG文档结构图一.2前言部分一.2.1导读各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识
lhrbest
·
2015-06-03 17:04
border
target
title
blank
结构图
11g包dbms_parallel_execute在
海量数据处理
过程中的应用
11g包dbms_parallel_execute在
海量数据处理
过程中的应用一.1BLOG文档结构图一.2前言部分一.2.1导读各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识
lhrbest
·
2015-06-03 17:04
border
target
title
blank
结构图
海量数据处理
---倒排索引
方法介绍倒排索引是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,常被应用于搜索引擎和关键字查询的问题中。以英文为例,下面是要被索引的文本:T0="itiswhatitis" T1="whatisit" T2="itisabanana" 我们就能得到下面的反向文件索引:"a":{2} "banana":{2} "is":{0,1,2} "it":{0,1,2}
qisefengzheng
·
2015-05-26 16:00
海量数据处理
---Trie树(字典树)
方法介绍1.1、什么是Trie树Trie树,即字典树,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较,查询效率比较高。Trie的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。它有3个基本性质:根节点不包含字符,除根节点外每一个节点都
qisefengzheng
·
2015-05-26 16:00
海量数据处理
---位图法Bitmap
方法介绍什么是Bit-map所谓的Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数,我们就只需要8个Bit(1Bytes)
qisefengzheng
·
2015-05-26 15:00
海量数据处理
---分布式处理之MapReduce
方法介绍MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个归并排序。适用范围:数据量大,但是数据种类小可以放入内存基本原理及要点:将数据交给不同的机器去处理,数据
在云边听雨
·
2015-05-26 15:36
算法C实现
海量数据处理
---分布式处理之MapReduce
方法介绍MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。但如果你要我再通俗点介绍,那么,说白了,Mapreduce的原理就是一个归并排序。适用范围:数据量大,但是数据种类小可以放入内存基本原理及要点:将数据交给不同的机器去处理,数据
qisefengzheng
·
2015-05-26 15:00
海量数据处理
---外排序
方法介绍所谓外排序,顾名思义,即是在内存外面的排序,因为当要处理的数据量很大,而不能一次装入内存时,此时只能放在读写较慢的外存储器(通常是硬盘)上。外排序通常采用的是一种“排序-归并”的策略。在排序阶段,先读入能放在内存中的数据量,将其排序输出到一个临时文件,依此进行,将待排序数据组织为多个有序的临时文件;尔后在归并阶段将这些临时文件组合为一个大的有序文件,也即排序结果。假定现在有20个数据的文件
qisefengzheng
·
2015-05-26 15:00
海量数据处理
---simhash算法
方法介绍背景如果某一天,面试官问你如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个指纹(fingerprint)。
在云边听雨
·
2015-05-26 14:32
算法C++实现
海量数据处理
---simhash算法
方法介绍背景如果某一天,面试官问你如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个指纹(fingerprint)。
qisefengzheng
·
2015-05-26 14:00
海量数据处理
---分而治之
方法介绍对于海量数据而言,由于无法一次性装进内存处理,导致我们不得不把海量的数据通过hash映射分割成相应的小块数据,然后再针对各个小块数据通过hash_map进行统计或其它操作。那什么是hash映射呢?简单来说,就是为了便于计算机在有限的内存中处理big数据,我们通过一种映射散列的方式让数据均匀分布在对应的内存位置(如大数据通过取余的方式映射成小数存放在内存中,或大文件映射成多个小文件),而这个
qisefengzheng
·
2015-05-26 14:00
大型网站架构模式
2.1网站架构模式为了解决大型网站面临的高并发访问,
海量数据处理
,高可靠运行等一系列问题与挑战,大型互联网公司在实践中提出了许多解决方案,以实现网站高性能,高可用,易伸缩,可扩展,安全等各种技术架构目标
不正经啊不正经
·
2015-05-21 10:00
海量数据处理
面试题集锦
十七道
海量数据处理
面试题与Bit-map详解http://blog.csdn.net/v_july_v/article/details/6685962前言 本博客内曾经整理过有关
海量数据处理
的10道面试题
luyuncheng
·
2015-05-18 17:00
从Hadoop框架与MapReduce模式中谈
海量数据处理
(含淘宝技术架构)
http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈
海量数据处理
前言 几周前,当我最初听到
cto_stone
·
2015-05-14 15:33
从Hadoop框架与MapReduce模式中谈
海量数据处理
(含淘宝技术架构)
http://blog.csdn.net/v_july_v/article/details/6704077从hadoop框架与MapReduce模式中谈
海量数据处理
前言几周前,当我最初听到,以致后来初次接触
cto_stone
·
2015-05-14 15:33
关于
海量数据处理
分析的经验总结
笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时
猫儿
·
2015-05-14 10:00
大数据分析
hadoop常见问题解答
因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助
海量数据处理
平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台
qindongliang1922
·
2015-05-11 20:00
hadoop
hadoop常见问题解答
因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助
海量数据处理
平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台
qindongliang1922
·
2015-05-11 20:00
hadoop
hadoop常见问题解答
因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助
海量数据处理
平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台
qindongliang1922
·
2015-05-11 20:00
hadoop
hadoop常见问题解答
因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助
海量数据处理
平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台
qindongliang1922
·
2015-05-11 20:00
hadoop
hadoop常见问题解答
因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助
海量数据处理
平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台
qindongliang1922
·
2015-05-11 20:00
hadoop
hadoop常见问题解答
因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助
海量数据处理
平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台
qindongliang1922
·
2015-05-11 20:00
hadoop
大型网站架构模式
一、前言 为了解决大型网站面临的高并发访问、
海量数据处理
、高可靠运行等一系列问题与挑战,大型互联网公司在时间中提出了许多解决方案,以实现网站高性能、高可用、易伸缩性、可扩展、安全等各种技术架构目标。
Leexide
·
2015-05-04 15:25
网站架构
架构设计
大型网站
大型网站架构模式
一、前言 为了解决大型网站面临的高并发访问、
海量数据处理
、高可靠运行等一系列问题与挑战,大型互联网公司在时间中提出了许多解决方案,以实现网站高性能、高可用、易伸缩性、可扩展、安全等各种技术架构目标。
Leexide
·
2015-05-04 15:25
网站架构
架构设计
大型网站
大型网站架构模式
一、前言 为了解决大型网站面临的高并发访问、
海量数据处理
、高可靠运行等一系列问题与挑战,大型互联网公司在时间中提出了许多解决方案,以实现网站高性能、高可用、易伸缩性、可扩展、安全等各种技术架构目标。
u011655519
·
2015-05-04 15:00
网站架构
架构
网站
十道
海量数据处理
面试题 - 数据分析与数据挖掘技术-炼数成金-Dataguru专业数据分析社区
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的
MrCharles
·
2015-04-26 16:00
大数据面试题
blog.csdn.net/ycl1989y/article/details/7796250http://blog.csdn.net/wchyumo2009/article/details/8738639第一部分、十道
海量数据处理
面试题
u014403897
·
2015-04-23 11:00
教你如何迅速秒杀掉:99%的
海量数据处理
面试题(转自July)
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲
Linzhongyilisha
·
2015-04-22 19:00
算法
面试
大型网站系统架构分析整理
数据库
海量数据处理
:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。
Charles0371
·
2015-04-21 22:59
从闭源的Borg到开源的Mesos
专长
海量数据处理
,分布式计算,以及大规模机器学习。于2014年回国创办数人科技,专注于为企业
InfoQ
·
2015-04-20 00:00
100亿个数字找出最大的10个
1、首先一点,对于
海量数据处理
,思路基本上是确定的,必须分块处理,然后再合并起来。
·
2015-04-18 09:00
数字
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲
Bryan__
·
2015-04-16 19:00
十道
海量数据处理
面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的
Bryan__
·
2015-04-16 19:00
(1.4.6.1)
海量数据处理
之组合式解决方案
1-密匙一分而治之Hash映射Hash_map统计堆快速归并排序1海量日志数据提取出某日访问百度次数最多的那个IP2寻找热门查询300万个查询字符串中统计最热门的10个查询3有一个1G大小的一个文件里面每一行是一个词词的大小不超过16字节内存限制大小是1M返回频数最高的100个词4海量数据分布在100台电脑中想个办法高效统计出这批数据的TOP105有10个文件每个文件1G每个文件的每一行存放的都是
fei20121106
·
2015-04-14 22:00
(1.4.6)
海量数据处理
之基本方法
2的10次方1GHashingbit-mapBloomfilter数据库索引倒排索引外排序trie树堆双桶划分分而治之2的10次方1G1.Hashing适用范围:快速查找,删除的基本数据结构,通常需要总数据量可以放入内存要点:hash函数选择,针对字符串,整数,排列,具体相应的hash方法举例:在200w数据中,查找某一条数据,先对元素哈希出一个值来,然后将该值对应的数据下标处存储或查找。3.bi
fei20121106
·
2015-04-14 22:00
Strom实时计算--简述
Strom和hadoop的区别: 全量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大、自动容错等优点,在
海量数据处理
上 得到了广泛的使用。
liyantianmin
·
2015-04-13 17:00
大数据处理
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲
manyangyang520
·
2015-04-10 12:00
海量数据处理
算法之Bloom Filter
算法介绍BloomFilter的中文名称叫做布隆过滤器,因为他最早的提出者叫做布隆(Bloom),因而而得此名。布隆过滤器简单的说就是为了检索一个元素是否存在于某个集合当中,以此实现数据的过滤。也许你会想,这还不简单,判断元素是否存在某集合中,遍历集合,一个个去比较不就能得出结果,当然这没有任何的问题,但是当你面对的是海量数据的时候,在空间和时间上的代价是非常恐怖的,显然需要更好的办法来解决这个问
Androidlushangderen
·
2015-04-06 20:00
算法
搜索引擎
海量数据
十道
海量数据处理
面试题与十个方法大总结
阅读更多第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
zhb8015
·
2015-04-01 10:00
BigData
海量
面试
十道
海量数据处理
面试题与十个方法大总结
阅读更多第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
zhb8015
·
2015-04-01 10:00
BigData
海量
面试
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。
zhb8015
·
2015-04-01 10:00
面试
BigData
海量
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他