E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
实战hadoop
海量数据处理
系列05 : 实现点击流日志的数据清洗模块
实战hadoop
海量数据处理
系列05:实现点击流日志的数据清洗模块之前已经实现结构化数据的清洗,下一步我们将实现半结构化(非结构化)数据的清洗。
titer1
·
2017-06-10 21:00
hadoop
海量数据
数据清洗
点击流日志
实战hadoop
海量数据处理
系列04预热篇:窗函数row_number 从理论到实践
实战hadoop
海量数据处理
系列04预热篇:窗函数row_number从理论到实践作者写第一版书的时候,,hive还没有官方支持row_number,需要使用UDF来实现额外的jar;不过幸运的是,从hive0.11
titer1
·
2017-06-09 12:00
hadoop
hive
海量数据
ROW-NUMBER
实战hadoop
海量数据处理
系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录
实战hadoop
海量数据处理
系列02番外篇:在linux上使用hql执行工具|hive排错记录本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。
titer1
·
2017-06-09 09:00
hadoop
hive
海量数据
实战hadoop
海量数据处理
系列03 :数据仓库的设计
实战hadoop
海量数据处理
系列03:数据仓库的设计鉴于我们之前两章提前预热的开发环境,我们现在来讨论数据仓库的设计,其实本章应该放到一个正式的项目的前端,不过好事总会要来的,准备好数据仓库,我们就可以实地验证
titer1
·
2017-06-07 12:00
hadoop
海量数据
数据仓库
实战hadoop
海量数据处理
系列02: hql执行工具
实战hadoop
海量数据处理
系列02:hql执行工具本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。
titer1
·
2017-06-07 10:00
hadoop
HQL
海量数据
实战hadoop
海量数据处理
系列 01:数据导入篇
实战hadoop
海量数据处理
系列01:数据导入篇本文假设读者已经按照范老师的书搭建好了eclipse环境,并且已经导入myBi文件夹下面的子工程。
titer1
·
2017-06-07 08:00
hadoop
海量数据
实战hadoop
海量数据处理
系列:序
--纸上得来终觉浅,绝知此事要躬行实战hadoop
海量数据处理
系列:序都知布道者不易,以写书最难,字字斟酌。本系列大部分是在闲暇时间而作,并是用语音识别辅助记录,多少有瑕疵,但我会持续校正。
titer1
·
2017-06-07 07:00
hadoop
海量数据处理
hadoop海量数据
海量数据处理
之基本方法
2013年9月18日针对海量数据的处理,可以使用的方法非常多,常见的方法有Hash法、Bit-map法、Bloomfilter法、数据库优化法、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法。1.Hash法Hash一般被翻译为哈希,也被称为散列,它是一种映射关系,即给定一个数据元素,其关键字为key,按一个确定的哈希函数Hash计算出hash(key),把hash(key)
yaotinging
·
2017-06-07 07:00
linux下查看硬盘信息、硬盘分区、格式化、挂载、及swap分区
df命令参看硬盘信息-T选项,查看文件系统类型centos6文件系统是ext4,因为设计较早,对于现今动辄上T的
海量数据处理
,性能较低。centos7文件系统是xfs,适用于海量数据。
Ayhan_huang
·
2017-05-29 12:24
硬盘分区
挂载
linux
linux
教你如何迅速秒杀掉:99%的
海量数据处理
面试题 - tim.chen
教你如何迅速秒杀掉:99%的
海量数据处理
面试题作者:July出处:结构之法算法之道blog 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文
azhegps
·
2017-05-22 16:00
排序与
海量数据处理
(一).三种常见的N*logN排序算法1.堆排序思想:利用完全二叉树的特性,某结点(如下标i)的父结点下标(i–1)/2,左右子结点下标分别为2*i+1和2*i+2。思路:从第一个非叶子节点往根节点开始,逐步调整。2.快速排序思想:选取一个基点,从数组最后一个节点开始逐一与基点比较,如果比其小则继续迁移,否则调换位置并从前开始逐一与基点比较,如果比基点小则继续,如果比基点大则对调。3.归并排序(外
sszgg2006
·
2017-05-11 10:00
从Trie树(字典树)谈到后缀树
之前在此文:
海量数据处理
面试题集锦与Bit-
luckyrass
·
2017-05-10 20:02
区块链技术指南:(四) 分布式系统核心问题
**随着摩尔定律碰到瓶颈,越来越多的系统要依靠分布式集群架构来实现
海量数据处理
和可扩展计算能力。区块链首先是一个分布式系统。中央式结构改成分布式系统,碰到的第一个问题就是一致性的保障。
知行gitlore
·
2017-05-10 11:05
Hive HQL数据操作、数据查询
一、HQL数据操作本方内容来源《Hadoop
海量数据处理
技术详解与项目实战》人民邮电出版社建库建表等参考这里http://blog.csdn.net/xundh/article/details/71404376
谢厂节
·
2017-05-08 14:05
DB-大数据-Hive
海量数据处理
(四) simhash
如果有一天,你向优酷传了一个记录着你和我当天一起去长城玩的小视频(假设其大小为1G)。在你传完以后,我也传了一个和你一模一样的视频。但是我一点击上传,几秒钟就现设上传成功。这是为什么呢。这就是这这会要讨论的simhash算法。 simhash过程一共有5个步骤,分词,hash,加权,合并,降维。 第一步分词。假设现在给一个句子:我今天有课。再给一个句子:我明天有课。很明显这两个句子代表的含义明显
qq_33225741
·
2017-05-06 18:00
Hadoop Map/Reduce编程模型实现
海量数据处理
—数字求和-Hadoop学习
HadoopMap/Reduce编程模型实现
海量数据处理
—数字求和 Map/Reduce编程模型型的原理是:利用一个输入key/valuepair集合来产生一个输出的key/valuepair集合。
sxf_123456
·
2017-04-25 13:00
hadoop
海量数据
海量数据处理
算法
1.BloomFilter【BloomFilter】BloomFilter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断,但不会漏掉判断。也就是BloomFilter判断元素不再集合,那肯定不在。如果判断元素存在集合中,有一定的概率判断错误。因此,
cloves
·
2017-04-21 14:35
数据
海量
处理算法
性能分析与优化
堆(heap)
他常用于管理算法执行过程中的信息,应用的场景包括堆排序、
海量数据处理
(TopK)问题和优先级队列等。声明:本文虽以
demi_hu
·
2017-04-20 15:32
数据结构(C++)
《Hadoop
海量数据处理
》(第2版)阅读整理
http://dl.iteye.com/upload/picture/pic/136745/8c8659cd-f6e4-3b9b-95eb-1ccb42797037.jpg[/img][b]《Hadoop
海量数据处理
angelbill3
·
2017-03-26 21:33
大数据
java
数据库
世界级的开源项目:TiDB 如何重新定义下一代关系型数据库
他认为,通常传统的关系型数据库无法满足
海量数据处理
和分析时
CN长城
·
2017-03-14 15:15
缓存
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
hyszyl
·
2017-03-14 09:00
Greenplum 简单性能测试与分析
如今,多样的交易模式以及大众消费观念的改变使得数据库应用领域不断扩大,现代的大型分布式应用系统的数据膨胀也对数据库的
海量数据处理
能力和并行处理能力提出了更高的要求,如何在数据呈现海量扩张的同时提高处理速度和应用系统的可用性
腾讯云+社区
·
2017-03-13 11:00
大数据量,
海量数据处理
方法总结
大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloomfilter适
风灵使
·
2017-03-07 16:47
SqlServer数据库
海量数据处理
之面试题
给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为,这里漏写个了a1)中。这样每个小文件的大约为300M。
huangqjduter
·
2017-03-02 16:36
教你如何迅速秒杀掉:99%的
海量数据处理
面试题
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
metheir
·
2017-02-23 09:00
十道
海量数据处理
面试题与十个方法大总结
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
拾壹北
·
2017-02-20 16:45
海量数据处理
利器greenplum——初识
简介及适用场景如果想在数据仓库中快速查询结果,可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性:第一,完善的标准支持:GPDB完全支持ANSISQL2008标准和SQLOLAP2003扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的NoSQL,NewSQL和Hadoop对SQL的支持都不完善,不同的系
小飞侠-2
·
2016-12-28 10:42
greenplum数据仓库
海量数据处理
(面试)
题目:1、海量日志数据,提取出某日访问百度次数最多的那个IP。假设有一个大文件,里面以字符形式存储了IP与IP访问次数,这两数据按空格隔开,然后一行对应一个IP。解决思路算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP日志分别存储到1024个小文件中。这样
hello_bravo_
·
2016-12-27 20:20
面试
十道
海量数据处理
题
第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
谁不曾年少轻狂过
·
2016-12-06 18:18
Why 分库分表 & Why Use Mycat
:http://gaojingsong.iteye.com/blog/2339126预览文章:Why分库分表&WhyUseMycat在互联网时代,海量数据的存储与访问成为系统设计与使用的瓶颈问题,对于
海量数据处理
gaojingsong
·
2016-11-20 20:55
数据库之Mysql
海量数据处理
第二谈-----位图BitMap
位图的概念:在C++中,位图是以位来表示整数的结构,普通的整数一个数需要用4个字节来表示,我们可以换种思想,在整个整数的集合范围内,某个整数存在与否,只有两种情况,在或者不在,那么,我们可以考虑只用一个bit位,来表示该整数存在的状态,从而达到节省内存的目的。位图实例分析:给一个实际的例子,给40亿个不重复的unsignedint的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿
暮回_zz
·
2016-11-20 11:28
位图
bitmap
bitset
DataStructure
10个技巧,教你掌握数据处理分析!
海量数据处理
需要有效的方法和高超的技巧,没有通用的处理方法,但有通用的原理和规则。大圣众包小编分享给大家,希望能在工作中帮到你们。
大圣众包平台
·
2016-11-11 00:00
IT
程序员
IT工程师
海量数据处理
第一谈-----哈希算法
HashTable--哈希表,是一种典型的"key--value"形式的数据结构,构建这种数据结构的目的,是为了使用户通过key值快速定位到我的value,从而进行相应的增删查改的工作。当数据量较小时,简单遍历也能达到目的,但面对大量数据处理时,造成时间和空间上的消耗,不是一般人可以承担的起的。首先,先简单了解一下,什么是哈希。我们的目的是在一堆数据中查找(这里以×××为例),为了节省空间,我们不
暮回_zz
·
2016-11-08 17:58
哈希表
Table
Hash
DataStructure
热烈庆祝自已厉精13年开发的 DB查询分析器 7.01(最新版本) 在中关村在线本月获得近6000次的下载量
中国本土程序员马根峰(CSDN专访马根峰:
海量数据处理
与分析大师的中国本土程序员)推出的个人作品----万能数据库查询分析器,中文版本DB查询分析器、英文版本DBQueryAnalyzer。
magenfeng
·
2016-11-08 09:00
DB
query
analyzer
db查询分析器
DBQuery
SQL执行计划
大型网站技术架构(2):架构要素和高性能架构
上一篇我们把整个架构演变过程大致说了一下,这次我们来说说从哪方面进行考虑设计为了使网站的能够应对高并发访问,
海量数据处理
,高可靠运行等一系列问题,我们可以选择横向或纵向两个方向来入手基本思路首先可以对整个架构进行分层
Arno
·
2016-11-07 00:00
service
web
高可用
性能优化
架构设计
DB查询分析器7.01新增的周、月SQL执行计划功能
DB查询分析器7.01新增的周、月SQL执行计划功能 马根峰 (广东联合电子服务股份有限公司, 广州 510300) 1 引言 中国本土程序员马根峰(CSDN专访马根峰:
海量数据处理
与分析大师的中国本土程序员
magenfeng
·
2016-11-03 07:00
执行计划
db查询分析器
万能数据库查询分析器
查询分析器
SQL执行计划
大数据面试宝典
教你如何迅速秒杀掉:99%的
海量数据处理
面试题原文转自 http://blog.csdn.net/v_july_v/article/details/7382693作者:July出处:结构之法算法之道blog
jx232515
·
2016-10-09 17:00
面试
大数据
海量数据处理
相关文章
海量数据处理
之经典实例分析topk问题中各种场景分析的很好:单机+单核+足够大内存单机+多核+足够大内存单机+单核+受限内存多机+受限内存https://segmentfault.com/a/1190000000510258
WendySays
·
2016-10-02 07:24
AC自动机(多模式串“KMP")模版
参考博客:kuangbinAC自动机小结,AC自动机算法
海量数据处理
之Tire树(字典树)AC自动机,Aho-Corasickautomation是建立在字典树(Tire)上的多模式串快速匹配算法;一个典型的例子就是
姜团长
·
2016-09-22 22:47
海量数据处理
算法(top K问题)
举例有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。思路首先把文件分开针对每个文件hash遍历,统计每个词语的频率使用堆进行遍历把堆归并起来具体的方案1.分治:顺序读文件中,对于每个词c,取hash(c)%2000,然后按照该值存到2000个小文件中。这样每个文件大概是500k左右。注意:如果其中的有的文件超过了1M大小,还可以按
u010321471
·
2016-09-22 20:00
算法
XP
海量数据
hash
C语言
HDFS学习笔记(5)IO读写操作之数据压缩
Hadoop作为一个较通用的
海量数据处理
平台,每次运算都会需要处理大量数据,我们会在Hadoop系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从而提高系统处理数据的效率。
攻城的蒂巴格
·
2016-09-13 13:37
hadoop
腾讯优测优分享 | 分布式系统测试的应用方法——场景注入测试
在大数据浪潮下,
海量数据处理
能力的提升是推动大数据不断前行的基础。
腾讯优测
·
2016-09-08 11:00
腾讯优测优分享 | 分布式系统测试的应用方法——场景注入测试
在大数据浪潮下,
海量数据处理
能力的提升是推动大数据不断前行的基础。
腾讯优测
·
2016-09-08 00:00
自动化测试
分布式系统
十道
海量数据处理
面试题
转自:http://blog.csdn.net/v_JULY_v/article/details/6279498第一部分、十道
海量数据处理
面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。
抱石头冲天
·
2016-09-04 10:10
海量数据处理
Strom最火的流式处理
实现一个实时计算系统全量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大、自动容错等优点,在
海量数据处理
上得到了广泛的使用。
张润森的博客
·
2016-08-30 16:34
.
Hadoop之MapReduce工作原理
1MapReduce设计目标HadoopMapReduce诞生于搜索领域,主要解决搜索引擎面临的
海量数据处理
扩展性差的问题。它的实现很大程度上借鉴了Googl
wangwei4078
·
2016-08-26 17:06
搜索引擎
应用程序
工作原理
Hadoop
Hadoop序列化与压缩
传统的的计算机系统通过I/O操作与外界交流,,Hadoop的I/O由传统的I/O系统发展而来,但是又有些不同,Hadoop需要处理P、T级别的数据,所以在org.apache.hadoop.io包中包含了一些面向
海量数据处理
的基本输入输出工具
wangwei4078
·
2016-08-17 16:18
Java
计算机系统
Hadoop
海量数据处理
利器greenplum——初识
简介及适用场景如果想在数据仓库中快速查询结果,可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性:第一,完善的标准支持:GPDB完全支持ANSISQL2008标准和SQLOLAP2003扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的NoSQL,NewSQL和Hadoop对SQL的支持都不完善,不同的系
skyme
·
2016-08-17 14:00
初识分布式系统
随着大型网站的各种高并发访问、
海量数据处理
等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题,大型网站的架构也在不断发展。
指尖的跳跃
·
2016-08-14 22:51
初识分布式系统
随着大型网站的各种高并发访问、
海量数据处理
等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题,大型网站的架构也在不断发展。
指尖的跳跃
·
2016-08-14 22:51
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他