海量数据处理第18页

实战hadoop海量数据处理系列05 ：实现点击流日志的数据清洗模块

实战hadoop海量数据处理系列05：实现点击流日志的数据清洗模块之前已经实现结构化数据的清洗，下一步我们将实现半结构化（非结构化）数据的清洗。

titer1·2017-06-10 21:00

实战hadoop海量数据处理系列04预热篇：窗函数row_number 从理论到实践

实战hadoop海量数据处理系列04预热篇：窗函数row_number从理论到实践作者写第一版书的时候，，hive还没有官方支持row_number,需要使用UDF来实现额外的jar;不过幸运的是，从hive0.11

titer1·2017-06-09 12:00

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

实战hadoop海量数据处理系列02番外篇:在linux上使用hql执行工具|hive排错记录本文假设读者已经按照范老师的书搭建好了eclipse环境，并且已经导入myBi文件夹下面的子工程。

titer1·2017-06-09 09:00

实战hadoop海量数据处理系列03 ：数据仓库的设计

实战hadoop海量数据处理系列03：数据仓库的设计鉴于我们之前两章提前预热的开发环境，我们现在来讨论数据仓库的设计，其实本章应该放到一个正式的项目的前端，不过好事总会要来的，准备好数据仓库，我们就可以实地验证

titer1·2017-06-07 12:00

实战hadoop海量数据处理系列02: hql执行工具

实战hadoop海量数据处理系列02:hql执行工具本文假设读者已经按照范老师的书搭建好了eclipse环境，并且已经导入myBi文件夹下面的子工程。

titer1·2017-06-07 10:00

实战hadoop海量数据处理系列 01：数据导入篇

实战hadoop海量数据处理系列01：数据导入篇本文假设读者已经按照范老师的书搭建好了eclipse环境，并且已经导入myBi文件夹下面的子工程。

titer1·2017-06-07 08:00

实战hadoop海量数据处理系列:序

--纸上得来终觉浅，绝知此事要躬行实战hadoop海量数据处理系列:序都知布道者不易，以写书最难，字字斟酌。本系列大部分是在闲暇时间而作，并是用语音识别辅助记录，多少有瑕疵，但我会持续校正。

titer1·2017-06-07 07:00

海量数据处理之基本方法

2013年9月18日针对海量数据的处理，可以使用的方法非常多，常见的方法有Hash法、Bit-map法、Bloomfilter法、数据库优化法、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法。1．Hash法Hash一般被翻译为哈希，也被称为散列，它是一种映射关系，即给定一个数据元素，其关键字为key，按一个确定的哈希函数Hash计算出hash（key），把hash（key）

yaotinging·2017-06-07 07:00

linux下查看硬盘信息、硬盘分区、格式化、挂载、及swap分区

df命令参看硬盘信息-T选项，查看文件系统类型centos6文件系统是ext4，因为设计较早，对于现今动辄上T的海量数据处理，性能较低。centos7文件系统是xfs，适用于海量数据。

Ayhan_huang·2017-05-29 12:24

教你如何迅速秒杀掉：99%的海量数据处理面试题 - tim.chen

教你如何迅速秒杀掉：99%的海量数据处理面试题作者：July出处：结构之法算法之道blog 一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文

azhegps·2017-05-22 16:00

排序与海量数据处理

(一).三种常见的N*logN排序算法1.堆排序思想：利用完全二叉树的特性，某结点(如下标i)的父结点下标(i–1)/2,左右子结点下标分别为2*i+1和2*i+2。思路：从第一个非叶子节点往根节点开始，逐步调整。2.快速排序思想：选取一个基点，从数组最后一个节点开始逐一与基点比较，如果比其小则继续迁移，否则调换位置并从前开始逐一与基点比较，如果比基点小则继续，如果比基点大则对调。3.归并排序(外

sszgg2006·2017-05-11 10:00

从Trie树（字典树）谈到后缀树

之前在此文：海量数据处理面试题集锦与Bit-

luckyrass·2017-05-10 20:02

区块链技术指南：（四）分布式系统核心问题

**随着摩尔定律碰到瓶颈，越来越多的系统要依靠分布式集群架构来实现海量数据处理和可扩展计算能力。区块链首先是一个分布式系统。中央式结构改成分布式系统，碰到的第一个问题就是一致性的保障。

知行gitlore·2017-05-10 11:05

Hive HQL数据操作、数据查询

一、HQL数据操作本方内容来源《Hadoop海量数据处理技术详解与项目实战》人民邮电出版社建库建表等参考这里http://blog.csdn.net/xundh/article/details/71404376

谢厂节·2017-05-08 14:05

海量数据处理（四） simhash

如果有一天，你向优酷传了一个记录着你和我当天一起去长城玩的小视频（假设其大小为1G）。在你传完以后，我也传了一个和你一模一样的视频。但是我一点击上传，几秒钟就现设上传成功。这是为什么呢。这就是这这会要讨论的simhash算法。 simhash过程一共有5个步骤，分词，hash,加权,合并，降维。第一步分词。假设现在给一个句子：我今天有课。再给一个句子：我明天有课。很明显这两个句子代表的含义明显

qq_33225741·2017-05-06 18:00

Hadoop Map/Reduce编程模型实现海量数据处理—数字求和-Hadoop学习

HadoopMap/Reduce编程模型实现海量数据处理—数字求和 Map/Reduce编程模型型的原理是：利用一个输入key/valuepair集合来产生一个输出的key/valuepair集合。

sxf_123456·2017-04-25 13:00

海量数据处理算法

1.BloomFilter【BloomFilter】BloomFilter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断，但不会漏掉判断。也就是BloomFilter判断元素不再集合，那肯定不在。如果判断元素存在集合中，有一定的概率判断错误。因此，

cloves·2017-04-21 14:35

堆（heap）

他常用于管理算法执行过程中的信息，应用的场景包括堆排序、海量数据处理（TopK）问题和优先级队列等。声明：本文虽以

demi_hu·2017-04-20 15:32

《Hadoop海量数据处理》（第2版）阅读整理

http://dl.iteye.com/upload/picture/pic/136745/8c8659cd-f6e4-3b9b-95eb-1ccb42797037.jpg[/img][b]《Hadoop海量数据处理

angelbill3·2017-03-26 21:33

世界级的开源项目：TiDB 如何重新定义下一代关系型数据库

他认为，通常传统的关系型数据库无法满足海量数据处理和分析时

CN长城·2017-03-14 15:15

教你如何迅速秒杀掉：99%的海量数据处理面试题

标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结

hyszyl·2017-03-14 09:00

Greenplum 简单性能测试与分析

如今，多样的交易模式以及大众消费观念的改变使得数据库应用领域不断扩大，现代的大型分布式应用系统的数据膨胀也对数据库的海量数据处理能力和并行处理能力提出了更高的要求，如何在数据呈现海量扩张的同时提高处理速度和应用系统的可用性

腾讯云+社区·2017-03-13 11:00

大数据量，海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。1.Bloomfilter适

风灵使·2017-03-07 16:47

海量数据处理之面试题

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为,这里漏写个了a1）中。这样每个小文件的大约为300M。

huangqjduter·2017-03-02 16:36

教你如何迅速秒杀掉：99%的海量数据处理面试题

标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结

metheir·2017-02-23 09:00

十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。

拾壹北·2017-02-20 16:45

海量数据处理利器greenplum——初识

简介及适用场景如果想在数据仓库中快速查询结果，可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性：第一，完善的标准支持：GPDB完全支持ANSISQL2008标准和SQLOLAP2003扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的NoSQL，NewSQL和Hadoop对SQL的支持都不完善，不同的系

小飞侠-2·2016-12-28 10:42

海量数据处理(面试)

题目：1、海量日志数据，提取出某日访问百度次数最多的那个IP。假设有一个大文件，里面以字符形式存储了IP与IP访问次数，这两数据按空格隔开，然后一行对应一个IP。解决思路算法思想：分而治之+Hash1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样

hello_bravo_·2016-12-27 20:20

十道海量数据处理题

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。

谁不曾年少轻狂过·2016-12-06 18:18

Why 分库分表 & Why Use Mycat

:http://gaojingsong.iteye.com/blog/2339126预览文章:Why分库分表&WhyUseMycat在互联网时代，海量数据的存储与访问成为系统设计与使用的瓶颈问题，对于海量数据处理

gaojingsong·2016-11-20 20:55

海量数据处理第二谈-----位图BitMap

位图的概念：在C++中，位图是以位来表示整数的结构，普通的整数一个数需要用4个字节来表示，我们可以换种思想，在整个整数的集合范围内，某个整数存在与否，只有两种情况，在或者不在，那么，我们可以考虑只用一个bit位，来表示该整数存在的状态，从而达到节省内存的目的。位图实例分析：给一个实际的例子，给40亿个不重复的unsignedint的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿

暮回_zz·2016-11-20 11:28

10个技巧，教你掌握数据处理分析！

海量数据处理需要有效的方法和高超的技巧，没有通用的处理方法，但有通用的原理和规则。大圣众包小编分享给大家，希望能在工作中帮到你们。

大圣众包平台·2016-11-11 00:00

海量数据处理第一谈-----哈希算法

HashTable--哈希表，是一种典型的"key--value"形式的数据结构，构建这种数据结构的目的，是为了使用户通过key值快速定位到我的value，从而进行相应的增删查改的工作。当数据量较小时，简单遍历也能达到目的，但面对大量数据处理时，造成时间和空间上的消耗，不是一般人可以承担的起的。首先，先简单了解一下，什么是哈希。我们的目的是在一堆数据中查找（这里以×××为例），为了节省空间，我们不

暮回_zz·2016-11-08 17:58

热烈庆祝自已厉精13年开发的 DB查询分析器 7.01（最新版本）在中关村在线本月获得近6000次的下载量

中国本土程序员马根峰（CSDN专访马根峰：海量数据处理与分析大师的中国本土程序员）推出的个人作品----万能数据库查询分析器，中文版本DB查询分析器、英文版本DBQueryAnalyzer。

magenfeng·2016-11-08 09:00

大型网站技术架构（2）：架构要素和高性能架构

上一篇我们把整个架构演变过程大致说了一下，这次我们来说说从哪方面进行考虑设计为了使网站的能够应对高并发访问，海量数据处理，高可靠运行等一系列问题，我们可以选择横向或纵向两个方向来入手基本思路首先可以对整个架构进行分层

Arno·2016-11-07 00:00

DB查询分析器7.01新增的周、月SQL执行计划功能

DB查询分析器7.01新增的周、月SQL执行计划功能马根峰 (广东联合电子服务股份有限公司, 广州 510300) 1 引言中国本土程序员马根峰（CSDN专访马根峰：海量数据处理与分析大师的中国本土程序员

magenfeng·2016-11-03 07:00

大数据面试宝典

教你如何迅速秒杀掉：99%的海量数据处理面试题原文转自 http://blog.csdn.net/v_july_v/article/details/7382693作者：July出处：结构之法算法之道blog

jx232515·2016-10-09 17:00

海量数据处理

WendySays·2016-10-02 07:24

AC自动机（多模式串“KMP")模版

参考博客：kuangbinAC自动机小结，AC自动机算法海量数据处理之Tire树（字典树）AC自动机，Aho-Corasickautomation是建立在字典树（Tire）上的多模式串快速匹配算法；一个典型的例子就是

姜团长·2016-09-22 22:47

海量数据处理算法（top K问题）

举例有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。思路首先把文件分开针对每个文件hash遍历，统计每个词语的频率使用堆进行遍历把堆归并起来具体的方案1.分治：顺序读文件中，对于每个词c，取hash(c)%2000，然后按照该值存到2000个小文件中。这样每个文件大概是500k左右。注意：如果其中的有的文件超过了1M大小，还可以按

u010321471·2016-09-22 20:00

HDFS学习笔记（5）IO读写操作之数据压缩

Hadoop作为一个较通用的海量数据处理平台，每次运算都会需要处理大量数据，我们会在Hadoop系统中对数据进行压缩处理来优化磁盘使用率，提高数据在磁盘和网络中的传输速度，从而提高系统处理数据的效率。

攻城的蒂巴格·2016-09-13 13:37

腾讯优测优分享 | 分布式系统测试的应用方法——场景注入测试

在大数据浪潮下，海量数据处理能力的提升是推动大数据不断前行的基础。

腾讯优测·2016-09-08 11:00

腾讯优测优分享 | 分布式系统测试的应用方法——场景注入测试

在大数据浪潮下，海量数据处理能力的提升是推动大数据不断前行的基础。

腾讯优测·2016-09-08 00:00

十道海量数据处理面试题

转自：http://blog.csdn.net/v_JULY_v/article/details/6279498第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。

抱石头冲天·2016-09-04 10:10

Strom最火的流式处理

实现一个实时计算系统全量数据处理使用的大多是鼎鼎大名的hadoop或者hive，作为一个批处理系统，hadoop以其吞吐量大、自动容错等优点，在海量数据处理上得到了广泛的使用。

张润森的博客·2016-08-30 16:34

Hadoop之MapReduce工作原理

1MapReduce设计目标HadoopMapReduce诞生于搜索领域，主要解决搜索引擎面临的海量数据处理扩展性差的问题。它的实现很大程度上借鉴了Googl

wangwei4078·2016-08-26 17:06

Hadoop序列化与压缩

传统的的计算机系统通过I/O操作与外界交流，，Hadoop的I/O由传统的I/O系统发展而来，但是又有些不同，Hadoop需要处理P、T级别的数据，所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输入输出工具

wangwei4078·2016-08-17 16:18

海量数据处理利器greenplum——初识

简介及适用场景如果想在数据仓库中快速查询结果，可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性：第一，完善的标准支持：GPDB完全支持ANSISQL2008标准和SQLOLAP2003扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的NoSQL，NewSQL和Hadoop对SQL的支持都不完善，不同的系

skyme·2016-08-17 14:00

初识分布式系统

随着大型网站的各种高并发访问、海量数据处理等场景越来越多，如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题，大型网站的架构也在不断发展。

指尖的跳跃·2016-08-14 22:51

初识分布式系统

随着大型网站的各种高并发访问、海量数据处理等场景越来越多，如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题，大型网站的架构也在不断发展。

指尖的跳跃·2016-08-14 22:51

推荐频道

海量数据处理

实战hadoop海量数据处理系列05 ： 实现点击流日志的数据清洗模块

实战hadoop海量数据处理系列04预热篇：窗函数row_number 从理论到实践

实战hadoop海量数据处理系列02 番外篇: 在linux上使用hql执行工具 | hive排错记录

实战hadoop海量数据处理系列03 ：数据仓库的设计

实战hadoop海量数据处理系列02: hql执行工具

实战hadoop海量数据处理系列 01：数据导入篇

实战hadoop海量数据处理系列:序

海量数据处理之基本方法

linux下查看硬盘信息、硬盘分区、格式化、挂载、及swap分区

教你如何迅速秒杀掉：99%的海量数据处理面试题 - tim.chen

排序与海量数据处理

从Trie树（字典树）谈到后缀树

区块链技术指南：（四） 分布式系统核心问题

Hive HQL数据操作、数据查询

海量数据处理（四） simhash

Hadoop Map/Reduce编程模型实现海量数据处理—数字求和-Hadoop学习

海量数据处理算法

堆（heap）

《Hadoop海量数据处理》（第2版）阅读整理

世界级的开源项目：TiDB 如何重新定义下一代关系型数据库

教你如何迅速秒杀掉：99%的海量数据处理面试题

Greenplum 简单性能测试与分析

大数据量，海量数据处理方法总结

海量数据处理之面试题

教你如何迅速秒杀掉：99%的海量数据处理面试题

十道海量数据处理面试题与十个方法大总结

海量数据处理利器greenplum——初识

海量数据处理(面试)

十道海量数据处理题

Why 分库分表 & Why Use Mycat

海量数据处理第二谈-----位图BitMap

10个技巧，教你掌握数据处理分析！

海量数据处理第一谈-----哈希算法

热烈庆祝自已厉精13年开发的 DB查询分析器 7.01（最新版本） 在中关村在线本月获得近6000次的下载量

大型网站技术架构（2）：架构要素和高性能架构

DB查询分析器7.01新增的周、月SQL执行计划功能

大数据面试宝典

海量数据处理

AC自动机（多模式串“KMP")模版

海量数据处理算法（top K问题）

HDFS学习笔记（5）IO读写操作之数据压缩

腾讯优测优分享 | 分布式系统测试的应用方法——场景注入测试

腾讯优测优分享 | 分布式系统测试的应用方法——场景注入测试

十道海量数据处理面试题

Strom最火的流式处理

Hadoop之MapReduce工作原理

Hadoop序列化与压缩

海量数据处理利器greenplum——初识

初识分布式系统

初识分布式系统

实战hadoop海量数据处理系列05 ：实现点击流日志的数据清洗模块

区块链技术指南：（四）分布式系统核心问题

热烈庆祝自已厉精13年开发的 DB查询分析器 7.01（最新版本）在中关村在线本月获得近6000次的下载量