海量数据处理第10页

活动实录丨SRE在传统企业中的落地实践

擅长分布式计算、大规模机器学习、海量数据处理。曾担任Google广告部门数据平台构架师，负责管理每秒访问量全球最高的架构平台。

weixin_34258078·2020-08-01 04:03

算法10—海量数据处理之top k算法

第一部分：TopK算法详解问题描述百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。必备知识：什么是哈希表？哈希表（

will的猜想·2020-08-01 01:15

海量数据处理问题（Top k问题）的实现

在很多互联网公司的面试题中，都可能会问到海量数据处理的题目，比如在几千亿个数据中如何获取10000个最大的数？这其实就是一个Topk问题，如何从亿万级的数据中得到前K个最大或者最小的数字。

tywiiu·2020-08-01 01:36

海量数据处理之双层桶划分

双层桶划分什么是双层桶事实上，与其说双层桶划分是一种数据结构，不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候，我们可以将其分成一个个小的单元，然后根据一定的策略来处理这些小单元，从而达到目的。适用范围第k大，中位数，不重复或重复的数字基本原理及要点因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一

ts173383201·2020-08-01 01:21

一个简明的Mapreduce 原理分析

1.mapreduce简介mapreduce源自google的一篇文章，将海量数据处理的过程拆分为map和reduce。

zhaozhengcoder·2020-07-31 20:15

海量数据处理——从Top K引发的思考

(题图：fromgithub)三问海量数据处理：什么是海量数据处理，为什么出现这种需求？如何进行海量数据处理，常用的方法和技术有什么？如今分布式框架已经很成熟了，为什么还用学习海量数据处理的技术？

码闻强识·2020-07-31 18:38

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一1.1　Hadoop和云计算

本节书摘来异步社区《Hadoop海量数据处理：技术详解与项目实战（第2版）》一书中的第1章，第1.1节，作者：范东来责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

weixin_34185512·2020-07-30 20:46

大数据与Hadoop系列之序列化（一）

传统的计算机系统通过I/O操作与外界进行交流，Hadoop的I/O由传统的I/O系统发展而来，但又有些不同，Hadoop需要处理P、T级别的数据，所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具

有梦想的人不睡觉121·2020-07-30 16:00

[Hadoop]序列化机制

传统的计算机系统通过I/O操作与外界进行交流，Hadoop的I/O由传统的I/O系统发展而来，但又有些不同，Hadoop需要处理P、T级别的数据，所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输入输出工具

SunnyYoona·2020-07-30 14:05

10021---分布式系统互斥性与幂等性问题的分析与解决

原文【前言】随着互联网信息技术的飞速发展，数据量不断增大，业务逻辑也日趋复杂，对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可扩展等目标就显得越发重要。

xxxcyzyy·2020-07-30 06:20

Hive之HQL数据定义

------------本文笔记整理自《Hadoop海量数据处理：技术详解与项目实战》范东来HQL数据定义1.数据库database操作--创建数据库>createdatabasetest;>createdatabaseifnotexiststest

碣石观海·2020-07-30 04:51

大型网站技术架构—架构要素和高性能架构

https://my.oschina.net/liuyuantao/blog/784667为了使网站的能够应对高并发访问，海量数据处理，高可靠运行等一系列问题，我们可以选择横向或纵向两个方向来入手基本思路首先可以对整个架构进行分层

刘元涛·2020-07-30 01:28

海量数据处理：1G大小的一个文件中找出出现频率最高的100个数

1.题目描述有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M，要求返回频数最高的100个词2.思考过程（1）参见我的其他大数据面试题博文。此处1G文件远远大于1M内存，分治法，先hash映射把大文件分成很多个小文件，具体操作如下：读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件(记为f0,f1,...,f4999)中，这样

五山口老法师·2020-07-29 15:03

流行的开源爬虫库及软件选择

《海量数据处理》课程作业，搜寻“不同标准的”“最好用”的开源爬虫库及软件。取之于CSDN，用之于CSDN。

moonium·2020-07-29 14:06

布隆过滤器（Bloom Filter）- 避免缓存穿透和海量数据处理之利器

缓存处理流程这种模式处理缓存通常都是先从数据库缓存查询，如果缓存没有命中则从数据库中进行查找。这里面会发生的三种情况如下：①缓存命中：当查询的时候发现缓存存在，那么直接从缓存中提取。②缓存失效：当缓存没有数据的时候，则从database里面读取源数据，再加入到cache里面去。③缓存更新：当有新的写操作去修改database里面的数据时，需要在写操作完成之后，让cache里面对应的数据失效。Red

zzz1_1zzz·2020-07-29 03:46

大中型网站技术实践系列

从上百幅架构图中学得半点大型网站建设经验（上）从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）从几幅架构图中偷得半点海量数据处理经验搜索引擎技术之概要预览面向全栈的技术管理（

weixin_34368949·2020-07-28 19:43

2pc和3pc的详解与对比

随着大型网站的各种高并发访问、海量数据处理等场景越来越多，如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题，大型网站的架构也在不断发展。

PENG先森_晓宇·2020-07-28 19:53

NoSQL数据库学习笔记之 Why NoSQL

总体而言，支持海量数据处理的系统应具有如下特性：高可扩展性(满足数据量增长的需要)；高性能(满足数据读写的实时性和查询处理的高性能)；容错性(保证分布系统的可用

wang28103·2020-07-28 15:43

使用11g dbms_parallel_execute执行并行更新

执行并行更新转自http://blog.itpub.net/17203031/viewspace-1079573/http://blog.itpub.net/17203031/viewspace-1080376/海量数据处理

回到未来望过去·2020-07-28 15:23

机器学习公开数据集

相应之下，目前对于海量数据处理人才的需求也在不断增多，此类人才可谓炙手可热！越来越多的

山歌嘎子·2020-07-28 13:43

分布式数据库

它以海量数据处理引擎和实时数据处理引擎为核心，并针对金融、运营商等

tiantian1980·2020-07-28 12:09

高并发与大数据解决方案概述

下面将提供一些针对并发问题和海量数据处理的解决方案。海量数

西召·2020-07-28 11:34

ODPS技术架构及应用实践

摘要：ODPS是分布式的海量数据处理平台，提供了丰富的数据处理功能和灵活的编程框架。

miller_lover·2020-07-28 03:09

海量数据处理技巧-转载

[-]教你如何迅速秒杀掉99的海量数据处理面试题前言何谓海量数据处理第一部分从setmap谈到hashtablehash_maphash_set第二部分处理海量数据问题之六把密匙密匙一分而治之Hash映射

Running07·2020-07-27 23:38

大数据挑战与NoSQL数据库技术（阅读笔记）

大数据挑战与NoSQL数据库技术目录1概论2数据一致性理论3存储模型4分区与放置策略5海量数据处理6复制与容错7数据压缩8缓存9key-value10列向11文档12图13基于Hadoop14NewSQL15

志_祥·2020-07-27 20:33

谈谈mongodb,mysql的区别和具体应用场景

缺点就是在海量数据处理的时候效率会显著变慢。Mongodb非关系型数据库(nosql),属于文档型数据库。先解释一下文档的数据库，即可以存放xml、json、b

baizong2726·2020-07-27 19:07

hadoop2以及各组件学习

starRunner·2020-07-27 19:10

python人工智能包inspyred使用心得-生物启发算法概述

目前，生物启发算法已经发展为人工智能领域的重要方向，在解决海量数据处理等问题上，具有高效、稳定等优势。不同学者根据不同生物的生存过程，抽象出各类仿生方法。

baidu_19528659·2020-07-27 19:37

谈谈Hadoop MapReduce和Spark MR实现

MapReduce是一种分布式海量数据处理的编程模型，用于大规模数据集的并行运算。有以下几个特点：分而治之，并行处理。

upupfeng·2020-07-27 17:00

统信UOS与神通数据库完成互认证助力用户海量数据处理

统信服务器操作系统V20与神通数据库管理系统V7.0完成产品兼容性测试。此次适配基于鲲鹏、飞腾、龙芯、海光、兆芯等CPU平台，能够满足用户更多样化的应用需求，实现更稳健的数字化转型。统信服务器操作系统V20是统信软件为满足企业应用及党政军关键业务设计开发的通用操作系统软件，全面支持龙芯、飞腾、申威、兆芯、鲲鹏、海光，以及通用X86平台，能够满足企业级用户对服务器高性能、高稳定性的要求，适用于电信、

统信软件技术有限公司·2020-07-27 14:41

Hive之HQL数据操作（导入导出）

------------本文笔记整理自《Hadoop海量数据处理：技术详解与项目实战》范东来一、数据导入1.1.装载数据--将HDFS文件中数据追加导入Hive表>usetest;--切换为test数据库

碣石观海·2020-07-27 13:48

海量数据处理

1.倒排索引每一项包括一个属性值和具有该属性值得记录地址不是由记录来确定属性值，而是由属性值确定记录。某个单词出现的文档编号，列表，也可以存文档编号的差值2.simHash算法比较两篇文章相似度的算法分词，hash，加权，合并，降维每个特征向量（分词）赋值权值，重要程度Hash(博客)=101011哈希值为二进制数组成的n位签名加权：W=Hash*weight1为+10为-1合并降维出现越少的词，

diaoxia2952·2020-07-15 22:13

【最佳实践】SequoiaDB+SparkSQL在数据统计场景的应用

所以在海量数据处理场景上，人们意识到单机计算能力再强也无法满足日益增长的数据处理需求，分布式才是解决该类问题的根本解决方案。

SequoiaDB_Official·2020-07-15 18:56

位图&布隆过滤器&海量数据处理

位图&布隆过滤器&海量数据处理文章目录位图&布隆过滤器&海量数据处理一、位图二、布隆过滤器三、海量数据处理一、位图1.位图概念:所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。

wolf鬼刀·2020-07-15 09:54

分治算法在海量数据处理中的应用

分治算法核心思想就是分而治之，将原问题划分成n个规模较小，并且结构与原问题相似的子问题，递归地解决这些子问题，然后再合并结果，就得到原问题的解。这个定义看起来有点类似递归。关于递归和分治的区别：分治算法是一种处理问题的思想，递归是一种编程技巧。实际上，分治算法一般都比较适合用递归来实现，分治算法的递归实现中，每一层递归都会涉及这样三个操作：分解：将原问题分解成一系列子问题解决：递归地求解各个子问题

笙南·2020-07-15 06:23

海量数据处理之BitMap

有这样一种场景:一台普通PC，2G内存，要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数，给出一个整数，问如果快速地判断这个整数是否在文件40亿个数据当中？问题思考：40亿个int占（40亿*4）/1024/1024/1024大概为14.9G左右，很明显内存只有2G，放不下，因此不可能将这40亿数据放到内存中计算。要快速的解决这个问题最好的方案就是将数据搁内存了，所以现在的问题就在

weixin_34297704·2020-07-15 05:34

海量数据解决思路之Hash算法

另外，探讨一下Hash算法在海量数据处理方案中的通用性。最后，从源代码出发，具体分析一下Hash算法在MapReduce框架的中的应用。

weixin_34190136·2020-07-15 05:35

海量数据处理常用思想及重要数据结构

1、大顶堆、小顶堆特别适合topN问题，如求海量日志中最大的100个数。既然是海量数据，那么内存中一下子无法加载所有的数据集，此时可以先读取海量数据中的100个数，建立数据集为100的小顶堆(小顶堆的对顶比所有元素都小)，然后依次往堆结构中读取数字，调整堆，使其保持小顶堆，最后得到top100的最大数。2、hash映射进行分治，然后归并hash映射按照数据特征把海量数据变的不海量，然后分别处理各段

宵蓝·2020-07-15 02:02

海量数据处理，转自android小猪

转自android小猪问题:假设一个文件中有9亿条不重复的9位整数，现在要求对这个文件进行排序。一般解题思路:1、将数据导入到内存中2、将数据进行排序（比如插入排序、快速排序）3、将排序好的数据存入文件难题:一个整数为4个字节即使使用数组也需要900,000,000*4byte=3.6G内存（详细过程如下：1G=1024M=2^10=10^31M=1024K=2^10=10^31K=1024Byt

猫猫sleep·2020-07-15 02:10

海量数据处理 bitmap算法实现32位压缩排序（位图排序）

#includeusingnamespacestd;//unsignedchar*bitmap=NULL;//按8位存unsignedint*bitmap=NULL;//按32位存intg_size=0;intBitmap_Init(intmax){intmaxindex=max/32+1;bitmap=(unsignedint*)malloc(maxindex*sizeof(int));if(b

执著的追求·2020-07-14 23:27

海量数据处理常用算法、数据结构总结

1.BloomFilter【BloomFilter】BloomFilter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断，但不会漏掉判断。BloomFilter判断元素不在集合，那肯定不在；如果判断元素存在集合中，有一定的概率判断错误。因此，Blo

剑儒·2020-07-14 23:00

『数据结构』海量数据处理

本篇博客我们通过几个经典的问题来看一下计算机中处理海量数据的常用方法。哈希切分问题：给定一个超过100G大小的日志文件，文件中保存着IP地址，设计算法找出出现次数最多的IP地址？如何找到出现次数topK的IP？如何直接用Linux命令实现？找到出现次数最多或者前K多的IP地址并不困难，直接使用优先级队列就可以解决该问题。这道题真正困难的是100G大小的日志文件，因为我们常用的计算机并没有这么大的内

叄拾叄画生·2020-07-14 23:50

揭秘大数据时代秒级查询响应引擎的架构设计

近年来，大数据技术发展迅速，从过去的Hive、Spark，到现在的Flink、ClickHouse、Iceberg等，各种大数据技术推陈出新，不断演进大数据存储和引擎系统的架构，来适应大数据时代的海量数据处理需求

run_bigdata·2020-07-14 21:34

海量数据处理1

数据量太大，导致要么是无法在较短时间内迅速解决，要么由于数据量太大，无法一次性装入内存而导致传统方法无法解决Whatis海量数据处理？

執著我們的執著·2020-07-14 18:28

数据结构之哈希变形——位图

背景：海量数据处理笔试题：给四十亿不重复的无符号，整形，没排过序。给一个无符号整数，如何快速判断一个数是否在这四十亿个数中在这里我们就可以用到我们的哈希思想。

mignatian·2020-07-14 15:06

大数据量，海量数据处理方法总结

大数据量，海量数据处理方法总结（转）大数据量的问题是很多面试笔试中经常出现的问题，比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。

luckyone999·2020-07-14 14:03

海量数据处理(位图和布隆过滤器)

哈希切割给一个超过100G大小的logfile,log中存着IP地址,设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到topK的IP？如何直接用Linux系统命令实现解决思路找到出现次数最多的IP地址要找到前TopK的IP地址，就是要统计每个IP地址出现多少次分割大文件:如果能将相同IP地址放到同一个文件中哈希分割:从源文件中获取一个IP地址---->IP%文件份数每拿到一个IP地址后

阳光丿洒脱·2020-07-14 14:48

JAVA海量数据处理之 BitMap

路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘JAVA基础的数据结构，从来分析出所编写的JAVA代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了BitMap思想。首先来看一个实验：指定VM参数大小：-Xms256m-Xmx512mimportjava.util.TreeSet;publicclassTest{publicstaticvoidmain(String[

lilongfei123321·2020-07-14 13:10

海量数据处理系列——C语言下实现bitmap算法

bitmap是一个十分有用的结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的

lile269·2020-07-14 13:37

海量数据处理之bitmap实现

bitMap位图经常用来处理海量数据的问题，如3亿微信号和7亿QQ查重问题，电话号码去重问题，都可以用位图法来处理。位图法思想较简单，即申请一个由比特构成的table,可在相应的位置置0或1.从而快速达到快速查找，同时又不会特别浪费空间。网上关于位图法的详细解释比较多。本文主要给出一个位图法简单的实现。typedefcharbyte8;typedefbyte8*bitMap;intinitBitM

li4951·2020-07-14 13:15

推荐频道

海量数据处理

活动实录丨SRE在传统企业中的落地实践

算法10—海量数据处理之top k算法

海量数据处理问题（Top k问题）的实现

海量数据处理之双层桶划分

一个简明的Mapreduce 原理分析

海量数据处理——从Top K引发的思考

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一1.1 Hadoop和云计算

大数据与Hadoop系列之序列化（一）

[Hadoop]序列化机制

10021---分布式系统互斥性与幂等性问题的分析与解决

Hive之HQL数据定义

大型网站技术架构—架构要素和高性能架构

海量数据处理：1G大小的一个文件中找出出现频率最高的100个数

流行的开源爬虫库及软件选择

布隆过滤器（Bloom Filter）- 避免缓存穿透和海量数据处理之利器

大中型网站技术实践系列

2pc和3pc的详解与对比

NoSQL数据库学习笔记之 Why NoSQL

使用11g dbms_parallel_execute执行并行更新

机器学习公开数据集

分布式数据库

高并发与大数据解决方案概述

ODPS技术架构及应用实践

海量数据处理技巧-转载

大数据挑战与NoSQL数据库技术（阅读笔记）

谈谈mongodb,mysql的区别和具体应用场景

hadoop2以及各组件学习

python人工智能包inspyred使用心得-生物启发算法概述

谈谈Hadoop MapReduce和Spark MR实现

统信UOS与神通数据库完成互认证 助力用户海量数据处理

Hive之HQL数据操作（导入导出）

海量数据处理

【最佳实践】SequoiaDB+SparkSQL在数据统计场景的应用

位图&布隆过滤器&海量数据处理

分治算法在海量数据处理中的应用

海量数据处理之BitMap

海量数据解决思路之Hash算法

海量数据处理常用思想及重要数据结构

海量数据处理，转自android小猪

海量数据处理 bitmap算法实现32位压缩排序（位图排序）

海量数据处理常用算法、数据结构总结

『数据结构』海量数据处理

揭秘大数据时代秒级查询响应引擎的架构设计

海量数据处理1

数据结构之哈希变形——位图

大数据量，海量数据 处理方法总结

海量数据处理(位图和布隆过滤器)

JAVA海量数据处理之 BitMap

海量数据处理系列——C语言下实现bitmap算法

海量数据处理之bitmap实现

《Hadoop海量数据处理：技术详解与项目实战（第2版）》一1.1　Hadoop和云计算

统信UOS与神通数据库完成互认证助力用户海量数据处理

大数据量，海量数据处理方法总结