海量数据处理第6页

redis实现轮询算法_白话分布式系统中的一致性哈希算法

分布式系统的概念和作用分布式系统常用负责均衡策略普通哈希取模策略优缺点一致性哈希算法的定义和思想一致性哈希的基本过程Redis集群中一致性哈希的实现1.分布式系统的基本概念分布式系统与高并发高可用当今高并发和海量数据处理等场景越来越多

weixin_39530437·2022-02-21 07:02

MapReduce的工作原理

我们知道MapReduce诞生与搜索邻域，主要解决的是海量数据处理扩展性差的问题。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

张晓天a·2022-02-13 19:06

Python海量数据处理之_Hadoop（二）概念和原理

1.说明 Hadoop是个分布式的架构，它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了Hadoop的安装，在安装过程中会产生一些疑问，比如NameNode是什么东西？

xieyan0811·2022-02-12 20:09

Hive架构原理

Hive架构原理Hive是一个基于MapReduce的海量数据处理、分析工具，为我们利用Hadoop平台处理数据提供了一个简易途径我们利用MapReduce对数据所做的事大部分与关系型数据库中的SQL语句所做的相同

EuropeanSheik·2022-02-07 13:56

大数据学习-hadoop

面对数据爆炸性增长，传统的技术架构越来越不适应当前海量数据的处理要求，Hadoop就是为应对这方面问题而产生的适合大数据的分布式存储和计算平台，并已经成为海量数据处理的事实标准。

笑谈1995·2022-02-05 22:49

mongo和mysql区别

查询语句传统sql语句架构特点可以通过副本集，分片实现高可用，集群架构拥有十分高的扩展性常见有单点、集群多种架构方式数据处理方式基于内存，将热数据存在物理内存中，从而达到高速读写不同引擎拥有自己特点，海量数据处理效率显著变慢事务性本身没有事务机制

jinjin1009·2021-11-22 16:01

分布式的基石--一致性和共识(一)

为什么要分布式分布式是为了解决传统单点系统性能低、可用性低、扩展性低的问题基于分布式的目标，可以把分布式系统进行分类：为了提高性能，应对高并发，海量数据处理，此类系统代表：无状态的微服务、分布式数据等为了提高可用性

·2021-11-05 13:45

海量数据处理方法总结

MapReduceMapReduce的原理及执行过程-ahu-lichang-博客园深入理解MapReduce原理-简书浅析MapReduce原理及其执行过程-知乎BitMapBitmap简介-废物大师兄-博客园c++实现：海量数据处理算法

Thomas_Lbw·2021-10-22 11:44

来 OpenInfra Days China 2021 论道算网融合新趋势

进入5G时代以来，从海量数据处理到爆发式应用创新，智能计算被广泛应用于工业制造、零售医疗、电信服务等行业领域，带来了几何级数增长的算力需求。

·2021-10-05 17:47

运维面试题

缺点就是在海量数据处理的时候效率会显著变慢。非关系型数据库MongoDB优势：1、在适量级的内存的MongoDB的性能是非常迅速的，它将热数据存储在物理内存中，使得

givenchy_yzl·2021-07-26 09:28

Python海量数据处理之_Hadoop（一）集群搭建

上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。

xieyan0811·2021-06-26 22:10

大型网站系统架构分析

数据库海量数据处理：负载量不大的情况下select、delete和update是响应很迅速的，最多加几个索引就可以搞定，但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。

wokeman·2021-06-25 18:33

数据库知识

缺点：在海量数据处理的时候效率会显著变慢。Mongodb是非关系型数据库(nosql),属于文档型数据库。文档是mongoDB中数据的基本单元，类似关系数据库的

值得_e36c·2021-06-23 02:13

海量数据处理

1数值topK问题：给出n个数中最大的k个数1.1若能全部读入内存1，快速排序+二分。O(n)2，冒泡排序k次。O(kn)1.2不能全部读入内存，数据流维护大小为k的小根堆。O(nlogk)2频率topK问题：给一个文件，求文件中出现次数最多的k个单词。2.1不分块建立一个哈希表或者前缀树，遍历一遍文件，统计每个词出现的次数，转化为数值topk问题。2.2分块I将文件hash%m映射为m个小文件I

LxxxR·2021-06-15 14:51

Java中高级核心知识全面解析——数据结构(布隆过滤器【原理介绍、使用场景、如何实现】、Redis中的布隆过滤器)

前言海量数据处理以及缓存穿透这两个场景让我认识了布隆过滤器，我查阅了一些资料来了解它，但是很多现成资料并不满足我的需求，所以就决定自己总结一篇关于布隆过滤器的文章。

架构小菜·2021-06-09 18:35

“大鹏一日同风起”Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能提升？

文章目录前言一、开源大数据与鲲鹏多核结构渊源1.1、海量数据处理的难题1.2、大数据并行计算特点天然匹配鲲鹏多核架构二、开源大数据整体与组件介绍2.1、大数据组件：Hadoop-HDFS模块2.2、大数据组件

白鹿第一帅·2021-06-07 15:04

40天学透大厂敲门砖，分布式原理/缓存/事务/消息队列/分布式服务/分布式监控全都搞清楚了！

互联网发展到今天，用户数量越来越多，产生的数据规模也越来越大，应用系统必须支持高并发访问和海量数据处理的需求。掌握分布式技能的后端工程师越来越抢手，不止业务部门、中间件和基础架构等部门也在大规模抢人。

Java爬坑之路·2021-05-25 17:25

Python海量数据处理之_单机优化

1.说明数据处理时，可能会遇到数千万以及上亿条数据的情况。一次处理所有数据，会遇到内存不够，计算时间太长等问题。一般的解法是：先拆分，再处理，最后将处理的结果合并（当然数据少的时候不需要这么麻烦）。本文将介绍在单机上，只使用Python如何处理大量数据。2.实例本例是天池大数据竞赛中的“淘宝穿衣搭配”比赛，这是一个新人赛，只要注册参赛，即可下载数据。目标是根据商品信息，专家推荐，用户购物信息，

xieyan0811·2021-05-20 06:41

通宵都要看完这个Java关键技术点，附带学习经验

微服务架构①微服务概念：②SpringCloud微服务架构：海量数据处理①：经典的海量数据处理面试题高可用架构①基于Hystrix实现高可用：②限流：③熔断：高并发架构①消息

springboot面试题·2021-05-18 19:09

海量数据处理面试题——转载总结

转载于:公众号大数据梦想家https://www.jianshu.com/p/88c6ac4b38c8https://www.cnblogs.com/myseries/p/10880641.htmlhttps://zhuanlan.zhihu.com/p/40648295https://blog.csdn.net/jiyang_1/article/details/49995829海量日志数据，提取

Zeroowt·2021-05-16 14:11

大数据｜Hadoop简介及两大功能三大核心组件（二）

所以，在海量数据处理的需求下，一个通用的分布式数据处理技术框架能大大降低应用开发难点和减少工作量。

小怪聊职场·2021-05-03 19:01

教你如何迅速秒杀掉：99%的海量数据处理面试题

海量数据处理，就是在海量数据上的存储、处理、操作。海量的意思就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

seriously_1·2021-04-23 21:26

海量数据处理问题知识点复习手册

前言本文快速回顾了常考的知识点，用作面试复习，事半功倍。-----正文开始-----预备知识点Bitmap和布隆过滤器(BloomFilter)https://blog.csdn.net/zdxiq000/article/details/57626464Bitmap我们只想知道某个元素出现过没有。如果为每个所有可能的值分配1个bit，32bit的int所有可能取值需要内存空间为：232bit=22

蛮三刀把刀·2021-04-15 08:34

海量数据处理的方法总结

基础知识：bit：位byte：字节1byte=8bitint类型为4byte，共32位bit，unsignedint也是2^32byte=4G1G=2^30=10.7亿海量数据处理概述：所谓海量数据处理

张维鹏·2021-04-14 00:01

第四阶段面试题

1.电商行业特点1.1分布式垂直拆分：按功能模块进行拆分水平拆分：按业务层级进行拆分1.2高并发：用户1.3集群1.4海量数据处理

·2021-03-13 10:57

第四阶段面试题

1.电商行业特点1.1分布式垂直拆分：按功能模块进行拆分水平拆分：按业务层级进行拆分1.2高并发：用户1.3集群1.4海量数据处理

·2021-03-13 09:07

Python海量数据处理之_Hadoop&Spark

1.说明前篇介绍了安装和使用Hadoop，本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。当数据以TB,PB计量时，用单机处理数据变得非常困难，于是使用Hadoop建立计算集群处理海量数据，Hadoop分为两部分，一部分是数据存储HDFS，另一部分是数据计算MapReduce。MapReduce框架将数据处理分成map,reduce两段，使用起来比较麻烦，并且有

xieyan0811·2021-03-11 06:11

冰河开始对Dubbo下手了！

部分核心知识已总结到我出版的两本书籍——《海量数据处理与大数据技术实战》和《MySQL技术大全：开发、优化与运维实战》中。

冰河·2021-01-06 01:27

总结2020：5个月出版两本书，日更公众号是一种怎样的体验？

一本是《海量数据处理与大数据技术实战》，一本是《MySQL技术大全：开发、优化和运维实战》。并且在这一年，我几乎保持着日更公众号的频率，并总结整理出8本超硬核的PDF电子书。这一年，我开源了几

冰河·2020-12-31 02:19

总结2020：5个月出版两本书，日更公众号是一种怎样的体验？

一本是《海量数据处理与大数据技术实战》，一本是《MySQL技术大全：开发、优化和运维实战》。并且在这一年，我几乎保持着日更公众号的频率，并总结整理出8本超硬核的PDF电子书。这一年，我开源了几

冰河·2020-12-31 00:39

冰河又一MySQL力作出版（文末送书）！！

写在前面继《海量数据处理与大数据技术实战》之后，冰河的又一力作《MySQL技术大全：开发、优化与运维实战》出版，相信这本书对任何想系统学习MySQL的小伙伴来说，都会带来实质性的帮助。

冰河·2020-12-29 22:09

Java中高级核心知识全面解析——数据结构(布隆过滤器【原理介绍、使用场景、如何实现】、Redis中的布隆过滤器)

布隆过滤器使用场景四、通过Java编程手动实现布隆过滤器五、利用Google开源的Guava中自带的布隆过滤器六、Redis中的布隆过滤器1.介绍2.使用Docker安装3.常用命令一览4.实际使用前言海量数据处理以及缓存穿透这两个场景让我认识了布隆过滤器

Java_Caiyo·2020-12-21 14:59

性能高1倍，价格低3/4！数据库实时同步新选择！

2020年双11，云原生实时数仓首次在阿里巴巴双11核心数据场景落地，实现商业全链路实时化，毫秒级海量数据处理能力。

阿里云云栖号·2020-12-17 12:26

pb 窗口数据修改sql_大数据hadoop，数据中台选型你应该看到这些分布式数据库

尽管hadoop在高并发、海量数据处理等方面有着无可比拟的优势，但是在OLAP场景下的数据分析方面始终不如人意。在hadoop生态体系中，可以用作OLAP分析的引擎主要

weixin_39748858·2020-11-28 20:03

京淘项目

架构设计互联网行业特定1.高并发2.分布式服务器数量分配均衡3.海量数据处理采用更加高效的方式进行数据处理大数据方向java开发岗位要求大数据相关技术.4.安全性问题:网贷(11%)交易的安全性(区块链

你.LjWyH·2020-11-21 15:42

京淘项目

架构设计互联网行业特定1.高并发2.分布式服务器数量分配均衡3.海量数据处理采用更加高效的方式进行数据处理大数据方向java开发岗位要求大数据相关技术.4.安全性问题:网贷(11%)交易的安全性(区块链

你.LjWyH·2020-11-21 15:45

不了解布隆过滤器？一文给你整的明明白白！

海量数据处理以及缓存穿透这两个场景让我认识了布隆过滤器，我查阅了一些资料来了解它，但是很多现成资料并不满足我的需求，所以就决定自己总结一篇关于布隆过滤器的文章。

JAVA_朴先生·2020-11-21 09:26

一张图看懂对象存储COS数据处理能力升级

对象存储COS全新升级云端数据处理服务，支持海量数据处理，使用方式快捷灵活，涵盖在线教育、电商网站等场景，充分挖掘数据价值。通过一张图来了解一下吧：

云存储小天使·2020-11-20 22:03

分布式课程大纲

京淘项目1.1互联网电商特点1.高并发2.分布式3.海量数据处理采用更加高效的方式进行数据处理大数据方向4.安全性问题：网贷交易的安全性（区块链）-->阿里风控系统：1.手机号是否变更2.交易的密码是否变更

jack·2020-11-18 23:39

不了解布隆过滤器？一文给你整的明明白白！

海量数据处理以及缓存穿透这两个场景让我认识了布隆过滤器，我查阅了一些资料来了解它，但是很多现成资料并不满足我的需求，所以就决定自己总结一篇关于布隆过滤器的文章。

JAVA_朴先生·2020-11-17 12:01

不了解布隆过滤器？一文给你整的明明白白！

海量数据处理以及缓存穿透这两个场景让我认识了布隆过滤器，我查阅了一些资料来了解它，但是很多现成资料并不满足我的需求，所以就决定自己总结一篇关于布隆过滤器的文章。

前端三少爷·2020-11-17 09:18

DPDK 分析，原理以及学习路线

在这些针对海量数据处理或海量用户的服务场景，高性能编程显得尤为重要。

Linux服务器开发·2020-11-16 18:12

「冰河技术」部分精华文章分类汇总，P8架构师都在看的技术文章！！

我出版的图书我的《海量数据处理与大数据技术实战》出版啦！我

冰河·2020-11-15 21:26

海量数据处理大量数据中找出最大的前10个数（Top K 问题）

在工作中我们常遇到此类问题，从一个大量甚至海量的数据中取出前几个大的数。必须在海量的文章中取出点击量最大的10篇文章。此类问题其实就是TopK问题。给定一个数据（数据量海量N），想找到前K个最大的或最小的元素。eg：有10亿个Long型整数，存储在文件中，如果找出其中最大的10个？最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快

大树·2020-11-15 20:14

海量数据处理问题之MapReduce

什么是MapReduce?MapReduce是Google提出的一个的软件架构，用于大规模数据集的并行运算。MapReduce的思想很简单，就是通过Map步骤使用多台机器并行将所有数据整理为的二元组，然后在Reduce之前，系统会按照key的不同，将不同的key分给不同的机器进行处理，比如可以简单的根据hash(key)%机器数的方式进行数据分配(这个过程叫做shuffle)。接下来，每台机器拿到

薛定谔哥哥·2020-11-15 20:33

海量数据处理大量数据中找出最大的前10个数（Top K 问题）

在工作中我们常遇到此类问题，从一个大量甚至海量的数据中取出前几个大的数。必须在海量的文章中取出点击量最大的10篇文章。此类问题其实就是TopK问题。给定一个数据（数据量海量N），想找到前K个最大的或最小的元素。eg：有10亿个Long型整数，存储在文件中，如果找出其中最大的10个？最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快

大树·2020-11-15 19:43

JT-day01

1.京淘项目架构设计1.1互联网行业特点高并发分布式服务器数量分配均衡海量数据处理采用更加高效的方式进行数据处理大数据方向java开发岗位要求大数据相关技术.安全性问题:网贷(11%)交易的安全性(区块链

LLL333·2020-11-14 11:16

jt-京淘项目

1.京淘项目架构设计1.1互联网行业特点高并发分布式服务器数量分配均衡海量数据处理（大数据方向）安全性问题:网贷(11%)交易的安全性(区块链)1.2京淘项目架构设计2.准备工作2.1软件：（IDEA、

早起的鸟儿·2020-11-13 23:53

京淘项目day01

1京淘项目架构设计1.1互联网电商的特点1.高并发2.分布式服务器数量分配均衡3.海量数据处理采用更加高效的方式进行数据处理大数据方向java开发岗位要求大数据相关技术.4.安全性问题网贷(11%)交易的安全性

wusheng·2020-11-13 23:33

阿里云用到的DPDK(分析原理)以及学习路线

在这些针对海量数据处理或海量用户的服务场景，高性能编程显得尤为重要。

深度Linux·2020-11-13 11:13

推荐频道

海量数据处理

redis实现轮询算法_白话分布式系统中的一致性哈希算法

MapReduce的工作原理

Python海量数据处理之_Hadoop（二）概念和原理

Hive架构原理

大数据学习-hadoop

mongo和mysql区别

分布式的基石--一致性和共识(一)

海量数据处理方法总结

来 OpenInfra Days China 2021 论道算网融合新趋势

运维面试题

Python海量数据处理之_Hadoop（一）集群搭建

大型网站系统架构分析

数据库知识

海量数据处理

Java中高级核心知识全面解析——数据结构(布隆过滤器【原理介绍、使用场景、如何实现】、Redis中的布隆过滤器)

“大鹏一日同风起”Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能提升？

40天学透大厂敲门砖，分布式原理/缓存/事务/消息队列/分布式服务/分布式监控全都搞清楚了！

Python海量数据处理之_单机优化

通宵都要看完这个Java关键技术点，附带学习经验

海量数据处理面试题——转载总结

大数据｜Hadoop简介及两大功能三大核心组件（二）

教你如何迅速秒杀掉：99%的海量数据处理面试题

海量数据处理问题知识点复习手册

海量数据处理的方法总结

第四阶段面试题

第四阶段面试题

Python海量数据处理之_Hadoop&Spark

冰河开始对Dubbo下手了！

总结2020：5个月出版两本书，日更公众号是一种怎样的体验？

总结2020：5个月出版两本书，日更公众号是一种怎样的体验？

冰河又一MySQL力作出版（文末送书）！！

Java中高级核心知识全面解析——数据结构(布隆过滤器【原理介绍、使用场景、如何实现】、Redis中的布隆过滤器)

性能高1倍，价格低3/4！数据库实时同步新选择！

pb 窗口数据修改sql_大数据hadoop，数据中台选型你应该看到这些分布式数据库

京淘项目

京淘项目

不了解布隆过滤器？一文给你整的明明白白！

一张图看懂对象存储COS数据处理能力升级

分布式 课程大纲

不了解布隆过滤器？一文给你整的明明白白！

不了解布隆过滤器？一文给你整的明明白白！

DPDK 分析，原理以及学习路线

「冰河技术」部分精华文章分类汇总，P8架构师都在看的技术文章！！

海量数据处理 大量数据中找出最大的前10个数 （Top K 问题）

海量数据处理问题之MapReduce

海量数据处理 大量数据中找出最大的前10个数 （Top K 问题）

JT-day01

jt-京淘项目

京淘项目day01

阿里云用到的DPDK(分析原理)以及学习路线

分布式课程大纲

海量数据处理大量数据中找出最大的前10个数（Top K 问题）

海量数据处理大量数据中找出最大的前10个数（Top K 问题）