E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
海量数据处理
物联网工程设计与实施知识点
3)技术人员应掌握信息系统开发的主流技术,具有基于无线通信、Web服务、
海量数据处理
、信息发布与信息搜索等要素进行综合开发的经验
New soul~
·
2020-07-10 11:21
PostgreSQL 11 preview - 通用场景性能 增强 汇总
GeneralPerformanceAddJust-In-Time(JIT)compilationofsomepartsofqueryplanstoimproveexecutionspeed(AndresFreund)提高OLAP性能(
海量数据处理
weixin_34061042
·
2020-07-10 08:16
简单了解分布式系统
随着大型网站的各种高并发访问、
海量数据处理
等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题,大型网站的架构也在不断发展。
weixin_30384217
·
2020-07-10 06:53
架构之路:大规模数据处理系统的最新技术与实践
传统关系数据库(RDBMS)发展至今,面对
海量数据处理
的AP场景时,显得捉襟见肘。由此又诞生了以Hadoop/Spark等为首的分布式数据存储或计算引擎,NoSQL的概念也被提出。
GitChat的博客
·
2020-07-10 05:20
海量数据处理
思路方法
/***@authorwangdaopo*@
[email protected]
*/
海量数据处理
思路方法+-如果超过内存空间限制采取分N文件而治之Hash(query)%N,将query相同范围映射放在同个文件
王道泼
·
2020-07-10 01:45
算法
面试
海量数据处理
题总结
参考:https://blog.csdn.net/v_july_v/article/details/6279498/目录topk问题1、海量日志数据,提取出某日访问百度次数最多的那个IP。2.统计最热门的10个查询串3.有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。4.有10个文件,每个文件1G,每个文件的每一行存放的都是用户的
seeInfinite
·
2020-07-10 00:39
LeetCode刷题记录
海量数据处理
算法总结【超详解】
1.BloomFilter【BloomFilter】BloomFilter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断,但不会漏掉判断。也就是BloomFilter判断元素不再集合,那肯定不在。如果判断元素存在集合中,有一定的概率判断错误。因此,
大师兄你家猴跑啦
·
2020-07-09 18:33
海量数据处理
https://blog.csdn.net/v_july_v/article/details/7382693目录何谓
海量数据处理
?
SimonxxSun
·
2020-07-09 12:01
面试
数据处理
时间序列数据库概览
时序大数据解决方案通过使用特殊的存储方式,使得时序大数据可以高效存储和快速处理海量时序大数据,是解决
海量数据处理
的一项重要技术。
weixin_33845881
·
2020-07-09 09:17
海量数据处理
问题
标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道
海量数据处理
面试题与十个方法大总结的一般抽象性总结
liche717
·
2020-07-09 09:48
数据分析基础知识
分布式系统的特点以及设计理念
正是这些分布式系统,使得Google可以处理高并发请求响应以及
海量数据处理
等。Apache旗下的Hadoop、Spark、Me
fhthkm
·
2020-07-09 06:21
java学习
Hadoop 实现多个数据表的join操作
况且在
海量数据处理
中,这是一个非常普遍常见的需求。因此写下来和大家分享一下。如果哪为仁兄看后有更好的办法,咱们也可以切磋一下。欢迎拍砖,哈哈。
weixin_33739541
·
2020-07-08 15:00
经典算法题:大数据处理常见算法题
第一部分、十道
海量数据处理
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
苍痕
·
2020-07-08 12:57
经典算法题
前缀树和后缀树
之前在此文,
海量数据处理
面试题集锦与Bit-map详解中给出的参考答案:用Trie树统计每个词出现的次数,时间复杂度是O(n*le)(le
lmjy
·
2020-07-08 11:30
C/C++
数据结构
大宝大话大数据(二)——大数据的学习路径和方法
当时上刘军老师《
海量数据处理
》这门课的时候,老师很好,很认真讲了Hadoop的
北邮郭大宝
·
2020-07-08 08:10
大宝大话大数据
大数据
海量数据处理
方式问题
1、现在有1亿个随机数,有重复的,随机数的范围在1到1亿之间,将1到1亿之间没有在随机数中的数求出来。/***用位图进行存储,产生随机数存入bitSet中相应的位置,并置1。*如果bitSet中相应位置为1则此数出现过,如果为0则未出现过。**/publicstaticvoidmain(String[]args){BitSetbitSet=newBitSet();Randomrandom=newR
IT刘华强
·
2020-07-07 11:00
Java
从Hadoop框架与MapReduce模式中谈
海量数据处理
从hadoop框架与MapReduce模式中谈
海量数据处理
前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣
dinongxu8804
·
2020-07-07 07:58
【GeekBand】C++面向对象高级编程-第十三周笔记
海量数据处理
【转】在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:一、数据量过大,数据中什么情况都可能存在。
茶色少年
·
2020-07-06 23:05
spark性能优化 -- > spark工作原理
无论你是从事算法工程师,还是数据分析又或是其他与数据相关工作,利用spark进行
海量数据处理
和建模都是非常重要和必须掌握的一门技术,我感觉编写spark代码是比较
村头陶员外
·
2020-07-06 23:56
spark性能优化
一文详解分布式系统的特点以及设计理念
正是这些分布式系统,使得Google可以处理高并发请求响应以及
海量数据处理
Java_supermanNO1
·
2020-07-06 22:17
程序人生
Java
分布式
大型网站技术架构(2):架构要素和高性能架构【转】
上一篇我们把整个架构演变过程大致说了一下,这次我们来说说从哪方面进行考虑设计为了使网站的能够应对高并发访问,
海量数据处理
,高可靠运行等一系列问题,我们可以选择横向或纵向两个方向来入手基本思路首先可以对整个架构进行分层
weixin_30699955
·
2020-07-06 19:14
黑猴子的家:HDFS写数据之网络拓扑
在
海量数据处理
中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。节点距离:两个节点到达最近的共同祖先的距离总和。
黑猴子的家
·
2020-07-06 04:01
hadoop大数据典型应用,基于Hadoop技术的大数据应用解决方案
近年来,Hadoop技术,大数据研发产品在国内迅猛发展,其在不断的发展中解决了传统数据库无法胜任
海量数据处理
的问题,以及结构化和非结构化数据统一起来进行数据分析、建模和挖掘得到了更高效的处理方案。
weixin_34212762
·
2020-07-06 00:49
DockOne微信分享( 九十一):打造百亿级数据处理量的弹性调度容器平台
主要内容包括四个方面:
海量数据处理
的业务场景
海量数据处理
平台的挑战自研容器调度框架介绍
海量数据处理
平台实践一、数据处理业务场景首先介绍一下七牛数据处理业务的背景
weixin_33775572
·
2020-07-05 23:14
探索Greenplum的实践,了解新一代大数据处理利器
随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决,Greenplum也成为新一代
海量数据处理
典型代表。
weixin_33691700
·
2020-07-05 22:02
海量数据处理
利器之Hash——在线邮件地址过滤
标题用了了海量数据(Massivedatasets)而不用大数据(Bigdata)。感觉大数据还是略微有点虚,来点实际的。一、需求现在我们需要设计一个在线过滤垃圾邮件地址的方案,我们的数据库里面已经有10亿个合法的邮件地址(称为合法地址集S),当有新的邮件发过来时,要检查这个邮件地址是不是在我们的数据库里面,如果在,我们接收邮件,如果不在,我们就把它当做垃圾邮件过滤掉。二、直觉想到的方法一拿到这个
weixin_30800807
·
2020-07-05 22:31
PHP的高并发和大数据处理
二、日常
海量数据处理
我用文件缓存,文件缓存分两种,第一种是最常见的生成html静太文件,除非数据有变动不然是不会查询数据库,其次.html文件更容易被搜索引擎收录,生成静太缓存也是有讲究的,最好是把生成的文件分布一下
weixin_30773135
·
2020-07-05 21:37
数据量越发庞大怎么办?新一代数据处理利器Greenplum来助攻
随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决,Greenplum也成为新一代
海量数据处理
典型代表。本文结合个推数据研发工程师李树桓在大数据领域的实践,对处理庞大的
weixin_30252709
·
2020-07-05 20:29
十个
海量数据处理
总结
一、Bloomfilter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是cou
回忆美好
·
2020-07-05 18:16
大数据
分布式两阶段提交和三阶段提交
随着大型网站的各种高并发访问、
海量数据处理
等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题,大型网站的架构也在不断发展。
追着蜗牛打
·
2020-07-05 15:33
Java
Storm:最火的流式处理框架
Hadoop的高吞吐,
海量数据处理
的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。
独孤芯览
·
2020-07-05 15:20
storm
不了解布隆过滤器?一文给你整的明明白白!
海量数据处理
以及缓存穿透这两个场景让我认识了布隆过滤器,我查阅了一些资料来了解它,但是很多现成资料并不满足我的需求,所以就决定自己总结一篇关于布隆过滤器的文章。
qq_599571116
·
2020-07-05 09:00
#
redis面试典型问题
七牛
海量数据处理
平台自研容器调度框架实践
今晚分享的是七牛云基于容器技术的
海量数据处理
平台实践。
qq_26923057
·
2020-07-05 03:08
Docker
海量数据处理
有20亿个数,给定内存大小为1G,求中位数首先求中位数,其实就是求topK,比如此题就是求top20G/2(1亿个int占用512M内存,10亿个字节占1G内存,要记住)。如果内存能存下这么多数,直接用一个大小为20G/2的堆就可以。另外求topK时,有个窍门:求最大topK,先建一个最小堆,然后所有大于根节点的值,替换根节点并调平衡;求最小topK,先建一个最大堆,然后将比根节点小的值插入堆。此
littleflypig
·
2020-07-04 22:09
数据结构
国外、国内Hadoop的应用现状
、国内Hadoop的应用现状2015-04-23大数据摘要:Hadoop是一个开源的高效云计算基础架构平台,其不仅仅在云计算领域用途广泛,还可以支撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在
海量数据处理
小麦苗
·
2020-07-04 21:08
在100G文件中找出出现次数最多的100个IP
昨天面阿里最后栽在一道很常见的
海量数据处理
上了,也怪之前没专门花时间准备这个问题。今天参考了July的博客,又反思了下自己面试时错误的思路,重新整理为下面的解答过程。
不舍驽马
·
2020-07-04 16:44
数据结构与算法
hadoop应用案例的分析:在百度中的应用
百度对
海量数据处理
的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求如图3-3所示,这里就需要通过性能较好的云平台进行处理了,Ha
yakcy
·
2020-07-04 13:46
hadoop
Greenplum集群部署小记
Greenplum的分布式架构方案MPP对于
海量数据处理
还是很给力的,今天专门抽时间搭建了一下测试环境。首先来简单看下Greenplum的架构,这个和Oracle,MySQL还是大不同。
congbao6525
·
2020-07-04 13:17
Hadoop与网络拓扑
在
海量数据处理
中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。
我是一名程序猿
·
2020-07-04 11:33
Hadoop
Python
海量数据处理
之_Hadoop家族
本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。hadoop家族 Pig是上层封装了的数据流处理工具。 Mahout是基于集群的数据挖掘工具。 Zookeeper是集群管理工具,比如配置一些备用服务器,当重要的服务宕机时,及时补救。 其中黄色部分是hadoop安装包中自带的,HDFS是文件系统支持,MapReduce是计算支持。 绿色部分都是向
xieyan0811
·
2020-07-04 11:45
Java面试所需的知识
目录1.计算机网络(1)网络7层架构(2)TCP/IP原理(3)HTTP原理(4)加密算法2.数据结构3.算法(1)Java算法(2)
海量数据处理
4.操作系统5.MySQL数据库1、事务2、数据库结构和锁
_fingers_dancer
·
2020-07-04 08:24
Java
WaterDrop on spark/flink(v2.x 支持spark/flink)
(注:flink版本>=1.9.0,spark版本>=2.x.x)使用场景海量数据ETL海量数据聚合多源数据处理特性简单易用,灵活配置,无需开发实时流式处理高性能
海量数据处理
能力模块化和插件化,易于扩展支持利用
夜古诚
·
2020-07-04 06:27
WaterDrop
海量数据处理
利器greenplum——初识
简介及适用场景如果想在数据仓库中快速查询结果,可以使用greenplum。Greenplum数据库也简称GPDB。它拥有丰富的特性:第一,完善的标准支持:GPDB完全支持ANSISQL2008标准和SQLOLAP2003扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的NoSQL,NewSQL和Hadoop对SQL的支持都不完善,不同的系
dizhong1566
·
2020-07-04 00:36
转载-教你如何迅速秒杀掉:99%的
海量数据处理
面试题
原文链接:https://blog.csdn.net/v_july_v/article/details/7382693作者:July出处:结构之法算法之道blog本文经过大量细致的优化后,收录于我的新书《编程之法:面试和算法心得》第六章中,新书目前已上架京东/当当前言一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何
lingpy
·
2020-07-02 08:40
Algorithm
Interview
五万字长文:C/C++ 面试知识总结(上)
本文花费了博主大量的时间进行收集、排版:如果你觉得文章对你有帮助,帮忙点赞给博主一点鼓励~~目录C/C++STL数据结构算法Problems操作系统计算机网络网络编程数据库设计模式链接装载库
海量数据处理
音视频其他书籍复习刷题网站招聘时间岗位面试题目经验
古老的屋檐下
·
2020-07-02 08:03
互联网求职
应届生互联网求职面试总结分享
海量数据处理
算法—Bloom Filter
1.Bloom-Filter算法简介Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。BloomFilter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断,但不会漏掉判断。也就是Bloom
iteye_4515
·
2020-07-02 04:41
关于
海量数据处理
的各种常用数据结构浅谈
随着互联网的兴起,越来越多的内容被放到互联网中,从而导致
海量数据处理
受到更多人的重视,尤其是在百度、腾讯等这些涉及海量数据的公司。下面我们简单谈一下关于
海量数据处理
的一些常用数据结构。
dengdiaoji0891
·
2020-07-01 22:58
开源夏令营之JStorm Trident接口性能优化——开篇
说到
海量数据处理
,很多人就会想到Had
cxz0593
·
2020-07-01 21:38
开源夏令营
hadoop框架结构学习详述
单是谷歌的爬虫程序每天下载的网页超过1亿个(2000年数据,)数据的爆炸式增长直接推动了
海量数据处理
技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了
海量数据处理
的问题。
adnb34g
·
2020-07-01 16:39
hadoop
海量数据处理
分析
海量数据处理
分析北京迈思奇科技有限公司戴子良笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面:一、数据量过大,数据中什么情况都可能存在。
DaiZiLiang
·
2020-07-01 08:13
BI
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他