E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
HDFS纠删码设计
1.问题陈述当前HDFS每个块有3个副本是出于以下几个方面的考虑:1)预防DataNode的故障2)对
MapReduce
本地性任务提供更好的支持3)通过在多个副本间选择读取的块,避免DataNodes节点的过载副本是昂贵的
guangdong_18b7
·
2023-08-20 09:00
hive map数的控制
背景:最近执行一个selectcount(*),发现
mapreduce
计算分片数很慢,且分片数的大小对不上确定hive默认开启map任务前进行合并小文件的设置:hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
安申
·
2023-08-20 06:09
Hadoop YARN的调度器
YetAnotherResourceNegotiator)是Hadoop生态系统中的资源管理和作业调度框架,负责集群资源的分配、作业的调度和任务的执行,使得在大规模集群上可以高效地运行各种计算框架,如
MapReduce
贾斯汀玛尔斯
·
2023-08-20 04:04
hadoop
hadoop
大数据
yarn
调度器
第一天:spark和Hadoop的比较和介绍
从截图中可以看到整个hadoop的架构,Spark只能替代Hadoop的一部分,也就是
MapReduce
,和Hive查询引擎,spark身是不提供大数据的存储的!
GhostintheCode
·
2023-08-20 03:00
Spark 为什么比
MapReduce
快100倍?
文章目录1.内存计算与磁盘刷写1.1
MapReduce
的Shuffle需要频繁IO1.2Spark计算走IO少2.进程和线程2.1基于进程的
MapReduce
2.2基于线程的Spark2.3基于进程VS
程序终结者
·
2023-08-20 02:43
Hadoop生态
spark
mapreduce
大数据
大数据spark相关总结
spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比
MapReduce
更加高效。
有文化233
·
2023-08-19 23:46
小知识点
大数据Hadoop:
MapReduce
编程规范与示例编写
大数据Hadoop:
MapReduce
编程规范与示例编写
MapReduce
是一种用于处理大数据集的编程模型和计算框架,已成为大数据处理的重要工具之一。
2301_78484069
·
2023-08-19 22:41
大数据
大数据
hadoop
mapreduce
看一眼常见数据处理的产品
另外,Hadoop使用
MapReduce
处理数据,而Spark使用RDD(弹性分布式数据集),因此Spark在处理多次迭代的任务时比Hadoop更高效。
Walter Sun
·
2023-08-19 09:47
hadoop
spark
flink
kylin
storm
Hadoop学习:深入解析
MapReduce
的大数据魔力(三)
Hadoop学习:深入解析
MapReduce
的大数据魔力(三)3.5
MapReduce
内核源码解析3.5.1MapTask工作机制3.5.2ReduceTask工作机制3.5.3ReduceTask并行度决定机制
老虎也淘气
·
2023-08-19 05:46
Hadoop学习指南
大数据
hadoop
学习
Hadoop学习:深入解析
MapReduce
的大数据魔力之数据压缩(四)
Hadoop学习:深入解析
MapReduce
的大数据魔力之数据压缩(四)4.1概述1)压缩的好处和坏处2)压缩原则4.2MR支持的压缩编码4.3压缩方式选择4.3.1Gzip压缩4.3.2Bzip2压缩
老虎也淘气
·
2023-08-19 05:46
Hadoop学习指南
大数据
hadoop
学习
Spark第三课
1.分区规则1.分区规则shuffle1.打乱顺序2.重新组合1.分区的规则默认与
MapReduce
的规则一致,都是按照哈希值取余进行分配.一个分区可以多个组,一个组的数据必须一个分区2.分组的分区导致数据倾斜怎么解决
叫我莫言鸭
·
2023-08-19 05:39
Spark
大数据
spark
Hadoop与MPP
1.Hadoop是分布式计算平台,以hive应用为例,它的存储结构是HDFS,计算框架是
MapReduce
;MPP代表大规模并行处理,一个优点是可扩展性,数据在节点(分片)之间分割,每个节点只处理其本地数据
盛装吾步
·
2023-08-19 03:37
hadoop
hadoop
MPP
饿了么大数据开发凉经
1一个
mapreduce
进程会启动多少map进程多少reduce进程*1)map数量由处理的数据分成的block数量决定default_num=total_size/split_size;2)reduce
TIM33470348
·
2023-08-18 20:39
大数据
java
数据库
Hive碎碎念(6):HIVE优化
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的
MapReduce
的工具。
xxlee
·
2023-08-18 18:23
Error: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException
问题如下:因为我要使用
mapreduce
操作hbase,所以我把hbase下所有的.jar文件都导入了eclipse下的
mapreduce
工程,在操作hbase时,遇到了下面的问题,弄了好久也不知道问题的所在
shujuboke
·
2023-08-18 10:44
hbase
常用的hive调优
一、fetch抓取尽量避免数据的查询分析跑
mapreduce
。
30b94afdf4b3
·
2023-08-18 05:01
大数据与云计算之间的关系是怎样的?
例如,亚马逊的“Elastic
MapReduce
”演示了如何利用CloudElasticComputes的功能进行大数据处理。两者的结合为组织带来了有益的结果。
大数据基础入门教程
·
2023-08-17 17:48
大数据
hadoop
spark
Hadoop 面试总结
Hadoop架构Hadoop组成部分HDFS管理者:namenode工作者:DataNode辅助管理者:secondaryNameNode
MapReduce
YARN管理者:ResourceManage工作者
君子何为
·
2023-08-17 11:42
Azkaban使用笔记
工作流调度系统:由大量任务单元组成:shell脚本程序,java程序,
mapreduce
程序、hive脚本等。原始数据进来的处理步骤如下所示:1、通过Hadoop先将原始
小丸子爱吃虾
·
2023-08-17 04:17
mapreduce
连接_外连接、左外连接、右外连接
外连接、左外连接、右外连接本例实现问题2:外连接、左外连接、右外连接问题描述:1、任意多个数据源的内连接输入有两个文件,一个名为factory的输入文件包含描述工厂名和其对应地址ID的表,另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。输入:输入有两个文件,第一个描述了工厂名和对应地址的ID,第二个输入文件描述了地址名和其ID。输出:输出
Charles__D
·
2023-08-17 03:55
Hadoop
hadoop
mapreduce
外连接
大数据——Hive一文全知道
Hive是一款基于Hadoop的数据仓库工具,它将SQL语句转化为
MapReduce
任务运行,方便不熟悉
MapReduce
的用户也能够很好的利用HQL处理和计算HDFS上的数据。
AIGC人工智残
·
2023-08-17 00:06
大数据
大数据
hive
hadoop
OPPO 图数据库平台建设及业务落地
这意味着应用程序不必使用外键或带外处理(如
MapReduce
)来推断数据连接。与关系数据库或其他NoSQL数据库相比,图数据库的数据模型也更加简单,更具表现力。图数据库在社交网络、知识图谱、
·
2023-08-16 17:48
Kylin
早期使用Hadoop的
MapReduce
计算模型,太慢了,只能做离线计算,无法做实时计算与迭代式计算。
_Levi__
·
2023-08-16 09:48
hive调优
1Fetch抓取(Hive可以避免进行
MapReduce
)Hive中对某些情况的查询可以不必使用
MapReduce
计算。
昌昌苦练背后
·
2023-08-15 19:55
大数据
hive
hadoop
big
data
Apache Doris 入门教程26:资源管理
为了节省Doris集群内的计算、存储资源,Doris需要引入一些其他外部资源来完成相关的工作,如Spark/GPU用于查询,HDFS/S3用于外部存储,Spark/
MapReduce
用于ETL,通过ODBC
sunjian286
·
2023-08-15 19:13
大数据
数据库
数据仓库
数据分析
database
2018-04-09 数据仓库技能要求
mysql1.1.1mysql应用1.1.2mysqlsql优化1.2.非关系型数据库-Hive1.2.1.hivesql应用1.2.2Hivesql优化2ApacheHadoop基础2.1.Hadoop生态2.2
MapReduce
dataMaster
·
2023-08-15 15:04
Python 3 使用Hadoop 3之
MapReduce
总结
MapReduce
运行原理
MapReduce
简介
MapReduce
是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。
在奋斗的大道
·
2023-08-15 11:58
Python之降龙十八掌
python
学习笔记
hadoop
mapreduce
大数据
Hadoop组件
Mapreduce
(分布式计算框架)
mapreduce
是一种计算模型,用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,reduce则对中间
叱咤少帅(少帅)
·
2023-08-15 08:20
#
Flink
&
Spark
Hadoop组件
大数据面试题全面总结(范围广超详细)
Hadoop面试题总结Hadoop面试题(一)Hadoop面试题总结(二)——HDFSHadoop面试题总结(三)——
MapReduce
Hadoop面试题(四)——YARNHadoop面试题总结(五)—
蓦然_
·
2023-08-15 01:06
大数据面试题
大数据面试总结
Spark
大数据
Hadoop
Kafka
大数据面试题:介绍下Hadoop
2、说下Hadoop核心组件Hadoop自诞生以来,主要有Hadoop1.x、2.x、3.x三个系列多个版本;Hadoop1.x组成:HDFS(具有高可靠性、高吞吐量的分布式文件系统,用于数据存储),
MapReduce
蓦然_
·
2023-08-15 01:06
大数据面试题
hadoop
mapreduce
hdfs
yarn
基于
MapReduce
的Hive数据倾斜场景以及解决方案
文章目录1Hive数据倾斜的现象1.1Hive数据倾斜的场景1.2解决数据倾斜问题的排查思路2解决Hive数据倾斜问题的方法2.1开启负载均衡2.2引入随机性2.3使用MapJoin或BroadcastJoin2.4调整数据存储格式2.5分桶表、分区表2.6使用抽样数据进行优化2.7过滤倾斜join单独进行join1Hive数据倾斜的现象通常认为当所有的maptask全部完成,并且99%的redu
程序终结者
·
2023-08-14 22:14
mapreduce
hive
大数据
Spark Streaming:通过Dstreams 或 DataFrames做流数据处理,结果写入ClickHouse或Hive表
最初它是作为替代Hadoop的
MapReduce
批处理框架而创建的,但现在它也支持SQL、机器学习和流处理。今天我们重点看看SparkStreaming,展示常用流处理的方式。
西土城计划
·
2023-08-14 19:04
实时系统
数据挖掘算法
spark
hive
大数据
左外连接Left-Outer-Join的基于SQL,
MapReduce
,sparkRDD,sparkDataFrame以及spark SQL的实现案例及对比
三、使用SQL实现左外连接:1.数据准备2.实现案例四、使用
MapReduce
实现左外连接:1.数据准备:2.案例及设计思路:3.运行代码:4.运行结果:五、使用SparkRDD的API进行左外连接1.
Ahaxian
·
2023-08-14 14:10
hadoop学习之路
MapReduce学习之路
大数据
spark
数据库
mapreduce
sql
数据分析工具篇——
MapReduce
结构
公众号后台回复“图书“,了解更多号主新书内容作者:livan来源:数据python与算法前面我们介绍了HDFS,作为HDFS的第一代上层架构,我们必须讲解一下hadoop的
MapReduce
结构,可以说这一结构促进了大数据的兴起
IT农民工1
·
2023-08-14 14:39
hadoop
java
mapreduce
大数据
spark
【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3
MapReduce
理论与动手实践
开始聊
MapReduce
,
MapReduce
是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和
mapreduce
关系的紧密。
weixin_33812433
·
2023-08-14 14:09
大数据
java
运维
终于有一篇讲清楚了什么是Spark
使用简练、优雅的Scala语言编写,借鉴了
mapreduce
“计算向数据靠拢”的大数据计算优点,同时解决了
mapreduce
表达能力有限(计算都必须转化成map和reduce两个操作)、磁盘I/O开销大
penguin.AAA
·
2023-08-14 14:38
spark
谁能讲清楚Spark之与
MapReduce
的对比
我们已经知道Spark是如何设计和实现数据处理流程的,这里我们再深入思考一下,为什么Spark能够替代
MapReduce
成为主流的大数据处理框架呢?对比
MapReduce
,Spark究竟有哪些优势?
数据咩
·
2023-08-14 14:08
大数据之路
spark
mapreduce
大数据
资源调度框架YARN
1.YARN产生背景Hadoop1.x时:
MapReduce
1.x存在问题:单点故障&节点压力大不易扩展&不能支持除了MR以外的任务
MapReduce
:Master/Slave架构,一个JobTracker
何以畅闲情
·
2023-08-13 21:34
谁能讲清楚Spark之Spark系统架构
###整体架构概述Spark与Hadoop
MapReduce
的结构类似,Spark也采用Master-Worker结构。
数据咩
·
2023-08-13 12:28
大数据之路
spark
系统架构
大数据
3万字史诗级 Hive 性能调优(建议收藏)
影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、
MapReduce
分配不合理等等。
公众号:肉眼品世界
·
2023-08-13 10:29
大数据
数据仓库
uefi
glassfish
entity
Hadoop
MapReduce
编写
KeyWords:Configruation,CombiingResources,VariableExpansion,dependency,package写
MapReduce
的套路,首先写map和reduce
Grits
·
2023-08-13 10:30
数据结构与算法-数组(附阿里面试题)
(例如hadoop的
MapReduce
的切开)-->
玛卡巴咖
·
2023-08-13 03:25
数据结构与算法
算法
数据结构
java
MapReduce
任务报错:Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1
问题描述:之前写了一个读取RCFile的
MapReduce
任务,现在放到测试集群上报错了错误信息:Error:java.lang.IllegalArgumentException:UnrecognizedHadoopmajorversionnumber
ustbxyls
·
2023-08-12 16:34
Hadoop
ERROR:Error: Could not find or load main class org.apache.hadoop.
mapreduce
.v2.app.MRAppMaster
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml这四个文件后,启动集群并运行wordcount样例程序hadoopjarshare/hadoop/
mapreduce
程光CS
·
2023-08-12 15:24
踩坑日记
hadoop
Impala内存优化
Impala通过主节点生成执行计划树并分发执行计划至各节点并行执行的拉式获取数据的工作方式,替代了Hadoop中传统的
MapReduce
推式获取
香山上的麻雀
·
2023-08-12 13:30
Hadoop知识点总结
1.什么是Hadoop大数据处理的分布式系统2.Hadoop****生态圈三大核心:HDFS集群:分布式文件存储系统YARN集群:运算资源调度
MapReduce
分布式计算模型3.讲一下
MapReduce
MapReduce
longLiveData
·
2023-08-12 10:40
基于
mapreduce
的DBSCAN算法实现
东拼西凑拿
mapreduce
实现了下DBSCAN,很多地方其实并没有很并行,密度聚类确实不太适合用MR来实现,写都写了整理一下。
回炉重造P
·
2023-08-12 09:08
hadoop
java
java
hadoop
mapreduce
clustering
Hive On Tez
官方的部署方式是全局的部署,会影响到集群中其他的一些组件的使用经过各种尝试并做了一些配置修改,以下部署方式只用于hive不影响集群其他的
MapReduce
的使用,因为我这边的架构体系中有用到sqoop,
清风漾
·
2023-08-11 14:19
hadoop
hive
Hive on Tez
Tez的设计上有两点优势:1用户体验使用API来自定义数据流灵活的Input-Processor-Output运行模式与计算的数据类型无关简单的部署流程2计算性能性能高于
MapReduce
资源管理更加优化运行时配置预加载物理数据流动态运行
weixin_34211761
·
2023-08-11 14:17
大数据
git
运维
Hive on Tez切换及性能对比
还有一些工作则不太适合
MapReduce
,例如机器学习。Tez的目的就是帮助Hadoop处
不搬砖的程序员不是好程序员
·
2023-08-11 14:17
hive
hadoop
大数据
上一页
28
29
30
31
32
33
34
35
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他