E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【MapReduce】
Hadoop学习:深入解析
MapReduce
的大数据魔力(三)
Hadoop学习:深入解析
MapReduce
的大数据魔力(三)3.5
MapReduce
内核源码解析3.5.1MapTask工作机制3.5.2ReduceTask工作机制3.5.3ReduceTask并行度决定机制
老虎也淘气
·
2023-08-19 05:46
Hadoop学习指南
大数据
hadoop
学习
Hadoop学习:深入解析
MapReduce
的大数据魔力之数据压缩(四)
Hadoop学习:深入解析
MapReduce
的大数据魔力之数据压缩(四)4.1概述1)压缩的好处和坏处2)压缩原则4.2MR支持的压缩编码4.3压缩方式选择4.3.1Gzip压缩4.3.2Bzip2压缩
老虎也淘气
·
2023-08-19 05:46
Hadoop学习指南
大数据
hadoop
学习
Spark第三课
1.分区规则1.分区规则shuffle1.打乱顺序2.重新组合1.分区的规则默认与
MapReduce
的规则一致,都是按照哈希值取余进行分配.一个分区可以多个组,一个组的数据必须一个分区2.分组的分区导致数据倾斜怎么解决
叫我莫言鸭
·
2023-08-19 05:39
Spark
大数据
spark
Hadoop与MPP
1.Hadoop是分布式计算平台,以hive应用为例,它的存储结构是HDFS,计算框架是
MapReduce
;MPP代表大规模并行处理,一个优点是可扩展性,数据在节点(分片)之间分割,每个节点只处理其本地数据
盛装吾步
·
2023-08-19 03:37
hadoop
hadoop
MPP
饿了么大数据开发凉经
1一个
mapreduce
进程会启动多少map进程多少reduce进程*1)map数量由处理的数据分成的block数量决定default_num=total_size/split_size;2)reduce
TIM33470348
·
2023-08-18 20:39
大数据
java
数据库
Hive碎碎念(6):HIVE优化
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的
MapReduce
的工具。
xxlee
·
2023-08-18 18:23
Error: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException
问题如下:因为我要使用
mapreduce
操作hbase,所以我把hbase下所有的.jar文件都导入了eclipse下的
mapreduce
工程,在操作hbase时,遇到了下面的问题,弄了好久也不知道问题的所在
shujuboke
·
2023-08-18 10:44
hbase
常用的hive调优
一、fetch抓取尽量避免数据的查询分析跑
mapreduce
。
30b94afdf4b3
·
2023-08-18 05:01
大数据与云计算之间的关系是怎样的?
例如,亚马逊的“Elastic
MapReduce
”演示了如何利用CloudElasticComputes的功能进行大数据处理。两者的结合为组织带来了有益的结果。
大数据基础入门教程
·
2023-08-17 17:48
大数据
hadoop
spark
Hadoop 面试总结
Hadoop架构Hadoop组成部分HDFS管理者:namenode工作者:DataNode辅助管理者:secondaryNameNode
MapReduce
YARN管理者:ResourceManage工作者
君子何为
·
2023-08-17 11:42
Azkaban使用笔记
工作流调度系统:由大量任务单元组成:shell脚本程序,java程序,
mapreduce
程序、hive脚本等。原始数据进来的处理步骤如下所示:1、通过Hadoop先将原始
小丸子爱吃虾
·
2023-08-17 04:17
mapreduce
连接_外连接、左外连接、右外连接
外连接、左外连接、右外连接本例实现问题2:外连接、左外连接、右外连接问题描述:1、任意多个数据源的内连接输入有两个文件,一个名为factory的输入文件包含描述工厂名和其对应地址ID的表,另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。输入:输入有两个文件,第一个描述了工厂名和对应地址的ID,第二个输入文件描述了地址名和其ID。输出:输出
Charles__D
·
2023-08-17 03:55
Hadoop
hadoop
mapreduce
外连接
大数据——Hive一文全知道
Hive是一款基于Hadoop的数据仓库工具,它将SQL语句转化为
MapReduce
任务运行,方便不熟悉
MapReduce
的用户也能够很好的利用HQL处理和计算HDFS上的数据。
AIGC人工智残
·
2023-08-17 00:06
大数据
大数据
hive
hadoop
OPPO 图数据库平台建设及业务落地
这意味着应用程序不必使用外键或带外处理(如
MapReduce
)来推断数据连接。与关系数据库或其他NoSQL数据库相比,图数据库的数据模型也更加简单,更具表现力。图数据库在社交网络、知识图谱、
·
2023-08-16 17:48
Kylin
早期使用Hadoop的
MapReduce
计算模型,太慢了,只能做离线计算,无法做实时计算与迭代式计算。
_Levi__
·
2023-08-16 09:48
hive调优
1Fetch抓取(Hive可以避免进行
MapReduce
)Hive中对某些情况的查询可以不必使用
MapReduce
计算。
昌昌苦练背后
·
2023-08-15 19:55
大数据
hive
hadoop
big
data
Apache Doris 入门教程26:资源管理
为了节省Doris集群内的计算、存储资源,Doris需要引入一些其他外部资源来完成相关的工作,如Spark/GPU用于查询,HDFS/S3用于外部存储,Spark/
MapReduce
用于ETL,通过ODBC
sunjian286
·
2023-08-15 19:13
大数据
数据库
数据仓库
数据分析
database
2018-04-09 数据仓库技能要求
mysql1.1.1mysql应用1.1.2mysqlsql优化1.2.非关系型数据库-Hive1.2.1.hivesql应用1.2.2Hivesql优化2ApacheHadoop基础2.1.Hadoop生态2.2
MapReduce
dataMaster
·
2023-08-15 15:04
Python 3 使用Hadoop 3之
MapReduce
总结
MapReduce
运行原理
MapReduce
简介
MapReduce
是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。
在奋斗的大道
·
2023-08-15 11:58
Python之降龙十八掌
python
学习笔记
hadoop
mapreduce
大数据
Hadoop组件
Mapreduce
(分布式计算框架)
mapreduce
是一种计算模型,用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,reduce则对中间
叱咤少帅(少帅)
·
2023-08-15 08:20
#
Flink
&
Spark
Hadoop组件
大数据面试题全面总结(范围广超详细)
Hadoop面试题总结Hadoop面试题(一)Hadoop面试题总结(二)——HDFSHadoop面试题总结(三)——
MapReduce
Hadoop面试题(四)——YARNHadoop面试题总结(五)—
蓦然_
·
2023-08-15 01:06
大数据面试题
大数据面试总结
Spark
大数据
Hadoop
Kafka
大数据面试题:介绍下Hadoop
2、说下Hadoop核心组件Hadoop自诞生以来,主要有Hadoop1.x、2.x、3.x三个系列多个版本;Hadoop1.x组成:HDFS(具有高可靠性、高吞吐量的分布式文件系统,用于数据存储),
MapReduce
蓦然_
·
2023-08-15 01:06
大数据面试题
hadoop
mapreduce
hdfs
yarn
基于
MapReduce
的Hive数据倾斜场景以及解决方案
文章目录1Hive数据倾斜的现象1.1Hive数据倾斜的场景1.2解决数据倾斜问题的排查思路2解决Hive数据倾斜问题的方法2.1开启负载均衡2.2引入随机性2.3使用MapJoin或BroadcastJoin2.4调整数据存储格式2.5分桶表、分区表2.6使用抽样数据进行优化2.7过滤倾斜join单独进行join1Hive数据倾斜的现象通常认为当所有的maptask全部完成,并且99%的redu
程序终结者
·
2023-08-14 22:14
mapreduce
hive
大数据
Spark Streaming:通过Dstreams 或 DataFrames做流数据处理,结果写入ClickHouse或Hive表
最初它是作为替代Hadoop的
MapReduce
批处理框架而创建的,但现在它也支持SQL、机器学习和流处理。今天我们重点看看SparkStreaming,展示常用流处理的方式。
西土城计划
·
2023-08-14 19:04
实时系统
数据挖掘算法
spark
hive
大数据
左外连接Left-Outer-Join的基于SQL,
MapReduce
,sparkRDD,sparkDataFrame以及spark SQL的实现案例及对比
三、使用SQL实现左外连接:1.数据准备2.实现案例四、使用
MapReduce
实现左外连接:1.数据准备:2.案例及设计思路:3.运行代码:4.运行结果:五、使用SparkRDD的API进行左外连接1.
Ahaxian
·
2023-08-14 14:10
hadoop学习之路
MapReduce学习之路
大数据
spark
数据库
mapreduce
sql
数据分析工具篇——
MapReduce
结构
公众号后台回复“图书“,了解更多号主新书内容作者:livan来源:数据python与算法前面我们介绍了HDFS,作为HDFS的第一代上层架构,我们必须讲解一下hadoop的
MapReduce
结构,可以说这一结构促进了大数据的兴起
IT农民工1
·
2023-08-14 14:39
hadoop
java
mapreduce
大数据
spark
【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3
MapReduce
理论与动手实践
开始聊
MapReduce
,
MapReduce
是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和
mapreduce
关系的紧密。
weixin_33812433
·
2023-08-14 14:09
大数据
java
运维
终于有一篇讲清楚了什么是Spark
使用简练、优雅的Scala语言编写,借鉴了
mapreduce
“计算向数据靠拢”的大数据计算优点,同时解决了
mapreduce
表达能力有限(计算都必须转化成map和reduce两个操作)、磁盘I/O开销大
penguin.AAA
·
2023-08-14 14:38
spark
谁能讲清楚Spark之与
MapReduce
的对比
我们已经知道Spark是如何设计和实现数据处理流程的,这里我们再深入思考一下,为什么Spark能够替代
MapReduce
成为主流的大数据处理框架呢?对比
MapReduce
,Spark究竟有哪些优势?
数据咩
·
2023-08-14 14:08
大数据之路
spark
mapreduce
大数据
资源调度框架YARN
1.YARN产生背景Hadoop1.x时:
MapReduce
1.x存在问题:单点故障&节点压力大不易扩展&不能支持除了MR以外的任务
MapReduce
:Master/Slave架构,一个JobTracker
何以畅闲情
·
2023-08-13 21:34
谁能讲清楚Spark之Spark系统架构
###整体架构概述Spark与Hadoop
MapReduce
的结构类似,Spark也采用Master-Worker结构。
数据咩
·
2023-08-13 12:28
大数据之路
spark
系统架构
大数据
3万字史诗级 Hive 性能调优(建议收藏)
影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、
MapReduce
分配不合理等等。
公众号:肉眼品世界
·
2023-08-13 10:29
大数据
数据仓库
uefi
glassfish
entity
Hadoop
MapReduce
编写
KeyWords:Configruation,CombiingResources,VariableExpansion,dependency,package写
MapReduce
的套路,首先写map和reduce
Grits
·
2023-08-13 10:30
数据结构与算法-数组(附阿里面试题)
(例如hadoop的
MapReduce
的切开)-->
玛卡巴咖
·
2023-08-13 03:25
数据结构与算法
算法
数据结构
java
MapReduce
任务报错:Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1
问题描述:之前写了一个读取RCFile的
MapReduce
任务,现在放到测试集群上报错了错误信息:Error:java.lang.IllegalArgumentException:UnrecognizedHadoopmajorversionnumber
ustbxyls
·
2023-08-12 16:34
Hadoop
ERROR:Error: Could not find or load main class org.apache.hadoop.
mapreduce
.v2.app.MRAppMaster
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml这四个文件后,启动集群并运行wordcount样例程序hadoopjarshare/hadoop/
mapreduce
程光CS
·
2023-08-12 15:24
踩坑日记
hadoop
Impala内存优化
Impala通过主节点生成执行计划树并分发执行计划至各节点并行执行的拉式获取数据的工作方式,替代了Hadoop中传统的
MapReduce
推式获取
香山上的麻雀
·
2023-08-12 13:30
Hadoop知识点总结
1.什么是Hadoop大数据处理的分布式系统2.Hadoop****生态圈三大核心:HDFS集群:分布式文件存储系统YARN集群:运算资源调度
MapReduce
分布式计算模型3.讲一下
MapReduce
MapReduce
longLiveData
·
2023-08-12 10:40
基于
mapreduce
的DBSCAN算法实现
东拼西凑拿
mapreduce
实现了下DBSCAN,很多地方其实并没有很并行,密度聚类确实不太适合用MR来实现,写都写了整理一下。
回炉重造P
·
2023-08-12 09:08
hadoop
java
java
hadoop
mapreduce
clustering
Hive On Tez
官方的部署方式是全局的部署,会影响到集群中其他的一些组件的使用经过各种尝试并做了一些配置修改,以下部署方式只用于hive不影响集群其他的
MapReduce
的使用,因为我这边的架构体系中有用到sqoop,
清风漾
·
2023-08-11 14:19
hadoop
hive
Hive on Tez
Tez的设计上有两点优势:1用户体验使用API来自定义数据流灵活的Input-Processor-Output运行模式与计算的数据类型无关简单的部署流程2计算性能性能高于
MapReduce
资源管理更加优化运行时配置预加载物理数据流动态运行
weixin_34211761
·
2023-08-11 14:17
大数据
git
运维
Hive on Tez切换及性能对比
还有一些工作则不太适合
MapReduce
,例如机器学习。Tez的目的就是帮助Hadoop处
不搬砖的程序员不是好程序员
·
2023-08-11 14:17
hive
hadoop
大数据
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
1.概述主要对基于Tez的map数和reduce数测试与调优如果需要查看基于
MapReduce
的调优可以看这篇:Hive基于
MapReduce
引擎map和reduce数的参数控制原理与调优经验https
abcdggggggg
·
2023-08-11 14:47
Hive
大数据
数据仓库
Tez
Hive调优
使用IDEA本地调试
MapReduce
程序
使用IDEA本地调试
MapReduce
程序演示目标演示环境文件下载完整配置开始调试演示目标在Windows开发环境下,直接使用IDEA运行
MapReduce
程序,并支持Debug调试。
NickZxing
·
2023-08-11 08:12
hadoop
mapreduce
大数据
hadoop
intellij
idea
windows
MapReduce
程序编写
Hadoop支持多种语言开发
MapReduce
程序,但是对JAVA语言的支持最好。编写一个
MapReduce
程序需要新建三个类:Mapper类、Reduce类、驱动类。
unhurried人生——冕临
·
2023-08-11 08:12
大数据
mapreduce
hadoop
IDEA 本地运行
mapreduce
程序不打印日志问题
这里写目录标题一、问题描述二、产生原因三、解决办法一、问题描述使用idea运行
mapreduce
程序后,虽然程序运行成功,但在控制台不打印相关的日志信息,而是出现如下的log4j警告log4j:WARNNoappenderscouldbefoundforlogger
宫懋鸡丁
·
2023-08-11 08:08
hadoop小白学习记录
java小白学习记录
log4j
java
IDEA 执行
Mapreduce
程序
以下提到三种方式方式1:首先在windows的IDEA写好代码,代码中不指出在哪运行,就是本地运行。即在windows运行环境。此时需要满足以下条件:--下载hadoop安装包,解压。--百度“hadoopwinutils”.找到这个这个资源。选择对应hadoop版本号。然后应该会是一个bin文件夹,其中就包含了winutils.exe。将这个文件夹复制到先前解压的hadoop安装包中,替换掉安装
Axel_Fr
·
2023-08-11 08:38
intellij-idea
mapreduce
java
本地跑
Mapreduce
程序的相关配置
本地跑
MapReduce
程序需要配置的代码为了在本地运行
MapReduce
程序,需要加如下的东西在项目中创建一个如图所示的包:org.apache.hadoop.io.nativeio,并在该包下面创建一个名为
逗比发光请闭眼
·
2023-08-11 08:07
mapreduce
大数据
Hive数据倾斜解决方法总结
当我们在执行HiveQL或者运行
MapReduce
作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。
膝盖上拔下的箭
·
2023-08-11 07:57
2019-05-15
4.明天任务去图书馆找书把界面弄好
mapreduce
找一找原因早起去图书馆占座!!!一个上午下午和晚上!!
0be47bf15d8d
·
2023-08-11 05:57
上一页
28
29
30
31
32
33
34
35
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他