Mapreduce 第32页

HDFS纠删码设计

1.问题陈述当前HDFS每个块有3个副本是出于以下几个方面的考虑：1）预防DataNode的故障2）对MapReduce本地性任务提供更好的支持3）通过在多个副本间选择读取的块，避免DataNodes节点的过载副本是昂贵的

guangdong_18b7·2023-08-20 09:00

hive map数的控制

背景：最近执行一个selectcount(*)，发现mapreduce计算分片数很慢，且分片数的大小对不上确定hive默认开启map任务前进行合并小文件的设置：hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

安申·2023-08-20 06:09

Hadoop YARN的调度器

YetAnotherResourceNegotiator）是Hadoop生态系统中的资源管理和作业调度框架，负责集群资源的分配、作业的调度和任务的执行，使得在大规模集群上可以高效地运行各种计算框架，如MapReduce

贾斯汀玛尔斯·2023-08-20 04:04

第一天：spark和Hadoop的比较和介绍

从截图中可以看到整个hadoop的架构，Spark只能替代Hadoop的一部分，也就是MapReduce，和Hive查询引擎，spark身是不提供大数据的存储的！

GhostintheCode·2023-08-20 03:00

Spark 为什么比 MapReduce 快100倍？

文章目录1.内存计算与磁盘刷写1.1MapReduce的Shuffle需要频繁IO1.2Spark计算走IO少2.进程和线程2.1基于进程的MapReduce2.2基于线程的Spark2.3基于进程VS

程序终结者·2023-08-20 02:43

有文化233·2023-08-19 23:46

大数据Hadoop：MapReduce编程规范与示例编写

大数据Hadoop：MapReduce编程规范与示例编写MapReduce是一种用于处理大数据集的编程模型和计算框架，已成为大数据处理的重要工具之一。

2301_78484069·2023-08-19 22:41

看一眼常见数据处理的产品

另外，Hadoop使用MapReduce处理数据，而Spark使用RDD（弹性分布式数据集），因此Spark在处理多次迭代的任务时比Hadoop更高效。

Walter Sun·2023-08-19 09:47

Hadoop学习：深入解析MapReduce的大数据魔力（三）

Hadoop学习：深入解析MapReduce的大数据魔力（三）3.5MapReduce内核源码解析3.5.1MapTask工作机制3.5.2ReduceTask工作机制3.5.3ReduceTask并行度决定机制

老虎也淘气·2023-08-19 05:46

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四）

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四）4.1概述1）压缩的好处和坏处2）压缩原则4.2MR支持的压缩编码4.3压缩方式选择4.3.1Gzip压缩4.3.2Bzip2压缩

老虎也淘气·2023-08-19 05:46

Spark第三课

1.分区规则1.分区规则shuffle1.打乱顺序2.重新组合1.分区的规则默认与MapReduce的规则一致,都是按照哈希值取余进行分配.一个分区可以多个组,一个组的数据必须一个分区2.分组的分区导致数据倾斜怎么解决

叫我莫言鸭·2023-08-19 05:39

Hadoop与MPP

1.Hadoop是分布式计算平台，以hive应用为例，它的存储结构是HDFS，计算框架是MapReduce；MPP代表大规模并行处理，一个优点是可扩展性，数据在节点（分片）之间分割，每个节点只处理其本地数据

盛装吾步·2023-08-19 03:37

饿了么大数据开发凉经

1一个mapreduce进程会启动多少map进程多少reduce进程*1）map数量由处理的数据分成的block数量决定default_num=total_size/split_size;2）reduce

TIM33470348·2023-08-18 20:39

Hive碎碎念（6）：HIVE优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。

xxlee·2023-08-18 18:23

Error: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException

问题如下：因为我要使用mapreduce操作hbase，所以我把hbase下所有的.jar文件都导入了eclipse下的mapreduce工程，在操作hbase时，遇到了下面的问题，弄了好久也不知道问题的所在

shujuboke·2023-08-18 10:44

常用的hive调优

一、fetch抓取尽量避免数据的查询分析跑mapreduce。

30b94afdf4b3·2023-08-18 05:01

大数据与云计算之间的关系是怎样的？

例如，亚马逊的“ElasticMapReduce”演示了如何利用CloudElasticComputes的功能进行大数据处理。两者的结合为组织带来了有益的结果。

大数据基础入门教程·2023-08-17 17:48

Hadoop 面试总结

Hadoop架构Hadoop组成部分HDFS管理者:namenode工作者:DataNode辅助管理者:secondaryNameNodeMapReduceYARN管理者:ResourceManage工作者

君子何为·2023-08-17 11:42

Azkaban使用笔记

工作流调度系统：由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等。原始数据进来的处理步骤如下所示：1、通过Hadoop先将原始

小丸子爱吃虾·2023-08-17 04:17

mapreduce连接_外连接、左外连接、右外连接

外连接、左外连接、右外连接本例实现问题2：外连接、左外连接、右外连接问题描述：1、任意多个数据源的内连接输入有两个文件，一个名为factory的输入文件包含描述工厂名和其对应地址ID的表，另一个名为address的输入文件包含描述地址名和其ID的表格。请编写一个程序输出工厂名和其对应地址的名字。输入：输入有两个文件，第一个描述了工厂名和对应地址的ID，第二个输入文件描述了地址名和其ID。输出：输出

Charles__D·2023-08-17 03:55

大数据——Hive一文全知道

Hive是一款基于Hadoop的数据仓库工具，它将SQL语句转化为MapReduce任务运行，方便不熟悉MapReduce的用户也能够很好的利用HQL处理和计算HDFS上的数据。

AIGC人工智残·2023-08-17 00:06

OPPO 图数据库平台建设及业务落地

这意味着应用程序不必使用外键或带外处理（如MapReduce）来推断数据连接。与关系数据库或其他NoSQL数据库相比，图数据库的数据模型也更加简单，更具表现力。图数据库在社交网络、知识图谱、

·2023-08-16 17:48

Kylin

早期使用Hadoop的MapReduce计算模型，太慢了，只能做离线计算，无法做实时计算与迭代式计算。

_Levi__·2023-08-16 09:48

hive调优

1Fetch抓取（Hive可以避免进行MapReduce）Hive中对某些情况的查询可以不必使用MapReduce计算。

昌昌苦练背后·2023-08-15 19:55

Apache Doris 入门教程26：资源管理

为了节省Doris集群内的计算、存储资源，Doris需要引入一些其他外部资源来完成相关的工作，如Spark/GPU用于查询，HDFS/S3用于外部存储，Spark/MapReduce用于ETL,通过ODBC

sunjian286·2023-08-15 19:13

2018-04-09 数据仓库技能要求

mysql1.1.1mysql应用1.1.2mysqlsql优化1.2.非关系型数据库-Hive1.2.1.hivesql应用1.2.2Hivesql优化2ApacheHadoop基础2.1.Hadoop生态2.2MapReduce

dataMaster·2023-08-15 15:04

Python 3 使用Hadoop 3之MapReduce总结

MapReduce运行原理MapReduce简介MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。

在奋斗的大道·2023-08-15 11:58

Hadoop组件

Mapreduce（分布式计算框架）mapreduce是一种计算模型，用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间

叱咤少帅（少帅）·2023-08-15 08:20

大数据面试题全面总结（范围广超详细）

Hadoop面试题总结Hadoop面试题（一）Hadoop面试题总结（二）——HDFSHadoop面试题总结（三）——MapReduceHadoop面试题（四）——YARNHadoop面试题总结（五）—

蓦然_·2023-08-15 01:06

大数据面试题：介绍下Hadoop

2、说下Hadoop核心组件Hadoop自诞生以来，主要有Hadoop1.x、2.x、3.x三个系列多个版本；Hadoop1.x组成：HDFS（具有高可靠性、高吞吐量的分布式文件系统，用于数据存储），MapReduce

蓦然_·2023-08-15 01:06

基于MapReduce的Hive数据倾斜场景以及解决方案

文章目录1Hive数据倾斜的现象1.1Hive数据倾斜的场景1.2解决数据倾斜问题的排查思路2解决Hive数据倾斜问题的方法2.1开启负载均衡2.2引入随机性2.3使用MapJoin或BroadcastJoin2.4调整数据存储格式2.5分桶表、分区表2.6使用抽样数据进行优化2.7过滤倾斜join单独进行join1Hive数据倾斜的现象通常认为当所有的maptask全部完成，并且99%的redu

程序终结者·2023-08-14 22:14

Spark Streaming：通过Dstreams 或 DataFrames做流数据处理，结果写入ClickHouse或Hive表

最初它是作为替代Hadoop的MapReduce批处理框架而创建的，但现在它也支持SQL、机器学习和流处理。今天我们重点看看SparkStreaming，展示常用流处理的方式。

西土城计划·2023-08-14 19:04

左外连接Left-Outer-Join的基于SQL，MapReduce，sparkRDD，sparkDataFrame以及spark SQL的实现案例及对比

三、使用SQL实现左外连接：1.数据准备2.实现案例四、使用MapReduce实现左外连接：1.数据准备:2.案例及设计思路：3.运行代码：4.运行结果：五、使用SparkRDD的API进行左外连接1.

Ahaxian·2023-08-14 14:10

数据分析工具篇——MapReduce结构

IT农民工1·2023-08-14 14:39

【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3 MapReduce理论与动手实践

开始聊MapReduce，MapReduce是Hadoop的计算框架，我学Hadoop是从Hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。

weixin_33812433·2023-08-14 14:09

终于有一篇讲清楚了什么是Spark

使用简练、优雅的Scala语言编写，借鉴了mapreduce“计算向数据靠拢”的大数据计算优点，同时解决了mapreduce表达能力有限（计算都必须转化成map和reduce两个操作）、磁盘I/O开销大

penguin.AAA·2023-08-14 14:38

谁能讲清楚Spark之与MapReduce的对比

我们已经知道Spark是如何设计和实现数据处理流程的，这里我们再深入思考一下，为什么Spark能够替代MapReduce成为主流的大数据处理框架呢？对比MapReduce，Spark究竟有哪些优势？

数据咩·2023-08-14 14:08

资源调度框架YARN

1.YARN产生背景Hadoop1.x时：MapReduce1.x存在问题：单点故障&节点压力大不易扩展&不能支持除了MR以外的任务MapReduce：Master/Slave架构，一个JobTracker

何以畅闲情·2023-08-13 21:34

谁能讲清楚Spark之Spark系统架构

###整体架构概述Spark与HadoopMapReduce的结构类似，Spark也采用Master-Worker结构。

数据咩·2023-08-13 12:28

3万字史诗级 Hive 性能调优(建议收藏)

影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。

公众号:肉眼品世界·2023-08-13 10:29

Hadoop MapReduce 编写

KeyWords:Configruation,CombiingResources,VariableExpansion,dependency,package写MapReduce的套路，首先写map和reduce

Grits·2023-08-13 10:30

数据结构与算法-数组（附阿里面试题）

（例如hadoop的MapReduce的切开）-->

玛卡巴咖·2023-08-13 03:25

MapReduce任务报错：Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1

问题描述：之前写了一个读取RCFile的MapReduce任务，现在放到测试集群上报错了错误信息：Error:java.lang.IllegalArgumentException:UnrecognizedHadoopmajorversionnumber

ustbxyls·2023-08-12 16:34

ERROR:Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml这四个文件后，启动集群并运行wordcount样例程序hadoopjarshare/hadoop/mapreduce

程光CS·2023-08-12 15:24

Impala内存优化

Impala通过主节点生成执行计划树并分发执行计划至各节点并行执行的拉式获取数据的工作方式，替代了Hadoop中传统的MapReduce推式获取

香山上的麻雀·2023-08-12 13:30

Hadoop知识点总结

1.什么是Hadoop大数据处理的分布式系统2.Hadoop****生态圈三大核心：HDFS集群：分布式文件存储系统YARN集群：运算资源调度MapReduce分布式计算模型3.讲一下MapReduceMapReduce

longLiveData·2023-08-12 10:40

基于mapreduce的DBSCAN算法实现

东拼西凑拿mapreduce实现了下DBSCAN，很多地方其实并没有很并行，密度聚类确实不太适合用MR来实现，写都写了整理一下。

回炉重造P·2023-08-12 09:08

Hive On Tez

官方的部署方式是全局的部署，会影响到集群中其他的一些组件的使用经过各种尝试并做了一些配置修改，以下部署方式只用于hive不影响集群其他的MapReduce的使用，因为我这边的架构体系中有用到sqoop,

清风漾·2023-08-11 14:19

Hive on Tez

Tez的设计上有两点优势：1用户体验使用API来自定义数据流灵活的Input-Processor-Output运行模式与计算的数据类型无关简单的部署流程2计算性能性能高于MapReduce资源管理更加优化运行时配置预加载物理数据流动态运行

weixin_34211761·2023-08-11 14:17

Hive on Tez切换及性能对比

还有一些工作则不太适合MapReduce，例如机器学习。Tez的目的就是帮助Hadoop处

不搬砖的程序员不是好程序员·2023-08-11 14:17

推荐频道

Mapreduce