大数据计算-MapReduce 第42页

Hadoop的shuffle过程及调优

MapReduce中的Shuffle发生在map输出到reduce输入的过程，它的中文解释是“洗牌”，顾名思义该过程涉及数据的重新分配，主要分为两部分：map任务输出的数据分组、排序，写入本地磁盘。

RainTicking·2023-06-18 06:30

阿里云EMR自定义日志投递与使用实践分享

1►引言：开源大数据平台E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks

Apache Spark中国社区·2023-06-18 05:42

Spark从入门到精通31:Spark SQL：Hive On Spark

其底层默认是基于MapReduce实现的，但是由于MapReduce速度实在比较慢，因此这两年，陆续出来了新的SQL查询引擎。包括SparkSQL，HiveOnTez，HiveOnSpark等。

勇于自信·2023-06-17 23:24

【Hadoop综合实践】手机卖场大数据综合项目分析

本文章实现了基于MapReduce的手机浏览日志分析文章简介：主要包含了数据生成部分，数据处理部分，数据存储部分与数据可视化部分【本文仅供参考！！

大数据小禅·2023-06-17 18:46

MongoDB聚合操作-02

聚合操作包含三类：单一作用聚合、聚合管道、MapReduce。单一作用聚合：提供了对常见聚合过程的简单访问，操作都从单个集合聚合文档。聚合管道是一个数据聚合的框架，模型基于数据处理流水线的概念。

孤单品尝寂寞·2023-06-17 16:01

Hive学习

Hive查询操作过程严格遵守HadoopMapReduce的作业执行模型，Hive将用户的HiveQL语句通过解释器转换为提交到Hadoop集群上，Had

明月清风，良宵美酒·2023-06-17 11:36

MapReduce将HDFS数据清洗到多个Hbase表中

最近一直在对历史数据进行清洗，原始数据是纯数据格式，现在要清洗到hbase中，方便后期跟hive进行整合查询。。可能现在基本上都使用spark来做清洗了，但是如果受机器本身硬件条件的限制的话，就没法子了，spark根本跑不动，哎，还是老老实实的写MR吧。。话不多说，直接上代码。importcom.gey.hbase.helper.HBaseHelper;importorg.apache.hadoo

LearnBigData·2023-06-17 09:23

[Hadoop实现Springboot之HDFS数据查询和插入 ]

例如，使用HDFS的FileSystemAPI来读取和写入文件，使用MapReduce来处理数

是汤圆丫·2023-06-17 09:35

分布式安装配置spark-3.2.3

Spark是一个基于内存的大数据计算框架，可以与Hadoop集成，提供更快速的数据处理能力。本文将介绍如何在三个Ubuntu系统上搭建一个Spark集群。

runepic·2023-06-17 08:58

Hue:Hadoop 图形化用户界面

特性：一个HDFS的文件浏览器，一个MapReduce/YARN的Job浏览器，一个HBas的浏览器，Hive，Pig，ClouderaImpala和Sqoop2的查询编辑器。

victory0508·2023-06-17 06:07

从搭建hadoop开始学习大数据中分而治之的MapReduce(伪集群模式)

环境准备首先需要将如下四个必要的文件下载到计算机（已经附上了下载地址，点击即可下载）。VmwareWorkstation17.x【官方的下载地址】CentOS-7-x86_64-Minimal-2009【阿里云镜像站下载地址】openjdk-8u41-b04-linux-x64-14_jan_2020【开源下载地址】安装CentOS7在安装了VmwareWorkstation17后，接下来就可开始

程序小增·2023-06-17 05:59

大数据学习之Hadoop——07MapReduce相关练习01(wordCount + topN)

欢迎关注我的CSDN:https://blog.csdn.net/bingque65351.编写WordCountDriver端packagecom.hjf.mr.wordcount;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.

Jiang锋时刻·2023-06-17 04:30

基于docker的Hadoop集群下实现最小生成树的mapreduce程序

01.技术背景在本文中，将为读者详细介绍如下内容：如何部署基于docker的hadoop开发环境mapreduce的基本开发流程与基本知识java开发的一些基本知识最小生成树算法相关的知识。

奋羊羊·2023-06-17 01:48

Spark高频面试题(建议收藏)

它内部的组成模块，包含SparkCore，SparkSQL，SparkStreaming，SparkMLlib，SparkGraghx等...它的特点：快Spark计算速度是MapReduce计算速度的

无精疯·2023-06-16 22:12

【Hadoop】 | 搭建HA之报错锦集

的active结点无法主备切换三、HadoopWeb端无法上传文件四、hdfs创建文件夹报错五、IDEA操作Hdfs无法初始化集群六、Java无法连接Hdfs七、找不到Hadoop家目录八、IDEA对MapReduce

初心%·2023-06-16 20:22

Java-Spark系列1-spark概述

文章目录一.大数据技术栈二.Spark概述2.1MapReduce框架局限性2.2Hadoop生态圈中的各种框架2.3Spark2.3.1Spark的优势2.3.2Spark特点2.3.3SPRAK2新特性一

只是甲·2023-06-16 18:14

大数据hadoop生态体系之MapReduce词频统计案例(12)

MapReduce实现词频统计案例：1>定义WordMapper类继承Mapper类，重新map方法，用于读取每行数据Mapper父类参数说明：args1LoginWritable:表示每次读取文件块的一行所指的长度偏移量

welun·2023-06-16 15:29

大数据技术之Hadoop（Yarn）

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

猫腻余腥·2023-06-16 14:29

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于

·2023-06-16 14:56

分布式任务调度系列 - PowerJob

执行模式丰富：支持单机、广播、Map、MapReduce四种执行模式，其中Ma

代码的知行者·2023-06-16 13:02

Hadoop配置之开启不了 8088、19888端口

8088端口（一般）对应Hadoop集群监控的ResourceManager19888端口（一般）对应MapReduceJobHistoryServer问题描述：分别执行start-dfs.shstart-yarn.shmr-jobhistory-damon.sh

飞花落雨·2023-06-16 12:54

hadoop、hive、hbase的关系

hadoop它是一个分布式计算+分布式文件系统，前者其实就是MapReduce，后者是HDFS。

mengml_smile·2023-06-16 12:49

Spark

简介高效性基于内存Spark比MapReduce快100倍易用性函数式编程代码体积小通用性用于批处理、交互式查询（SparkSQL）、实时流处理（SparkStreaming）、机器学习（SparkMLlib

mengml_smile·2023-06-16 12:46

大数据学习记录（hadoop hive flume azkaban sqoop）

大数据学习记录（hadoophiveflumeazkabansqoop）1.hadoop对海量数据进行分布式处理2.核心组件：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE

左上晨·2023-06-16 10:58

【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...

主要内容：框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、MapReduce的计算能力测试)(1)测试内容：文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题

哥们要飞·2023-06-16 10:57

Spark——（Spark简介，Spark 与 Hadoop，Spark系统架构）

Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流；与MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。

想做CTO的任同学...·2023-06-16 06:44

Spark基础入门

---针对大规模数据处理的统一分析引擎补充：spark是基于hadoop基础之上的改进，不同于mapreduce的是Jo

我家浪猫初长成·2023-06-16 03:00

Hive调优

1、Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。

码戈·2023-06-16 01:13

大数据技术之Hadoop（MapReduce）

大数据技术之Hadoop（MapReduce）第1章MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架

猫腻余腥·2023-06-15 21:12

hadoop(mapreduce) shuffle

但是在说spark之前还是很有必要把mapreduce的shuffle过程理一遍，以做对比。

loukey_j·2023-06-15 20:11

Hive_MBY_GJF

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

炳烛之明科技·2023-06-15 20:51

数仓架构“瘦身”，Hologres 5000CU时免费试用

基于创新的HSAP架构，可以将您原先数仓架构中的OLAP系统（Greenplum、Presto、Impala、ClickHouse）、KV数据库/Serving系统（HBase、Redis）统一在一个大数据计算引擎中

阿里云大数据AI技术·2023-06-15 19:41

数仓架构“瘦身”，Hologres 5000CU时免费试用

基于创新的HSAP架构，可以将您原先数仓架构中的OLAP系统（Greenplum、Presto、Impala、ClickHouse）、KV数据库/Serving系统（HBase、Redis）统一在一个大数据计算引擎中

·2023-06-15 15:50

大数据概述

大数据概述大数据时代第三次信息化浪潮信息科技为大数据时代提供技术支撑数据产生方式的变革促成大数据时代的来临大数据的发展历程大数据概念数据量大数据类型繁多处理速度快价值密度低大数据的影响大数据的应用大数据关键技术大数据的采集导入/预处理统计与分析大数据挖掘两大核心技术大数据计算模式大数据产业大数据与云计算

so.far_away·2023-06-15 14:34

mapreduce异常分析：mr.MapredLocalTask: I/O error in redirector thread

分析执行日志，发现更新数据时，出现了mapreduce异常：2023-05-2702:06:13Startingtolaunchlocaltaskto

邢为栋·2023-06-15 13:34

Hive面试题十道

Hive将结构化数据映射到Hadoop的分布式文件系统（HDFS）上，并通过MapReduce任务执行查询操作。问题2：Hive的主要特性是什么？

MIDSUMMER_yy·2023-06-15 13:31

一百二十五、Hive——hive性能优化

性能优化的参数设置一、hive性能优化sethive.vectorized.execution.enabled=false;sethive.auto.convert.join=false;--map阶段内存不足setmapreduce.map.memory.mb

天地风雷水火山泽·2023-06-15 13:00

基于MapReduce实现的Kmeans算法(非调库)

简单基于MapReduce实现了下KMeans。算法思路KMeans算法作为一种划分式的聚类算法，利用MapReduce进行实现的主要难点在于满足KMeans每次迭代划分过程的中间结果保存。

回炉重造P·2023-06-15 13:18

Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存

数据进行查询过程中，如果遇到非常复杂的sql，查询效率是非常慢比如：selectdt,count(*)fromtablegroupbydt做过数据开发的同学都知道，在hivesql查询过程中，hive会被转换为MapReduce

诸葛子房_·2023-06-15 12:59

Hadoop（CentOS）安装及MapReduce实现数据去重

Hadoop（CentOS）安装及MapReduce实现数据去重1.JDK安装1.1资源下载：下载地址：https://pan.quark.cn/s/17d7266205f9hadoop的安装包javajdk

拼搏的小浣熊·2023-06-15 12:28

Hive概念

本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS中，数据库将数据保存在块设备或者本地文件系统中。

小迷糊>_<·2023-06-15 11:18

Hive 概念与安装

本质是：将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上2.hive的优缺点优点操作接口采用类SQL语法，提供快速开发的能力

wtzhm·2023-06-15 11:18

大数据技术之Hive：Hive基本概念

本质是：将HQL转化成MapReduce程序；1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上二、Hive的优缺点优点1)操作接口采用类

浊酒南街·2023-06-15 11:48

数据仓库工具Hive概念

文章目录Hive的产生背景及概念Hive将SQL转换为MR任务的过程数据仓库的概念Hive与RDBMS区别Hive的优缺点Hive架构Hive的产生背景及概念Hive的产生背景在Hadoop中直接使用MapReduce

想做CTO的任同学...·2023-06-15 11:17

MapReduce编程

Hadoop的MapReduce计算框架概述MapReduce计算框架是一种计算框架，用于计算处理大规模的数据集，他将数据分成小块，然后在集群中的多个节点上并行处理这些块MapReduce框架是由两个组件组成

陆卿之·2023-06-15 11:17

HIVE概念&组件&交互方式&架构

Hive概念基于Hadoop的数据仓库工具主要是将结构化的数据文件映射为数据库表，提供类sql功能本质是将SQL转换为mapreduce程序1、将结构化文件和数据库表建立映射关系2、将文件列和数据库表列建立映射关系

Neighbor_L·2023-06-15 11:46

Hive的概念

Hive概述Hive是一个基于Hadoop的数据仓库系统，它提供了类似与SQL的查询语言HiveQL,可以将结构化数据存储在Hadoop分布式文件系统中，并通过MapReduce进行过处理。

陆卿之·2023-06-15 11:15

Hadoop中MapReduce的执行顺序

Hadoop中MapReduce的执行顺序如下：InputSplit（输入拆分）MapReduce将文件拆分成多个块，并将其分配给不同的Mapper任务进行处理。

老人笔记·2023-06-15 07:26

MapReduce基础

函数式编程概念MapReduce程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了（

小小哭包·2023-06-15 01:14

HBase集群部署

HBase的运行依赖于Hadoop和ZooKeeper，HBase利用HDFS作为其文件存储系统；利用MapReduce处理HBase中的数据；利用ZooKeeper作为分布式应用程序协调服务，同时存储

想你依然心痛·2023-06-14 23:17

推荐频道

大数据计算-MapReduce

Hadoop的shuffle过程及调优

阿里云EMR自定义日志投递与使用实践分享

Spark从入门到精通31:Spark SQL：Hive On Spark

【Hadoop综合实践】手机卖场大数据综合项目分析

MongoDB聚合操作-02

Hive学习

MapReduce将HDFS数据清洗到多个Hbase表中

[Hadoop实现Springboot之HDFS数据查询和插入 ]

分布式安装配置spark-3.2.3

Hue:Hadoop 图形化用户界面

从搭建hadoop开始学习大数据中分而治之的MapReduce(伪集群模式)

大数据学习之Hadoop——07MapReduce相关练习01(wordCount + topN)

基于docker的Hadoop集群下实现最小生成树的mapreduce程序

Spark高频面试题(建议收藏)

【Hadoop】 | 搭建HA之报错锦集

Java-Spark系列1-spark概述

大数据hadoop生态体系之MapReduce词频统计案例(12)

大数据技术之Hadoop（Yarn）

Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享

分布式任务调度系列 - PowerJob

Hadoop配置之 开启不了 8088、19888端口

hadoop、hive、hbase的关系

Spark

大数据学习记录（hadoop hive flume azkaban sqoop）

【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...

Spark——（Spark简介，Spark 与 Hadoop，Spark系统架构）

Spark基础入门

Hive调优

大数据技术之Hadoop（MapReduce）

hadoop(mapreduce) shuffle

Hive_MBY_GJF

数仓架构“瘦身”，Hologres 5000CU时免费试用

数仓架构“瘦身”，Hologres 5000CU时免费试用

大数据概述

mapreduce异常分析：mr.MapredLocalTask: I/O error in redirector thread

Hive面试题十道

一百二十五、Hive——hive性能优化

基于MapReduce实现的Kmeans算法(非调库)

Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存

Hadoop（CentOS）安装及MapReduce实现数据去重

Hive概念

Hive 概念与安装

大数据技术之Hive：Hive基本概念

数据仓库工具Hive概念

MapReduce编程

HIVE概念&组件&交互方式&架构

Hive的概念

Hadoop中MapReduce的执行顺序

MapReduce基础

HBase集群部署

Hadoop配置之开启不了 8088、19888端口