大数据计算-MapReduce 第11页

大数据技术原理与应用学习笔记（八）

再探讨Hadoop的优化与发展Hadoop1.0到Hadoop2.0不断完善的Hadoop生态系统HDFS2.0新特性HDFSHA（高可用性）HDFSFederationYARN——新一代资源管理调度框架MapReduce1.0

Ragnaros the Firelord·2024-01-09 22:46

机器学习分布式架构

https://zhuanlan.zhihu.com/p/82116922https://zhuanlan.zhihu.com/p/81784947大数据架构1.批处理MapReduce无法应对实时不确定量的小样本处理

小幸运Q·2024-01-09 17:27

[超超超超超超详细] Linux Centos7搭建Hadoop集群及运行MapReduce分布式集群

版本：Centos7Hadoop3.2.0JDK1.8虚拟机信息：内存3.2G处理器2*2内存50GISO：Centos-7-x86_64-DVD-2009一、在虚拟机上搭建LinuxCentos7略二、选择root登录并管理防火墙systemctlstopdirewalld#关闭防火墙systemctldisablefirewalld#关闭开机自启systemctlstatusfirewalld

没事多学习_Qi·2024-01-09 17:38

基于spark的Hive2Pg数据同步组件

同时sqoop的mapreduce任务对数据表的分割以及数据文件也会有一定的不均衡性。为了弥补这些问题，开发了基于

zcc_0015·2024-01-09 15:53

Hive基础知识（一）：Hive入门与Hive架构原理

2）Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS（2）Hive分析数据底层的实现是MapReduce（3）执行程序运行在Yarn上2.Hive的

依晴无旧·2024-01-09 13:25

Hive基础知识笔记（含MySQL metastore伪分布式安装配置流程）

可以将结构化的数据文件映射成一张数据库表，将类SQL语句转换为MapReduce任务运行，几行查询语句

书忆江南·2024-01-09 13:52

Hive基础知识

2）其本质是将SQL语句转换为MapReduce/Spark程序进行运算，底层数据由HDFS分布式文件系统进行存储。3）可以理解Hive就是MapReduce/SparkSql的客户端。

巷子里的猫X·2024-01-09 13:52

Hive 基础知识

Hive是封装了MapReduce的操作，让用户可以通过写sql语句的方式，实现MapReduce操作。Hive基于一个统一的查询分析层，通过SQL语句的方式对HDFS上的数据进行查询、统计和分析。

辰阳星宇·2024-01-09 13:22

基于hadoop的hive数据仓库基础操作知识整理

Hive本质：将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上1.2Hive的优

大包丫·2024-01-09 13:51

阿里云大数据ACA及ACP复习题（81~100)

（B）A:大数据计算服务MaxComputeB:QuickBI数据可视化分析平台C:实时计算Flink版D:云原生数据仓库（分析型数据库）AnalyticDB**解析**：阿里云实时计算Flink版（AlibabaCloudRealtimeComputeforApacheFlink

周周的奇妙编程·2024-01-09 08:20

MapReduce 初级编程实践

（一）编程实现文件合并和去重操作**对于两个输入文件，即文件A和文件B，请编写MapReduce程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件C。

cwn_·2024-01-09 06:20

Hive基本操作

Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个

X晓·2024-01-09 06:45

『HDFS』伪分布式Hadoop集群

博客引流本文是『Hadoop』MapReduce处理日志log(单机版)的旭文,maybe还有后续在搭建环境的时候发现很难搜到合适的教程，所以这篇应该会有一定受众伪分布式就是假分布式，假在哪里，假就假在他只有一台机器而不是多台机器来完成一个任务

gunjianpan·2024-01-09 04:31

hadoop/etc/hadoop 下没有mapred-site.xml，只有mapred.xml.template

默认情况下，/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件，我们要复制该文件，并命名为mapred.xml，该文件用于指定MapReduce

比特小怪兽·2024-01-08 19:34

大数据技术期末复习第七章——MapReduce练习

A、Map函数将输入的元素转换成形式的键值对B、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写C、不同的Map任务之间不能互相通信D、MapReduce框架采用了Master

锦鲤儿·2024-01-08 12:01

大数据 Yarn - 资源调度框架

Hadoop主要是由三部分组成，除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce，还有一个是分布式集群资源调度框架Yarn。

善守的大龙猫·2024-01-08 10:48

《深入理解Hadoop（原书第2版）》——2.4 Hadoop 2.0

2.4Hadoop2.0MapReduce已经进行了全新升级，即Hadoop2.0，升级后的版

weixin_34174322·2024-01-08 08:44

Spark基础知识

1.1定义ApacheSpark是用于大数据处理的统一分析引擎;1.2Spark与MapReduce对比MapReduce的主要缺点:①MapReduce是基于进程进行数据处理,进程相对与线程来说,创造和销毁的过程比较耗费资源

MSJ3917·2024-01-08 07:21

Hadoop精选18道面试题(附回答思路)

YARN将MapReduce1.0中的资源管理调度功能分离出来形成了YARN，一个纯粹的资源任务管理调度框架，避免了内存受限问题。2.简述HDFSHadoop分布式文件

Byyyi耀·2024-01-08 06:00

Spark基础内容

Spark基本介绍Spark是什么定义ApacheSpark是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎.Spark与MapReduce对比mapreduce架构图如下

小希 fighting·2024-01-08 02:39

Hive内容分享(三)：Hive 架构思想和设计原理

目录前言HiveHive的架构MapReduce实现SQL的原理Hive如何实现join操作Hive命令说明Hive函数使用尾声前言今天为大家推荐的是梦想家的Hive架构思想和设计原理,希望对大家有启发

之乎者也··2024-01-07 23:25

Hive元数据迁移及升级方案

Hive是基于Hadoop之上的数仓，便于用户可以基于SQL（HiveQL）进行数据分析，其架构图如下:从上图可知，Hive主要用来将建立结构化数据库和后端分布式结构化文件的映射，以及把SQL语句转换为MapReduce

云原生大数据·2024-01-07 22:49

Hive入门

Hive产生的原因：非Java编程者可通过sql语句对HDFS的数据做mapreduce操作。

爱过java·2024-01-07 17:04

HIve技术详解（一）

第1章Hive基本概念1.1Hive1.1.1Hive的产生背景在那一年的大数据开源社区，我们有了HDFS来存储海量数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度

molecule_jp·2024-01-07 17:34

MongoDB聚合操作

聚合操作包含三类：单一作用聚合、聚合管道、MapReduce。单一作用聚合提供了对常见聚合过程的简单访问，操作都从单个集合聚合文档。

Firechou·2024-01-07 16:35

Teradata数据库和Informatica ETL逻辑及视图、用户定义函数和存储过程迁移到AWS的Hive数据仓库基本流程

首先，我们需要注册AWS帐号，并启用EC2（ElasticCloudComputing，高性能云计算）、EMR（ElasticMap-Reduce，高性能大数据计算）、Redshift/Snowflake

weixin_30777913·2024-01-07 10:12

Spark五：Spark的两种核心Shuffle

Shuffle在MapReduce框架中，Shuffle阶段是链接Map和Reduce之间的桥梁，Map阶段通过Shuffle过程将数据输出到Reduce阶段中。

eight_Jessen·2024-01-07 07:38

个人笔记：分布式大数据技术原理（二）构建在 Hadoop 框架之上的 Hive 与 Impala

有了MapReduce，Tez和Spark之后，程序员发现，MapReduce的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言，虽然你几乎什么都能干了，但是你还是觉得繁琐。

garagong·2024-01-07 07:16

基于Hadoop的豆瓣电影数据分析

我们可以使用Python编写MapReduce程序，将数据集转换为Hadoop可处

数据科学探险导航·2024-01-07 05:07

大作业（一）

实验目的与要求：目的：采用语言的特性来解决计算机工程问题，包括结构的设计与应用、递归和迭代的设计与应用、mapreduce的设计与应用等实验。

Xindolia_Ring·2024-01-07 02:31

Hive的基本的概述即使用参考

1.Hive的概述√意义：在于大幅度降低工程师学习MapReduce的学习成本，让好用（计算速度快）的MapReduce更方便的使用（使用简单）√基本概念：Hive是基于Hadoop的一个数据仓库工具，

C8H11O2N_4cd4·2024-01-07 02:29

《Hive系列》Hive详细入门教程

Hive本质将HSQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层实现的是MR执行程序运行在Yarn上1.2Hive的优缺点1.2.1

DATA数据猿·2024-01-06 17:55

YARN（一）-- 产生原因及概述

本文内容如下：介绍为什么会产生YARN（同时介绍原MapReduce框架的不足）YARN的基本原理首先说一下YARN是什么吧：ApacheHadoopYARN(YetAnotherResourceNegotiator

小北觅·2024-01-06 17:54

高可用分布式部署Spark、完整详细部署教程

Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark

一座野山·2024-01-06 16:15

Hbae批量装载(Bulk Loading)

最直接的方式即可以通过MapReduce任务，也可以通过普通客户端API。但是这都不是高效方法。

明明德撩码·2024-01-06 10:24

Spark概述

Spark概述Spark是什么ApacheSpark是一个快速的，多用途的集群计算系统，相对于HadoopMapReduce将中间结果保存在磁盘中，Spark使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行运算

我像影子一样·2024-01-06 09:38

Apache Paimon:Streaming Lakehouse is Coming

本文整理自阿里云智能开源表存储负责人，FounderofPaimon，FlinkPMC成员李劲松（花名：之信）、同程旅行大数据专家，ApacheHudi&PaimonContributor吴祥平、汽车之家大数据计算平台负责人邸星星

Apache Flink·2024-01-06 08:15

MR实战：网址去重

howard2005·2024-01-06 06:09

StreamPark + PiflowX 打造新一代大数据计算处理平台

什么是PiflowXPiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性：简单易用：可视化配置流水线，实时监控流水线运行状态，查看日志；功能强大：提供100+的数据处理组件，包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCa

暗影八度·2024-01-06 05:47

用于查询性能预测的计划结构深度神经网络模型--大数据计算基础大作业

用于查询性能预测的计划结构深度神经网络模型论文阅读和复现24.【X=1.1】在关系数据库查询优化领域，对查询时间的估计准确性直接决定了查询优化结果，进而影响到数据库整体的查询效率。但由于数据库自身的复杂性，查询时间受到数据分布、数据库负载、索引结构、数据库配置等多方面的影响，难以进行准确预测。近年来，随着AI算法的兴起，有研究者尝试使用AI模型对查询的时间进行预测并取得了一定成果。请阅读论文Pla

旅僧·2024-01-05 23:29

大数据 HDFS-存储的王者

如果我们将大数据计算比作烹饪，那么数据就是食材，而Hadoop分布式文件系统HDFS就是烧菜

善守的大龙猫·2024-01-05 21:48

大数据 MapReduce是什么？

很显然，这样的系统无法复用到其他的大数据计算场景，每一种应用都需要开发与维护专门的系统。而HadoopMapReduce的出现，使得大数据计算通用编程成为可能。

善守的大龙猫·2024-01-05 21:47

MR实战：词频统计

howard2005·2024-01-05 19:01

Pentaho Kettle 6.1连接CDH5.4.0集群

最近把之前写的HadoopMapReduce程序又总结了下，发现很多逻辑基本都是大致相同的，于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作

香山上的麻雀·2024-01-05 16:43

MapReduce2深入浅析

一、MapReduce2工作机制1.1、MapReduce2的架构图MapReduce2工作机制.png1.2、MapReduce2运作步骤说在前头的话，上图中有一个ResoureceManager，这是一个资源调度器

愤怒的谜团·2024-01-05 13:37

Spark内核解析-Spark shuffle6(六)

1、SparkShuffle过程1.1MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。

有语忆语·2024-01-05 10:35

02 mongodb聚合操作

聚合操作包含三类：单一作用聚合、聚合管道、MapReduce。单一作用聚合：提供了对常见聚合过程的简单访问，操作都从单个集合聚合文档。聚合管道是一个数据聚合的框架，模型基于数据处理流水线的概念。

gus去看海·2024-01-05 10:51

【大数据】Spark学习笔记

初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型

pass night·2024-01-05 09:16

大数据高级开发工程师——Hadoop学习笔记（4）

文章目录Hadoop进阶篇MapReduce：Hadoop分布式并行计算框架MapReduce的理解MapReduce的核心思想MapReduce编程模型MapReduce编程指导思想【八大步骤】Map

讲文明的喜羊羊拒绝pua·2024-01-05 08:20

大数据开发学习资料汇总

HadoopHadoop权威指南Hadoop权威指南修订Hadoop实战Hadoop实战_2Hadoop源码分析大数据处理系统：Hadoop源代码情景分析Hadoop开发者入门专刊Hadoop技术内幕：深入解析MapReduce

比屋大数据·2024-01-05 08:44

推荐频道

大数据计算-MapReduce