大数据Hadoop

MapReduce01：基本原理和wordCount代码实现

本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。

冬至喵喵·2025-07-03 08:35

大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术

大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术【下载地址】大数据HadoopHBaseSparkHive集群搭建教程七月在线1本资源文件提供了关于如何搭建大数据集群的详细教程

贾诺翼·2025-04-15 06:01

大数据Hadoop集群运行程序

目录1运行自带的MapReduce程序2常见错误1运行自带的MapReduce程序下面我们在Hadoop集群上运行一个MapReduce程序，以帮助读者对分布式计算有个基本印象。在安装Hadoop时，系统给用户提供了一些MapReduce示例程序，其中有一个典型的用于计算圆周率的Java程序包，现在运行该程序。该jar包文件的位置和文件名是“~/hadoop-3.1.0/share/Hadoop/

赵广陆·2025-03-08 08:37

浅析大数据Hadoop之YARN架构

1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H

haotian1685·2024-09-09 22:26

Datax ETL工具源码研究

Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：

Spring1985·2024-02-13 01:57

java大数据hadoop2.9.2 hive操作

1、创建常规数据库表（1）创建表createtablet_stu2(idint,namestring,hobbymap)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'-'mapkeysterminatedby':';（2）创建文件student.txt1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般

crud-boy·2024-02-09 21:24

java大数据hadoop2.9.2 Flume安装&操作

1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl

crud-boy·2024-02-09 21:54

大数据Hadoop生态圈技术之浅析PageRank计算原理

一、什么是PageRank？——PageRank是Google提出的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。——是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的——PageRank实现了将链接价值概念作为排名因素。二、计算环境——Hadoop-2.5.2——四台主机——两台NN的HA——两台RM的HA——离线计算框架MapReduce三、计算原理（1）思考

A尚学堂Nancy老师·2024-02-09 10:23

HDFS执行balance报错：hdfs balance java.io.IOException: Another Balancer is running.. Exiting

现象：1、大数据Hadoop集群，HDFS扩容后，为了使各节点数据均衡，执行balance操作。2、启动hdfsbalance时，一直出现其他的balance在执行中，其实并没有执行。

不会吐丝的蜘蛛侠。·2024-02-08 08:29

大数据Hadoop/Hive学习笔记一（基础概念）

大数据Hadoop/Hive学习笔记一（基础概念）一，概念介绍：大数据：大数据一般用来描述一种数量庞大，复杂的数据集，传统数据处理应用程序难以应对。

lucky_myj·2024-01-25 09:46

java大数据hadoop2.9.2 Linux安装mariadb和hive

一、安装mariadb版本centos71、检查Linux服务器是否已安装mariadbyumlistinstalledmariadb*2、如果安装了，想要卸载yumremovemariadbrm-rf/etc/my.cnfrm-rf/var/lib/mysql才能完全删除3、安装mariadb在线网络安装yuminstall-ymariadb-server开启服务systemctlstartma

crud-boy·2024-01-22 14:26

大数据Hadoop入门——HDFS分布式文件系统基础

HDFS总结在现代的企业环境中，海量数据超过单台物理计算机的存储能力，分布式文件系统应运而生，对数据分区存储于若干物理主机，管理网络中跨多台计算机存储的文件系统。HDFS只是分布式文件管理系统中的一种。HDFS命令基础语法：【hadoopfs具体命令、hdfsdfs具体命令】两个是完全相同的。显示文件列表#hdfsdfs-lsURL创建目录#hdfsdfs-mkdir[-p]URL使用-p参数可以

nucty·2024-01-20 16:00

java大数据hadoop2.92安装伪分布式文件系统

ApacheHadoop3.3.6–Hadoop:SettingupaSingleNodeCluster.1、解压缩到某个路径/usr/local/hadoop2、修改配置文件/usr/local/hadoop/etc/hadoop/hadoop-env.shexportJAVA_HOME=/usr/local/javajdk3、修改配置文件/usr/local/hadoop/etc/hadoop

crud-boy·2024-01-15 06:29

Java大数据hadoop2.9.2搭建伪分布式yarn资源管理器

1、修改配置文件cd/usr/local/hadoop/etc/hadoopcp./mapred-site.xml.template./mapred-site.xmlvimapred-site.xmlmapreduce.framework.nameyarnviyarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffle2、重新启动hadoo

crud-boy·2024-01-15 06:29

java大数据hadoop2.92 Java连接操作

1、要想Java可以连接自己虚拟机的hadoop文件系统，需要给文件系统权限（1）需要在/usr/local/hadoop/etc/hadoop/core-site.xmlcore-site.xml文件配置具体ipfs.defaultFShdfs://ip:9000（2）文件权限hdfsdfs-chmod-R777/2、maven依赖org.apache.hadoophadoop-common2.

crud-boy·2024-01-15 06:29

java大数据hadoop2.9.2 Java编写Hadoop分析平均成绩

1、准备文件，例如score.txt，内容如下：zsk188lsk198wwk178zsk288lsk298wwk278zsk388lsk398wwk3782、创建maven项目org.apache.hadoophadoop-common2.9.2org.apache.hadoophadoop-client${hadoop.version}org.apache.hadoophadoop-hdfs$

crud-boy·2024-01-15 06:23

大数据Hadoop3.0更新，到底改进了哪些新的特性呢

截止到目前，大数据hadoop已经更新到了3.0版本，那么相比较之前的版本，3.0到底在哪些方面做出了新的改变呢？到底做了哪些重大的改进呢？

尚学先生·2024-01-14 11:21

第一章大数据Hadoop学习笔记(一）

一、存储单位按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。一般TB、PB、EB为单位的数据为大数据。1Byte=8bit1K=1024Byte1MB=1024K1G=1024M1T=1024G1P=1024T二、大数据主要解决海量数据的采集、存储和分析计算问题。三、大数据特点(4V)Volume(大量)、Velocity(高速)、Var

Thanks.·2024-01-09 22:17

大数据Hadoop入门学习线路图

Hadoop是系统学习大数据的必会知识之一，Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的。YARN是一种新的Hadoop资源管理器，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如何入门Hadoop学习，不妨

千_锋小小千·2024-01-03 19:12

sqoop的导入命令详解

sqoop的背景sqoop是一个配合大数据hadoop做数据底层的导入导出操作，需要配合hive及分布式文件系统（hdfs或blob）一起使用，在大数据ETL应用领域，sqoop占据主流。

夜空痕·2023-12-31 13:55

YARN知识点总结

如果把大数据Hadoop集群当作一台计算机,那么HDFS=磁盘YARN=任务调度器+资源管理器所有任务都是运行在Yarn上Yarn分为两个大的模块:ResourceManagerNodeManagerResourceManager

飞有飞言·2023-12-26 23:16

大数据Hadoop分布式文件系统HDFS的两类节点NameNode和DataNode

HDFS集群有两类节点，并以管理者-工作者模式运行，即一个NameNode(管理者)和多个DataNode(工作者)。HDFS官方架构图一、NameNode（NN）——基于内存存储：不会和磁盘发生交换·只存在内存中·持久化——NameNode主要功能·接受客户端的读写服务·收集DataNode汇报的Block列表信息——NameNode保存metadata信息包括·文件owership和permi

A尚学堂Nancy老师·2023-12-06 15:56

大数据Hadoop集群的启动

目录1启动准备工作1.1配置操作系统的环境变量1.2创建Hadoop数据目录1.3格式化文件系统1.4启动和关闭Hadoop1.5验证Hadoop是否成功启动1.6hadoop-daemon.sh的使用2HDFS常用的操作命令3hdfs的高级使用命令3.1HDFS文件限额配置3.2数量限额3.3空间大小限额3.4HDFS的管理命令3.5hdfs的安全模式想学习架构师构建流程请跳转：Java架构师系

赵广陆·2023-12-05 08:13

大数据Hadoop技术的发展历史与未来前景

大数据概念火了又火，但是好多人对大数据的概念却一知半解，今天主要来细说下Hadoop：1.Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构2）主要解决，海量数据的存储和海量数据的分析问题。3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈2.Hadoop发展历史1）Lucene–DougCutting开创的开源软件，用java书写代码，

人工智能和大数据时代·2023-12-03 14:04

Hyper-v虚拟机Hadoop集群搭建

大数据Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。

真.电脑人·2023-11-30 16:16

【大数据学习笔记-1】大数据hadoop平台基本组件

Hadoop是一个由Apache基金会所开发的分布式计算和存储架构。说人话的通俗描述：你在爱奇艺网站看过一次科幻片后，下次再登录爱奇艺，首页会把最新科幻动作片推送给你，目的是要向你多收点会员费。这背后的技术就是叫大数据的技术来自动判断你好什么口味的电影。行业描述：开源的分布式存储和计算框架，广泛用户海量数据的存储和处理，比如淘宝网的商品推送，爱奇艺视频的首页电影推送。Hadoop的主要组件：htt

工匠小能手·2023-11-30 15:19

【大数据Hadoop】HDFS-Namenode-format格式化的源码步骤分析

Namenodeformat流程格式化命令源码解读初始化操作格式化操作本地写VERSION文件JournalManager的格式化持久化FsImage文件流程根据配置项获取nameserviceId、namenodeId判断配置项dfs.namenode.support.allow.format是否允许格式化，一般生产环境建议配置，防止误操作格式化了已有数据。获取格式化的目录（fsImage和ed

笑起来贼好看·2023-11-30 10:30

大数据Hadoop-HDFS_架构、读写流程

大数据Hadoop-HDFS基本系统架构HDFS架构包含三个部分：NameNode，DataNode，Client。NameNode：NameNode用于存储、生成文件系统的元数据。运行一个实例。

大沙头三马路·2023-11-30 09:48

大数据Hadoop-HDFS_元数据持久化

大数据Hadoop-HDFS_元数据持久化（1）在HDFS第一次格式化后，NameNode（即图中的主NameNode）就会生成fsimage和editslog两个文件；（2）备用NameNode（即图中的备

大沙头三马路·2023-11-30 09:14

大数据课程结构

1、第一阶段javaSE基础阶段-张一峰2、第二阶段-JavaWeb+数据库阶段-张3、第三阶段-大数据分布式架构-张一峰4、第四阶段-大数据Hadoop实战-张一峰5、第五阶段-大数据spark实战-

张一峰·2023-11-19 16:31

大数据hadoop hdfs 基础环境搭建

1.需要5个软件，virtualBox，centos，hadoop()，jdk(linux)，xshell(远程登录)2.virtualBox新建虚拟机LinuxRedHat64位3.安装centos，硬盘->动态分配，软件选择->基础设施服务器4.设置网络，a).设置宿主机实际联网网卡的共享b).控制面板->网络->网络连接->vitualBoxHostonlyNetwork网卡的ip设置为19

gauyeah309·2023-11-17 03:53

大数据Hadoop之——部署hadoop+hive+Mysql环境（Linux）

目录一、JDK的安装1、安装jdk2、配置Java环境变量3、加载环境变量4、进行校验二、hadoop的集群搭建1、hadoop的下载安装2、配置文件设置2.1.配置hadoop-env.sh2.2.配置core-site.xml2.3.配置hdfs-site.xml2.4.配置yarn-site.xml2.5.配置mapred-site.xml2.6.配置workers（伪分布式不配置）2.7配

爱吃面的猫·2023-11-16 06:51

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

文章目录一、SparkonHive和HiveonSpark的区别1）SparkonHive2）HiveonSpark（本章实现）二、HiveonSpark实现1）先下载hive源码包查看spark版本2）下载spark3）解压编译4）解压5）把sparkjar包上传到HDFS6）打包sparkjar包并上传到HDFS7）配置1、配置spark-defaults.conf2、配置spark-env.

大数据老司机·2023-11-10 15:22

大数据开发笔记（十）：Hbase实践

GoAI·2023-11-10 02:56

大数据HADOOP框架

Hadoop一、入门1、大数据定义2、Hadoop入门概念①Hadoop是什么？②Hadoop发展历史③Hadoop的三大发行版本④Hadoop的优势⑤Hadoop的组成（重点）⑥大数据技术生态体系⑦推荐系统案例3、模拟虚拟机准备①安装`epel-releaes`②安装`net-tools`③关闭防火墙,关闭防火墙开自启④创建atguigu用户，并修改atguigu用户的密码⑤配置atguigu用

FangSai_ovo·2023-11-06 16:18

大数据开发笔记（四）：Hive分区详解

GoAI·2023-11-05 16:08

【大数据】Hadoop （一）入门

课程链接：尚硅谷大数据Hadoop3.x（入门搭建+安装调优）_哔哩哔哩_bilibili(Hadoop到底是干什么用的？

一个平凡de人·2023-11-04 11:27

大数据Hadoop2.x与Hadoop3.x相比较有哪些变化

在这篇文章中，我们将讨论Hadoop2.x与Hadoop3.x之间的比较。Hadoop3版本中添加了哪些新功能，Hadoop3中兼容的Hadoop2程序，Hadoop2和Hadoop3有什么区别？我们希望Hadoop2和Hadoop3之间的这个功能的区别将帮助回答上述问题。Hadoop2.x与Hadoop3.x之间的功能比较本节将讲述Hadoop2.x与Hadoop3.x之间的22个差异。现在让我

尚学先生·2023-11-03 03:29

大数据Hadoop面试题（二）——HDFS

1、HDFS中的block默认保存几份？默认保存3份2、HDFS默认BlockSize是多大？默认64MB3、负责HDFS数据存储的是哪一部分？DataNode负责数据存储4、SecondaryNameNode的目的是什么？他的目的使帮助NameNode合并编辑日志，减少NameNode启动时间5、文件大小设置，增大有什么影响？HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置

蓦然1607·2023-11-02 22:53

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

大数据组件学习路线：阶段1：学习绿色箭头的知识点；阶段2：学习红色箭头的知识点；阶段3：学习蓝色箭头的知识点；1Hadoop1.1Hadoop1.x与Hadoop2.x的区别1.2HDFS架构（1）NameNode(nn)：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限）、以及每个文件的块列表和块所在的DataNode；（2）DataNode：在本地文件系统存储文件

For Coding·2023-10-28 21:50

大数据测试v 1.0

v1.0-序：本次测试从6-12到7-12号整整历时1个月，除去休息，真正大约20个工作日，在这20个工作日里面，中途周末加过几次班，满打满算应该20多天，接触并经历了大数据功能测试、一体机性能测试、大数据

武晓兵·2023-10-26 06:17

大数据Hadoop环境安装

前言工作场景的需要，最近开始学习起了大数据相关的东西。对于我这个初学者，大数据入门就是首先得学会Hadoop环境的安装，按照步骤如遇相关问题，请指正。Hadoop环境的安装，我是用自己电脑借助VMwareworkstation构建了三个虚拟机节点，进行安装的。准备阶段准备三个虚拟机节点，我分配的资源是2核2G内存50G硬盘资源每个虚拟机节点，保证1.关闭三台虚拟机防火墙三台虚拟机必须保证内网互通（

不倒翁_z·2023-10-21 00:22

大数据Hadoop之——部署hadoop+hive+Mysql环境（window11）

一、安装JDK8【温馨提示】对应后面安装的hadoop和hive版本，这里使用jdk8，这里不要用其他jdk了，可能会出现一些其他问题。1）JDK下载地址JavaDownloads|Oracle按正常下载是需要先登录的，这里提供一个不用登录下载的方法复制的连接如下：https://www.oracle.com/webapps/redirect/signon?nexturl=https://down

爱吃面的猫·2023-10-21 00:48

2019-06-16

准备写一个大数据HadoopMapreduce教程：如何在不会JAVA语言的情况下快速完成Hadoop的MapReduce大作业，纪念我这学期的生活。

Rosyyyy·2023-10-19 00:51

【Hadoop入门（3）】Yarn基础

【时间】2021.09.29【题目】【Hadoop入门（3）】Yarn基础一、引言本文是课程尚硅谷大数据Hadoop3.x的Yarn部分的思维导图。

C小C·2023-10-15 10:25

大数据Hadoop集群搭建-04安装配置HDFS

Hadoop集群搭建-03编译安装hadoopHadoop集群搭建-02安装配置ZookeeperHadoop集群搭建-01前期准备HDFS是配合Hadoop使用的分布式文件系统，分为namenode:nn1.hadoopnn2.hadoopdatanode:s1.hadoops2.hadoops3.hadoop(看不明白这5台虚拟机的请看前面01前期准备)解压配置文件[hadoop@nn1had

叫我懒猫·2023-10-14 04:32

Hadoop介绍与安装

因此，学习大数据Hadoop是绕不开的一个知识点。今年来，大数据的兴起其

EricTao2·2023-10-10 14:58

大数据Hadoop生态圈-组件介绍

大数据Hadoop生态圈-组件介绍Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。

青社·2023-10-10 02:45

「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍

目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学

优秀的Athena在休息·2023-10-10 02:14

Hadoop-学习笔记-黑马程序员

暗河、·2023-10-09 05:41

推荐频道

大数据Hadoop

MapReduce01：基本原理和wordCount代码实现

大数据Hadoop+HBase+Spark+Hive集群搭建教程：一站式掌握大数据技术

大数据Hadoop集群运行程序

浅析大数据Hadoop之YARN架构

Datax ETL工具源码研究

java大数据hadoop2.9.2 hive操作

java大数据hadoop2.9.2 Flume安装&操作

大数据Hadoop生态圈技术之浅析PageRank计算原理

HDFS执行balance报错：hdfs balance java.io.IOException: Another Balancer is running.. Exiting

大数据Hadoop/Hive学习笔记一（基础概念）

java大数据hadoop2.9.2 Linux安装mariadb和hive

大数据Hadoop入门——HDFS分布式文件系统基础

java大数据hadoop2.92安装伪分布式文件系统

Java大数据hadoop2.9.2搭建伪分布式yarn资源管理器

java大数据hadoop2.92 Java连接操作

java大数据hadoop2.9.2 Java编写Hadoop分析平均成绩

大数据Hadoop3.0更新，到底改进了哪些新的特性呢

第一章 大数据Hadoop学习笔记(一）

大数据Hadoop入门学习线路图

sqoop的导入命令详解

YARN知识点总结

大数据Hadoop分布式文件系统HDFS的两类节点NameNode和DataNode

大数据Hadoop集群的启动

大数据Hadoop技术的发展历史与未来前景

Hyper-v虚拟机Hadoop集群搭建

【大数据学习笔记-1】大数据hadoop平台基本组件

【大数据Hadoop】HDFS-Namenode-format格式化的源码步骤分析

大数据Hadoop-HDFS_架构、读写流程

大数据Hadoop-HDFS_元数据持久化

大数据课程结构

大数据hadoop hdfs 基础环境搭建

大数据Hadoop之——部署hadoop+hive+Mysql环境（Linux）

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

大数据开发笔记（十）：Hbase实践

大数据HADOOP框架

大数据开发笔记（四）：Hive分区详解

【大数据】Hadoop （一） 入门

大数据Hadoop2.x与Hadoop3.x相比较有哪些变化

大数据Hadoop面试题（二）——HDFS

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

大数据测试v 1.0

大数据Hadoop环境安装

大数据Hadoop之——部署hadoop+hive+Mysql环境（window11）

2019-06-16

【Hadoop入门（3）】Yarn基础

大数据Hadoop集群搭建-04安装配置HDFS

Hadoop介绍与安装

大数据Hadoop生态圈-组件介绍

「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍

Hadoop-学习笔记-黑马程序员

第一章大数据Hadoop学习笔记(一）

【大数据】Hadoop （一）入门