Hadoop随笔

Hadoop入门案例WordCount

wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop

码喵喵·2025-07-04 01:42

Hadoop入门案例

Hadoop的运行流程：客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。

'Wu'·2025-07-04 01:12

【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间

要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。

·2025-07-03 19:30

头歌当HBase遇上MapReduce

packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration

敲代码的苦13·2025-07-03 11:00

MapReduce01：基本原理和wordCount代码实现

本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。

冬至喵喵·2025-07-03 08:35

大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二)

zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo

争取不加班！·2025-07-03 00:05

输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法

在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/

有奇妙能力吗·2025-07-02 21:45

Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景

一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析

·2025-07-02 13:45

Hadoop WordCount 程序实现与执行指南

HadoopWordCount程序实现与执行指南下面是使用Python实现的HadoopWordCount程序，包含完整的Mapper和Reducer部分。

·2025-07-02 00:07

centos 7+hadoop 2.7.3

安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-

mozhw·2025-06-30 16:05

MapReduce概述

1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。

Tate小白·2025-06-29 14:08

【笔记-软考】大数据架构-Lambda与Kappa架构对比

1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来

我叫白小猿·2025-06-27 17:53

HDFS（Hadoop分布式文件系统）总结

文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.

Cachel wood·2025-06-26 22:40

Spark教程1：Spark基础介绍

二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一

Cachel wood·2025-06-26 21:37

Hadoop的部分用法

前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。

覃炳文20230322027·2025-06-26 16:30

Netty4.1 - TCP粘包拆包解决方案及案例代码

它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan

wwyh520·2025-06-26 14:18

Storm核心概念与实战详解

作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。

AI天才研究院·2025-06-26 13:43

基于Hadoop大数据分析应用场景与实战

一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

跨过山河大海·2025-06-26 12:38

Hadoop 发展过程是怎样的？

2004年，Google发布了第一版Hadoop项目，定位是

AI天才研究院·2025-06-26 11:06

通过CDH安装Spark的详细指南

通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。

暴躁哥·2025-06-25 20:48

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了

拾光师·2025-06-25 18:02

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储

拾光师·2025-06-25 18:30

基于pyspark的北京历史天气数据分析及可视化_离线

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-25 08:48

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储

·2025-06-24 13:14

基于pyspark的北京历史天气数据分析及可视化_实时

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-24 12:54

《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》

Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2

李哈哈敲代码·2025-06-24 02:51

Hadoop等大数据处理框架的Java API

Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。

扬子鳄008·2025-06-23 05:00

python--将mysql建表语句转换成hive建表语句

importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11

呆呆不呆～·2025-06-23 01:30

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核

AAA建材批发王师傅·2025-06-22 20:31

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！

清水白石008·2025-06-22 14:52

大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇)

1.什么是Hadoop？Hadoop是一个开源的分布式系统基础架构，用于存储和处理大规模数据集。

浅谈星痕·2025-06-22 00:23

[5-03-01].第14节：集群搭建 - 在Linux系统中搭建

SpringCloud学习大纲三、集群环境搭建：3.1.集群规划1.nacos规划：hadoop103hadoop104hadoop105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2

1.01^1000·2025-06-21 17:36

大数据学习（141）-分布式数据库

HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。

viperrrrrrr·2025-06-21 11:28

HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

为了克服这个限制，Hadoop引入了Federation机制，允许一个集群中有多个NameNode/NameSpace，每个NameNode管理一部分文件系统，从而分散负载。

2401_8554978·2025-06-21 05:49

scp与rsync

（fromserver1toserver2）（2）基本语法scp-rpdir/pdir/pdir/fnameuser@hadoopuser@hadoopuser@

JeremyHeria·2025-06-21 04:12

复习打卡大数据篇——Hadoop HDFS 03

目录1.HDFS元数据存储2.HDFSHA高可用1.HDFS元数据存储HDFS中的元数据按类型可以分为：文件系统的元数据：包括文件名、目录名、修改信息、block的信息、副本信息等。datanodes的状态信息：比如节点状态、使用率等。HDFS中的元数据按存储位置可以分为内存中元数据和磁盘上的元数据磁盘上的元件数据包括fsimage镜像文件和editslog编辑日志，因为在磁盘上可以保证持久化存储

筒栗子·2025-06-21 03:39

TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能

作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件

TiDB 社区干货传送门·2025-06-20 23:41

什么是MapReduce

它由Google在2004年提出，后来成为ApacheHadoop项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map（映射）和Reduce（归约）——来实现分布式计算。

ThisIsClark·2025-06-20 23:10

Hive的优化

一、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。

小王同学mf·2025-06-20 14:11

数据库选型之路YMatrix与Clickhouse对比

当前的生产系统运行在Mysql上，从开始的保留半年的数据，到现在缩减到保留不足三个月的数据，全量数据实时同步到Hadoop，随着业务的发展，Mysql和Had

星*语·2025-06-20 07:15

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop

TTBIGDATA·2025-06-20 06:37

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

HadoopMapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战一、前言HadoopMapReduce是大数据计算生态的基础。

北漂老男人·2025-06-19 22:16

深入理解 Hadoop MapReduce 调度原理与 YARN 架构

深入理解HadoopMapReduce调度原理与YARN架构作者：标签：大数据、Hadoop、YARN、MapReduce、调度器一、前言在大数据领域，Hadoop是最重要的分布式计算平台之一。

北漂老男人·2025-06-19 22:13

常见的Dolphin Scheduler报错

dolphinscheduler/bin/env/dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$HADOOP_HOME

线条1·2025-06-19 20:03

Hadoop中的HDFS的存储机制

Hadoop中HDFS的存储机制HDFS（HadoopDistributedFileSystem）是Hadoop分布式计算中的数据存储系统，是基于流数据模式访问和处理超大文件的需求而开发的。

向阳争渡·2025-06-19 14:43

Hadoop HDFS深入解析

文件系统早在1965年开发的Multies(UNIX的前身）就详细地设计了文件系统，这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信．息的长期存储，并达到如下要求：1.能够存储大量的信息。2.使用信息的应用终止时，信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法，是把信息以一种单元，即"文件"(file)的形式存储在磁盘或者其他外部介质上，一个

·2025-06-19 14:43

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

目录报错分析解决方式1：设置系统属性方式2：设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.hadoop.util.NativeCodeLoaderL:62-

甘蓝聊Java·2025-06-19 06:50

hadoop yarn 获取日志_Hadoop YARN日志查看方式

HadoopYARN日志查看方式实验环境CDH6.3.2Hadoop版本$hadoopversionHadoop3.0.0-cdh6.3.2Sourcecoderepositoryhttp://github.com

weixin_30131105·2025-06-18 20:39

Hadoop Yarn常用命令

文章目录HadoopYarn常用命令1查看任务1.1yarnapplication-list1.2yarnapplication-list-appStates1.3kill调Application2.yarnlogs

老鼠扛刀满街找猫@·2025-06-18 19:37

什么是Hadoop Yarn

HadoopYARN：分布式集群资源管理系统详解1.什么是YARN？

ThisIsClark·2025-06-18 19:35

推荐频道

Hadoop随笔

Hadoop入门案例WordCount

Hadoop入门案例

【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间

头歌 当HBase遇上MapReduce

MapReduce01：基本原理和wordCount代码实现

大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二)

输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法

Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景

Hadoop WordCount 程序实现与执行指南

centos 7+hadoop 2.7.3

MapReduce概述

【笔记-软考】大数据架构-Lambda与Kappa架构对比

HDFS（Hadoop分布式文件系统）总结

Spark教程1：Spark基础介绍

Hadoop的部分用法

Netty4.1 - TCP粘包拆包解决方案及案例代码

Storm核心概念与实战详解

基于Hadoop大数据分析应用场景与实战

Hadoop 发展过程是怎样的？

通过CDH安装Spark的详细指南

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

基于pyspark的北京历史天气数据分析及可视化_离线

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

基于pyspark的北京历史天气数据分析及可视化_实时

《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》

Hadoop等大数据处理框架的Java API

python--将mysql建表语句转换成hive建表语句

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇)

[5-03-01].第14节：集群搭建 - 在Linux系统中搭建

大数据学习（141）-分布式数据库

HDFS Federation（联邦） 架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

scp与rsync

复习打卡大数据篇——Hadoop HDFS 03

TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能

什么是MapReduce

Hive的优化

数据库选型之路YMatrix与Clickhouse对比

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

深入理解 Hadoop MapReduce 调度原理与 YARN 架构

常见的Dolphin Scheduler报错

Hadoop中的HDFS的存储机制

Hadoop HDFS深入解析

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

hadoop yarn 获取日志_Hadoop YARN日志查看方式

Hadoop Yarn常用命令

什么是Hadoop Yarn

头歌当HBase遇上MapReduce

HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式