hadoop（HDFS

【笔记-软考】大数据架构-Lambda与Kappa架构对比

1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来

我叫白小猿·2025-06-27 17:53

HDFS（Hadoop分布式文件系统）总结

文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode

Cachel wood·2025-06-26 22:40

Spark教程1：Spark基础介绍

二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一

Cachel wood·2025-06-26 21:37

Hadoop的部分用法

前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。

覃炳文20230322027·2025-06-26 16:30

Netty4.1 - TCP粘包拆包解决方案及案例代码

它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan

wwyh520·2025-06-26 14:18

Storm核心概念与实战详解

作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。

AI天才研究院·2025-06-26 13:43

基于Hadoop大数据分析应用场景与实战

一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

跨过山河大海·2025-06-26 12:38

Hadoop 发展过程是怎样的？

2004年，Google发布了第一版Hadoop项目，定位是

AI天才研究院·2025-06-26 11:06

通过CDH安装Spark的详细指南

通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。

暴躁哥·2025-06-25 20:48

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了

拾光师·2025-06-25 18:02

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储

拾光师·2025-06-25 18:30

合并小文件汇总（Hive/Spark）

合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。

有数的编程笔记·2025-06-25 15:06

基于pyspark的北京历史天气数据分析及可视化_离线

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-25 08:48

探秘Flink Connector加载机制：连接外部世界的幕后引擎

从Kafka消息队列到HDFS文件系统，从MySQL数据库到Elasticsearch搜索引擎，Flink通过Connector实现了与多样化外部系统的交互。

Edingbrugh.南空·2025-06-24 14:38

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

HadoopRPCHadoopRPC主要分为四个部分，分别是序列化层、函数调用层、网络传输层和服务器端处理框架，实现机制为：序列化层：主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储

·2025-06-24 13:14

基于pyspark的北京历史天气数据分析及可视化_实时

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-24 12:54

时序数据库IoTDB的架构、安装启动方法与数据模式总结

可独立使用，并可通过TsFileSync工具同步至HDFS进行大数据处理。‌数据库引擎‌：负责数据的收集、写入、存储和查询等核心功能。‌分析引擎‌：可选的分析组件，用于数据处理和分析。

时序数据说·2025-06-24 09:01

《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》

Hadoop3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机，如node1、node2、node3配置推荐:内存大于4GB，CPU大于2核，磁盘空间大于40GB1.2

李哈哈敲代码·2025-06-24 02:51

Hadoop等大数据处理框架的Java API

Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。

扬子鳄008·2025-06-23 05:00

python--将mysql建表语句转换成hive建表语句

importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11

呆呆不呆～·2025-06-23 01:30

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核

AAA建材批发王师傅·2025-06-22 20:31

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！

清水白石008·2025-06-22 14:52

大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇)

1.什么是Hadoop？Hadoop是一个开源的分布式系统基础架构，用于存储和处理大规模数据集。

浅谈星痕·2025-06-22 00:23

[5-03-01].第14节：集群搭建 - 在Linux系统中搭建

SpringCloud学习大纲三、集群环境搭建：3.1.集群规划1.nacos规划：hadoop103hadoop104hadoop105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2

1.01^1000·2025-06-21 17:36

大数据学习（141）-分布式数据库

在分布式数据库中主要有hdfs、hbase、clickhouse三种。

viperrrrrrr·2025-06-21 11:28

HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

HDFSFederation（联邦）架构什么是HDFSFederation？随着数据量的增长，单一的NameNode成为了HDFS的瓶颈，因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。

2401_8554978·2025-06-21 05:49

scp与rsync

（fromserver1toserver2）（2）基本语法scp-rpdir/pdir/pdir/fnameuser@hadoopuser@hadoopuser@

JeremyHeria·2025-06-21 04:12

复习打卡大数据篇——Hadoop HDFS 03

目录1.HDFS元数据存储2.HDFSHA高可用1.HDFS元数据存储HDFS中的元数据按类型可以分为：文件系统的元数据：包括文件名、目录名、修改信息、block的信息、副本信息等。

筒栗子·2025-06-21 03:39

TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能

作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件

TiDB 社区干货传送门·2025-06-20 23:41

什么是MapReduce

它由Google在2004年提出，后来成为ApacheHadoop项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map（映射）和Reduce（归约）——来实现分布式计算。

ThisIsClark·2025-06-20 23:10

Hive的优化

一、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。

小王同学mf·2025-06-20 14:11

数据库选型之路YMatrix与Clickhouse对比

当前的生产系统运行在Mysql上，从开始的保留半年的数据，到现在缩减到保留不足三个月的数据，全量数据实时同步到Hadoop，随着业务的发展，Mysql和Had

星*语·2025-06-20 07:15

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop

TTBIGDATA·2025-06-20 06:37

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

HadoopMapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战一、前言HadoopMapReduce是大数据计算生态的基础。

北漂老男人·2025-06-19 22:16

深入理解 Hadoop MapReduce 调度原理与 YARN 架构

深入理解HadoopMapReduce调度原理与YARN架构作者：标签：大数据、Hadoop、YARN、MapReduce、调度器一、前言在大数据领域，Hadoop是最重要的分布式计算平台之一。

北漂老男人·2025-06-19 22:13

常见的Dolphin Scheduler报错

dolphinscheduler/bin/env/dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$HADOOP_HOME

线条1·2025-06-19 20:03

Hadoop中的HDFS的存储机制

Hadoop中HDFS的存储机制HDFS（HadoopDistributedFileSystem）是Hadoop分布式计算中的数据存储系统，是基于流数据模式访问和处理超大文件的需求而开发的。

向阳争渡·2025-06-19 14:43

Hadoop HDFS深入解析

文件系统早在1965年开发的Multies(UNIX的前身）就详细地设计了文件系统，这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信．息的长期存储，并达到如下要求：1.能够存储大量的信息。2.使用信息的应用终止时，信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法，是把信息以一种单元，即"文件"(file)的形式存储在磁盘或者其他外部介质上，一个

·2025-06-19 14:43

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

目录报错分析解决方式1：设置系统属性方式2：设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.hadoop.util.NativeCodeLoaderL:62-

甘蓝聊Java·2025-06-19 06:50

hadoop yarn 获取日志_Hadoop YARN日志查看方式

HadoopYARN日志查看方式实验环境CDH6.3.2Hadoop版本$hadoopversionHadoop3.0.0-cdh6.3.2Sourcecoderepositoryhttp://github.com

weixin_30131105·2025-06-18 20:39

Hadoop Yarn常用命令

文章目录HadoopYarn常用命令1查看任务1.1yarnapplication-list1.2yarnapplication-list-appStates1.3kill调Application2.yarnlogs

老鼠扛刀满街找猫@·2025-06-18 19:37

什么是Hadoop Yarn

HadoopYARN：分布式集群资源管理系统详解1.什么是YARN？

ThisIsClark·2025-06-18 19:35

MR案例 - 分科汇总求月考平均分

文章目录一、提出任务二、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建学生实体类5、创建科目平均分映射器类

酒城译痴无心剑·2025-06-18 08:15

全面解析Hadoop配置文件：架构、调整与最佳实践

本文还有配套的精品资源，点击获取简介：Hadoop作为一个关键组件在分布式计算中处理和存储大量数据，而其配置文件则是保证系统正常运行和性能优化的核心。

秦道衍·2025-06-17 21:35

Doris数据集成 Apache Iceberg

它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性

猫猫姐·2025-06-17 10:21

Hive 3.x集成Apache Ranger：打造精细化数据权限管理体系

Hive作为大数据领域常用的数据仓库工具，存储着海量敏感数据；ApacheRanger则是一款强大的权限管理框架，能为Hadoop生态组件提供细粒度的访问控制。

·2025-06-17 10:21

大数据基础——大数据处理架构Hadoop

一、Hadoop是什么？

皮皮大卫·2025-06-16 12:48

Hadoop：大数据处理的核心框架

Hadoop作为一个开源的分布式计算框架，为大数据处理提供了强大的支持。本文将对Hadoop进行详细介绍，包括其基本概念、核心组件、应用场景以及安装配置等方面。

l123565·2025-06-16 11:14

MapReduce 程序详解

Hadoop的第一课总是MapReduce，但是往往我们每次都是使用自带的例子跑一遍MapReduce程序，今天总与自己写了一个完整的程序。技术有限，多多指教。

·2025-06-16 08:52

datax到hive数据全部为空_DataX HIVE分区同步

channel":3,"byte":1048576},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"hdfsreader

一只mikan·2025-06-15 09:55

推荐频道

hadoop（HDFS

【笔记-软考】大数据架构-Lambda与Kappa架构对比

HDFS（Hadoop分布式文件系统）总结

Spark教程1：Spark基础介绍

Hadoop的部分用法

Netty4.1 - TCP粘包拆包解决方案及案例代码

Storm核心概念与实战详解

基于Hadoop大数据分析应用场景与实战

Hadoop 发展过程是怎样的？

通过CDH安装Spark的详细指南

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

合并小文件汇总（Hive/Spark）

基于pyspark的北京历史天气数据分析及可视化_离线

探秘Flink Connector加载机制：连接外部世界的幕后引擎

Hadoop RPC 分层设计的哲学：高内聚、低耦合的最佳实践

基于pyspark的北京历史天气数据分析及可视化_实时

时序数据库IoTDB的架构、安装启动方法与数据模式总结

《从零开始：Hadoop 3.3.0 全分布式环境搭建与运行详解（含自动化配置）》

Hadoop等大数据处理框架的Java API

python--将mysql建表语句转换成hive建表语句

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇)

[5-03-01].第14节：集群搭建 - 在Linux系统中搭建

大数据学习（141）-分布式数据库

HDFS Federation（联邦） 架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

scp与rsync

复习打卡大数据篇——Hadoop HDFS 03

TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能

什么是MapReduce

Hive的优化

数据库选型之路YMatrix与Clickhouse对比

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

深入理解 Hadoop MapReduce 调度原理与 YARN 架构

常见的Dolphin Scheduler报错

Hadoop中的HDFS的存储机制

Hadoop HDFS深入解析

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

hadoop yarn 获取日志_Hadoop YARN日志查看方式

Hadoop Yarn常用命令

什么是Hadoop Yarn

MR案例 - 分科汇总求月考平均分

全面解析Hadoop配置文件：架构、调整与最佳实践

Doris数据集成 Apache Iceberg

Hive 3.x集成Apache Ranger：打造精细化数据权限管理体系

大数据基础——大数据处理架构Hadoop

Hadoop：大数据处理的核心框架

MapReduce 程序详解

datax到hive数据全部为空_DataX HIVE分区同步

HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式