HDFS

HDFS（Hadoop分布式文件系统）总结

文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode

Cachel wood·2025-06-26 22:40

Hadoop的部分用法

Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。

覃炳文20230322027·2025-06-26 16:30

Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析

Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了

拾光师·2025-06-25 18:02

合并小文件汇总（Hive/Spark）

合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。

有数的编程笔记·2025-06-25 15:06

基于pyspark的北京历史天气数据分析及可视化_离线

数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs

大数据CLUB·2025-06-25 08:48

探秘Flink Connector加载机制：连接外部世界的幕后引擎

从Kafka消息队列到HDFS文件系统，从MySQL数据库到Elasticsearch搜索引擎，Flink通过Connector实现了与多样化外部系统的交互。

Edingbrugh.南空·2025-06-24 14:38

基于pyspark的北京历史天气数据分析及可视化_实时

centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs

大数据CLUB·2025-06-24 12:54

时序数据库IoTDB的架构、安装启动方法与数据模式总结

可独立使用，并可通过TsFileSync工具同步至HDFS进行大数据处理。‌数据库引擎‌：负责数据的收集、写入、存储和查询等核心功能。‌分析引擎‌：可选的分析组件，用于数据处理和分析。

时序数据说·2025-06-24 09:01

Hadoop等大数据处理框架的Java API

Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。

扬子鳄008·2025-06-23 05:00

手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」

SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核

AAA建材批发王师傅·2025-06-22 20:31

从 0 到 Offer！大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇)

它主要包含HDFS（HadoopDistributedFileSystem）分布式文件系统、MapReduce分布式计算框架以及YARN（YetAnotherResourceNegotiator）资源管理器

浅谈星痕·2025-06-22 00:23

大数据学习（141）-分布式数据库

在分布式数据库中主要有hdfs、hbase、clickhouse三种。

viperrrrrrr·2025-06-21 11:28

HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

HDFSFederation（联邦）架构什么是HDFSFederation？随着数据量的增长，单一的NameNode成为了HDFS的瓶颈，因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。

2401_8554978·2025-06-21 05:49

复习打卡大数据篇——Hadoop HDFS 03

目录1.HDFS元数据存储2.HDFSHA高可用1.HDFS元数据存储HDFS中的元数据按类型可以分为：文件系统的元数据：包括文件名、目录名、修改信息、block的信息、副本信息等。

筒栗子·2025-06-21 03:39

Hadoop中的HDFS的存储机制

Hadoop中HDFS的存储机制HDFS（HadoopDistributedFileSystem）是Hadoop分布式计算中的数据存储系统，是基于流数据模式访问和处理超大文件的需求而开发的。

向阳争渡·2025-06-19 14:43

Hadoop HDFS深入解析

文件系统早在1965年开发的Multies(UNIX的前身）就详细地设计了文件系统，这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信．息的长期存储，并达到如下要求：1.能够存储大量的信息。2.使用信息的应用终止时，信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法，是把信息以一种单元，即"文件"(file)的形式存储在磁盘或者其他外部介质上，一个

·2025-06-19 14:43

MR案例 - 分科汇总求月考平均分

文章目录一、提出任务二、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建学生实体类5、创建科目平均分映射器类

酒城译痴无心剑·2025-06-18 08:15

全面解析Hadoop配置文件：架构、调整与最佳实践

同时，介绍了针对HDFS、MapReduce和YARN的主要配置文件，并通过实例说明如何细化设置以满足性能和资源管理的需求。最后，文章分享了一些最

秦道衍·2025-06-17 21:35

Doris数据集成 Apache Iceberg

它支持ApacheDoris在内的多种主流查询引擎，兼容HDFS以及各种对象云存储，具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性，可确保高性能查询以及数据的可靠性及一致性，其时间旅行和版本回滚功能也为数据管理带来较高的灵活性

猫猫姐·2025-06-17 10:21

大数据基础——大数据处理架构Hadoop

软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构（2）Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中（3）Hadoop的核心是分布式文件系统HDFS

皮皮大卫·2025-06-16 12:48

datax到hive数据全部为空_DataX HIVE分区同步

channel":3,"byte":1048576},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"hdfsreader

一只mikan·2025-06-15 09:55

Hive SQL：一小时快速入门指南

一、HiveSQL初相识Hive是基于Hadoop的数据仓库工具，通过类SQL语法实现对HDFS数据的查询分析。与传统数据库不同，Hive将SQ

·2025-06-15 09:23

DataX HdfsReader 插件：快速上手与深入解析

其中，HdfsReader插件专门用于从Hadoop分布式文件系统（HDFS）中读取数据，并且能够将其转换为DataX传输协议传递给Writer进行后续处理。

Edingbrugh.南空·2025-06-15 09:23

Hive 序列化与反序列化：数据的 “打包“ 与 “拆箱“ 艺术

在Hive的世界里：序列化=把对象变成HDFS能存的格式（比如insert操作，给数据"穿快递箱"）反序列化=把HDFS数据变回对象（比如select

AAA建材批发王师傅·2025-06-14 07:32

黑马-hive学习笔记(1)

一、hadoop介绍1.hadoop定义是一个分布式的大数据平台，这个平台上会有很多的组件，HDFS,Mapreduce,hive都是它生态的一部分，HDFS是一个数据存储系统，Mapreduce是一个计算引擎

霜杀百草·2025-06-14 04:44

Flink读取Kafka写入Paimon

FlinkSQL--1）注册Paimon源CREATECATALOGpaimon_hiveWITH('type'='paimon','warehouse'='hdfs://xxxxx/paimon','

·2025-06-13 17:30

Hadoop 三巨头：大数据界的搬砖天团

这玩意儿就像大数据界的基建狂魔，而它的三大核心组件——HDFS、MapReduce和YARN，堪称分布式计算界的"搬砖天团"。咱今天就用接地气的方式，讲讲这三位大佬是怎么在数据海洋里搞建设的。

AAA建材批发王师傅·2025-06-13 03:19

HDFS异构存储机制

目录：1.异构存储介绍2.存储介质3.HDFS存储策略（异构存储）4.HDFS异构存储原理5.HDFS异构存储的使用一，异构存储介绍异构存储是Hadoop在2.6.0版本中引入了一个新特性，HBase也从

风筝Lee·2025-06-13 00:54

HDFS 异构存储及存储策略

一、支持的存储类型HDFS支持以下主要存储类型，按性能从高到低排列：SSD（固态存储）特点：高性能、低延迟，适合频繁访问的热数据。

鲁鲁517·2025-06-13 00:53

Hive面试题汇总

可以从下面四个角度去分析：数据存储位置Hive的数据存储在hdfs上，元数据可以存储在

·2025-06-12 05:00

Hbase集群部署（三个节点）

概述HBASE–HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库–利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理

河西帝王蟹·2025-06-11 18:52

Hadoop 十年：从谷歌论文到全球企业的标配技术

Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem）HDFS。

·2025-06-11 15:46

HDFS小文件治理总结

目录背景第一部分回本溯源第二部分HDFS大量小文件的危害第三部分小文件治理方案总结第四部分总结参考文献及资料背景企业级Hadoop大数据平台在实际使用过程中，可能大部分会遭遇小文件问题，并体验它的破坏性

数据科学和工程·2025-06-11 12:11

pyspark==windows单机搭建

目录,配置HADOOP_HOMEIndexof/hadoop/common/hadoop-3.3.5GitHub-cdarlint/winutils:winutils.exehadoop.dllandhdfs.dllbinariesforhadoopwindows

一个java开发·2025-06-10 08:25

实践练习4.迁移 MySQL 数据到 OceanBase 集群

DataX实现了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、

qinwen740·2025-06-10 04:18

Paimon（数据湖框架）概述

Paimon的核心特性五、Paimon的大规模实时更新六、LSM数据结构的核心思想一、数据湖数据湖就是：一种能够满足海量存储和海量分析的系统架构方案（不是数据库，也不是技术架构，是一种概念、一种方案和思路）其中HDFS

lzhlizihang·2025-06-10 00:26

六、Sqoop 导出

作者：IvanCodes日期：2025年6月7日专栏：Sqoop教程ApacheSqoop不仅擅长从关系型数据库(RDBMS)向Hadoop(HDFS,Hive,HBase)导入数据，同样也强大地支持反向操作

IvanCodes·2025-06-08 22:17

Hive启动报错“Unable to instantiate SessionHiveMetaStoreClient”终极排查指南：原因解析、配置修复与实战案例

4.修复HDFS权限问题‌案例：HDFS目录权限不足导致Metastore初始化失败。5.版本兼容性排查‌案例：Hive3.x使用MySQL5.x驱动报错。三、总结

·2025-06-08 12:08

Doris 数据库深度解析：架构、原理与实战应用

Broker：用于读取外部存储（如HDFS、S3等）的数据。MySQL客户端：用户通过MySQL客户端连接Doris，提交SQL

从零开始学习人工智能·2025-06-08 10:30

Hadoop复习(一)

复习文章目录Hadoop复习前言一、简要描述如何安装配置apache的一个开源Hadoop二、Hadoop中需要哪些配置文件和其作用1.core-site.xml：2.hadoop-env.sh:3.hdfs-site.xml

·2025-06-07 20:49

Spring Boot 2.x ：通过 spring-boot-starter-hbase 集成 HBase

HBase是在Hadoop分布式文件系统（简称：HDFS）之上的分布式面向列的数据库。而且是2007最初原型，历史悠久。那追根究底，Hadoop是什么？Hadoop是一个分布式环境存储并处理大数据。

weixin_43770982·2025-06-06 13:22

hdfs 文档存储服务器,HDFS分布式文档系统

HDFS(HadoopDistributedFileSystem)分布式文档系统HDFS的关键组件有两个Datanode和NameNode1.DataNode负责文档数据的存储和读写操作，HDFS将文档数据分割成若干数据块

哈奇明·2025-06-06 11:05

java对hdfs文件的拉取和上传操作

文章目录一、创建Configuration对象二、创建FileSystem对象三、打开hdfs文件四、FileSystem的一些方法五、完整示例1、拉取文件2、上传文件一、创建Configuration

yogima·2025-06-06 10:00

HiveSQL语法全解析与实战指南

HiveSQL完整语法体系与特性解析一、数据定义语言（DDL）库操作CREATEDATABASE[IFNOTEXISTS]dbname[COMMENT'描述'][LOCATION'hdfs_path']

不辉放弃·2025-06-05 16:57

【赵渝强老师】Hadoop生态圈组件

一、HDFS 它的全称是HadoopDistributedFileSystem，它是Hadoop分布式文件系统࿰

赵渝强老师·2025-06-04 22:17

计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化民宿爬虫大数据毕业设计(源码+LW文档+PPT+讲解)

二、系统架构1.技术栈选型模块技术作用数据采集Scrapy+Selenium爬取Airbnb等民宿数据数据存储HadoopHDFS+Hive存储与查询结构化数据数据

金枝玉叶9·2025-06-04 19:51

面试专区|【68道Hbase高频题整理(附答案背诵版)】

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，它利用HBase技术在HDFS上提供了类似于Bigtable的能力。

尺小闹·2025-06-04 10:40

hive的数据库操作

CREATEDATABASE[IFNOTEXISTS]database_name[COMMENTdatabase_comment][LOCATIONhdfs_path][WITHDBPROPERTIES

Supplant·2025-06-03 15:24

HDFS 读写流程代码级深度解析

HDFS读写流程代码级深度解析基于Hadoop3.3.4源码，聚焦关键类与方法实现一、HDFS写入流程核心代码解析1.客户端初始化写入流//客户端创建文件输出流FileSystemfs=FileSystem.get

北漂老男人·2025-06-03 12:35

python 大数据框架-马士兵python大数据和java架构

hadoop-大数据启蒙-初识HDFS【回放】hadoop-大数据启蒙-初识HDFS(6月11日20:00-22:00)免费试学02hadoop-HDFS理论基础读写流程【回放】hadoop-HDFS理论基础读写流程

weixin_39938724·2025-06-03 12:35

推荐频道