********HDFS

Hadoop、Hive、Hbase集群间的数据迁移

文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs

这个操蛋的人生！！！·2025-01-25 07:18

hive数据操作，导入导出

数据导入导出将数据文件导入hive的表方式1：导入数据的一种方式：手动用hdfs命令，将文件放入表目录；方式2：在hive的交互式shell中用hive命令来导入本地数据到表目录hive>loaddatalocalinpath

qzWsong·2025-01-24 14:10

【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据

Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j

forest_long·2025-01-24 12:27

Hadoop 与 Spark：大数据处理的比较

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-23 16:50

Hive（11）：Transactional Tables事务表

且映射的数据通常存储于HDFS上，而HDFS是不支持随机修改文件数据的。

不死鸟.亚历山大.狼崽子·2025-01-23 15:48

Hadoop分布式文件系统-HDFS架构

一、HDFS的简介HDFS全称HadoopDistributedFileSystem，是分布式文件管理系统。

Fancs2024·2025-01-23 09:37

基于MRS-Hudi构建数据湖的典型应用场景介绍

一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。

华为云技术精粹·2025-01-23 04:50

深入MapReduce——引入

引入前面我们已经深入了HDFS的设计与实现，对于分布式系统也有了不错的理解。但HDFS仅仅解决了海量数据存储和读写的问题。

黄雪超·2025-01-22 23:41

HUDI-0.11.0 BUCKET index on Flink 特性试用

当前环境：Flink1.13.2+Hudi0.11.0（master2022.04.11）+COW+HDFS。关键配置项：index.type=BUCKEThoodie.buc

_Magic·2025-01-22 23:06

Hadoop是什么，怎么部署安装？

它包括两个核心组件：Hadoop分布式文件系统（HDFS）和HadoopYARN（YetAnotherResourceNegotiator）。

狮歌~资深攻城狮·2025-01-22 15:01

分布式存储的技术选型之HDFS、Ceph、MinIO对比

分布式存储的技术选型比：HDFS、Ceph、MinIO对比一文读懂分布式存储在当今数字化时代，数据呈爆炸式增长，分布式存储技术应运而生，成为大数据存储与管理的得力助手。

Linux运维老纪·2025-01-22 00:40

HDFS Disk Balancer 介绍&使用

一、介绍一句话介绍：用于HDFSDataNode单节点内多个数据盘数据均衡。

_Magic·2025-01-21 20:00

hadoop常用命令

mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs

我要用代码向我喜欢的女孩表白·2025-01-21 05:54

flume系列之：flume落cos

一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS

快乐骑行^_^·2025-01-20 13:42

Hadoop 和 Spark 的内存管理机制分析

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-20 03:27

大数据学习（五）：如何使用 Livy提交spark批量任务--转载

/bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。

zuoseve01·2025-01-19 22:15

hive小文件合并机制_hive小文件的问题弊端以及合并

小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map

做生活的创作者·2025-01-19 08:49

Java 大视界 -- 解锁 Java 与 Hadoop HDFS 交互的高效编程之道（二）

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数

青云交·2025-01-19 05:19

使用 Hadoop 实现大数据的高效存储与查询

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-18 23:24

hdfs和hive对于小文件的处理方案

一、hdfs如何处理小文件小文件问题的危害小文件问题对HDFS的性能和稳定性产生显著影响，主要包括：占用过多的存储空间：每个小文件都会占用一个独立的Block，导致存储资源的浪费。

二进制_博客·2025-01-18 19:35

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis

武子康·2025-01-18 10:29

pyspark 中删除hdfs的文件夹

搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。

TDengine （老段）·2025-01-18 09:21

Python 爬虫：获取网页数据的 5 种方法

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-18 07:35

采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）

目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。

大模型大数据攻城狮·2025-01-17 19:56

深入HDFS——DataNode启动源码

首先，自然还是从元数据管理篇提到的DataNode类（org.apache.hadoop.hdfs.server.datanode.DataNode）开始。

黄雪超·2025-01-17 12:26

深入HDFS——NameNode启动源码

引入前面我们已经对HDFS有了很多了解，但是光说不练假把式，今天开启深入源码的纯享模式，先来看看NameNode启动流程，在代码层面，到底是如何实现的。

黄雪超·2025-01-17 12:25

Spring Boot 和微服务：快速入门指南

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-17 09:56

HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办？思维导图代码示例（java 架构)

当在HDFS中上传文件时，如果其中一个DataNode突然挂掉，HDFS有内置的机制来确保数据的完整性和可靠性。以下是详细的处理流程、Java架构代码示例以及创建思维导图的建议。

用心去追梦·2025-01-17 03:37

初学者如何用 Python 写第一个爬虫？

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-01-16 23:27

nosql数据库技术与应用知识点

Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink

皆过客，揽星河·2024-09-16 08:42

浅谈MapReduce

但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。

Android路上的人·2024-09-16 04:40

Hadoop

Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。

傲雪凌霜，松柏长青·2024-09-16 00:16

Hadoop架构

HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，

henan程序媛·2024-09-16 00:14

hbase介绍

hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用

CrazyL-·2024-09-15 13:06

HBase介绍

HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。

mingyu1016·2024-09-14 21:47

【HDFS】【HDFS架构】【HDFS Architecture】【架构】

目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc

资源存储库·2024-09-14 04:53

Hadoop学习第三课（HDFS架构--读、写流程）

1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.

小小程序员呀~·2024-09-14 03:53

hdfs启动流程

Namenode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()开始加载元数据将FsImage护额徐为目录树，保存在内存中FsImage中主要包含了问价你和数据块的对应关系3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁

weixin_44352020·2024-09-14 03:52

hdfs开机启动流程

鸭梨山大哎·2024-09-14 03:51

hadoop启动HDFS命令

启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh

m0_67401228·2024-09-14 03:49

【HDFS主从集群】存在两个独立的问题和解决方案

主从集群存在两个独立的问题和解决方案单点“主”的两个独立的问题以下是解决方案HA高可用方案：解决单点故障导致集群整体不可用问题Federation联邦机制：解决NN压力过大问题总结一般很多技术都是主从结构（最简单的结构）优点：结构相对简单，主与从协作“主”是单点，好处有，缺点也有好处：单点NameNode，数据一致性好掌握因为一个人管，说一不二的单点“主”的两个独立的问题关键词：独立：两套独立

流辉fglow·2024-09-14 03:48

【HDFS】角色的架构设计

HDFS角色的架构设计前置知识：Windows与Linux文件系统的差异HDFS中的角色及功能HDFS的架构NameNodeDataNodeNameNode元数据的持久化说明：/表示两个词是同一语义，方便你理解的前置知识

流辉fglow·2024-09-14 03:47

HDFS的启动过程

HDFS的启动过程HDFS的启动过程分为四个阶段：第一阶段：NameNode读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，

ffbc2020·2024-09-14 03:47

集群hdfs启动

1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFSstart-dfs.sh/stop-dfs.sh（2）整体启动/停止YARNstart-yarn.sh/stop-yarn.sh2

sxu~源·2024-09-14 03:46

spark常用命令

查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME

我是浣熊的微笑·2024-09-13 10:38

编程常用命令总结

编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令

Yellow0523·2024-09-13 02:42

Hadoop常见面试题整理及解答

而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。

叶青舟·2024-09-12 19:24

hive表格统计信息不准确

存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs

weixin_41956627·2024-09-11 09:37

人生苦短我用Python pandas文件格式转换

1excel与csv互转常用格式的方法FlatfileExcelJSONXML示例2常用格式转换简要需求依赖export方法main方法附其它格式的方法HTMLPicklingClipboardLatexHDFStore

程序喵D·2024-09-11 08:58

深入解析HDFS：定义、架构、原理、应用场景及常用命令

引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。

CloudJourney·2024-09-10 12:39

推荐频道

********HDFS

Hadoop、Hive、Hbase集群间的数据迁移

hive数据操作，导入导出

【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据

Hadoop 与 Spark：大数据处理的比较

Hive（11）：Transactional Tables事务表

Hadoop分布式文件系统-HDFS架构

基于MRS-Hudi构建数据湖的典型应用场景介绍

深入MapReduce——引入

HUDI-0.11.0 BUCKET index on Flink 特性试用

Hadoop是什么，怎么部署安装？

分布式存储的技术选型之HDFS、Ceph、MinIO对比

HDFS Disk Balancer 介绍&使用

hadoop常用命令

flume系列之：flume落cos

Hadoop 和 Spark 的内存管理机制分析

大数据学习（五）：如何使用 Livy提交spark批量任务--转载

hive小文件合并机制_hive小文件的问题弊端以及合并

Java 大视界 -- 解锁 Java 与 Hadoop HDFS 交互的高效编程之道（二）

使用 Hadoop 实现大数据的高效存储与查询

hdfs和hive对于小文件的处理方案

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

pyspark 中删除hdfs的文件夹

Python 爬虫：获取网页数据的 5 种方法

采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）

深入HDFS——DataNode启动源码

深入HDFS——NameNode启动源码

Spring Boot 和微服务：快速入门指南

HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办？ 思维导图 代码示例（java 架构)

初学者如何用 Python 写第一个爬虫？

nosql数据库技术与应用知识点

浅谈MapReduce

Hadoop

Hadoop架构

hbase介绍

HBase介绍

【HDFS】【HDFS架构】【HDFS Architecture】【架构】

Hadoop学习第三课（HDFS架构--读、写流程）

hdfs启动流程

hdfs开机启动流程

hadoop启动HDFS命令

【HDFS主从集群】存在两个独立的问题和解决方案

【HDFS】角色的架构设计

HDFS的启动过程

集群hdfs启动

spark常用命令

编程常用命令总结

Hadoop常见面试题整理及解答

hive表格统计信息不准确

人生苦短我用Python pandas文件格式转换

深入解析HDFS：定义、架构、原理、应用场景及常用命令

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办？思维导图代码示例（java 架构)