HDFS分布式文件系统

Spacedrive：一个开源的跨平台文件管理器

2.2与传统文件管理器的区别2.3与云存储服务的区别2.4跨设备文件管理2.5文件分类与过滤Spacedrive的技术架构3.1虚拟分布式文件系统（VDFS）VDFS的优势3.2Rust编写的好处性能安全性并

我就是全世界·2025-03-27 05:47

读取hdfs上snappy压缩文件并发送kafka的两种方式速度测试

最近有一个需求，因为第一次做，踩了许多坑，故在此记录一下需求背景：现在hdfs上有一份snappy压缩的文件，要把这份文件中的数据读出来并发送给kafka解决思路平时我90%的时间都是在消费kafka，

今天上上签·2025-03-26 04:40

尚硅谷大数据项目【电商数仓6.0】-Datax-6

tar-zxvfdatax.tar.gz-C/opt/module/测试python/opt/module/datax/bin/datax.py/opt/module/datax/job/job.jsonMySQLToHDFS

Xiaoweidumpb·2025-03-25 14:26

大数据（2）Hadoop架构深度拆解：HDFS与MapReduce企业级实战与高阶调优

目录一、分布式系统的设计哲学演进1.1从Google三驾马车到现代数据湖二、企业级HDFS架构全景图2.1联邦架构的深度实践2.2生产环境容灾设计2.3性能压测方法论三、MapReduce引擎内核解密3.1Shuffle

一个天蝎座白勺程序猿·2025-03-25 13:48

第7章：实践项目7.2 大型项目实战

目录第7章：实践项目7.2大型项目实战一、桌面应用1.跨平台任务管理器二、网络服务2.在线图书管理系统三、嵌入式系统3.智能家居控制系统四、分布式系统4.分布式文件系统五、机器学习与AI5.图像识别系统六

xiaoheshang_123·2025-03-25 03:30

hadoop-HDFS操作

2.在操作hdfs时，需要在hadoop用户下的/usr/local/hadoop，此时是在根目录下。

wenying_44323744·2025-03-24 19:02

Hadoop安装

伪分布式模式：Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件。分布式

Cindy_0124·2025-03-24 19:59

数据权限访问控制（Apache Sentry）

ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。

deepdata_cn·2025-03-24 14:56

HBase的架构介绍，安装及简单操作

pk_xz123456·2025-03-23 01:00

努力的搬砖人.·2025-03-22 18:16

hadoop3.x--搭建hadoop高可用集群（HA模式）

hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs

运维小菜·2025-03-22 14:17

Sqoop安装部署

ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。

愿与狸花过一生·2025-03-21 22:10

Ceph数据恢复方案–分布式文件系统删除数据的恢复

：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统

San结构数据恢复·2025-03-21 09:43

【服务器数据恢复】数据中心存储服务器VMware vSAN分布式存储架构数据恢复解析

分布式文件系统（DistributedFileSystem，DFS）是一种能够在多台计算机之间共

海境超备·2025-03-21 08:40

Fastdfs-V5.11使用docker部署集群(X86)

composetracker与storage启动目录层级与配置文件client.confstorage.conf查看集群信息测试测试集群扩容与缩减nginx配置一、Fastdfs介绍FastDFS是一款高性能的分布式文件系统

礁之·2025-03-20 07:11

数据中台（二）数据中台相关技术栈

1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto

Yuan_CSDF·2025-03-20 05:25

努力的搬砖人.·2025-03-20 01:53

Flink读取kafka数据并写入HDFS

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021

王知无(import_bigdata)·2025-03-19 22:59

Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结

一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir

dazhong2012·2025-03-19 17:48

HarmonyNext实战：基于ArkTS的跨设备文件同步与冲突解决案例详解

HarmonyOSNext提供了强大的分布式文件系统和冲突解决机制，帮助开发者实现高效、可靠的跨设备文件同步。本文将深入探讨如何在HarmonyOSNext中使用ArkTS实现跨设备文件同步与冲突

·2025-03-19 16:47

【Go基础】Go入门与实践资源帖

系统教程从语法讲起：李文周博客七天快速上手项目Go测试驱动开发博客孔令飞项目开发实战课程，孔令飞图文教程《Go语言高级编程》书籍Go算法刷题模板Go实战项目KV系统crawlab分布式爬虫平台seaweedfs分布式文件系统

小超人冲鸭·2025-03-19 16:41

中电金信25/3/18面前笔试（需求分析岗+数据开发岗）

一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？

苍曦·2025-03-19 12:43

Spark集群启动与关闭

Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启

陈沐·2025-03-18 23:17

智慧社区2.0

项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+

陈陈爱java·2025-03-18 19:53

DeepSeek 3FS 与 JuiceFS：架构与特性比较

在AI业务中，企业需要处理大量的文本、图像、视频等非结构化数据，还需要应对数据量的爆炸式增长，分布式文件系统因此成为AI训练的关键存储技术。

·2025-03-18 18:07

Hadoop MapReduce 词频统计（WordCount）代码解析教程

程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。

我不是少爷.·2025-03-18 17:07

hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤

.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report

氪老师·2025-03-18 12:55

Flume详解——介绍、部署与使用

它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。

克里斯蒂亚诺罗纳尔多阿维罗·2025-03-18 12:23

hive-进阶版-1

以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi

数据牧马人·2025-03-17 10:59

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比

如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase

viperrrrrrr·2025-03-15 09:51

hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读

1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？

weixin_39756416·2025-03-13 22:10

在hadoop上运行python_hadoop上运行python程序

数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop

廷哥带你小路超车·2025-03-13 12:58

大数据学习（60）-HDFS文件结构

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、体系结构HDFS是一个标准的主从(Master/Slave)

viperrrrrrr·2025-03-12 21:08

HBase2.6.1部署文档

1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。

CXH728·2025-03-12 17:10

Hadoop、Spark和 Hive 的详细关系

核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。

夜行容忍·2025-03-11 18:46

Zookeeper+kafka学习笔记

配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的

CHR_YTU·2025-03-11 16:01

大数据与hdfs创建文件夹

注意事项:在hdfs上操作的文件,创建文件的时候注意他与linux是不一样的(模式如下:)hdfsdfs-mkdir/test1错误示例:否则,无论如何hdfsdfs-ls/test1/都没有文件的

猫猫头有亿点炸·2025-03-10 17:30

doris：分析 S3/HDFS 上的文件

通过TableValueFunction功能，Doris可以直接将对象存储或HDFS上的文件作为Table进行查询分析。并且支持自动的列类型推断。

向阳1218·2025-03-10 11:24

Hadoop：分布式计算平台初探

Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。

dccrtbn6261333·2025-03-10 01:32

Hadoop：全面深入解析

其核心组件包括Hadoop分布式文件系统（HDFS）

CloudJourney·2025-03-09 21:29

Hadoop介绍：什么是Hadoop？了解Hadoop的应用

Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA

Zzzxt007·2025-03-09 21:55

hbase 默认目录_[HBase] HBase数据存储目录解析

Hbase在hdfs上的存储位置，根目录是由配置项hbase.rootdir决定，默认就是"/hbase"/hbase/WALs在该目录下，对于每个RegionServer，都会对应1~n个子目录/hbase

weixin_39577422·2025-03-09 13:21

Hbase在hdfs上的archive目录占用空间过大

hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。

宝罗Paul·2025-03-09 13:50

Hadoop、Spark、Flink Shuffle对比

一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过

逆袭的小学生·2025-03-09 10:55

【Hadoop】详解HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

2302_79952574·2025-03-09 09:13

HDFS的设计架构

HDFS是Hadoop生态系统中的分布式文件系统，设计用于存储和处理超大规模数据集。它具有高可靠性、高扩展性和高吞吐量的特点，适合运行在廉价硬件上。

F_0125·2025-03-09 05:21

鸿蒙系统分布式文件概述、访问、拷贝

1.分布式文件系统概述分布式文件系统（hmdfs，HarmonyOSDistributedFileSystem）提供跨设备的文件访问能力，适用于如下场景：两台设备组网，用户可以利用一台设备上的编辑软件编辑另外一台设备上的文档

小时代的大玩家·2025-03-08 09:20

大数据面试系列之——Hadoop

Hadoop的三个核心：HDFS（分布式存储系统）MapReduce（分布式计算系统）YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式：直接解压安装，不存在分布式存储系统2.伪分布式

潜心_守道·2025-03-07 07:17

Azkaban其一，介绍、体系架构和安装

比如：想启动hadoop集群先启动zk集群，再启动hdfs,再启动yarn，再启动日志系统工作过程中总会遇到多个脚本执行的时候有顺序。任务可以有一个编排的工具

出发行进·2025-03-07 00:35

hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化？思维导图代码示例（java 架构)

HDFS（HadoopDistributedFileSystem）的高可用性（HA,HighAvailability）机制旨在解决单点故障问题，确保即使在NameNode出现故障的情况下，文件系统仍然可以继续正常工作

用心去追梦·2025-03-06 10:00

推荐频道