hdfs 第2页

【自学笔记】Hadoop基础知识点总览-持续更新

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop基础知识点总览1.Hadoop简介2.Hadoop生态系统3.HDFS（HadoopDistributedFileSystem

Long_poem·2025-03-05 22:24

spark hdfs 常用命令

目录lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm

毛球饲养员·2025-03-05 11:19

常用spark命令

--spark启动localhost$spark-sql--masteryarn启动主节点yarn模式--查看hdfs文件hdfsdfs-ls/spark/myDatabase.db查看我们建的表其实是是建立在

会拉小提琴的左脚·2025-03-05 11:19

Spark详解二

masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone独立模式：Spark自带的一种集群模式Spark自己管理集群资源，此时只需要将Hadoop的HDFS

卢子墨·2025-03-05 11:13

初学者如何用 Python 写第一个爬虫？

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark

ADFVBM·2025-03-04 16:19

避免Hive和Spark生成HDFS小文件

HDFS是为大数据设计的分布式文件系统，对大数据做了存储做了针对性的优化，但却不适合存储海量小文件。

穷目楼·2025-03-03 22:36

Spark核心之06：知识点梳理

、spark是什么spark是针对于大规模数据处理的统一分析引擎，它是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用spark对接外部的数据源，比如hdfs

小技工丨·2025-03-03 07:03

Hadoop基础知识及部署模式

广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.二、Hadoop的发展史Hadoop起源于Lucen

2301_82242502·2025-03-03 06:28

大数据技术学习框架（更新中......）

小技工丨·2025-03-03 04:05

Ubuntu从零创建Hadoop集群

查看虚拟机IP及检查网络3.Ubuntu相关配置镜像源配置下载vim编辑器4.设置静态IP和SSH免密(可选)设置静态IPSSH免密5.JDK环境部署6.Hadoop环境部署7.配置Hadoop配置文件HDFS

爱编程的王小美·2025-03-02 12:57

Kafka系列之：记录一次源头数据库刷数据，造成数据丢失的原因

Kafka系列之：记录一次源头数据库刷数据，造成数据丢失的原因一、背景二、查看topic日志信息三、结论四、解决方法一、背景源头数据库在很短的时间内刷了大量的数据，部分数据在hdfs丢失了理论上debezium

快乐骑行^_^·2025-03-01 18:12

Python酷库之旅-第三方库Pandas(011)

目录一、用法精讲25、pandas.HDFStore.get函数25-1、语法25-2、参数25-3、功能25-4、返回值25-5、说明25-6、用法25-6-1、数据准备25-6-2、代码示例25-6

神奇夜光杯·2025-03-01 05:38

HIVE 面试题总结

Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理

小余真旺财·2025-02-28 11:00

Hive基本操作

Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3

小肥柴呀·2025-02-28 04:01

Hive SQL 使用及进阶详解

一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析

小四的快乐生活·2025-02-27 03:37

HDFS是如何存储和管理大数据

HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）是专为大数据处理而设计的分布式文件系统，具有高吞吐量、高容错性等特点，适用于大规模数据存储和管理。

python资深爱好者·2025-02-26 11:38

Hadoop 基础原理

Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce

disgare·2025-02-26 11:38

Spark Standalone集群架构

spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS

htfenght·2025-02-25 20:22

Hadoop--NameSpace（名称空间）

1.名称空间的定义 HDFS的名称空间是一个逻辑上的文件系统目录树，类似于传统文件系统的目录结构。组成目录：用于组织文件的逻辑容器。文件：存储在HDFS中的实际数据单元。

Cynthiaaaaalxy·2025-02-25 18:42

Hadoop HDFS基准测试

一、测试写入速度确保HDFS集群和YARN集群成功启动hadoopjar/export/server/hadoop-3.1.4/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient

Yvonne978·2025-02-24 14:22

jmeter 与大数据生态圈中的服务进行集成

以下为你详细介绍JMeter与大数据生态圈中几种常见服务（HadoopHDFS、Spark、Kafka、Elasticsearch）集成的方法：与HadoopHDFS集成实现思路HDFS是Hadoop的分布式文件系统

小赖同学啊·2025-02-24 13:40

Hadoop常用操作命令

在NameNode节点格式化集群初始化集群hdfsnamenode-format启动HDFSsbin/start-dfs.sh启动yarnsbin/start-yarn.sh启动NodeManageryarn-daemon.shstartnodemanager

hzw0510·2025-02-24 07:02

HDFS分布式文件系统的架构及特点

一、HDFS架构HDFS采用的是主从（Master/Slave）架构，即一个HDFS通常是由一个Master和多个Slave组成。

互联网上的猪·2025-02-24 04:40

Hadoop~HDFS的Block块

一、HDFS的block块1.介绍block块是HDFS的最小存储单位，每个256MB(可以修改)2.文件在HDFS中的存储方式文件分成多个block块，block块分三份存入对应服务器，每个block

飞Link·2025-02-23 11:37

深入HBase——核心组件

核心组件首先，需要提到的就是HBase架构中会依赖到的Zookeeper和HDFS。

黄雪超·2025-02-23 01:26

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis

m0_74823705·2025-02-22 21:50

Python 的 WebSocket 实现详解

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-02-22 03:23

【Hadoop】使用Docker容器搭建伪分布式集群

docker-compose.yaml文件配置集群version:"3"services:namenode:image:apache/hadoop:3.3.6hostname:namenodecommand:["hdfs

慕青Voyager·2025-02-21 09:14

HDFS分布文件系统（Hadoop Distributed File System）

目录一.HDFS的本质二.HDFS的架构与原理三、HDFS特性四.HDFS的常用命令1.显示HDFS指定路径下的所有文件2.在HDFS上创建文件夹3.上传本地文件到HDFS4.查看文件5.删除HDFS上的文件或者目录

柿子小头·2025-02-21 08:38

org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool ID needed, but service not yet registere

启动hadoop集群，发现datanode没有启动，查看日志报错，如图：//日志文件2020-03-2416:40:55,608WARNorg.apache.hadoop.hdfs.server.common.Storage

@菜鸟进阶记@·2025-02-21 01:19

Hadoop之HDFS的使用

HDFS是什么：HDFS是一个分布式的文件系统，是个网盘，HDFS是一种适合大文件存储的分布式文件系统HDFS的Shell操作1、查看hdfs根目录下的内容-lshdfsdfs-lshdfs://hadoop01

想要变瘦的小码头·2025-02-20 20:43

Hadoop管理工具dfsadmin和fsck的使用

Hadoop提供了多个管理工具，其中dfsadmin和fsck是用于管理HDFS（Hadoop分布式文件系统）的重要工具。以下是它们的使用方法和常见命令。

脚本无敌·2025-02-19 16:46

Hive 分区详解

分区表的一个分区对应hdfs上的一个目录分区表包括静态分区表和动态分区表，根据分区会不会自动创建来区分多级分区表，即创建的时

mm_ren·2025-02-19 15:36

hive全量迁移脚本

/bin/bash#场景：数据在同一库下，并且hive是内部表（前缀的hdfs地址是相同的）#1.读取一个文件，获取表名#echo"时间$dt_jian_2-----------------------

我要用代码向我喜欢的女孩表白·2025-02-19 15:29

使用Docker安装Spark集群(带有HDFS)

本实验在CentOS7中完成第一部分：安装Docker这一部分是安装Docker，如果机器中已经安装过Docker，可以直接跳过[root@VM-48-22-centos~]#systemctlstopfirewalld[root@VM-48-22-centos~]#systemctldisablefirewalld[root@VM-48-22-centos~]#systemctlstatusfi

Sicilly_琬姗·2025-02-18 10:52

Hbase深入浅出

天才之上·2025-02-18 03:13

HBase简介：高效分布式数据存储和处理

HBase的核心特点包括：分布式存储：HBase使用Hadoop分布式文件系统（HDFS）作为底层存储，数据被分布在集

代码指四方·2025-02-18 03:07

深度优先搜索DFS

目录类`GraphDFS`的定义深度优先搜索方法`dfs`访问顺序的获取`order`深度优先搜索（DFS,Depth-FirstSearch）算法。

顾北辰20·2025-02-17 10:19

Hadoop常用端口号

以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN

海洋之心·2025-02-17 02:51

大数据之-hdfs+hive+hbase+kudu+presto集群(6节点)

index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp

管哥的运维私房菜·2025-02-16 22:50

Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？

分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。

晚夜微雨问海棠呀·2025-02-16 11:53

HBase的合并操作

compact的作用flush操作会将memstore的数据落地为一个个StoreFile（HFile），那么随着时间的增长在HDFS上面就会有很多的HFile文件，这样对读操作会产生比较大的影响（读操作会对

b1gx·2025-02-16 06:20

深入HBase——引入

引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。

黄雪超·2025-02-15 16:58

Ubuntu下配置安装Hadoop 2.2

参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single

weixin_30501857·2025-02-15 15:55

蓝易云 - HBase基础知识

HBase是一个分布式、可伸缩、列式存储的NoSQL数据库，它建立在Hadoop的HDFS之上，提供高可靠性、高性能的数据存储和访问。

蓝易云·2025-02-15 02:38

关于虚拟机的Unknown command

/bin/hdfsdfs–mkdirinput导致出现–mkdir:Unknowncommand的错误，原因在于我复制的这条命令中的-和虚拟机的编码不一样，导致出错，所以应该手敲这个符号“-”，这样就可以啦

真的不想写实验·2025-02-13 04:12

hadoop 1.0 基本概念了解

Map函数负责将输入数据转化为中间值,中间值再通过Reduce函数转化成输出数据HDFS：HDFS是一个分布式文件系统。通过一次写入，多次读出来实现。Chukwa：Chukw

fenggfa·2025-02-12 07:48

深入理解Hadoop 1.0.0源码架构及组件实现

该版本包含核心分布式文件系统HDFS、MapReduce计算模型、Common工具库等关键组件。通过分析源码，可深入理解这些组件的设计和实现细节，包括数据复制、任务调度、容错机制以及系统配置管理。

隔壁王医生·2025-02-12 07:14

HiveQL命令（三）- Hive函数

ApacheHive作为一种流行的数据仓库工具，提供了丰富的内置函数，帮助用户高效地处理和分析存储在Hadoop分布式文件系统（HDFS）中的数据。这些内置函数涵盖了数值计算、字符

BigDataMagician·2025-02-11 12:00

掌握大数据--Hive全面指南

-DDL操作数据库1.Hive简介ApacheHive是建立在Hadoop之上的一个数据仓库工具，它提供了一种类似于SQL的查询语言，称为HiveQL，用于查询和分析存储在Hadoop分布式文件系统（HDFS

纪祥_ee1·2025-02-10 22:40

推荐频道

hdfs