E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HDFS
Hadoop分布式文件系统
HDFS
Hadoop分布式文件系统
HDFS
作者:禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词:大数据存储,分布式计算,海量数据处理,高可用性,容错机制1.背景介绍
AI天才研究院
·
2025-03-31 06:38
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
hdfs
原理
简介
HDFS
(HadoopDistributedFileSystem)Hadoop分布式文件系统。是根据google发表的论文翻版的。
raining_time
·
2025-03-31 06:38
hdfs原理
hdfs读写原理
hdfs优缺点
hdfs安全模式
hdfs常用命令
数据仓库:如何解决ODS数据零点漂移问题
本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移,查看flume+kafka同步数据导致的零点漂移参考该文章:业务数据采集_零点漂移处理方法(Flume+Kafka+
HDFS
)一、数据零点漂移概念1
夜希辰
·
2025-03-31 01:35
数据仓库
大数据
阿里开源的免费数据集成工具——DataX
什么是DataXDataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功
遇码
·
2025-03-29 03:55
大数据
开源
datax
数据集成
大数据
seatunnel
kettle
flinkcdc
Sqoop-试题
A.使用--call参数调用存储过程B.存储过程需要提前在hive中创建C.存储过程需要提前在
hdfs
中创建D.使用--c
minaMoonGirl
·
2025-03-28 20:59
sqoop
hadoop
hive
Spark 从
HDFS
读取时,通常按文件块(block)数量决定初始partition数,这是怎么实现的?
在Spark中,从
HDFS
读取数据时按文件块(block)数量决定初始partition数,这一机制是通过HadoopInputFormat的分片(split)策略实现的。
闯闯桑
·
2025-03-28 16:33
spark
hdfs
大数据
hadoop相关面试题以及答案
其主要组件包括HadoopDistributedFileSystem(
HDFS
)和MapReduce。解释
HDFS
的工作原理。
HDFS
采用主从架构,包括一个NameNode和多个DataNode。
酷爱码
·
2025-03-28 13:12
编程学习
hadoop
大数据
分布式
Java HotSpot(TM) 64-Bit Server VM warning: Insufficient space for shared memory file:
执行
hdfs
命令查看目录时,控制台上有这么一句警告JVM报错:共享内存文件空间不足df-h以可读性较高的方式来显示磁盘使用信息可以看到主盘已使用100%暴力解决办法:找到对应占用磁盘的文件,然后rm-f
fzip
·
2025-03-27 14:23
Java
Flink
flink大日志文件
《Operating System Concepts》阅读笔记:p483-p488
一、技术总结1.objectstorage(1)objectstorage管理软件Hadoopfilesystem(
HDFS
)、Ceph。
·
2025-03-27 10:34
操作系统
Hadoop/Spark 生态
传统单机瓶颈:数据量超过单机存储极限(如PB级数据)计算任务无法在合理时间内完成(如TB级日志分析)核心解决思路:分布式存储:数据拆分到多台机器存储(如
HDFS
)分布式计算:任务拆分到多台机器并行处理
不辉放弃
·
2025-03-27 09:15
大数据
读取
hdfs
上snappy压缩文件并发送kafka的两种方式速度测试
最近有一个需求,因为第一次做,踩了许多坑,故在此记录一下需求背景:现在
hdfs
上有一份snappy压缩的文件,要把这份文件中的数据读出来并发送给kafka解决思路平时我90%的时间都是在消费kafka,
今天上上签
·
2025-03-26 04:40
Spark&Hbase
spark
大数据
java
json
尚硅谷大数据项目【电商数仓6.0】-Datax-6
tar-zxvfdatax.tar.gz-C/opt/module/测试python/opt/module/datax/bin/datax.py/opt/module/datax/job/job.jsonMySQLTo
HDFS
Xiaoweidumpb
·
2025-03-25 14:26
大数据技术
大数据
大数据(2)Hadoop架构深度拆解:
HDFS
与MapReduce企业级实战与高阶调优
目录一、分布式系统的设计哲学演进1.1从Google三驾马车到现代数据湖二、企业级
HDFS
架构全景图2.1联邦架构的深度实践2.2生产环境容灾设计2.3性能压测方法论三、MapReduce引擎内核解密3.1Shuffle
一个天蝎座 白勺 程序猿
·
2025-03-25 13:48
大数据开发从入门到实战合集
大数据
hadoop
架构
hadoop-
HDFS
操作
2.在操作
hdfs
时,需要在hadoop用户下的/usr/local/hadoop,此时是在根目录下。
wenying_44323744
·
2025-03-24 19:02
hadoop
hdfs
eclipse
Hadoop安装
伪分布式模式:Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点既作为NameNode也作为DataNode,同时,读取的是
HDFS
中的文件。分布式
Cindy_0124
·
2025-03-24 19:59
hadoop
大数据
分布式
数据权限访问控制(Apache Sentry)
ApacheSentry最初由Cloudera公司内部开发,针对Hadoop系统中的数据(主要是
HDFS
、Hive的数据)进行细粒度控制,对
HDFS
、Hive以及Impala有着良好的支持性。
deepdata_cn
·
2025-03-24 14:56
权限管理
apache
sentry
HBase的架构介绍,安装及简单操作
确保Hadoop的相关服务(如
HDFS
、YARN等)已经正常启动。2.下载HBase从HBase官方网站(https://hbase.apache.org/)下载适
pk_xz123456
·
2025-03-23 01:00
大数据
hbase
架构
数据库
HDFS
相关的面试题
以下是150道
HDFS
相关的面试题,涵盖了
HDFS
的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性
努力的搬砖人.
·
2025-03-22 18:16
java
面试
hdfs
hadoop3.x--搭建hadoop高可用集群(HA模式)
hadoop高可用集群(HA模式)一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、
HDFS
1.配置
hdfs
2.初始化启动
hdfs
运维小菜
·
2025-03-22 14:17
hadoop
hadoop
hdfs
Sqoop安装部署
ApacheSqoop简介Sqoop(SQL-to-Hadoop)是Apache开源项目,主要用于:将关系型数据库中的数据导入Hadoop分布式文件系统(
HDFS
)或相关组件(如Hive、HBase)。
愿与狸花过一生
·
2025-03-21 22:10
大数据
sqoop
hadoop
hive
数据中台(二)数据中台相关技术栈
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储:
HDFS
,HBase,Kudu等数据计算:MapReduce,Spark,Flink交互式查询:Impala,Presto
Yuan_CSDF
·
2025-03-20 05:25
#
数据中台
Hadoop相关面试题
以下是150道Hadoop面试题及其详细回答,涵盖了Hadoop的基础知识、
HDFS
、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面,每道题目都尽量详细且简单易懂
努力的搬砖人.
·
2025-03-20 01:53
java
面试
hadoop
Flink读取kafka数据并写入
HDFS
硬刚大数据系列文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/
HDFS
/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021
王知无(import_bigdata)
·
2025-03-19 22:59
Flink系统性学习专栏
hdfs
kafka
flink
Hadoop 实战笔记(二)--
HDFS
常用 shell 命令总结
一、
HDFS
命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir
dazhong2012
·
2025-03-19 17:48
Hadoop
hdfs
hadoop
中电金信25/3/18面前笔试(需求分析岗+数据开发岗)
一、需求分析第1题,单选题,Hadoop的核心组件包括
HDFS
和以下哪个?
苍曦
·
2025-03-19 12:43
需求分析
前端
javascript
Spark集群启动与关闭
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动
HDFS
start-dfs.shslave1上面执行开启
陈沐
·
2025-03-18 23:17
spark
spark
hadoop
big
data
智慧社区2.0
项目亮点1.技术架构层面✅多数据源整合(MySQL+Redis+
HDFS
+OSS)核心亮点:不仅仅是单一数据库,而是根据数据特性使用MySQL(结构化数据)+Redis(缓存)+
HDFS
(大数据存储)+
陈陈爱java
·
2025-03-18 19:53
java
Hadoop MapReduce 词频统计(WordCount)代码解析教程
程序会统计输入文本中每个单词出现的次数,并将结果输出到
HDFS
文件系统。
我不是少爷.
·
2025-03-18 17:07
Java基础
hadoop
mapreduce
大数据
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤
.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用
hdfs
dfsadmin-report
氪老师
·
2025-03-18 12:55
hadoop集群关闭命令顺序
Flume详解——介绍、部署与使用
它特别擅长将数据从各种数据源(如日志文件、消息队列等)传输到
HDFS
、HBase、Kafka等大数据存储系统。
克里斯蒂亚诺罗纳尔多阿维罗
·
2025-03-18 12:23
flume
大数据
分布式
hive-进阶版-1
以下是内部表和外部表的主要区别:1.数据存储位置内部表:数据存储在Hive的默认存储目录下,通常位于
HDFS
(HadoopDi
数据牧马人
·
2025-03-17 10:59
hive
hadoop
数据仓库
大数据学习(67)- Flume、Sqoop、Kafka、DataX对比
如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→
HDFS
、HBase
viperrrrrrr
·
2025-03-15 09:51
大数据
学习
flume
kafka
sqoop
datax
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读
1、Hive产生背景MapReduce编程的不便性
HDFS
上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合)2、Hive是什么Hive的使用场景是什么?
weixin_39756416
·
2025-03-13 22:10
hive
数字转换字符串
在hadoop上运行python_hadoop上运行python程序
数据来源:http://www.nber.org/patents/acite75_99.zip首先上传测试数据到
hdfs
:[root@localhost:/usr/local/hadoop/hadoop
廷哥带你小路超车
·
2025-03-13 12:58
大数据学习(60)-
HDFS
文件结构
&&大数据学习&&系列专栏:哲学语录:承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦一、体系结构
HDFS
是一个标准的主从(Master/Slave)
viperrrrrrr
·
2025-03-12 21:08
学习
hdfs
hadoop
HBase2.6.1部署文档
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统(
HDFS
)之上的分布式、列存储、NoSQL数据库。
CXH728
·
2025-03-12 17:10
zookeeper
hbase
Hadoop、Spark和 Hive 的详细关系
核心组件:
HDFS
(HadoopDistributedFileSystem):分布式文件系统,提供高吞吐量的数据访问。
夜行容忍
·
2025-03-11 18:46
hadoop
spark
hive
Zookeeper+kafka学习笔记
配置管理分布式系统都有好多机器,比如我在搭建hadoop的
HDFS
的时候,需要在一个主机器上(Master节点)配置好
HDFS
需要的各种配置文件,然后通过scp命令把这些配置文件拷贝到其他节点上,这样各个机器拿到的配置信息是一致的
CHR_YTU
·
2025-03-11 16:01
Zookeeper
大数据与
hdfs
创建文件夹
注意事项:在
hdfs
上操作的文件,创建文件的时候注意他与linux是不一样的(模式如下:)
hdfs
dfs-mkdir/test1错误示例:否则,无论如何
hdfs
dfs-ls/test1/都没有文件的
猫猫头有亿点炸
·
2025-03-10 17:30
大数据
hdfs
hadoop
doris:分析 S3/
HDFS
上的文件
通过TableValueFunction功能,Doris可以直接将对象存储或
HDFS
上的文件作为Table进行查询分析。并且支持自动的列类型推断。
向阳1218
·
2025-03-10 11:24
大数据
doris
Hadoop:分布式计算平台初探
Hadoop框架中最核心设计就是:MapReduce和
HDFS
。MapReduce提供了对数据的计算,
HDFS
提供了海量数据的存储。
dccrtbn6261333
·
2025-03-10 01:32
大数据
运维
java
Hadoop:全面深入解析
其核心组件包括Hadoop分布式文件系统(
HDFS
)
CloudJourney
·
2025-03-09 21:29
hadoop
大数据
分布式
Hadoop介绍:什么是Hadoop?了解Hadoop的应用
Hadoop框架主要包括
HDFS
(HadoopDistributedFileSystem,Hadoop分布式文件系统)、MapReduce、YA
Zzzxt007
·
2025-03-09 21:55
hadoop
大数据
分布式
hbase 默认目录_[HBase] HBase数据存储目录解析
Hbase在
hdfs
上的存储位置,根目录是由配置项hbase.rootdir决定,默认就是"/hbase"/hbase/WALs在该目录下,对于每个RegionServer,都会对应1~n个子目录/hbase
weixin_39577422
·
2025-03-09 13:21
hbase
默认目录
Hbase在
hdfs
上的archive目录占用空间过大
hbase版本:1.1.2hadoop版本:2.7.3Hbase在
hdfs
上的目录/apps/hbase/data/archive占用空间过大,导致不停地发出
hdfs
空间使用率告警。
宝罗Paul
·
2025-03-09 13:50
大数据
hbase
Hadoop、Spark、Flink Shuffle对比
一、Hadoop的shuffle前置知识:Map任务的数量由Hadoop框架自动计算,等于分片数量,等于输入文件总大小/分片大小,分片大小为
HDFS
默认值128M,可调Reduce任务数由用户在作业提交时通过
逆袭的小学生
·
2025-03-09 10:55
hadoop
spark
flink
【Hadoop】详解
HDFS
Hadoop分布式文件系统(
HDFS
)被设计成适合运行在通用硬件上的分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
2302_79952574
·
2025-03-09 09:13
hadoop
hdfs
大数据
HDFS
的设计架构
HDFS
是Hadoop生态系统中的分布式文件系统,设计用于存储和处理超大规模数据集。它具有高可靠性、高扩展性和高吞吐量的特点,适合运行在廉价硬件上。
F_0125
·
2025-03-09 05:21
Hadoop
hdfs
hbase
hadoop
大数据面试系列之——Hadoop
Hadoop的三个核心:
HDFS
(分布式存储系统)MapReduce(分布式计算系统)YARN(分布式资源调度)1.Hadoop集群的几种搭建模式1.单机模式:直接解压安装,不存在分布式存储系统2.伪分布式
潜心_守道
·
2025-03-07 07:17
大数据
面经
面试
大数据
Hadoop
Azkaban其一,介绍、体系架构和安装
比如:想启动hadoop集群先启动zk集群,再启动
hdfs
,再启动yarn,再启动日志系统工作过程中总会遇到多个脚本执行的时候有顺序。任务可以有一个编排的工具
出发行进
·
2025-03-07 00:35
#
Azkaban
Azkaban
linux
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他