E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
hadoop分布式文件系统(
HDFS
)
1.
HDFS
系统介绍Hadoop分布式文件系统
HDFS
(HadoopDistributedFileSystem)是一个能够兼容普通硬件环境的分布式文件系统,和现有的分布式文件系统不同的地方是,Hadoop
旺仔Lhh
·
2023-10-17 20:03
hdfs
hadoop
big
data
HDFS
Java API
本文代码链接:https://download.csdn.net/download/shangjg03/884374401.简介想要使用
HDFS
API,需要导入依赖`hadoop-client`。
shangjg3
·
2023-10-17 19:59
大数据计算引擎
Hadoop
hdfs
java
hadoop
大数据
Hadoop分布式文件系统-
HDFS
1.介绍
HDFS
(HadoopDistributedFileSystem)是Hadoop下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。
shangjg3
·
2023-10-17 19:53
大数据计算引擎
Hadoop
hadoop
hdfs
大数据
记录一次
hdfs
存储异常
报错信息[2022-03-0209:54:52,932]{bash_operator.py:123}INFO-22/03/0209:54:52INFOstorage.BlockManagerInfo:Addedbroadcast_1_piece0inmemoryonhadoop-spark2:38546(size:4.3KB,free:366.3MB)[2022-03-0209:54:52,933
叫兽吃橙子
·
2023-10-17 17:15
深入探索Zookeeper的奥秘:揭秘其原理与工作机制,让你迅速获得理解
zk和大数据领域结合比较密切,可以管理很多框架,比如:hadoophivekafkahbase
hdfs
pig……zk把上述框架都可以管理起来,那么
技术琐事
·
2023-10-17 16:22
zookeeper
java-zookeeper
分布式
云原生
MyCAT:回顾当年的热潮,探寻这款备受欢迎的数据库中间件的核心特性
一个彻底开源的,面向企业应用开发的大数据库集支持事务、ACID、可以替代MySQL的加强版数据库一个可以视为MySQL集群的企业级数据库,用来替代昂贵的Oracle集群一个融合内存缓存技术、NoSQL技术、
HDFS
技术琐事
·
2023-10-17 16:13
分布式
数据库
java
maven
Hadoop原理及部署初探
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称
HDFS
。
weixin_34010949
·
2023-10-17 15:21
大数据
爬虫
运维
Hadoop集群_
HDFS
初探之旅
1、
HDFS
简介
HDFS
(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上
weixin_30466421
·
2023-10-17 15:51
数据结构与算法
大数据
java
Hadoop 初探
Theprojectincludesthesemodules:HadoopCommon:ThecommonutilitiesthatsupporttheotherHadoopmodules.HadoopDistributedFileSystem(
HDFS
weixin_33895475
·
2023-10-17 15:51
运维
java
大数据
Hadoop原理及部署初探(转)
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称
HDFS
。
wbj0110
·
2023-10-17 15:51
Hadoop
Hadoop
CentOS系统下的Hadoop集群(第8期)_
HDFS
初探之旅
Hadoop集群(第8期)_
HDFS
初探之旅1、
HDFS
简介
HDFS
(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的
Wang_Zhenwei
·
2023-10-17 15:20
Hadoop
转载
linux
centos
hadoop
hdfs
Hadoop集群(第8期)_
HDFS
初探之旅
1、
HDFS
简介
HDFS
(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上
浮生(FS)
·
2023-10-17 15:49
hadoop+Hbase
hadoop
大数据-hadoop-初探03
**####一、完全分布式的安装**1、集群规划角色分配组件PC1PC2PC3
HDFS
NamenodeSecondaryNamenodeDatanodeDatanodeDatanodeYarnRecourceManagerNodemanagerNodemanagerNodemanagerHistroryHistroryServer2
taco詹詹
·
2023-10-17 15:49
hadoop
hadoop
big
data
大数据
四、Hadoop初探:伪分布式模式
1、配置1.1core-site.xml配置位置:$HADOOP_HOME/etc/hadoop/core-site.xmlfs.defaultFS
hdfs
://localhost:9000PS:如提示无写权限
chengzhufu5164
·
2023-10-17 15:18
大数据
运维
java
2.3 初探Hadoop世界
的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程(二)Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性(三)Hadoop的生态体系1、
HDFS
howard2005
·
2023-10-17 14:15
数据清洗和预处理
大数据离线分析
hadoop
大数据
分布式
大数据开发复习(1)
大数据开发复习课程课程安排day01就业岗位介绍面试流程最重要的是简历基础复习JavamysqlLinuxday02
HDFS
MapReducehive(sqlboy)HBASEday03kafkaredisesday04scalasparkflinkday05etl
小码上线
·
2023-10-17 09:55
JavaSE
java
分布式文件系统元数据服务方式总结(
HDFS
、CephFS、CurveFS)
上一篇文章https://blog.csdn.net/qq_58034031/article/details/129518612分享了一篇20222论文,讲述在大型分布式文件系统中高效元数据服务,以此为启发总结了目前主流分布式文件系统它们是如何管理元数据的。一、元数据分区方式常用的元数据分区方式分为子树分区和hash分区,其中子树分区又分为静态子树分区和动态子树分区。二、常见分布式文件系统元数据管
兜兜不是豆
·
2023-10-17 07:22
存储
ceph
hdfs
2023_Spark_实验十四:SparkSQL入门操作
1、将emp.csv、dept.csv文件上传到分布式环境,再用
hdfs
dfs-putdept.csv/input/
hdfs
dfs-putemp.csv/input/将本地文件put到
hdfs
文件系统的
pblh123
·
2023-10-17 06:07
Spark实验
spark
大数据
分布式
Hadoop-总览
Hadoop一、什么是hadoop1.什么是hadoop2.hadoop产生背景3.生态圈4.集群搭建:二、常见命令三、
HDFS
3.1
HDFS
构成3.2概述3.3NameNode工作机制3.3.1职责:
吃再多糖也不长胖
·
2023-10-17 05:39
hadoop问题
hdfs
hadoop
[Druid] 1 基本概念和架构概览
分布式OLAP数据库:(1)ES-明细数据检索(OLAP聚合分析支持不好)(2)Kylin-预计算+kv存储(预计算无法做到低延时)(3)Presto-可直接读
HDFS
文件的查询引擎image.png注意
LZhan
·
2023-10-17 05:48
2018-07-13 hbase
zookeeper1.解压hbase2.编辑hbase_env.sh修改java_home修改HBASE_MANAGES_ZK=FALSE(不使用自带zk)3.添加hadoop将hadoop/etc/hadoop下的
hdfs
-site.xml
江江江123
·
2023-10-17 04:32
搭建Atlas2.2.0 集成CDH6.3.2 生产环境+kerberos
首先确保环境的干净,如果之前有安装过清理掉相关残留确保安装atlas的服务器有足够的内存(至少16G),有必要的hadoop角色
HDFS
客户端—检索和更新Hadoop使用的用户组信息(UGI)中帐户成员资格的信息
Mumunu-
·
2023-10-16 21:49
大数据
atlas
centos系统/dev/mapper/centos-root目录被占满的解决方式
nospaceleftondevice接下来就写下我在备份虚拟机上如何解决根目录被占满的问题:1、查看虚拟机磁盘使用情况df-h可以看到/dev/mapper/centos-root已经快满了,这时候就算启动
hdfs
layman·
·
2023-10-16 20:32
linux
centos
linux
运维
在shell中判断
hdfs
文件是否存在
fi但是我们想判断
hdfs
上某个文件是否存在咋办呢?Hadoop内置提供了判断某个文件是否存在的命令:[
[email protected]
~]$hadoopfs-help......
尤小闹
·
2023-10-16 16:13
java spark 消费kafka_spark streaming消费kafka数据写入
hdfs
避免文件覆盖方案(java版)
1.写在前面在sparkstreaming+kafka对流式数据处理过程中,往往是sparkstreaming消费kafka的数据写入
hdfs
中,再进行hive映射形成数仓,当然也可以利用sparkSQL
吴羽舒
·
2023-10-16 11:40
java
spark
消费kafka
hive动态分区shell_大数据学习之hive shell笔记总结
2、启动:需要先启动
hdfs
,如果有需要用到mr的查询时,必须启动yarn3、DDL数据定义语言,主要是用于创建、删除、修改等数据库级别、表级别、索引等等4、创建数据
weixin_39623355
·
2023-10-16 06:00
hive动态分区shell
大数据学习笔记,学习清单
大数据目前技术组件有很多,比如有
hdfs
,hive,spark,flink,kafka,clickhouse,cdh,nifi,streamset等等技术,主流的开发语言有Java,Scala,Python
平凡天下
·
2023-10-16 06:59
大数据
学习
笔记
大数据--hive学习笔记
特性使用
HDFS
作为数据存储通过MapReduce完成数据运算提供类似SQL的语言(HQL)HQL灵活的可扩展性(UDF、UDAF、UDTF)适合进行离线
TaroLee
·
2023-10-16 06:29
大数据系列
hive
hadoop
大数据
大数据HiveSQL学习笔记二
学习笔记二一、数据库操作1、创建数据库CREATE(DATABASE/SCHEMA)[IFNOTEXISTS]database_name[COMMENTdatabase_comment][LOCATION
hdfs
_path
lucky_myj
·
2023-10-16 06:58
大数据
hive
hadoop
【大数据】Hive SQL语言(学习笔记)
一、DDL数据定义语言1、建库1)数据库结构默认的数据库叫做default,存储于
HDFS
的:/user/hive/warehouse用户自己创建的数据库存储位置:/user/hive/warehouse
rexhao_wmh
·
2023-10-16 06:57
大数据
hive
sql
使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓
文章目录一、Python生成数据1.1代码说明1.2代码参考二、数据迁移2.1从本机上传至服务器2.2检查源数据格式2.3检查大小并上传至
HDFS
三、beeline建表3.1创建测试表并导入测试数据3.2
程序终结者
·
2023-10-16 06:56
Hadoop生态
python
hive
大数据
数据仓库
Hadoop未来展望
本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——
HDFS
和MapReduce。
贾诩是也
·
2023-10-16 06:19
Big
DATA
HDFS
上传、下载流程
HDFS
上传上传过程参考此图在这里插入图片描述 首先,有一个200M文件要上传,那么Client首先要读取这个文件,DistributedFileSystem就是整个集群的抽象封装。
Emeraki
·
2023-10-16 02:25
一种不同网络环境下HBase数据备份及恢复方法
目录0.引言1.备份方法2数据恢复方法2.1将将备份文件添加到
hdfs
中2.2导入数据到HBase集群3相关参考代码4.小结0.引言HBase在大数据处理中地位至关重要,有的公司会将HBase作为原始数据接入层
莫叫石榴姐
·
2023-10-15 20:06
Hbase
hadoop
hadoop
mapreduce
大数据
Apache doris Datax DorisWriter扩展使用方法
DataX实现了包括MySQL、Oracle、SqlServer、Postgre、
HDFS
、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres
张家锋
·
2023-10-15 14:25
Hadoop基础学习---6、MapReduce框架原理
2、MapTask并行度决定机制数据块:Block是
HDFS
物理上吧数据分成一块一块。数据块是
HDFS
储存数据单位。数据切片:数据切片只是在逻辑上对输出进行分片,并不会在磁盘上将其切分成片进行
星光下的赶路人star
·
2023-10-15 13:23
Hadoop
hadoop
mapreduce
学习
Hadoop:MapReduce概述、WordCount
MapReduce概述MapReduce是Hadoop的两大核心技术之一,
HDFS
解决了大数据存取问题,而MapReduce是对大数据的高效并行编程模型。
瞧德
·
2023-10-15 13:23
Hadoop
hadoop
mapreduce
大数据技术Hive详解
说明:Hive处理的数据存储在
HDFS
;Hive分析数据底层的实现是MapReduce;执行程序运行在Yarn上;1.分布式文件系统
HDFS
存储架构与
wespten
·
2023-10-15 12:04
Hadoop
Hive
Spark
大数据安全
hive
大数据
hadoop
大数据flink篇之三-flink运行环境安装后续一yarn-session安装
前提:Hadoop必須保证在2.2以上,且必須裝有
hdfs
服务。Hadoop安装后续会有相关说明。具体的,在生产环境中,flink一般会交由yarn、k8s等资源管理平台来处理。
风之清扬
·
2023-10-15 12:36
大数据计算-Flink
大数据分析
大数据
flink
走进Hive
什么是HiveHadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,构建在分布式
HDFS
系统运行的数据库应用场景大数据集的批处理作用,做离线的数据分析日志分析多维度数据分析海量结构化数据离线分析统计网站一个时间段内的
、小H
·
2023-10-15 09:15
hive
hadoop
数据仓库
走进HBase
什么是Hbase建立在Hadoop之上
HDFS
分布式文件系统,面向列的存储系统列式数据库是针对行数据库而言的,行式数据库是以一行数据作为一个存储单元,而列式数据库是以一列数据为一个存储单元,针对HBase
、小H
·
2023-10-15 09:41
hbase
大数据框架之Hadoop:
HDFS
(五)NameNode和SecondaryNameNode(面试开发重点)
5.1NN和2NN工作机制5.1.1思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更
yiluohan0307
·
2023-10-15 08:25
大数据框架之Hadoop
hadoop
hdfs
大数据
Hadoop3教程(四):
HDFS
的读写流程及节点距离计算
文章目录(55)
HDFS
写数据流程(56)节点距离计算(57)机架感知(副本存储节点选择)(58)
HDFS
读数据流程参考文献(55)
HDFS
写数据流程数据文件ss.avi是如何从客户端写到
HDFS
的?
经年藏殊
·
2023-10-15 08:55
大数据技术
hdfs
hadoop
大数据
Hadoop3教程(六):
HDFS
中的DataNode
文章目录(63)DataNode工作机制(64)数据完整性(65)掉线时限参数设置参考文献(63)DataNode工作机制DataNode内部存储了一个又一个Block,每个block由数据和数据元数据组成。数据元数据包括数据长度、校验和、时间戳等。在物理的目录里,每个block的数据和数据源数据是分两个文件保存的。DataNode的工作机制如图:DataNode启动后,会向NameNode注册,
经年藏殊
·
2023-10-15 08:55
大数据技术
hdfs
hadoop
大数据
Hadoop 之
HDFS
(NameNode 和 SecondaryNameNode)
文章目录五、NameNode和SecondaryNameNode(重点)5.1NN和2NN工作机制5.2Fsimage和Edits解析5.2.1oiv查看Fsimage文件5.2.2oev查看Edits文件5.3CheckPoint时间设置5.4NameNode故障处理(扩展)5.5集群安全模式5.6NameNode多目录配置五、NameNode和SecondaryNameNode(重点)5.1N
TANCHISE
·
2023-10-15 08:25
Hadoop
hadoop
大数据
hdfs
carbondata优化小姐
一,carbondata高效原因carbondata文件是
hdfs
的列式存储格式查询速度是sparkSQL的10倍,通过多种索引技术和多次pushdown优化,对TB级别数据快速响应高效的压缩,使用轻量级和和重量级压缩组合的方式
不吃饭的猪
·
2023-10-15 08:54
大数据
Hadoop3.x 之
HDFS
NameNode 和 SecondaryNameNode (月薪过万 第七章)
NameNode和SecondaryNameNode机制一、NN和2NN工作机制1、思考2、NameNode工作机制3、分析4、SecondaryNameNode工作二、Fsimage和Edits解析1、Fsimage和Edits概念2、oiv查看Fsimage文件1、查看oiv和oev命令2、基本语法3、案例实操3、oev查看Edits文件1、基本语法2、案例实操三、CheckPoint时间设置
小坏讲微服务
·
2023-10-15 08:51
小坏讲大数据(Hadoop)
第一阶段
hadoop
大数据
HDFS
学习三:NameNode和SecondaryNameNode工作机制
一、NameNode和SecondaryNameNode1.1NN与2NN的工作机制内存中存储元数据,可靠性怎么保证?为防止元数据丢失,会将元数据备份一份:磁盘中的备份元数据存储在FsImage。若是更新内存元数据同时更新Fsimage的话,效率太低,不更新的话,数据一致性怎么保证?内存中元数据更新机制:引入了Edit文件(只进行追加操作,效率很高)。每当元数据有更新或添加元数据时,修改内存中的元
阿星_Alex
·
2023-10-15 08:20
#
Hadoop
hdfs
hadoop
big
data
Hadoop三大组件NameNode、DataNode、SecondaryNamenode的介绍
先上关系图,说白了它们之间其实就是“一主多重”的关系:1、NameNode介绍NameNode:NameNode是
HDFS
的核心。NameNode也称为Master。
奇迹虎虎
·
2023-10-15 08:20
#
Hadoop
hadoop
big
data
hdfs
大数据
分布式
Hadoop-
HDFS
的NameNode和SecondaryNameNode介绍及原理
NameNode和SecondaryNameNodeNN和2NN的工作机制NameNode中的元数据是存储:首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的
魔笛Love
·
2023-10-15 07:47
hadoop
大数据
上一页
33
34
35
36
37
38
39
40
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他