E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分布式文件系统HDFS
利用 Docker 安装 Hadoop 集群并通过 Java API 访问
HDFS
前言最近刚好在学习Hadoop,在安装过程中遇到了一些小麻烦,正好将此次过程记录并分享出来,希望能对准备学习本块内容的读者们有所帮助。本次操作在Ubuntu中完成,如何安装Ubuntu本文不再赘述。本文所涉及到的代码及配置文件可在微信公众号「01二进制」后台回复「hadoop」获取。在Ubuntu中安装配置Docker使用官方安装脚本自动安装安装命令如下:curl-fsSLhttps://get.
qq_33419925
·
2024-02-13 21:38
docker
hadoop
linux
java
大数据
hadoop 分布式集群安装与原理
我们分享一套能让您轻松完成集群搭建的方法,包括Hadoop的源码编译、企业级环境安装与配置和常用大数据组件的基本原理,请点击下面连接按笔记顺序进行学习服务器基础环境批量操作多台服务器zookeeper编译hadoop源码高可用(HA)
HDFS
海牛大数据_青牛老师
·
2024-02-13 12:44
分区表
分区表:分区表实际上就是对应一个
HDFS
文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。
incover
·
2024-02-12 22:34
GFS
分布式文件系统
目录引言一、文件系统的作用1.1、文件系统的挂载使用二、GlusterFS简介三、GlusterFS特点3.1、扩展性和高性能3.2、高可用性3.3、全局同一命名空间3.4、弹性卷管理3.5、基于标准协议四、GlusterFS术语五、GlusterFS构成六、GlusterFS的工作流程理解:七、弹性HASH算法弹性HASH算法优点八、GFS支持七种卷8.1、分布式卷(Distributevolu
IT.cat
·
2024-02-12 14:56
linux服务
运维
linux
服务器
缓存
GFS
分布式文件系统
一、GlusterFS概述1.GlusterFS简介GlusterFS是一个开源的
分布式文件系统
。由存储服务器、客户端以及NFS/Samba存储网关(可选,根据需要选择使用)组成。
「已注销」
·
2024-02-12 14:56
big
data
gfs
详解 GFS
分布式文件系统
(条带卷/复制卷/分布式条带卷/分布式复制卷)
GFS
分布式文件系统
一.GlusterFS概述1.GlusterFS简介2.GlusterFS特点3.GlusterFS术语4.模块化堆栈式架构5.GlusterFS工作流程6.弹性HASH算法7.GlusterFs
W.scaler
·
2024-02-12 14:55
linux
gfs
linux
运维
gfs
分布式
分布式存储
畅购商城(十二):接入微信扫码支付
好好学习,天天向上本文已收录至我的Github仓库DayDayUP:github.com/RobodLee/DayDayUP,欢迎Star畅购商城(一):环境搭建畅购商城(二):
分布式文件系统
FastDFS
Robod
·
2024-02-12 07:05
Hadoop-MapReduce-Yarn集群搭建
搭建的部署节点图如下:
hdfs
和yarn是两个不同概念,两者搭建不会冲突。注意一点是DataNode和NodeManager必须要部署在同一台机器,它们的比例是1比1关系的。
qq_2368521029
·
2024-02-12 07:44
搭建 Hadoop-3.1.3 HA 集群
本文目录1.集群部署分布规划2.Zookeepr集群安装3.
HDFS
-HAⅠ.配置core-site.xmlⅡ.配置
hdfs
-site.xmlⅢ.配置分发4.YARN-HAⅠ.配置yarn-site.xmlⅡ
扛麻袋的少年
·
2024-02-12 07:43
#
Hadoop
hadoop
hdfs
大数据
Hadoop-HA高可用集群部署
HA严格来说应该分成各个组件的HA机制:
HDFS
的HA和YARN的HA。
魔笛Love
·
2024-02-12 07:13
hadoop
hdfs
big
data
org.apache.hadoop.fs.ChecksumException: Checksum error: file:/root/test.txt at 0
上传文件到集群遇到以下异常:org.apache.hadoop.fs.ChecksumException:Checksumerror:file:/root/test.txtat0[root@master~]#
hdfs
dfs-puttest.txt
橙汁啤酒厂
·
2024-02-12 05:24
hadoop
大数据
Flume总结
1.概述2.角色(source、Channel、sink、event)3.使用(1)监控端口(2)实时读取本地文件到
HDFS
(3)实时读取目录文件到
HDFS
(4)Flume与Flume之间数据传递:单Flume
我是嘻哈大哥
·
2024-02-12 01:56
clickhouse之表引擎
对于ck来说,目前位置包含了以下部分引擎:1.集成外部系统的表引擎,支持方式有kafka,JDBC,ODBC,
HDFS
等2.合并树家族(最为常用且重要)3.日志
落花流水i
·
2024-02-11 22:53
ClickHouse
极限挑战:使用 Go 打造百亿级文件系统的实践之旅
JuiceFS企业版是一款为云环境设计的
分布式文件系统
,单命名空间内可稳定管理高达百亿级数量的文件。构建这个大规模、高性能的文件系统面临众多复杂性挑战,其中最为关键的环节之一就是元数据引擎的设计。
·
2024-02-11 18:49
go运维人工智能
HBase知识点总结
是建立在
HDFS
之上,提供高可靠性、高性能、列存储、可伸缩、实时读写NoSql的数据库系统。
·
2024-02-11 17:17
hbase大数据数据库
【大数据】Flume-1.9.0安装➕入门案例
目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件(hive.log)到
HDFS
案例4.实时读取目录文件到
欧叶冲冲冲
·
2024-02-11 09:34
flume
大数据
flume
学习
分布式
大数据入门--Flume(一)安装教程与案例
Flume(一)安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-
hdfs
)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件
许中宝
·
2024-02-11 09:34
大数据
flume
大数据
Hive与ClickHouse的区别
Hive的存储引擎使用
HDFS
,计算引擎使用MapReduce或Spark。Hive本质上是一个元数据管理平台,通过对存储于
HDFS
上的数据文件附加元数据,赋予
HDFS
上的文件以数据库表的语义。
晓之以理的喵~~
·
2024-02-11 08:18
Hadoop
大数据
hive
hive
clickhouse
hadoop
Hadoop(三)通过C#/python实现Hadoop MapReduce
MapReduceHadoop中将数据切分成块存在
HDFS
不同的DataNode中,如果想汇总,按照常规想法就是,移动数据到统计程序:先把数据读取到一个程序中,再进行汇总。
dotNET跨平台
·
2024-02-11 08:17
hadoop
mapreduce
spark
大数据
python
ClickHouse的特征,性能,优点,缺点,应用场景以及什么是OLAP,Clickhouse的相关优化
可以存储海量数据;因为clickhouse是分布式存储海量数据,所以解决了高并发的问题;clickhouse中的数据底层是列式存储clickhouse不仅可以管理自己的数据,也可以读取别人的数据,比如masql,
hdfs
晓晓很可爱
·
2024-02-11 08:15
clickhouse
大数据
Spark编程题
现有100W+条数据存储在
hdfs
中的userinfo文件夹中的多个文件中,数据格式如下:张三|男|23|未婚|北京|海淀李四|女|25|已婚|河北|石家庄求:1.数据中所有人的平均年龄2.数据中所有男性未婚的人数和女性未婚人数
不愿透露姓名的李某某
·
2024-02-11 07:09
MFS 分布式存储
MFS分布式存储MooseFS是一个具备冗余容错功能的分布式网络文件系统,它将数据分别存放在多个物理服务器或单独磁盘或分区上,确保一份数据有多个副本,然而对于访问MFS的客户端或者用户来说,整个
分布式文件系统
集群看起来就像一个资源一样
中门对狙
·
2024-02-11 01:30
2022-01-14 HDC2021技术分论坛:新能力让数据多端协同更便捷,数据跨端迁移更高效!
作者:yijian,终端OS
分布式文件系统
专家;gongashi,终端OS分布式数据管理专家HarmonyOS作为分布式操作系统,其分布式数据管理能力非常重要。
麻酱不会打麻将
·
2024-02-11 01:59
C#系列-C#访问hadoop API(9)
在C#中访问Hadoop通常涉及到与Hadoop
分布式文件系统
(
HDFS
)进行交互,以及可能执行MapReduce作业或其他Hadoop生态系统组件(如HBase或Hive)。
管理大亨
·
2024-02-10 22:27
C#系列
c#
hadoop
开发语言
大数据测试-Hive DML语句与函数使用2
一、HiveSQLDML语法之加载数据HiveSQL-DML-Load加载数据回顾在Hive中建表成功之后,就会在
HDFS
上创建一个与之对应的文件夹,且文件夹名字就是表名;文件夹父路径是由参数hive.metastore.warehouse.dir
Yasar.l
·
2024-02-10 22:55
大数据测试
hive
大数据
hadoop
hadoop-
HDFS
架构图在这里插入图片描述2.读写的流程图在这里插入图片描述2.操作1.使用MAVEN集成对应的jar包org.apache.hadoophadoop-common2.7.1org.apache.hadoophadoop-
hdfs
2.7.12
炽热_3a57
·
2024-02-10 22:45
报表任务治理计划
先给大家介绍我们我们公司的报表产出组件图:报表产出图底层平台由
HDFS
、Yarn分别提供存储和计算支持在这之上我们提供了一套支持MR、Spark任务开发、依赖执行的调度系统BI业务同学利用调
liujianhuiouc
·
2024-02-10 12:46
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏 民宿推荐系统 民宿爬虫 民宿大数据 知识图谱 机器学习 大数据毕业设计
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集;2.使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到
hdfs
;3
计算机毕业设计大神
·
2024-02-10 10:56
HDFS
常用命令
HDFS
常用命令
hdfs
命令最常用的就是:
hdfs
dfs-[linux的命令]通过查看Hadoop的命令与
hdfs
的命令并不相同,且不存在包含关系。仅仅是hadoopfs与
hdfs
dfs可以等价。
昱东i
·
2024-02-10 06:30
hadoop
linux
大数据
hadoop
could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running
学习使用Hadoop-3.2.2APIIDEA中使用Java向
hdfs
写入文件时出现如下错误:couldonlybereplicatedto0nodesinsteadofminReplication(=
昱东i
·
2024-02-10 06:30
hadoop
hadoop
hdfs
big
data
京东面试总结
2
hdfs
上传文件有哪几种方式?3Hive的优化问题?4Hive的数据倾斜问题?5数据分析?概念和总结6Django源码?7python的浅拷贝和深拷贝?
小小少年Boy
·
2024-02-09 21:45
hdfs
支持lzo压缩配置
1安装linux的lzo库需要在集群的每一个节点都安装lzo库,假定都64位的机器。1)安装lzo操作如下:wgethttp://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz2)解压tar-zxvflzo-2.10.tar.gz3.进入解压后的目录:cdlzo-2.104.编译参数配置:本例lzo安装在/usr/local/lz
机灵鬼鬼
·
2024-02-09 20:28
Spring Boot + Vue.js + FastDFS 实现分布式图片服务器(IDEA教学)
IDEA教学笔记详细课程目录什么是文件系统什么是
分布式文件系统
主流
分布式文件系统
介绍FastDFS介绍FastDFS工作原理FastDFS安装与配置FastDFS测试-搭建环境
公众号-老炮说Java
·
2024-02-09 07:46
java
分布式
java
编程语言
人工智能
spring
常用的文件系统、存储类型小整理
趁假期整理学习一番~名称OSSFastDFSJuiceFSCIFSCephFSEFSNFS全称ObjectStorageService(对象存储服务)FastDistributedFileSystem(快速
分布式文件系统
Hehuyi_In
·
2024-02-09 06:16
性能
杂七杂八
存储
文件系统
分布式
共享
Spark SQL(十一):与Spark Core整合
1、筛选出符合查询条件(城市、平台、版本)的数据2、统计出每天搜索uv排名前3的搜索词3、按照每天的top3搜索词的uv搜索总次数,倒序排序4、将数据保存到hive表中3、实现思路:1、针对原始数据(
HDFS
雪飘千里
·
2024-02-09 06:34
3.3-媒资管理之MinIo
分布式文件系统
上传视频
文章目录媒资管理5上传视频5.1需求分析5.2断点续传技术5.2.1什么是断点续传5.2.2分块与合并测试5.2.3视频上传流程5.2.4minio合并文件测试5.3接口定义5.4上传分块开发5.4.1DAO开发5.4.2Service开发5.4.2.1检查文件和分块5.4.2.2上传分块5.4.2.3上传分块测试5.5合并分块开发5.5.1service开发5.4.3接口层完善5.5.2合并分块
ANnianStriver
·
2024-02-08 17:36
#
学成在线课件笔记
音视频
spring
cloud
微服务
minio
Mongodb GridFS——适合大小超过16MB的文件
一、概述GridFS是基于mongodb存储引擎是实现的“
分布式文件系统
”,底层基于mongodb存储机制,和其他本地文件系统相比,它具备大数据存储的多个优点。
0X码上链
·
2024-02-08 15:48
大数据
VIP
gridfs
No.2大数据入门 | 环境搭建:jdk1.8安装及环境配置
Hadoop实现了一个
分布式文件系统
(HadoopDistributedFileSystem),简称
HDFS
,Hadoop的框架最核心的设计就是:
HDFS
和MapReduce:
HDFS
为海量的数据提供了存储
滚滚红尘_8133
·
2024-02-08 11:43
Hadoop多次格式化后如何解决
产生原因我们在配置hadoop中的
hdfs
时,会设置元数据的存储位置,如图所示要想解决此问题,先停止所有启动的服务stop-all.sh然后删除上图画出来的配置文件,这里三台机器都要删,最后进入hadoop
(((φ(◎ロ◎;)φ)))牵丝戏安
·
2024-02-08 11:50
笔记
Hadoop
云计算
hadoop
hdfs
FastDFS搭建
html资源地址:https://sourceforge.net/projects/fastdfs/源码资源:https://github.com/happyfish100FastDFS是一个开源的轻量级
分布式文件系统
超人001
·
2024-02-08 11:31
类比
一款开源的
分布式文件系统
,冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标类比:图书馆有什么用?
lzb30
·
2024-02-08 10:07
Hadoop生态漏洞修复记录
Hadoop常用端口介绍
HDFS
NameNode50070dfs.namenode.http-addresshttp服务的端口50470dfs.namenode.https-addresshttps服务的端口
不会吐丝的蜘蛛侠。
·
2024-02-08 08:30
hadoop
大数据
分布式
Hadoop2.7配置
core-site.xmlfs.defaultFS
hdfs
://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72
不会吐丝的蜘蛛侠。
·
2024-02-08 08:59
Hadoop
hadoop
大数据
hdfs
HDFS
执行balance报错:
hdfs
balance java.io.IOException: Another Balancer is running.. Exiting
现象:1、大数据Hadoop集群,
HDFS
扩容后,为了使各节点数据均衡,执行balance操作。2、启动
hdfs
balance时,一直出现其他的balance在执行中,其实并没有执行。
不会吐丝的蜘蛛侠。
·
2024-02-08 08:29
Hadoop
hdfs
hadoop
java
hadoop调优-
hdfs
配置优化
配置文件
hdfs
-site.xml生产环境建议优化:dfs.permissions.enabledtruedfs.namenode.handler.count90dfs.ha.automatic-failover.enabledtrue
不会吐丝的蜘蛛侠。
·
2024-02-08 08:28
Hadoop
hadoop
hdfs
big
data
hive自定义UDF依赖第三方jar包
上传jar包到
HDFS
上
hdfs
dfs-putxxxx.jar/tmp/hive/创建永久函数:createfunctionmy_funas'com.test.TestUDF'usingjar'
hdfs
不会吐丝的蜘蛛侠。
·
2024-02-08 08:28
hive
hive
jar
hadoop
spark运行失败The directory item limit of /spark_dir/spark_eventLogs is exceeded: limit=1048576 items=104
报错:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.
hdfs
.protocol.FSLimitException$MaxDirectoryItemsExceededException
不会吐丝的蜘蛛侠。
·
2024-02-08 08:58
Hadoop
spark
hadoop
hdfs
删除和清空Hive外部表数据
外部表和内部表区别未被external修饰的是内部表(managedtable),被external修饰的为外部表(externaltable);区别:内部表数据由Hive自身管理,外部表数据由
HDFS
SunnyRivers
·
2024-02-08 08:53
Hive
hive
drop
truncate
外部表
删除外部表
sqoop导入数据到
hdfs
Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的
HDFS
、HIVE、HBASE等数据存储系统导出数据:从Hadoop
鲲鹏猿
·
2024-02-08 06:40
hdfs
sqoop
hadoop
2024-02-07(Sqoop,Flume)
1.Sqoop的增量导入实际工作中,数据的导入很多时候只需要导入增量的数据,并不需要将表中的数据每次都全部导入到hive或者
hdfs
中,因为这样会造成数据重复问题。
陈xr
·
2024-02-08 06:35
随记日志
sqoop
flume
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他