E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HDFS分布式文件系统
大数据之-
hdfs
+hive+hbase+kudu+presto集群(6节点)
index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/
hdfs
http
管哥的运维私房菜
·
2025-02-16 22:50
大数据
hdfs
hive
kudu
presto
hbase
Hadoop 的分布式缓存机制是如何实现的?如何在大规模集群中优化缓存性能?
分布式缓存的工作原理文件上传:用户将需要缓存的文件上传到
HDFS
(HadoopDistributedFileSystem)。文件路径可以在作业配置中指定。
晚夜微雨问海棠呀
·
2025-02-16 11:53
分布式
hadoop
缓存
HBase的合并操作
compact的作用flush操作会将memstore的数据落地为一个个StoreFile(HFile),那么随着时间的增长在
HDFS
上面就会有很多的HFile文件,这样对读操作会产生比较大的影响(读操作会对
b1gx
·
2025-02-16 06:20
HBase
深入HBase——引入
引入前面我们通过深入
HDFS
到深入MapReduce,从设计和落地,去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。
黄雪超
·
2025-02-15 16:58
大数据基础
#
深入HBase
大数据
数据库
hbase
Ubuntu下配置安装Hadoop 2.2
参考资料:1.InstallingsinglenodeHadoop2.2.0onUbuntu:http://bigdatahandler.com/hadoop-
hdfs
/installing-single
weixin_30501857
·
2025-02-15 15:55
大数据
java
运维
蓝易云 - HBase基础知识
HBase是一个分布式、可伸缩、列式存储的NoSQL数据库,它建立在Hadoop的
HDFS
之上,提供高可靠性、高性能的数据存储和访问。
蓝易云
·
2025-02-15 02:38
hbase
数据库
大数据
php
python
人工智能
关于虚拟机的Unknown command
/bin/
hdfs
dfs–mkdirinput导致出现–mkdir:Unknowncommand的错误,原因在于我复制的这条命令中的-和虚拟机的编码不一样,导致出错,所以应该手敲这个符号“-”,这样就可以啦
真的不想写实验
·
2025-02-13 04:12
后端
hadoop
java
linux
hadoop 1.0 基本概念了解
Map函数负责将输入数据转化为中间值,中间值再通过Reduce函数转化成输出数据
HDFS
:
HDFS
是一个
分布式文件系统
。通过一次写入,多次读出来实现。Chukwa:Chukw
fenggfa
·
2025-02-12 07:48
hadoop
hadoop
大数据
mapreduce
深入理解Hadoop 1.0.0源码架构及组件实现
该版本包含核心
分布式文件系统
HDFS
、MapReduce计算模型、Common工具库等关键组件。通过分析源码,可深入理解这些组件的设计和实现细节,包括数据复制、任务调度、容错机制以及系统配置管理。
隔壁王医生
·
2025-02-12 07:14
云存储 (OSS、CPFS 和 NAS)
在云存储领域,对象存储服务(OSS)、云
分布式文件系统
(CPFS)和网络附加存储(NAS)是三种常见的存储解决方案。它们各自具备不同的技术特点和适用场景,选择合适的存储方案能够更好地满足不同业务需求。
HaoHao_010
·
2025-02-11 18:09
服务器
云计算
HiveQL命令(三)- Hive函数
ApacheHive作为一种流行的数据仓库工具,提供了丰富的内置函数,帮助用户高效地处理和分析存储在Hadoop
分布式文件系统
(
HDFS
)中的数据。这些内置函数涵盖了数值计算、字符
BigDataMagician
·
2025-02-11 12:00
HiveQL命令
hive
hadoop
数据仓库
掌握大数据--Hive全面指南
HiveSQL语法--DDL操作数据库1.Hive简介ApacheHive是建立在Hadoop之上的一个数据仓库工具,它提供了一种类似于SQL的查询语言,称为HiveQL,用于查询和分析存储在Hadoop
分布式文件系统
纪祥_ee1
·
2025-02-10 22:40
大数据
hive
hadoop
【Flink实战】Flink -C实现类路径配置与实现UDF Jar
URL可以指向本地、HTTP服务器或
HDFS
等资源的Jar文件。注意:此处的classpath的url必须是一个能够在client,JM和TM都被访问到的位置。
roman_日积跬步-终至千里
·
2025-02-10 11:38
#
flink
实战
flink
jar
大数据
大数据笔记(二):
HDFS
原理知识
目录
HDFS
原理知识一、前言二、思考三、理论知识点四、存储模型五、架构设计六、角色功能NameNodeDataNode七、元数据持久化八、安全模式九、
HDFS
中的SNN十、Block的副本放置策略十一、
Lansonli
·
2025-02-09 10:50
大数据进阶知识
大数据
HDFS
深度剖析分布式存储架构
【摘要】本文介绍了分布式存储的架构类型、分布式理论、不同的
分布式文件系统
和分布式键值系统等,较为系统详尽。全文约2万字,可收藏。
罗伯特之技术屋
·
2025-02-09 07:28
大数据及数据管理(治理)专栏
计算机工程的科学与探索专栏
分布式
架构
数据库
hive出现内存溢出_hive问题处理
内存溢出Client端内存溢出Client端发生内存溢出执行下面的看是很简单的一条sql语句:hive>selectcount(1)fromtest_tb_1_1;QueryID=
hdfs
_20180802104347
话食科普
·
2025-02-08 07:29
hive出现内存溢出
Hive之数据操作DML
查询语句中创建表并加载数据(AsSelect)创建表时通过Location指定加载数据路径Import数据到指定Hive表中5.2数据导出Insert导出Hadoop命令导出到本地HiveShell命令导出Export导出到
HDFS
WHYBIGDATA
·
2025-02-08 06:55
Hive
hive
hadoop
大数据
MapReduce的代码编写
getInstance()函数设置当前main函数所在的类,设置后运行代码可以找到函数的入口;③设置MapReduce的输入输出路径用于输入数据和输出计算的数据结果;注意若要是输出的路径在集群中已经存在,需要操作
HDFS
hjy1821
·
2025-02-08 02:27
MapReduce
MapReduce代码
WordCount字数统计代码
MapReduce编写
MapReduce使用案例
2024-JAVA-大数据-面试汇总_大数据java部门面试(1)
内部表的数据是由Hive自身管理的,外部表的数据是由
HDFS
管理的;删除内部表会删除元数据和存储的数据;删除外部表只删除元数据不删除存储的数据34,你知道UDF吗?UDF就是H
2401_84141419
·
2025-02-07 19:15
程序员
java
大数据
面试
大数据-267 实时数仓 - ODS Lambda架构 Kappa架构 核心思想
目前已经更新到了:Hadoop(已更完)
HDFS
(已更完)MapReduce(已更完)Hive(已更完)Flume(已更完)Sqoop(已更完)Zookeeper(已更完)HBase(已更完)Redis
m0_74823336
·
2025-02-07 16:57
面试
学习路线
阿里巴巴
大数据
架构
Hbase基础
HBase是基于Google的Bigtable技术实现的,GoogleBigtable利用GFS作为其文件存储系统,HBase利用Hadoop的
HDFS
作为其文件存储系统;Google运行MapReduce
yandao
·
2025-02-07 13:38
hadoop
hbase
big
data
hadoop
如何处理大规模数据集中的数据处理:Spark和ApacheFlink
DataProcessing)任务调度(TaskScheduling)HadoopApacheSparkApacheFlink3.核心算法原理和具体操作步骤以及数学公式讲解1.MapReduce(1)概述(2)算法原理
分布式文件系统
AI天才研究院
·
2025-02-07 01:43
DeepSeek
R1
&
大数据AI人工智能大模型
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
HIVE常见面试题
1.简述hiveHive是一个构建在Hadoop之上的数据仓库工具,主要用于处理和查询存储在
HDFS
上的大规模数据。
兔子宇航员0301
·
2025-02-06 18:59
数据开发小白成长笔记
hive
hadoop
数据仓库
【starrocks学习】之将starrocks表同步到hive
目录方法1:通过
HDFS
导出数据1.将StarRocks表数据导出到
HDFS
2.在Hive中创建外部表3.验证数据方法2:使用ApacheSpark同步1.添加StarRocks和Hive的依赖2.使用
chimchim66
·
2025-02-06 12:52
学习
hive
hadoop
使用python实现Hadoop中MapReduce
Hadoop包含
HDFS
(
分布式文件系统
)、YARN(资源管理器)、MapReduce(编程模型)。
qq_44801116
·
2025-02-06 06:10
Python
python
hadoop
mapreduce
Hadoop1.0和2.0的主要区别
Hadoop1.0指的是版本为ApacheHadoop0.20.x、1.x或者CDH3系列的Hadoop,组件主要由
HDFS
和MapReduce两个系统组成,
HDFS
是一个分布式文件存储系统,MapReduce
web_15534274656
·
2025-02-06 03:43
java
hadoop
大数据
hdfs
dubbo
java-zookeeper
Hadoop1.0-
HDFS
介绍
Hadoop是Apache软件基金会所开发的并行计算框架与
分布式文件系统
。最核心的模块包括HadoopCommon、
HDFS
与MapReduce。
szjianzr
·
2025-02-06 03:13
HADOOP介绍
hadoop
HDFS
SQL on Hadoop
SQL引擎通常运行在Hadoop系统外部,作为一个桥梁查询
HDFS
Lostgreen
·
2025-02-06 03:42
大数据管理
sql
hadoop
数据库
笔记
学习
分布式
物联网架构之Hadoop
其核心架构包括以下几个关键组件:1.HadoopDistributedFileSystem(
HDFS
)
HDFS
是Hadoop的
分布式文件系统
,用于存储大数据集。
moluxiangfenglo
·
2025-02-06 01:54
架构
hadoop
大数据
开源项目推荐:基于Lambda架构的大数据管道
基于Lambda架构的大数据管道big-data-pipeline-lambda-archAfullbigdatapipeline(LambdaArchitecture)withSpark,Kafka,
HDFS
andCassandra
柳旖岭
·
2025-02-05 16:53
【知识分享】
HDFS
基础操作以及修改配置文件命令
HDFS
基本操作命令查看文件常用命令命令格式
hdfs
dfs-lspath--查看文件列表
hdfs
dfs-ls-Rpath--递归查看文件列表
hdfs
dfs-dupath--查看path下磁盘情况,单位字节使用示例
星环科技TDH社区版
·
2025-02-05 09:27
数据库
大数据
数据库架构
hdfs
运维
CDH角色迁移和硬盘扩容
1.概述生产CDH集群硬盘不足,
HDFS
datanode节点数据不平衡,历史管理角色安装混乱,全部节点需要硬盘扩容。
专注大数据的Lyer
·
2025-02-05 09:56
java
大数据
hadoop
hive
hdfs
Hadoop
HDFS
安装详细步骤
Hadoop安装详细步骤安装前分别在master、slave1、slave2三台机器的root用户下的主目录下创建目录bigdata,即执行下面的命令:mkdir~/bigdataHadoop安装包下载检查Hadopp和java版本是否对应,在官网中查hadoop-3.1.3JDK1.8hadoop-2.10.2JDK1.7or1.8hadoop-2.9.2JDK1.7or1.8hadoop-2.
碟中碟山
·
2025-02-05 07:16
hadoop
hdfs
大数据
Hadoop框架及
HDFS
详细概述
文章目录Hadoop概述一、Hadoop1、分布式和集群2、Hadoop框架2.1概述2.2版本更新2.3Hadoop架构详解2.4官方示例2.4.1圆周率练习2.4.2词频统计3、Hadoop的
HDFS
3.1
搬砖人_li
·
2025-02-05 07:14
大数据技术栈专栏
hadoop
hdfs
大数据
Hadoop3.2.1安装-单机模式和伪分布式模式
主要包括
HDFS
和MapReduce两个组件。
花菜回锅肉
·
2025-02-04 07:13
大数据
hadoop
hdfs
大数据
linux
Spark3.1.2单机安装部署
类似Hadoop,但对Hadoop做了优化,计算任务的中间结果可以存储在内存中,不需要每次都写入
HDFS
,更适用于需要迭代运算的算法场景中。
花菜回锅肉
·
2025-02-04 07:43
大数据
spark
大数据
hadoop
Python结合py
hdfs
模块操作
HDFS
分布式文件系统
使用python操作
hdfs
本身并不难,只不过是把对应的shell功能“翻译”成高级语言,我这里选用的是
hdfs
,下边的实例都是基于
hdfs
包进行的。
唐僧不爱八戒
·
2025-02-04 00:50
python
hdfs
开发语言
如何在Java中调用Python
DataX是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
梦想画家
·
2025-02-03 17:17
#
python
java8~9核心功能
java
python
jython
Hive修复分区
通常用于那些已在
HDFS
中存在,但尚未在Hive元数据中注册的分区。当你在
HDFS
文件系统中手动添加或删除分区目录,Hive并不会自动识别这些更改。
码农小旋风
·
2025-02-03 14:27
后端
hive分区和分桶详解
1、分区表分区表实际上就是对应一个
HDFS
文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。
CodeShelby
·
2025-02-03 14:56
hive
大数据
hive
Hive 分区和分桶总结
分区表实际上就是对应一个在
HDFS
(或者是其他
分布式文件系统
)文
Stray_Lambs
·
2025-02-03 14:23
大数据
hive
【博学谷学习记录】超强总结,用心分享 | Hive分区表和分桶表
所谓的分区表,指的就是将数据按照表中的某一个字段进行统一归类,并存储在表中的不同的位置,也就是说,一个分区就是一类,这一类的数据对应到
hdfs
存储上就是对应一个目录。当我们需要进行处
Onzswhite
·
2025-02-03 14:52
hive
大数据
hadoop
Hive分区和分桶
每个分区对应一个特定值,并映射到
HDFS
的不同目录。为大幅减少数据量,基本必须要做!常用于经常查询的列,如日期、区域等。
码农小旋风
·
2025-02-03 14:51
后端
sqoop导出orc数据至mysql,将Sqoop导入为OrC文件
IsthereanyoptioninsqooptoimportdatafromRDMSandstoreitasORCfileformatin
HDFS
?
终有尽头
·
2025-02-02 15:28
sqoop从orc文件到oracle,Sqoop import as OrC file
问题IsthereanyoptioninsqooptoimportdatafromRDMSandstoreitasORCfileformatin
HDFS
?
余革革
·
2025-02-02 15:58
java.io.FileNotFoundException: /tmp/log/flume-ng/flume.log (Permission denied)
文章目录问题描述:原因分析:解决方案:问题描述:使用Flume将本地文件监控上传到
HDFS
上时出现log4j:ERRORsetFile(null,true)callfailed.java.io.FileNotFoundException
海洋 之心
·
2025-02-02 04:05
Flume问题解决
Hadoop问题解决
java
flume
开发语言
zookeeper
大数据
HDFS
分布式文件系统
3-2 shell定期采集数据到
HDFS
1、准备工作创建目录:/export/data/logs/log/export/data/logs/toupload2、在/export/data/logs目录下创建upload2
HDFS
.sh内容如下
诺特兰德
·
2025-02-02 03:38
hdfs
hadoop
大数据
Hive 整合 Spark 全教程 (Hive on Spark)
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2)
HDFS
配置文件配置
hdfs
-site.xmldfs.namenode.http-addressBigdata00
字节全栈_rJF
·
2025-02-02 02:56
hive
spark
hadoop
HBase Shell基本操作
一、进入HbaseShell客户端先在LinuxShell命令行终端执行start-dfs.sh脚本启动
HDFS
,再执行start-hbase.sh脚本启动HBase。
wanglingli95
·
2025-02-01 17:20
大数据开发
hbase
数据库
大数据
Hadoop--HA架构详解
一、HA架构工作背景
HDFS
集群中的nameNode存在单点故障因素。
娘子,出来看上帝
·
2025-02-01 10:20
Hadoop
Hadoop
大数据
HA
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他