E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
Hadoop3教程(一):Hadoop的定义、组成及全生态概览
文章目录(1)定义1.1发展历史1.2三大发行版本1.3Hadoop的优势1.4Hadoop的组成(13)
HDFS
概述(14)Yarn架构(15)MapReduce概述(16)
HDFS
、YARN、MapReduce
经年藏殊
·
2023-10-13 16:05
大数据技术
hadoop
大数据
分布式
Hadoop生态概览
Hadoop生态概览:#hadoop#
HDFS
两种文件格式(基于文件的数据结构):1,SequenceFile,2,MapFileSequenceFile特性:SequenceFile文件是Hadoop
「已注销」
·
2023-10-13 16:05
Hadoop生态
【Kylin】【Hive】【hive-testbench】tpch 数据集生成失败,提示报错class org.apache.hadoop.
hdfs
.web.HftpFileSystem ...
描述在个人的apachehadoop3.2.1版本的集群下,为了验证kylin的构建和查询性能,找到了对应的Kylin官方推荐使用的hive-testbench数据集生成仓库。在执行了相关命令,如下。gitclonehttps://github.com/hortonworks/hive-testbench.gitcdhive-testbench/./tpch-build.sh./tpch-setu
JustinXTT
·
2023-10-13 09:24
Apache
Kylin
大数据
hadoop
hive
kylin
hive小文件合并机制_转:Hive小文件合并
Hive的后端存储是
HDFS
,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。
亿码数码
·
2023-10-13 08:56
hive小文件合并机制
hive小文件合并机制_hive小文件合并
hive仓库表数据最终是存储在
HDFS
上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。
大Victor
·
2023-10-13 08:56
hive小文件合并机制
HBase表更改压缩方式后的数据大合并
业务上可能会遇到这种情况,在最初创建hbase表时候,未指定压缩方式,当数据导入之后,由rowkey带来的数据膨胀导致
hdfs
上的数据大小远远大于原始数据大小。
SparkSql
·
2023-10-13 08:56
hbase
数据库
大数据
Spark Hive 小文件合并
背景小文件带来的问题对于
HDFS
从NNRPC请求角度,文件数越多,读写文件时,对于NN的RPC请求就越多,增大NN压力。从NN元数据存储角度,文件数越多,NN存储的元数据就越大。
longlovefilm
·
2023-10-13 08:26
spark
hive
spark
big
data
大数据学习(5)-hive文件格式
默认的文件存储格式是TestFile,如果在建表时不指定存储格式,则导入数据时会直接把数据文件拷贝到
HDFS
上不进行处理。除Test
viperrrrrrr
·
2023-10-13 07:47
大数据
学习
hive
Spark大数据平台
所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写
HDFS
Hi~晴天大圣
·
2023-10-13 05:16
技术杂烩
spark
大数据
scala
namenode元数据多目录配置及测试
1.配置方法namenode元数据的配置属性为:dfs.namenode.name.dir多个目录以逗号分隔即可(注意使用ambari配置时,要使用换行符)目录所属者需要改成
hdfs
:hadoop,不然会没有写权限
Java小田
·
2023-10-13 05:46
#
hdfs
备忘
hadoop
namenode多目录
hdfs
重平衡操作
通过修改配置dfs.datanode.balance.bandwidthPerSec=100m可以设置重平衡的带宽,但是需要重启服务因此通过命令设置:su
hdfs
-c“hadoopdfsadmin-setBalancerBandwidth100m
Java小田
·
2023-10-13 05:44
大数据
#
hdfs
备忘
hdfs
hadoop
重平衡
centos spark单机版伪分布式模式
1.2Spark部署依赖SparkStandalone的运行依赖于JDK、Scala,本来是不依赖于Hadoop的,但Spark自带的许多演示程序都依赖于Hadoop
HDFS
,因此我们也部署了伪分布式的
printf200
·
2023-10-13 03:32
hdfs
由于空间不足导致的强制安全模式状态
一、问题描述
hdfs
开机就进入安全模式,执行强制离开安全模式命令以后仍自动进入安全模式。
9b282fe44e88
·
2023-10-13 02:40
RDD(python
RDD创建从文件系统加载.textFile()支持本地文件系统分布式文件系统
HDFS
云端文件>>lines=sc.textFile("file:///usr/local/spark/mycode/rdd
KwokWyman
·
2023-10-12 21:01
python
hdfs
big
data
大数据权限管理框架:Apache Sentry和Ranger
一、简介ApacheSentry:Sentry是由Cloudera公司内部开发而来的,初衷是为了让用户能够细粒度的控制Hadoop系统中的数据(这里主要指
HDFS
,Hive的数据)。
Impl_Sunny
·
2023-10-12 09:23
#
对比&选型
Hadoop生态
Sentry
Ranger
大数据权限管理
Sentry 授权
自己系统发生了异常丢失事故,就详细了解了sentry与
hdfs
acl关系,看到这篇文章不错,自己又进行了补充,如果结合cloueramanager官网更好。
javastart
·
2023-10-12 09:47
hadoop
big
data
hadoop
hive
Hive启动错误:Exception in thread “main“ java.lang.RuntimeException: The dir: /tmp/hive on
HDFS
should be
Exceptioninthread“main”java.lang.RuntimeException:Thedir:/tmp/hiveon
HDFS
shouldbewritable.Currentpermissionsare
626960
·
2023-10-12 08:45
hive
java
hdfs
【HADOOP面试指南】
HadoopHadoop中常问的就三块第一:分布式存储(
HDFS
);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。
耗子尾汁(⩺_⩹)
·
2023-10-12 06:03
学习笔记
hadoop
面试
hdfs
大数据笔记--Hive(第一篇)
Hive运行日志4、参数配置一、Hive1、概述Hive原本时有Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制Hive提供了类SQL(HQL,HiveQL)语句来管理
HDFS
是小先生
·
2023-10-12 05:02
大数据05-Hive
hive
big
data
hadoop
Hadoop使用
hdfs
指令查看
hdfs
目录的根目录显示被拒
背景分布式部署hadoop,服务机只有namenode节点,主机包含其他所有节点主机关机后,没有停止所有节点,导致服务机namenode继续保存再次开启主机hadoop,使用
hdfs
查看
hdfs
根目录的时候显示访问被拒解决方案
JSU_曾是此间年少
·
2023-10-12 04:56
hadoop
hdfs
大数据
sqoop 脚本密码管理
1:背景生产上很多sqoop脚本的密码都是铭文,很不安全,找了一些帖子,自己尝试了下,记录下细节,使用的方式是将密码存在
hdfs
上然后在脚本里用别名来替代。2:正文第一步:创建密码对应的别名。
hankl1990
·
2023-10-12 04:13
sqoop
sqoop
hadoop
hive
hive抽取mysql里的表,如果mysql表没有时间字段如何做增量抽取数据
可以将该主键值存储在Hive外部系统,如
HDFS
文件、Zookeeper等。示例:--假设id为自增主键SELECTCOALESCE(MAX(id),0)ASma
蘑菇丁
·
2023-10-11 21:46
hive
mysql
hadoop
数据湖系列(1) - Hudi 核心功能原理剖析
随着互联网业务的逐步成熟,数仓和模型训练的基本盘逐步稳固,越来越多的工程师从业务开发需求转移到了工程的架构升级,而常用的Hudi和Iceberg往往会成为替代Hive/
Hdfs
等架构升级的选型。
小晨说数据
·
2023-10-11 20:49
大数据
数据库
python
java
spark
分布式群起zookeeper脚本、群起
HDFS
与YARN脚本、查看集群jpsall脚本、shell群起脚本代码、Linux群起服务、群起集群后立即关闭安全模式
一下是尚硅谷的util.sh脚本代码:注意:用户名、主机名、文件目录名根据自己的来群起zookeeper脚本代码echo"================正在启动Zookeeper==========="foriinatguigu@hadoop102atguigu@hadoop103atguigu@hadoop104dossh$i'/opt/module/zookeeper-3.4.10/bin/
DougLeaMrConcurrency
·
2023-10-11 20:09
大数据自学笔记
Hadoop生态体系
群起zookeeper
群起HDFS和YARN
查看集群jpsall
shell群起脚本
启动集群服务
hadoop的补充配置与常用脚本
目录历史服务器的配置:添加配置:分发集群:日志聚集功能的配置:添加配置:分发配置给集群其他服务器:集群的启动与停止:整体启动和停止
hdfs
:整体启动/停止YARN启动与停止某个服务组件:常用脚本:脚本1
小唐同学爱学习
·
2023-10-11 20:05
Hadoop
hadoop
大数据
hdfs
分布式
修炼k8s+flink+
hdfs
+dlink(四:k8s(一)概念)
一:概念1.概述1.1kubernetes对象.k8s对象包含俩个嵌套对象字段。spec(规约):期望状态status(状态):当前状态当创建对象的时候,会按照spec的状态进行创建,如果这些实例中有些失败了。那么会重新启动一个新的来替换这个实例。对象样例按照规定,app要求主体是json格式。但是也可以使用YAML清单格式,后续通过http访问app的时候,会将信息转化位JSON格式或者其他受支
宇智波云
·
2023-10-11 18:05
k8s
kubernetes
flink
hdfs
hadoop-3.1.0启动hadoop集群时还有可能可能会报如下错误
[root@localhostsbin]#start-all.shStartingnamenodeson[hadoop]ERROR:Attemptingtooperateon
hdfs
namenodeasrootERROR
回忆de天空
·
2023-10-11 16:40
hadoop
hdfs
java
3 Hadoop-
HDFS
Hadoop3.1.2编译环境的准备3.2Hadoop安装3.2.1上传apacheHadoop包并压缩3.2.2修改配置文件3.2.3配置Hadoop的环境3.2.4启动集群3.3Hadoop核心-
HDFS
3.3.1
HDFS
PhoenixLuo·
·
2023-10-11 16:39
大数据
hadoop
hdfs
大数据
《Elasticsearch技术解析与实战》Chapter 1.1:Elasticsearch入门和倒排索引
分片机制提供更好的分布性:同一个索引分成多个分片,类似于
HDFS
的
后端小哥
·
2023-10-11 15:08
修炼k8s+flink+
hdfs
+dlink(四:k8s(二)组件)
一:控制平面组件。控制平面组件会为集群做出全局决策,比如资源的调度。以及检测和响应集群事件,例如当不满足部署的replicas字段时,要启动新的pod)。1.kube-apiserver。该组件负责公开了KubernetesAPI,负责处理接受请求的工作。API服务器是Kubernetes控制平面的前端。2.kube-controller-manager。负责运行控制器进程。从逻辑上讲,每个控制器
宇智波云
·
2023-10-11 10:54
k8s
kubernetes
flink
hdfs
python数据导入hive_hive常用功能:Hive数据导入导出方式
一、Hive数据导入方式这里主要介绍四种:从本地文件系统中导入数据到Hive表;从
HDFS
上导入数据到Hive表;从别的表中查询出相应的数据并导入到Hive表中;在创建表的时候通过从别的表中查询出相应的
摆摊卖爱情
·
2023-10-11 06:04
python数据导入hive
hive 数据导入 导出
数据导入hive本地文件1.加载本地文件studet.txt到hive默认数据库student表中(拷贝+追加)2.加载本地文件studet.txt到hive默认数据库student表中(拷贝+覆盖)
hdfs
3
塞上江南o
·
2023-10-11 06:03
Hive
hive
HIVE数据导入导出
HIVE数据导入导出导入数据1、location(1)将数据上传到到
hdfs
上的一目录中#将table_a.txt上传到
HDFS
的/demo/data/table_a目录中
hdfs
dfs-puttable_a.txt
心流啊
·
2023-10-11 06:33
hive
hive
Hive数据导入和导出
overwrite]intotablestudent[partition(partcol1=val1,…)];(1)loaddata:表示加载数据(2)local:表示从本地加载数据到hive表;否则从
HDFS
动若脱兔--
·
2023-10-11 06:03
hive
大数据
hadoop
Hive数据导入导出
1.5创建表时指定location1.6export导出与import导入hive表数据(内部表操作)2.Hive数据导出2.1insert导出2.2HiveShell命令导出2.3export导出到
HDFS
莫叫石榴姐
·
2023-10-11 06:32
hive
hive
Hive导入导出数据方式总结
一,导入数据1,load1.1从本地磁盘导入:loaddatalocalinpath‘/localpath’intotabletable1;1.2从
HDFS
导入(无关键字local):loaddatainpath
大数据男
·
2023-10-11 06:02
hive
hive
hadoop
hdfs
Hive 数据导入导出方式小结
opt/module/datas/test.txt'[overwrite]intotablestudent[partition(partcol1=val1,…)];local:从本地导入加上local,从
hdfs
天涯问路
·
2023-10-11 06:30
技术总结
大数据
Hadoop
hive
大数据
hive数据的导入导出
覆盖添加--intotable追加从linux本地导入数据到表中loaddatalocalinpath'/home/test2/emp_data.txt'overwriteintotableemp;从
HDFS
枯河垂钓
·
2023-10-11 06:30
hive
hadoop
数据仓库
spark原理和实践
数据生成后,需要存储元数据信息,选择合适的存储格式,像Parquet、ORC是两种高性能的列式存储,Hudi数据存储的中间件,优化存储的读写,也可以存储到分布式文件存储系统
HDFS
,分布式消息系统kafka
头顶假发
·
2023-10-11 04:13
Java
程序员
编程
大数据
hadoop
分布式
Apache Ranger KMS 部署
details/103930388https://blog.csdn.net/wank1259162/article/details/1224381751.背景需要一个高可用的KMS服务用于数据静态加密(
HDFS
这个操蛋的人生!!!
·
2023-10-11 02:40
java
开发语言
后端
hive插件 ranger_Ranger安装部署 - 扩展组件安装
1.ranger-
hdfs
plugin安装1.1安装ranger
hdfs
plugin软件包#pwd/opt/app/ranger-release-ranger-1.2.0/target#tar-zxvfranger
weixin_39669638
·
2023-10-11 02:09
hive插件
ranger
Apache ranger 简介、原理、安装部署
它可以对Hadoop生态的组件如
HDFS
、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。
dingweijson
·
2023-10-11 02:08
大数据安全
大数据
git
操作系统
Apache Ranger的安装及部署
通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问
HDFS
文件夹、
HDFS
文件
jianmin0920
·
2023-10-11 02:08
hdfs
大数据
Apache Ranger:(一)安装部署
它可以对Hadoop生态的组件如
HDFS
、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。
只爱大锅饭
·
2023-10-11 02:37
Ranger
数据安全
权限控制
数据仓库
大数据
大数据编程实验3 熟悉常用的HBase操作前期准备
一、实验目的(1)理解
HDFS
在Hadoop体系结构中的角色;(2)熟练使用
HDFS
操作常用的Shell命令;(3)熟悉
HDFS
操作常用的JavaAPI。
Blossom i
·
2023-10-11 01:25
大数据编程
hbase
大数据
hadoop
大数据学习(3)-hive分区表与分桶表
1.分区表:分区表在Hive中,对应于在
HDFS
上指定目录,按照某个字段的值将表数据分到不同的文件夹。假设我们有一个包含日期的字段,我们可以按照这个日期字段将数据分区为不同的文件夹,例如按年、月
viperrrrrrr
·
2023-10-11 00:00
大数据
学习
hive
大数据学习(1)-Hadoop
Hadoop的核心组件包括:
HDFS
(HadoopDistributedFileSystem)MapReduce和Yarn。Hadoop的运行机制基于分布式计算的概念,即将大规模的计算任务分解为多个
viperrrrrrr
·
2023-10-11 00:29
大数据
配置Hive使用Spark执行引擎
配置Hive使用Spark执行引擎Hive引擎概述兼容问题安装SparkSpark配置Hive配置
HDFS
上传Spark的jar包执行测试速度对比Hive引擎概述在Hive中,可以通过配置来指定使用不同的执行引擎
CodeDevMaster
·
2023-10-11 00:49
大数据
hive
spark
hadoop
Hadoop2.0探讨
文章目录8.Hadoop再探讨8.1Hadoop的优化与发展8.2
HDFS
的FA和Federation(Hadoop2.0新特性)8.2.1
HDFS
HA8.2.2
HDFS
Federation8.3YARN8.3.1MapReduce1.0
几窗花鸢
·
2023-10-10 23:16
大数据应用
hadoop
hadoop
大数据
林子雨 慕课答案2021新版
博客第二章大数据技术原理与应用—第2讲大数据处理架构Hadoop(林子雨老师)课后习题_努力搬砖头的博客-CSDN博客_hadoop大数据技术原理与应用课后答案第三章大数据技术原理与应用—第3讲分布式文件系统
HDFS
S_h_a_
·
2023-10-10 23:40
计算机本科课程
大数据
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他