E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
获取ftp服务器的系统编码,ftp服务器编码格式
Loader是在开源Sqoop组件的基础上进行了一些扩展,除了包含Sqoop开源组件本身已有的功能外,还开发了如下的增强特性:提供数据转化功能支持图形化配置转换步骤支持从SFTP/FTP服务器导入数据到
HDFS
我自来去
·
2023-10-14 08:51
获取ftp服务器的系统编码
ftp服务器文件编码类型,ftp服务器编码格式
Loader是在开源Sqoop组件的基础上进行了一些扩展,除了包含Sqoop开源组件本身已有的功能外,还开发了如下的增强特性:提供数据转化功能支持图形化配置转换步骤支持从SFTP/FTP服务器导入数据到
HDFS
达欣欣
·
2023-10-14 08:50
ftp服务器文件编码类型
【大数据】
HDFS
概述(学习笔记)
一、文件系统、分布式文件系统1、传统文件系统文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作。文件系统使用树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念。数据:指存储的内容本身。这些数据底层是存储在存储介质上的,用户只需要基于目录树进行增删改查即可,实际针对数据的操作由文件系统完成。元数据(解释性数据):记录数据的数据。文件系统元数据:指文件大小、最后修
rexhao_wmh
·
2023-10-14 08:45
大数据
hadoop
学习
【大数据】
HDFS
的使用与集群角色(学习笔记)
一、
HDFS
Shell1、介绍命令行界面(CLI)是指用户通过键盘输入指令,计算机接收到指令后,予以执行一种人际交互方式。
rexhao_wmh
·
2023-10-14 08:45
大数据
hdfs
学习
【大数据】hadoop安装部署(学习笔记)
一、集群组成概述Hadoop集群包括两个集群:
HDFS
集群、YARN集群两个集群逻辑上分离、通常物理上在一起两个集群都是标准的主从架构集群
HDFS
集群(分布式存储):主角色:NameNode从角色:DataNode
rexhao_wmh
·
2023-10-14 08:44
大数据
hadoop
学习
大数据技术组件选型对比
例如FlinkCDC的数据⼊湖或者⼊仓的时候,下游通常是分布式的系统,如Hive、
HDFS
、Iceberg、Hudi等。
公众号:肉眼品世界
·
2023-10-14 07:07
数据库
大数据
分布式
编程语言
hadoop
大数据Hadoop集群搭建-04安装配置
HDFS
Hadoop集群搭建-03编译安装hadoopHadoop集群搭建-02安装配置ZookeeperHadoop集群搭建-01前期准备
HDFS
是配合Hadoop使用的分布式文件系统,分为namenode:
叫我懒猫
·
2023-10-14 04:32
Big Data Tools完整攻略,一键连接Hadoop
BigDataTools完整攻略安装BigDataTools连
HDFS
连Hadoop连Spark写
HDFS
程序安装BigDataTools打开idea选择插件在Marketplace里面输入BigDataTools
轻夏
·
2023-10-14 02:50
hadoop
极致通俗
hadoop
大数据
spark
maven
linux
Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件
Hadoop-HA-Hive-on-Spark4台虚拟机安装配置文件版本号步骤hadoopcore-site.xml
hdfs
-site.xmlmapred-site.xmlslavesworkersyarn-site.xmlhivehive-site.xmlspark-defaults.confspark
hdfs
-site.xmlhive-site.xmlslavesyarn-site.xmlsp
轻夏
·
2023-10-14 02:13
hadoop
hadoop
hive
spark
Hadoop3教程(二):
HDFS
的定义及概述
文章目录(40)
HDFS
产生的背景和定义(41)
HDFS
的优缺点(42)
HDFS
组成架构(43)
HDFS
文件块大小(面试重点)参考文献(40)
HDFS
产生的背景和定义随着实际生产环境中的数据越来越大,在一台服务器上无法存储下所有的数据
经年藏殊
·
2023-10-14 01:01
大数据技术
hdfs
hadoop
大数据
hadoop dfs、hadoop fs和
hdfs
dfs的区别
结论hadoopfs命令的官方解释为“ThiscommandisdocumentedintheFileSystemShellGuide.Itisasynonymfor`
hdfs
dfs`when
HDFS
isinuse
SunnyZ-L
·
2023-10-14 01:01
Hadoop
hdfs
hadoop
big
data
Hadoop3教程(三):
HDFS
文件系统常用命令一览
文章目录语法格式(44)
HDFS
的文件系统命令(开发重点)参考文献语法格式
hdfs
命令的完整形式:
hdfs
[options]subcommand[subcommandoptions]其中subcommand
经年藏殊
·
2023-10-14 01:00
大数据技术
hdfs
hadoop
大数据
走进Spark
什么是Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎,因为是基于内存的所以可以更快的完成任务离线计算:离线计算一般存储在
HDFS
中使用MapReduce
、小H
·
2023-10-14 01:52
spark
大数据
分布式
hadoop (五)操作
HDFS
hadoop(五)操作
HDFS
环境搭建参考《hadoop(四)开发环境及WordCount》。
cnliu
·
2023-10-14 00:23
Flink运行架构
整体架构任务提交流程(yarn模式)任务调度原理各角色作用:ClientJobManagerTaskManagerSlot划分Flink整体架构任务提交流程(yarn模式)Flink任务提交后,Client向
HDFS
Fenggms
·
2023-10-14 00:18
flink
flink
运行架构
大数据技术之HBase
第1章HBase简介1.1、HBase定义ApacheHBase™是以
hdfs
为数据存储的,一种分布式、可扩展的NoSQL数据库。
骚戴
·
2023-10-13 23:22
大数据
hadoop
大数据
hbase
HBase分布式数据库(NoSQL)
就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop的
HDFS
之上提供了类似于Bigtable的能力。
敲代码的彭于晏
·
2023-10-13 23:21
大数据
分布式NoSQL数据库HBase实践与原理剖析(一)
建立在
HDFS
之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的
落叶飘雪2014
·
2023-10-13 23:51
HBase
HBase
大数据
数据库
HBase NoSQL数据库详解
一、HBase简介HBase是Hadoop的生态系统,是建立在Hadoop文件系统(
HDFS
)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。
wespten
·
2023-10-13 23:51
数据库存储
块存储
文件存储
对象存储
分布式网络存储
hbase
nosql
大数据
Hbase集群部署
HBASE介绍–HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库–利用Hadoop
HDFS
作为其文件存储系统,利用HadoopMapReduce来处理
Best_Liu~
·
2023-10-13 23:49
hbase
hadoop
大数据
NoSQL数据库Hbase之Phoenix与Sqoop
springboot+mybatis方式来调用phoenix代码仓库Sqoop简介SqoopImportSqoopExport搭建部署版本问题部署下载mysqljar操作mysql数据库将mysql数据导入
HDFS
江南云朵
·
2023-10-13 23:49
操作hbase
hdfs
sqoop
大数据
大数据NoSQL数据库HBase集群部署
目录1.简介2.安装1.HBase依赖Zookeeper、JDK、Hadoop(
HDFS
),请确保已经完成前面2.【node1执行】下载HBase安装包3.
时光の尘
·
2023-10-13 23:17
Linux学习
大数据
nosql
hbase
java
分布式
服务器
hadoop之Sqoop
主要用于hadoop(hive)与关系型数据库之间的数据传递,可以将关系型数据库中的数据导入
HDFS
中,也可以将
HDFS
的数据导入关系型数据库中。sqoop导入:从RDBMS到H
USTC_IT
·
2023-10-13 19:11
flink1.15 savepoint 超时报错 java.util.concurrent.TimeoutException
savepoint命令flinksavepointe04813d4e7480c526912eb4d32bba510
hdfs
://flink/flink/migration/savepoint56650-
Thomas2143
·
2023-10-13 16:26
总结
flink
Hadoop3教程(一):Hadoop的定义、组成及全生态概览
文章目录(1)定义1.1发展历史1.2三大发行版本1.3Hadoop的优势1.4Hadoop的组成(13)
HDFS
概述(14)Yarn架构(15)MapReduce概述(16)
HDFS
、YARN、MapReduce
经年藏殊
·
2023-10-13 16:05
大数据技术
hadoop
大数据
分布式
Hadoop生态概览
Hadoop生态概览:#hadoop#
HDFS
两种文件格式(基于文件的数据结构):1,SequenceFile,2,MapFileSequenceFile特性:SequenceFile文件是Hadoop
「已注销」
·
2023-10-13 16:05
Hadoop生态
【Kylin】【Hive】【hive-testbench】tpch 数据集生成失败,提示报错class org.apache.hadoop.
hdfs
.web.HftpFileSystem ...
描述在个人的apachehadoop3.2.1版本的集群下,为了验证kylin的构建和查询性能,找到了对应的Kylin官方推荐使用的hive-testbench数据集生成仓库。在执行了相关命令,如下。gitclonehttps://github.com/hortonworks/hive-testbench.gitcdhive-testbench/./tpch-build.sh./tpch-setu
JustinXTT
·
2023-10-13 09:24
Apache
Kylin
大数据
hadoop
hive
kylin
hive小文件合并机制_转:Hive小文件合并
Hive的后端存储是
HDFS
,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。
亿码数码
·
2023-10-13 08:56
hive小文件合并机制
hive小文件合并机制_hive小文件合并
hive仓库表数据最终是存储在
HDFS
上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。
大Victor
·
2023-10-13 08:56
hive小文件合并机制
HBase表更改压缩方式后的数据大合并
业务上可能会遇到这种情况,在最初创建hbase表时候,未指定压缩方式,当数据导入之后,由rowkey带来的数据膨胀导致
hdfs
上的数据大小远远大于原始数据大小。
SparkSql
·
2023-10-13 08:56
hbase
数据库
大数据
Spark Hive 小文件合并
背景小文件带来的问题对于
HDFS
从NNRPC请求角度,文件数越多,读写文件时,对于NN的RPC请求就越多,增大NN压力。从NN元数据存储角度,文件数越多,NN存储的元数据就越大。
longlovefilm
·
2023-10-13 08:26
spark
hive
spark
big
data
大数据学习(5)-hive文件格式
默认的文件存储格式是TestFile,如果在建表时不指定存储格式,则导入数据时会直接把数据文件拷贝到
HDFS
上不进行处理。除Test
viperrrrrrr
·
2023-10-13 07:47
大数据
学习
hive
Spark大数据平台
所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写
HDFS
Hi~晴天大圣
·
2023-10-13 05:16
技术杂烩
spark
大数据
scala
namenode元数据多目录配置及测试
1.配置方法namenode元数据的配置属性为:dfs.namenode.name.dir多个目录以逗号分隔即可(注意使用ambari配置时,要使用换行符)目录所属者需要改成
hdfs
:hadoop,不然会没有写权限
Java小田
·
2023-10-13 05:46
#
hdfs
备忘
hadoop
namenode多目录
hdfs
重平衡操作
通过修改配置dfs.datanode.balance.bandwidthPerSec=100m可以设置重平衡的带宽,但是需要重启服务因此通过命令设置:su
hdfs
-c“hadoopdfsadmin-setBalancerBandwidth100m
Java小田
·
2023-10-13 05:44
大数据
#
hdfs
备忘
hdfs
hadoop
重平衡
centos spark单机版伪分布式模式
1.2Spark部署依赖SparkStandalone的运行依赖于JDK、Scala,本来是不依赖于Hadoop的,但Spark自带的许多演示程序都依赖于Hadoop
HDFS
,因此我们也部署了伪分布式的
printf200
·
2023-10-13 03:32
hdfs
由于空间不足导致的强制安全模式状态
一、问题描述
hdfs
开机就进入安全模式,执行强制离开安全模式命令以后仍自动进入安全模式。
9b282fe44e88
·
2023-10-13 02:40
RDD(python
RDD创建从文件系统加载.textFile()支持本地文件系统分布式文件系统
HDFS
云端文件>>lines=sc.textFile("file:///usr/local/spark/mycode/rdd
KwokWyman
·
2023-10-12 21:01
python
hdfs
big
data
大数据权限管理框架:Apache Sentry和Ranger
一、简介ApacheSentry:Sentry是由Cloudera公司内部开发而来的,初衷是为了让用户能够细粒度的控制Hadoop系统中的数据(这里主要指
HDFS
,Hive的数据)。
Impl_Sunny
·
2023-10-12 09:23
#
对比&选型
Hadoop生态
Sentry
Ranger
大数据权限管理
Sentry 授权
自己系统发生了异常丢失事故,就详细了解了sentry与
hdfs
acl关系,看到这篇文章不错,自己又进行了补充,如果结合cloueramanager官网更好。
javastart
·
2023-10-12 09:47
hadoop
big
data
hadoop
hive
Hive启动错误:Exception in thread “main“ java.lang.RuntimeException: The dir: /tmp/hive on
HDFS
should be
Exceptioninthread“main”java.lang.RuntimeException:Thedir:/tmp/hiveon
HDFS
shouldbewritable.Currentpermissionsare
626960
·
2023-10-12 08:45
hive
java
hdfs
【HADOOP面试指南】
HadoopHadoop中常问的就三块第一:分布式存储(
HDFS
);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。
耗子尾汁(⩺_⩹)
·
2023-10-12 06:03
学习笔记
hadoop
面试
hdfs
大数据笔记--Hive(第一篇)
Hive运行日志4、参数配置一、Hive1、概述Hive原本时有Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制Hive提供了类SQL(HQL,HiveQL)语句来管理
HDFS
是小先生
·
2023-10-12 05:02
大数据05-Hive
hive
big
data
hadoop
Hadoop使用
hdfs
指令查看
hdfs
目录的根目录显示被拒
背景分布式部署hadoop,服务机只有namenode节点,主机包含其他所有节点主机关机后,没有停止所有节点,导致服务机namenode继续保存再次开启主机hadoop,使用
hdfs
查看
hdfs
根目录的时候显示访问被拒解决方案
JSU_曾是此间年少
·
2023-10-12 04:56
hadoop
hdfs
大数据
sqoop 脚本密码管理
1:背景生产上很多sqoop脚本的密码都是铭文,很不安全,找了一些帖子,自己尝试了下,记录下细节,使用的方式是将密码存在
hdfs
上然后在脚本里用别名来替代。2:正文第一步:创建密码对应的别名。
hankl1990
·
2023-10-12 04:13
sqoop
sqoop
hadoop
hive
hive抽取mysql里的表,如果mysql表没有时间字段如何做增量抽取数据
可以将该主键值存储在Hive外部系统,如
HDFS
文件、Zookeeper等。示例:--假设id为自增主键SELECTCOALESCE(MAX(id),0)ASma
蘑菇丁
·
2023-10-11 21:46
hive
mysql
hadoop
数据湖系列(1) - Hudi 核心功能原理剖析
随着互联网业务的逐步成熟,数仓和模型训练的基本盘逐步稳固,越来越多的工程师从业务开发需求转移到了工程的架构升级,而常用的Hudi和Iceberg往往会成为替代Hive/
Hdfs
等架构升级的选型。
小晨说数据
·
2023-10-11 20:49
大数据
数据库
python
java
spark
分布式群起zookeeper脚本、群起
HDFS
与YARN脚本、查看集群jpsall脚本、shell群起脚本代码、Linux群起服务、群起集群后立即关闭安全模式
一下是尚硅谷的util.sh脚本代码:注意:用户名、主机名、文件目录名根据自己的来群起zookeeper脚本代码echo"================正在启动Zookeeper==========="foriinatguigu@hadoop102atguigu@hadoop103atguigu@hadoop104dossh$i'/opt/module/zookeeper-3.4.10/bin/
DougLeaMrConcurrency
·
2023-10-11 20:09
大数据自学笔记
Hadoop生态体系
群起zookeeper
群起HDFS和YARN
查看集群jpsall
shell群起脚本
启动集群服务
hadoop的补充配置与常用脚本
目录历史服务器的配置:添加配置:分发集群:日志聚集功能的配置:添加配置:分发配置给集群其他服务器:集群的启动与停止:整体启动和停止
hdfs
:整体启动/停止YARN启动与停止某个服务组件:常用脚本:脚本1
小唐同学爱学习
·
2023-10-11 20:05
Hadoop
hadoop
大数据
hdfs
分布式
修炼k8s+flink+
hdfs
+dlink(四:k8s(一)概念)
一:概念1.概述1.1kubernetes对象.k8s对象包含俩个嵌套对象字段。spec(规约):期望状态status(状态):当前状态当创建对象的时候,会按照spec的状态进行创建,如果这些实例中有些失败了。那么会重新启动一个新的来替换这个实例。对象样例按照规定,app要求主体是json格式。但是也可以使用YAML清单格式,后续通过http访问app的时候,会将信息转化位JSON格式或者其他受支
宇智波云
·
2023-10-11 18:05
k8s
kubernetes
flink
hdfs
上一页
38
39
40
41
42
43
44
45
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他