E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hdfs日常维护
【基础知识】大数据概述
发展历程中国开源生态图谱2023参考内容中国开源生态图谱2023.pdf技术组件说明数据集成sqoop、dataX、flume数据存储
hdfs
、kafka数据处理mapreduce、hive、impala
偏振万花筒
·
2023-12-15 12:39
大数据
hadoop-
hdfs
简介及常用命令详解(超详细)
文章目录前言一、
HDFS
概述1.
HDFS
简介2.
HDFS
架构3.
HDFS
文件操作二、
HDFS
命令介绍1.
hdfs
命令简介2.
HDFS
命令的基本语法3.常用的
HDFS
命令选项三、
HDFS
常用命令1.列出指定路径下的文件和目录
大数据魔法师
·
2023-12-15 11:22
大数据
hadoop
hdfs
大数据
hadoop使用内置包进行性能测试TestDFSIO、NNBench、MRBench、SliveTest
使用内置包进行性能测试TestDFSIOread&writeNNBenchMRBenchSliveTestTestDFSIOread&writeTestDFSIO是一个Hadoop自带的基准测试工具,用于测试
HDFS
何亚告
·
2023-12-15 07:51
菜鸟日常
hadoop
大数据
分布式
大数据技术13:HBase分布式列式数据库
Hadoop可以通过
HDFS
来存储结构化、半
Java架构何哥
·
2023-12-15 07:05
大数据治理
大数据
HBase列式数据库
Hbase表的数据结构
【Spark精讲】Spark存储原理
目录类比
HDFS
的存储架构Spark的存储架构存储级别RDD的持久化机制RDD缓存的过程Block淘汰和落盘类比
HDFS
的存储架构
HDFS
集群有两类节点以管理节点-工作节点模式运行,即一个NameNode
话数Science
·
2023-12-15 07:29
Spark精讲
Spark
大数据
spark
大数据
【Hadoop】
Hadoop是一个开源的分布式离线数据处理框架,底层是用Java语言编写的,包含了
HDFS
、MapReduce、Yarn三大部分。
想当运维的程序猿
·
2023-12-15 07:43
hadoop
大数据
分布式
hive聚合函数之JOIN原理及案例
1.数据准备原始数据创建dept.txt文件,并赋值如下内容,上传
HDFS
。
Appreciate(欣赏)
·
2023-12-15 06:03
hive
hive
数据仓库
07用户行为日志数据采集
用户行为数据由Flume从Kafka直接同步到
HDFS
,由于离线数仓采用Hive的分区表按天统计,所以目标路径要包含一层日期。具体数据流向如下图所示。
kk_io
·
2023-12-15 06:22
数据仓库
flume
数据仓库
hive的load报错Error: EXECUTION FAILED: Task MOVE error HiveException: [Error 20531] Unable to move sour
Error:EXECUTIONFAILED:TaskMOVEerrorHiveException:[Error20531]Unabletomovesource
hdfs
://nameservice1/tmp
五月天的尾巴
·
2023-12-15 03:12
大数据
数据库
hive
load报错
task
move
error
2.CENTOS安装CDH和Kudu-1
Cloudera企业级数据中心的安装主要分为4个步骤:集群服务器配置,包括安装操作系统、关闭防火墙、同步服务器时钟等;外部数据库安装安装Cloudera管理器;安装CDH集群;集群完整性检查,包括
HDFS
大勇任卷舒
·
2023-12-15 01:40
【Hadoop_03】
HDFS
概述与Shell操作
1、集群配置(1)集群启动/停止方式总结(2)编写Hadoop集群常用脚本(3)常考面试题【1】常用端口号【2】常用配置-文件2、
HDFS
概述(1)
HDFS
产出背景及定义(2)
HDFS
优缺点(3)
HDFS
温欣2030
·
2023-12-14 23:04
【大数据】
hadoop
hdfs
大数据
外部文件数据写入hive
hive数据库是基于
HDFS
的一个数据库,是对
hdfs
数据的一个映射关系。注意:hive数据库存入数据的时候不建议使用insertinto语句来进行插入,这样的的操作方式在效率上会很低效。
小赵要加油
·
2023-12-14 19:24
数据仓库
hive
Hive:从
HDFS
回收站恢复被删的表
1.确认
HDFS
是否开启回收站功能2.查看回收站中的数据被删除的数据会放在删除数据时使用的用户目录下,如:使用pgxl删除的,那么删除的数据会放在如下目录:/user/pgxl/.Trash该目录下会有多个文件夹
有语忆语
·
2023-12-14 19:49
大数据之Hive
hive
hdfs
hadoop
大数据存储技术(1)—— Hadoop简介及安装配置
)概念(二)Hadoop发展历史(三)Hadoop三大发行版本(四)Hadoop的优势二、Hadoop的组成(一)Hadoop1.x和Hadoop2.x的区别编辑(二)Hadoop的三种运行模式(三)
HDFS
Francek Chen
·
2023-12-14 19:08
大数据技术基础
Spark编程基础
大数据
hadoop
linux
Scala-初学
前提,已经安装好Scala在Linux终端准备资料:a.txt内容HIVE底层是
hdfs
和mapreduce实现存储和计算的。
Logan_addoil
·
2023-12-14 19:07
大数据学习之旅
scala
开发语言
后端
MapReduce的执行过程(以及其中排序)
阶段(ReduceTask):拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)1、Maptask读取:框架调用InputFormat类的子类读取
HDFS
Logan_addoil
·
2023-12-14 19:29
大数据学习之旅
mapreduce
大数据
datax的mysql 到
hdfs
文件系统 --- 支持高可用
datax的mysql到
hdfs
文件系统上!
Java页大数据
·
2023-12-14 16:27
datax
hadoop
hive
spring
大数据
idea本地调试hadoop 遇到的几个问题
java.lang.IllegalStateException‘exception.Cannotevaluateorg.apache.hadoop.mapreduc解决方法:关闭IDEA中的启用“tostring()”对象视图2.代码和
hdfs
sunweiking
·
2023-12-14 13:43
intellij-idea
hadoop
java
【原创】基于SSM的超市进销存管理系统(超市管理系统毕业设计)
主要目标是对商品
日常维护
、售卖、商品类别、存储记录、库存维护等功能的统计及整理。系统设计了普通员工和管理员两个角色。
那条学长V
·
2023-12-14 13:42
原创JavaWeb项目
毕业设计
超市进销存管理系统
SSM超市进销存管理系统
超市管理系统
超市库存管理系统
SSM库存管理系统
big data tools连接
hdfs
报错Exception during driver request: java.lang.IllegalArgumentException:java.net.U
1.报错在IDEA中使用bigdatatools插件连接虚拟机中的
hdfs
时报错:Exceptionduringdriverrequest:java.lang.IllegalArgumentException
向之 所欣
·
2023-12-14 12:15
报错
大数据
hdfs
java
报错:Permission denied. user=dr.who is not the owner of inode=/tmp
例如
HDFS
网络用户界面(用于浏览文件的用户)。链接:hadoop.apache.org/docs/r3.3.1/hado
撕得失败的标签
·
2023-12-14 12:37
Hadoop
hdfs
hadoop
权限问题
已解决:java.net.ConnectException: Call From XXXXX to XXXXX :8020 failed on connection Exception: 拒绝连接;
咱也不敢问,咱也不敢问、整个业务集群呢是在阿里云上搭建的,十几台服务器,在跑flume脚本的时候,发现了一个很奇怪的现象,正常的跑flume的测试脚本,采用loggersink呢,是OK的,但是使用
HDFS
sink
想做CTO的任同学...
·
2023-12-14 12:04
Flume
Sqoop
HBase
java
开发语言
二百一十七、Flume——Flume拓扑结构之聚合的开发案例(亲测,附截图)
(二)结构特征用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的flume,再由此flume上传到
hdfs
、hive、hbase等
天地风雷水火山泽
·
2023-12-14 12:31
Flume
flume
大数据
解决Hbase报错:ERROR: Can‘t get master address from ZooKeeper; znode data == null
文章目录问题描述解决方案问题描述报错了:这啥公司啊,怎么给的文档怎么错这么多,起一服务,集群里总有几个组件报错继上次Flume脚本,使用
hdfs
sink报错了以后,hbase又报错了,报错提示如下:hbase
想做CTO的任同学...
·
2023-12-14 12:30
Flume
Sqoop
HBase
zookeeper
分布式
云原生
HDFS
3.x 数据存储新特性-纠删码
HDFS
是⼀个⾼吞吐、⾼容错的分布式⽂件系统,但是
HDFS
在保证⾼容错的同时也带来⾼昂的存储成本,⽐如有5T的数据存储在
HDFS
上,按照
HDFS
的默认3副本机制,将会占⽤15T的存储空间。
数据与后端架构提升之路
·
2023-12-07 01:03
大数据
hdfs
hadoop
大数据
HDFS
Architecture 翻译和理解
HDFS
官方文档链接硬件故障的容错,在软件层面cover硬件故障。流式数据读取,数据的访问是顺序的,对数据跳转访问支持不友好。数据集巨大,以TB为单位。
不争_900c
·
2023-12-06 22:17
hadoop学习之路3-MapReduce作业生命周期
用户提交作业后,首先由JobClient实例将作业相关信息,比如将程序jar包、作业配置文件、分片元信息文件等上传到
hdfs
上,其中分片元信息记录了每个输入分片的逻辑位置信息。
乌拉乌拉儿
·
2023-12-06 18:09
图说
HDFS
基本原理
英文原版作者:ManeeshVarshney,
[email protected]
HDFS
是现在最受欢迎和被人们说熟知的分布式文件系统。
数据萌新
·
2023-12-06 18:40
ambari 安装及使用ambari安装hadoop记录
Ambari已支持大多数Hadoop组件,包括
HDFS
、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等。ApacheAmbari支持
HDFS
yujianbujianqwe
·
2023-12-06 17:24
ambari
hadoop
大数据
大数据平台Ambari2.7.4+HDP3.1.4详细安装教程
Ambari已支持大多数Hadoop组件,包括
HDFS
、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等。
csdnuser267
·
2023-12-06 17:20
大数据平台
HDP
大数据
Ambari简介&安装
Ambari目前已支持大多数Hadoop组件,包括
HDFS
、MapReduc
月苍.
·
2023-12-06 17:49
Ambari
ambari
大数据Hadoop分布式文件系统
HDFS
的两类节点NameNode和DataNode
HDFS
集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。
A尚学堂Nancy老师
·
2023-12-06 15:56
flume 实时监控 Hive 日志,并上传到
HDFS
中
的日志生成位置二、上传需要的jar包将commons-configuration-1.6.jar、hadoop-auth-3.1.2.jar、hadoop-common-3.1.2.jar、hadoop-
hdfs
无名刺客
·
2023-12-06 12:41
大数据
大数据
Flume 概述+环境配置+监听Hive日志信息并写入到
hdfs
Flume介绍Flume是Apache基金会组织的一个提供的高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。当前Flume有两个版本,Flume0.9x版本之前的统称为Flume-og,Flume1.X版本被统称为Flume-ng。参考文档:http
Transkai47
·
2023-12-06 12:40
大数据
linux
java
hadoop
python
二百一十二、Flume——Flume实时采集Linux中的目录文件写入到
HDFS
中(亲测、附截图)
一、目的在实现Flume实时采集Linux中的Hive日志写入到
HDFS
后,再做一个测试,用Flume实时采集Linux中的目录文件,即使用Flume监听Linux整个目录的文件,并上传至
HDFS
中二、
天地风雷水火山泽
·
2023-12-06 12:10
Flume
flume
linux
hdfs
flume和kafka整合——采集实时日志落地到
hdfs
flume和kafka整合——采集实时日志落地到
hdfs
一、采用架构二、前期准备2.1虚拟机配置2.2启动hadoop集群2.3启动zookeeper集群,kafka集群三、编写配置文件3.1slave1
奋斗的IT小白菜
·
2023-12-06 12:39
Flume
kafka
Flume采集数据到Hive&HBase
文章目录Flume汇入数据到Hive方法一:汇入到Hive指定的
HDFS
路径中:方法二:利用HiveSink汇入数据Flume汇入数据到HBase一、Flume的HBaseSinks详细介绍1.1、HBaseSink1.2
哈了个Doop
·
2023-12-06 12:08
hdfs
hadoop
hive
hbase
Flume监控Hive日志并上传到
HDFS
一、实时监控单个追加文件1.需求:实时监控Hive日志,并上传到
HDFS
2.实现步骤:(1)上传Hadoop相关jar包到flume/lib目录下flume相关jar包https://blog.csdn.net
无发可脱丶
·
2023-12-06 12:37
笔记
学习
flume
大数据
flume
实时监控 Hive 日志,并上传到
HDFS
中
Flume要想将数据输出到
HDFS
,依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh文件,确认Hadoop和Java环境变量配置正确创建flume-file-
hdfs
.conf
夏殿灬青葛石
·
2023-12-06 12:07
Flume
hdfs
hive
hadoop
二百一十一、Flume——Flume实时采集Linux中的Hive日志写入到
HDFS
中(亲测、附截图)
一、目的为了实现用Flume实时采集Hive的操作日志到
HDFS
中,于是进行了一场实验二、前期准备(一)安装好Hadoop、Hive、Flume等工具(二)查看Hive的日志在Linux系统中的文件路径
天地风雷水火山泽
·
2023-12-06 12:36
Flume
flume
hive
hdfs
Doris数据备份及恢复
如BOS、
HDFS
等。可以通过SHOWBROKER;查看当前部署的
shangjg3
·
2023-12-06 08:48
Doris
大数据
数据仓库
doris
sql
spark不同结构Dataset合并
1.先将
hdfs
(或本地)存储的csv文件加载为Dataset先在本地C盘准备两个csv文件test.csvclient_id,behives,del,normal_status,cust_type,no_trd_days7056
容若只如初见
·
2023-12-06 07:03
spark
大数据
分布式
spark 写入 hudi时数据类型报错
Causedby:org.apache.spark.sql.execution.QueryExecutionException:Parquetcolumncannotbeconvertedinfile
hdfs
南城守护
·
2023-12-06 07:31
spark
大数据
分布式
使用 Apache Kafka 进行实时流处理
其架构更多地继承了
HDFS
、HBase或Cassandra等存储系统,而不是实现
wouderw
·
2023-12-06 05:37
apache
kafka
分布式
【读书笔记】《大数据技术体系详解:原理、架构与实践》03.分布式文件系统
这些文件形式的数据具有价值高、数据大、流式产生等特点,需要一个分布式文件系统存储它们,该文件系统应具有良好的容错性、扩展性和易用的API,而
HDFS
(HadoopDistributedFileSystem
粥一样温柔
·
2023-12-06 05:40
hive外部表分区
外部表和内部表内部表:数据由hive自身管理存储在hive指定的
hdfs
目录中删除会删除数据本身外部表(external):数据存储在用户使用location关键字指定的
hdfs
目录中hive中仅存储一份元数据删除操作不会影响到
nil_ddea
·
2023-12-06 00:54
Flink快速入门
分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、
HDFS
WaiSaa
·
2023-12-05 21:30
Java
大数据
flink
大数据
Hadoop 概述
文章目录Hadoop概述Hadoop是什么Hadoop主要发展历程Hadoop优势Hadoop组成Hadoop1.x、2.x、3.x区别
HDFS
概述YARN概述MapReduce架构概述
HDFS
、YARN
撕得失败的标签
·
2023-12-05 19:59
Hadoop
hadoop
大数据
分布式
Hadoop生态圈
Apache Sqoop使用
Hadoop生态系统包括:
HDFS
、Hive、Hbase等RDBMS体系包括:MySQL、Oracle、DB2等Sqoop可以理
高过蓝天的云
·
2023-12-05 10:41
apache
sqoop
hadoop
大数据Hadoop集群的启动
1启动准备工作1.1配置操作系统的环境变量1.2创建Hadoop数据目录1.3格式化文件系统1.4启动和关闭Hadoop1.5验证Hadoop是否成功启动1.6hadoop-daemon.sh的使用2
HDFS
赵广陆
·
2023-12-05 08:13
hadoop
hadoop
big
data
hdfs
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他