E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
Flume学习笔记(1)—— Flume入门
概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统Flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到
HDFS
THE WHY
·
2023-11-18 23:33
大数据
Flume
flume
学习
笔记
hadoop学习笔记1了解流程大概
海量数据的存储
hdfs
海量数据的计算:mapreduce
hdfs
概述namenode:元数据,存储在哪个节点,存储什么信息datanode:存储数据2nn:备份namenode的信息yarn概述负责集群资源的管理
小美元
·
2023-11-18 20:06
hadoop
学习
大数据
Flink原理与实现:详解Flink中的状态管理
硬刚大数据系列文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/
HDFS
/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021
王知无(import_bigdata)
·
2023-11-18 19:59
大数据成神之路
flink
big
data
spark
经验篇:大数据常用工具集合
数据存储工具rds、mysql、postgresql、presto;starrocks/Doris;oss、es、
hdfs
、binlog、nosql、redis、neo4j;Kafkaoss:文件、图片
lazyone10
·
2023-11-17 17:32
大数据
利用CURL命令调用Web
HDFS
REST API与Kerberos机制
1.CURL安装cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。它支持文件上传和下载,所以是综合传输工具,但按传统,习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。CURL官方网站:http://curl.haxx.se/1.1Linux安装这个网上资料比较多,只要搜索“curl安装linux”就应该有不少介绍。1.2
tzw_cs
·
2023-11-17 16:41
Hadoop
curl
hdfs
kerberos
大数据开发学习笔记
Hadoophadoop集群搭建+hive安装_hadoop集群安装hive-CSDN博客Hadoop基础入门(1):框架概述及集群环境搭建_THEWHY的博客-CSDN博客Hadoop基础入门(2):
HDFS
-CSDN
THE WHY
·
2023-11-17 16:01
大数据
大数据
学习
笔记
mysql 海量数据迁移_Canal解决MySQL海量数据迁移问题
要分析海量数据,您需要将mysql中的数据同步到其他海量数据存储介质(
HDFS
,hbase)。如何出口呢?sqoop解决方案一:使用sqoop定期将mysql数据导出到hbase或
hdfs
Sqoop导
麦子9014
·
2023-11-17 12:42
mysql
海量数据迁移
二百零二、Hive——Hive解析JSON字段(单个字段与json数组)
一、目的用Flume采集Kafka写入到Hive的ODS层在
HDFS
路径下的JSON数据,需要在DWD层进行解析并清洗(一)Hive的ODS层建静态分区外部表createexternaltableifnotexistsods_queue
天地风雷水火山泽
·
2023-11-17 07:56
Hive
hive
json
hadoop
二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的
HDFS
文件路径下
一、目的在离线数仓中,需要用Flume去采集Kafka中的数据,然后写入
HDFS
中。由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。
天地风雷水火山泽
·
2023-11-17 07:22
Flume
flume
大数据
大数据系列-Hadoop集群搭建(2)集群配置
目录1.初步认识Hadoop1.1模块认知1.2关联工程/项目1.3Hadoop架构1.3.1
HDFS
架构1.3.2YARN架构2.Hadoop部署规划2.1节点规划2.2端口规划3.Hadoop集群配置
zhm6422107
·
2023-11-17 03:59
大数据
hadoop
big
data
hdfs
4hadoop
HDFS
集群搭建-伪分布式模式
hadoop旧版网址:http://hadoop.apache.org/old/2.6.5版本ssh协议在免密登陆其他机器的时候,不会加载其他机器的环境变量。就是不会加载/etc/profile文件在免密登陆别的机器时,如果需要环境变量可以先加载环境变量,然后在执行命令。例如:
[email protected]
’source/etc/profile;echo$PATH’即可伪分布式模式:单
没有女朋友的程序员
·
2023-11-17 03:28
大数据开发
大数据之hadoop-
hdfs
完全分布式环境搭建(详细步骤真实可用)
1,服务器规划本次服务搭建是在原有伪分布式的基础上进行搭建,伪分布式的搭建,参照伪分布式搭建节点NNSNNDNnode01※––node02※※node03––※node04––※2,基础设施jps检查jdk1.8安装,检查网络是否正常,配置hostvim/etc/hosts10.0.0.11node0110.0.0.12node0210.0.0.13node0310.0.0.14node04[r
shw12357
·
2023-11-17 03:27
hadoop
大数据
大数据之hadoop-
hdfs
伪分布式环境搭建(详细步骤真实可用)
目录版本1,基础设施2,Hadoop的配置(应用的搭建过程)3,启动4,简单使用5,上传自定义块的大小版本centos7+jdk1.8+hadoop2.6.51,基础设施设置网络:vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"DEFROUTE="yes"I
shw12357
·
2023-11-17 03:56
hadoop
大数据-hadoop HA
hadoopHAHACAP原则Paxos算法Federation实操大数据-hadoopHAHA主从集群:结构相对简单,主与从协作主:单点,数据一致好掌握问题:单点故障,集群整体不可用压力过大,内存受限
HDFS
Ybb_studyRecord
·
2023-11-17 03:26
大数据
大数据
hadoop
hdfs
HA
大数据分布式集群搭建(5)
1.1什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.HADOOP的核心组件有A.
HDFS
KongX_B
·
2023-11-17 03:25
大数据
大数据
hadoop
分布式
集群
大数据-hadoop入门与部署
大数据-hadoop入门与部署大数据-hadoop入门与部署启蒙分治思想单机处理大数据问题集群分布式处理大数据的辩证HadoopHadoop项目/生态hadoop-
hdfs
存储模型架构设计角色功能元数据持久化安全模式
Ybb_studyRecord
·
2023-11-17 03:25
大数据
hadoop
大数据
分布式
安装
大数据hadoop
hdfs
基础环境搭建
1.需要5个软件,virtualBox,centos,hadoop(),jdk(linux),xshell(远程登录)2.virtualBox新建虚拟机LinuxRedHat64位3.安装centos,硬盘->动态分配,软件选择->基础设施服务器4.设置网络,a).设置宿主机实际联网网卡的共享b).控制面板->网络->网络连接->vitualBoxHostonlyNetwork网卡的ip设置为19
gauyeah309
·
2023-11-17 03:53
阿里云OSS对象存储服务的使用
服务器Base64加密签名)(推荐)代码由服务器进行上传由服务器直接进行上传其实我们是不推荐的,原因有以下几点:在高并发的情况下,大量的图片由客户端传输给服务端,再由服务端上传至云端或者是分布式服务器(
HDFS
互联网底层人员
·
2023-11-16 23:18
java
阿里云
java
服务器
flume与kafka应用场景解析
而flume是定位数据传输,相比下,flume是一个专用工具被设计为旨在往
HDFS
,HBASE发送数据。它对
HDFS
有特殊的优化,并且集成了hadoop的安全特性。
wuyue_fighting
·
2023-11-16 22:39
kafka
flume
flume
kafka
hadoop的java实现
2.7.6)org.apache.hadoophadoop-common2.7.6org.apache.hadoophadoop-client2.7.6org.apache.hadoophadoop-
hdfs
2.7.6
weixin_44864919
·
2023-11-16 20:42
大数据
hadoop
hadoop源码中关于元数据“分段加锁+双缓冲方案”源码demo
FSEditLog.javapackagecom.nx.hadoop.lesson02;importjava.util.LinkedList;/****
HDFS
:有个别地方源码写得不错的。
weixin_44864919
·
2023-11-16 20:12
大数据
hadoop
java
大数据
4.
hdfs
高可用集群搭建
简介前面把hadoop机器已经准备好了,zk集群搭建好了,本本就是开始搭建
hdfs
环境hadoop环境准备创建hadoop用户三台机器都创建hadoop用户useraddhadoop-d/home/hadoopecho
shura1014
·
2023-11-16 20:11
hadoop
hdfs
hadoop
大数据
3.
hdfs
概述与高可用原理
简述
HDFS
(HadoopDistributedFileSystem)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本
shura1014
·
2023-11-16 20:35
hadoop
hdfs
hadoop
hadoop概述
是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是:
HDFS
m0_67390379
·
2023-11-16 08:52
java
hadoop
大数据
hdfs
java
windows
Flink 整合 hudi
优点:不在只依赖于分布式的文件存储系统,对分布式具有解耦合,数据的存储位置可以不用固定,数据并不是只能存储在
hdfs
中了。主要的作用:计算引擎可以是
新手小农
·
2023-11-16 08:21
Flink
1.15.2
flink
大数据
大数据Hadoop之——部署hadoop+hive+Mysql环境(Linux)
Java环境变量3、加载环境变量4、进行校验二、hadoop的集群搭建1、hadoop的下载安装2、配置文件设置2.1.配置hadoop-env.sh2.2.配置core-site.xml2.3.配置
hdfs
-site.xml2.4
爱吃面的猫
·
2023-11-16 06:51
大数据
笔记
Hadoop-
HDFS
架构与设计
HDFS
架构与设计一、背景和起源二、
HDFS
概述1.设计原则1.1硬件错误1.2流水访问1.3海量数据1.4简单一致性模型1.5移动计算而不是移动数据1.6平台兼容性2.
HDFS
适用场景3.
HDFS
不适用场景三
临江蓑笠翁
·
2023-11-16 06:15
大数据
#
Hadoop
hadoop
hdfs
架构
flume异常关闭文件修复方法
flume在从kafka采集数据后,会将数据写入到
hdfs
文件中。
jiedaodezhuti
·
2023-11-16 01:19
大数据
flume
大数据
hdfs
Flume(一)【Flume 概述】
Flume概述生产环境中的数据一般都是用户在客户端的一些行为操作形成的日志,一般操作日志都会先存到服务器,而不是直接就存到
HDFS
当中去。那么如何把服务器中的日志数据传输到
HDFS
中呢?
让线程再跑一会
·
2023-11-16 01:46
大数据开发工具
flume
大数据
数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对
HDFS
上的数据进行训练加速...
数据湖技术圈本期导读:【AI训练加速】第十七讲主题:Fluid+JindoFS对
HDFS
上的数据进行训练加速讲师:辰山,阿里巴巴计算平台事业部EMR技术专家内容框架:什么是Fluid+JindoFS(JindoRuntime
Apache Spark中国社区
·
2023-11-15 22:41
编程语言
kubernetes
github
html
大数据
hadoop学习10
Hadoop学习(十)1.
HDFS
核心参数1.NameNode内存生产配置(1)NameNode内存计算每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?
StopM
·
2023-11-15 20:12
hadoop
学习
大数据
ERROR tool.ImportTool: Import failed: org.apache.hadoop.mapred.FileAlreadyExistsException: Output d
ERRORtool.ImportTool:Importfailed:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectory
hdfs
人生在勤,不索何获-白大侠
·
2023-11-15 20:13
数据库
apache
hadoop
大数据
Hadoop
hdfs
常用命令
1、查看文件大小用命令:
hdfs
dfs-du-s-h
hdfs
dfs-du-s-h/user/hive/warehouse/wxwy.db/nr_mro_lzo/partitionday=202109092
人生在勤,不索何获-白大侠
·
2023-11-15 20:43
服务器
数据库
hive
HBase Minor Compaction和Major Compaction
背景HBase在将数据落盘到
HDFS
上之后,为了解决小文件并提高数据访问效率,定义了两种方式来合并HFile文件。
筑梦之人
·
2023-11-15 17:45
大数据
HBase
HBase原理 | HBase Compaction介绍与参数调优
我们知道,数据达到HBase服务端会写WAL-写Memstore,然后定期或满足一定条件时刷写磁盘生成一个HFile文件,随着时间推移生成的HFile会越来越多,将会影响HBase查询性能,同时会对
HDFS
create17
·
2023-11-15 17:13
java
python
大数据
hbase
mysql
从0开始学大数据16-ZooKeeper是如何保证数据一致性的?
你可能还记得,我们在讲
HDFS
和HBase架构分析时都提到了ZooKeeper。
源码头
·
2023-11-15 15:18
大数据
大数据
java-zookeeper
zookeeper
从0开始学大数据15-流式计算的代表:Storm、Flink、SparkStreaming
这些数据通常通过
HDFS
存储在磁盘上,使用MapReduce或者Spark这样的批处理大数据计算框架进行计算,一般完成一次计算需要花费几分钟到几小时的时间
源码头
·
2023-11-15 15:18
大数据
大数据
storm
flink
从0开始学大数据14-BigTable的开源实现:HBase
我们前面已经讲过了GFS对应的Hadoop分布式文件系统
HDFS
,以及MapReduce对应的Hadoop分布式计算框架MapReduce,今天我们就来领略一下BigTable对应的NoSQL系统
源码头
·
2023-11-15 15:48
大数据
hbase
大数据
开源
Hive分区表新增字段值为NULL
HDFS
上的数据更新了,但是我们查询的时候仍然查询的是旧的元数据信息(即Mysql中的信息)官方解释如下:ChangeColumnName/Type/Position/CommentALTERTABLEtable_n
Sin_Geek
·
2023-11-15 10:23
大数据技术
HIVE
ALTER
TABLE
ADD
COLUMN
元数据
Hadoop伪分布式搭建
伪分布式搭建目的准备支持的平台需要的软件下载伪分布式配置设置SSH免密登录启动hadoop验证文件分块查看上传后的文件目的本文档介绍如何设置和配置单节点Hadoop安装,以便您可以使用HadoopMapReduce和Hadoop分布式文件系统(
HDFS
best program
·
2023-11-15 05:13
hadoop
分布式
hdfs
Centos7搭建hadoop3.3.4分布式集群
2、集群规划hadoop集群是由2个集群构成的,分别是
hdfs
集群和yarn集群。2个集群都是主从结构。
JAVA序码
·
2023-11-15 04:10
java
《spark实战》笔记02--Spark基础概念
•基于DAG图的执行引擎,减少多次计算之间中间结果写到
Hdfs
的开销。•建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场景。
chijinyan
·
2023-11-15 03:41
大数据
spark
spark
HADOOP学习_grep和wordcount的例子
两个小例子目录操作文件操作追加文件目录操作首先检查一下自己的
hdfs
是不是有/user路径http://localhost:50070/explorer.html#/没有就新建一个mac@kkkMachadoop
kkkAloha
·
2023-11-14 23:16
hadoop
hadoop
学习
hdfs
Hadoop11:MapReduce介绍
一、Hadoop之MapReduce详解前面我们学习了Hadoop中的
HDFS
,
HDFS
主要是负责存储海量数据的,如果只是把数据存储起来,除了浪费磁盘空间,是没有任何意义的,我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容
做一个有趣的人Zz
·
2023-11-14 21:40
hadoop
hadoop
hdfs
mr
Hadoop MapReduce详解(一)
一、MapReduce简介之前我们我们讲解了Hadoop的分布式文件储存系统
HDFS
,曾把它比作一个工厂的仓库。
杨老七
·
2023-11-14 21:40
hadoopnode
mapreduce
hadoop
big
data
hadoop 大数据集群环境配置 配置hadoop配置文件 hadoop(七)
1.虚拟机的三台机器分别以
hdfs
存储,mapreduce计算,yarn调度三个方面进行集群配置hadoop版本3.3.4官网:Hadoop–ApacheHadoop3.3.6jdk1.8三台机器尾号为
不努力就种地~
·
2023-11-14 21:42
大数据
大数据
hadoop
分布式
hadoop 如何关闭集群 hadoop使用脚本关闭集群 hadoop(八)
1.hadoop22,hadoop23,hadoop24三台机器2.namenode所在hadoop22关闭
hdfs
:#找到/etc/hadoop位置cd/opt/module/hadoop-3.3.4
不努力就种地~
·
2023-11-14 21:39
大数据
hadoop
java
eclipse
Flink SQL -- CheckPoint
1、开启CheckPointcheckpoint可以定时将flink任务的状态持久化到
hdfs
中,任务执行失败重启可以保证中间结果不丢失#修改flink配置文件vimflink-conf.yaml#checkppint
新手小农
·
2023-11-14 10:11
Flink
1.15.2
flink
大数据
Hdoop安装配置学习笔记(HDP)
Ambari已支持大多数Hadoop组件,包括
HDFS
、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等。
glisten0317
·
2023-11-14 08:50
运维
hadoop
hive on spark调优学习笔记
1集群环境概述1.1集群配置概述:所用集群由5台节点构成,其中2台为master节点,用于部署
HDFS
的NameNode,Yarn的ResourceManager等角色,另外3台为worker节点,用于部署
一只友
·
2023-11-14 06:39
hive
spark
学习
上一页
23
24
25
26
27
28
29
30
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他