E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分布式文件系统HDFS
数据结构与算法之美学习笔记:38 | 分治算法:谈一谈大规模计算框架MapReduce中的分治思想
分治算法应用举例分析分治思想在海量数据处理中的应用解答开篇内容小结前言本节课程思维导图:MapReduce是Google大数据处理的三驾马车之一,另外两个是GFS(
hdfs
)和Bigtable(hbase
浊酒南街
·
2023-12-21 03:51
数据结构与算法之美学习笔记
算法
数据结构
GFS
分布式文件系统
gfdglusterFS开源的
分布式文件系统
存储服务器客户端以及网络(NFS/samba)网关传统式老的分布式系统是依赖于元服务器,元服务器保存存储节点的目录树信息。
早上的星星
·
2023-12-20 20:22
mysql
数据库
HDFS
优缺点优点:高容错性:数据自动保存多个副本;副本丢失后,自动恢复适合批处理:移动计算而数据;数据位置暴露给计算框架适合大数据处理:GB、TB、PB级数据;百万规模以上的文件数量;10K+节点可构建在廉价机器上:通过多副本提高可靠性;提供了容错和恢复机制缺点:不适合低延迟数据访问(订单):毫秒级;低延迟与高吞吐率不适合小文件存取:占用NameNode大量内存;寻道时间超过读取时间并发写入、文件随机修
PlayfulGerry
·
2023-12-20 17:13
SeaweedFS介绍安装集群部署总结
什么是SeaweedFSSeaweedFS是一种简单的、高度可扩展的
分布式文件系统
。SeaweedFS是一个非常优秀的由go语言开发的分布式存储开源项目。
编程无霸哥
·
2023-12-20 17:07
彻底解决Hive小文件问题
我去
hdfs
目录查看了一下该目录:image发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一下小文件吧:insertintotestselect*fromtabled
大数据技术派
·
2023-12-20 15:59
HDFS
工作机制和原理
HDFS
是一种分部式的文件系统,在他出现以前就已经存在了很多中
分布式文件系统
,但是他们都是部署在服务器上,需要高的POSIX接口,同时他们默认服务器是稳定的可以提供大量资源。
Tim在路上
·
2023-12-20 15:36
ceph存储服务结构介绍以及速度优化的方法
以下是这些存储服务的简要介绍和结构:CephFS(Ceph文件系统):结构:CephFS是Ceph提供的
分布式文件系统
,它基于RADOS(可扩展自动分布式对象存储)构建。
小果运维
·
2023-12-20 14:19
ceph
ceph
存储
分布式
优化
速度
sqoop简介及安装配置
导入数据:MySQL,Oracle导入数据到Hadoop的
HDFS
、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库1.png工作机制将导入或导出命令翻译成mapreduce
一个人一匹马
·
2023-12-20 11:30
大数据集群增加数据盘,平衡数据盘
HDFS
Disk Balancer
大数据集群增加数据盘,平衡数据盘
HDFS
DiskBalancer官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-
hdfs
墨卿风竹
·
2023-12-20 09:48
大数据
hdfs
hadoop
Disk
Balancer
datax插件加载失败(插件[ftpreader,
hdfs
writer]加载失败)
WARNConfigParser-插件[ftpreader,
hdfs
writer]加载失败,1s后重试…Exception:Code:[Framework-12],Description:[DataX插件初始化错误
墨卿风竹
·
2023-12-20 09:48
datax
大数据
数据同步
大数据讲课笔记5.1 初探MapReduce
MapReduce编程实例——词频统计思路1、Map阶段(映射阶段)2、Reduce阶段(归并阶段)(四)MapReduce编程实例——词频统计实现1、准备数据文件(1)在虚拟机上创建文本文件(2)上传文件到
HDFS
howard2005
·
2023-12-20 09:40
Hadoop分布式入门
大数据
笔记
mapreduce
hadoop完全分布式搭建
hadoop完全分布式搭建1完全分布式介绍Hadoop运行模式包括:本地模式(计算的数据存在Linux本地,在一台服务器上自己测试)、伪分布式模式(和集群接轨
HDFS
yarn,在一台服务器上执行)、完全分布式模式
程序喵猴
·
2023-12-20 08:51
hadoop
hadoop
大数据
运行官方实例
hdfs
dfs-mkdir-p/data/wc/input
hdfs
dfs-Ddfs.blocksize=1048576-putdata.txt/data/wc/inputcd$HADOOP_HOMEcdshare
新鲜氧气
·
2023-12-20 05:57
#
hadoop
hadoop
【Hadoop精讲】
HDFS
详解
目录理论知识点角色功能元数据持久化安全模式SecondaryNameNode(SNN)副本放置策略
HDFS
写流程
HDFS
读流程HA高可用CPA原则Paxos算法HA解决方案
HDFS
-Fedration解决方案
话数Science
·
2023-12-20 05:42
Hadoop
大数据
hadoop
hdfs
大数据
go-fastdfs
go-fastdfs是一个基于http协议的
分布式文件系统
,它基于大道至简的设计理念,一切从简设计,使得它的运维及扩展变得更加简单,它具有高性能、高可靠、无中心、免维护等优点。
芋头哥
·
2023-12-19 20:41
中间件
docker
go-fastdfs
HQL的其他优化
在Hive中,计算成本模型考虑到了:数据的行数、CPU、本地IO、
HDFS
IO、网络IO等方面。Hive会计算同一SQL语句的不同执行计划的计算成本,并选出成本最低的执行计划。
zmx_messi
·
2023-12-19 18:18
分布式
hive
sql
Hive底层如何和数据库进行交互
hive的功能实现是由
HDFS
+Mapreduce结合起来使用的。
旅僧
·
2023-12-19 17:31
hive
数据库
hadoop
熟悉
HDFS
(一)熟悉
HDFS
操作常用的Shell命令(1)使用hadoop用户登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),为hadoop用户在
HDFS
中创建用户目录
ngc2244
·
2023-12-19 16:26
大数据
hdfs
从零开始了解大数据(二):Hadoop篇
目录前言一、Hadoop集群整体概述1.
HDFS
集群(分布式存储):(1)
HDFS
集群角色构成:(2)
HDFS
集群功能:2.YARN集群(资源管理、调度):(1)YARN集群角色构成:(2)YARN集群功能
橘子-青衫
·
2023-12-19 13:23
大数据
从零开始了解大数据
大数据
hadoop
分布式
从零开始了解大数据(三):
HDFS
分布式文件系统
篇
目录前言一、
HDFS
分布式文件系统
基础1.数据与元数据2.分布式存储系统的核心属性3.
HDFS
的设计目标4.
HDFS
的重要特性二、
HDFS
Shell操作1.
HDFS
Shell命令行简介2.
HDFS
Shell
橘子-青衫
·
2023-12-19 13:23
大数据
从零开始了解大数据
大数据
数据分析
数据挖掘
hadoop
短视频矩阵系统多账号搭建技术源码(源头3年开发者技术独立搭建)
通过使用
分布式文件系统
(例如AWSS3)和自动化上传工具,可以实现批量上传功能,并通过设置定时任务和
云罗互动yx898978
·
2023-12-19 13:52
短视频矩阵源码
矩阵
矩阵源码
短视频矩阵源码
【Hadoop】
HDFS
的体系架构
整体上说
HDFS
框架结构一
HDFS
框架结构二(
HDFS
HighAvailability)整体上说
HDFS
采用Master/Slave架构。
不怕娜
·
2023-12-19 11:29
hadoop
hdfs
架构
Hadoop学习(3)-mapreduce快速入门加yarn的安装
mapreduce是一个运算框架,让多台机器进行并行进行运算,他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段map阶段:读取
hdfs
中的文件,分给多个机器上的maptask,分文件的时候是按照文件的大小分的比如每个
weixin_30323961
·
2023-12-19 10:05
大数据
操作系统
java
大数据入门二(YARN部署)
1.入门
HDFS
存储MapReduce计算SparkFlinkYarn资源作业调度伪分布式部署要求环境配置文件参数文件ssh无密码启动jps命令[hadoop@hadoop002~]$jps28288NameNodeNN27120Jps28410DataNodeDN28575SecondaryNameNodeSNN1
倾白首
·
2023-12-19 10:04
MapReduce 基础实战
测试说明输入文件在你每次点击评测的时候,平台会为你创建,无需你自己创建,只需要启动
HDFS
,编写java代码即可。输入文件的数据格式如下:张三12李四13张三89李
柔雾
·
2023-12-19 10:28
mapreduce
大数据
Spark简介
1.Spark基本概念Spark是一种基于内存计算的大数据并行计算框架,最早是由加州大学伯克利分校开发,现已经成为Apche顶级开源项目,其作为MapReduce的替代方案,兼容
HDFS
、Hive等分布式存储层
Mrsimple_4f84
·
2023-12-19 09:18
伪集群配置
编辑core-site配置core-site配置
hdfs
-site将以下的文件配置进去启动一下hadoop产生tmp文件产生这个叫namenode的文件并格式化回到~目录再配置以下信息配置以下信息重启文件再重新格式化配置
kkoneone11
·
2023-12-19 09:42
虚拟机
java
开发语言
运维
学习笔记Hadoop(七)—— Hadoop集群的安装与部署(4)—— 配置Hadoop集群
在Master节点:执行
HDFS
格式化操作。4.1、上传并解压Hadoop安装包(这里我已经用Xsh
别呀
·
2023-12-19 00:58
hadoop
big
data
spark
实验一、Hadoop 安装与配置管理
hadoop安装与配置目标:掌握Hadoop安装过程原理Linux环境准备:伪分布式模式的安装和配置步骤:一、准备与配置安装环境:安装虚拟机和linux二、安装jdk三、安装hadoop四、
HDFS
系统初体验五
Lilianac
·
2023-12-19 00:57
Hadoop
hadoop
linux
hadoop安装包解压之后的操作
hadoop-env.sh和yarn-env.sh进入hadoop-3.2.4/etc/hadoop/修改这两个文件增加:JAVA_HOME={java的路径}修改配置文件core-site.xml和
hdfs
-site.xml
冲鸭嘟嘟可
·
2023-12-19 00:55
hadoop
大数据
分布式
【基础知识】大数据组件
HDFS
简述
HDFS
是经典的Master和Slave架构,每一个
HDFS
集群包括一个NameNode和多个DataNode。NameNode管理所有文件的元数据信息,并且负责与客户端交互。
偏振万花筒
·
2023-12-18 22:06
数据仓库
基础平台
大数据
hdfs
hadoop
Hadoop升级和回滚
在任何有实际意义的HDSF系统上,丢失数据是不被允许的,更不用说重新搭建启动
HDFS
了。
HDFS
允许管理员退回到之前的Hadoop版本,并将集群的状态回滚到升级之前。
Summer_1981
·
2023-12-18 22:43
大数据技术11:Hadoop 原理与运行机制
前言:
HDFS
(HadoopDistributedFileSystem)是Hadoop下的
分布式文件系统
,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。
Java架构何哥
·
2023-12-18 21:56
大数据治理
hadoop
大数据
分布式
Hadoop分布式系统基础框架
hdfs
文件复制方法
hdfs
文件复制,并拷贝修复数据--1、复制表结构createtablet1liket2;--2、复制文件数据hadoopdistcp-update-skipcrccheck-m300
hdfs
://ns1
菜鸟冲锋号
·
2023-12-18 20:54
数据仓库
hdfs
hadoop
SpringBoot集成分布式对象存储(分布式文件)MinIO
你可以把它和FastDFS、
HDFS
作为类比,但它比其它都更简单,极简是MinIO的设计初衷之一,而且他的性能很好。
小虎哥的技术博客
·
2023-12-18 19:11
Hadoop Single Node Cluster的安装
安装位置设置SSH无密码登录安装hadoop下载安装设置hadoop环境变量修改hadoop配置设置文件设置core-site.xml设置YARN-site.xml设置mapred-site.xml设置
HDFS
艾醒(AiXing-w)
·
2023-12-18 16:50
hadoop
hadoop
大数据
分布式
Ceph存储
没有冗余,不具备容错功能raid1100%容错raid5最少三块性能不如raid0容错不如raid1raid0+raid1性能+容错raid时代-->分布式存储(ceph)时代1PB级别用raid很难实现
分布式文件系统
文件系统管理的物理存储资源不一定直接连接在本地节点上
叫我家驹范
·
2023-12-18 15:15
存储
3、电商数仓(数仓数据同步策略)
离线数仓同步数据数据通道用户行为数据由Flume从Kafka直接同步到
HDFS
,由于离线数仓采用Hive的分区表按天统计,所以目标路径要包含一层日期。具体数据流向如下图所示。
tianyi6_6
·
2023-12-18 14:46
数据仓库(电商)
大数据
linux
hadoop
kafka
分布式
Flink实时电商数仓(一)
常用的存储系统是Hadoop的
HDFS
文件系统,使用Hive进行数据计算,并将结果导入
HDFS
。离线数仓最明显的特点是T+1模式,今天只能算昨天的数据,时效性不够优秀。
十七✧ᐦ̤
·
2023-12-18 14:14
flink
大数据
基于hadoop下的spark安装
目录简介安装准备spark安装配置文件配置简介Spark主要⽤于⼤数据的并⾏计算,⽽Hadoop在企业主要⽤于⼤数据的存储(⽐如
HDFS
、Hive和HBase等),以及资源调度(Yarn)。
necessary653
·
2023-12-18 14:43
hadoop
spark
大数据
【Hadoop】
HDFS
设计思想
HDFS
设计思想为什么
HDFS
上的块为什么远远大与传统文件系统?
HDFS
设计思想首先需要明确
HDFS
部署在集群之上。
不怕娜
·
2023-12-18 12:53
hadoop
hdfs
大数据
Hadoop_
HDFS
实践 (一)=>(架构、Shell相关操作、API、NN/2NN工作原理、DataNode工作机制等)
目录Hadoop_
HDFS
、Hadoop_MapReduce、Hadoop_Yarn实践(一)一、Hadoop_
HDFS
1、概述、背景、优缺点1.1、概述1.2、架构1.3、优缺点1.4、块大小2、
HDFS
常名先生
·
2023-12-18 09:23
hadoop
hdfs
mapreduce
Hadoop_Yarn实践 (三) => (Yarn的基础架构、原理、容量/公平调度器、Tool接口、Yarn常用命令、核心参数)
目录Hadoop_
HDFS
、Hadoop_MapReduce、Hadoop_Yarn实践(三)一、Hadoop_
HDFS
二、Hadoop_MapReduce三、Hadoop_Yarn1、Yarn资源调度
常名先生
·
2023-12-18 09:23
hadoop
大数据
hdfs
Hadoop_MapReduce实践 (二) => (核心架构、序列化、Inputformat/切片、Shuffile/分区/排序、outputformat、join、ETL、压缩)
目录Hadoop_
HDFS
、Hadoop_MapReduce、Hadoop_Yarn实践(二)一、Hadoop_
HDFS
二、Hadoop_MapReduce1、MapReduce概述1.1、MapReduce
常名先生
·
2023-12-18 09:52
hadoop
mapreduce
架构
MapReduce工作原理(重点)
3将运行作业所需要的资源文件复制到
HDFS
上,包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些
Yobhel
·
2023-12-18 07:24
Ubuntu-报错
NAT模式相互切换后导致两种模式都不能访问互联网(1)具体错误:(2)错误原因:(3)解决方案:(4)问题解决:错误2:Exceptioninthread"main"org.apache.hadoop.
hdfs
.server.namenode.SafeModeException
春风LiuK
·
2023-12-18 06:23
Linux
ubuntu
linux
【
HDFS
面试】
HDFS
面试题&答案
题目
HDFS
文件写入和读取流程
HDFS
组成架构介绍下
HDFS
,说下
HDFS
优缺点,以及使用场景
HDFS
作用
HDFS
的容错机制
HDFS
的存储机制
HDFS
的副本机制
HDFS
的常见数据格式,列式存储格式和行存储格式异同点
话数Science
·
2023-12-18 06:22
大数据
Hadoop
面试
hdfs
hadoop
大数据
【Hadoop面试】
HDFS
读写流程
HDFS
(HadoopDistributedFileSystem)是GFS的开源实现。
话数Science
·
2023-12-18 06:16
大数据
面试
Hadoop
hadoop
hdfs
大数据
GFS
分布式文件系统
GFS
分布式文件系统
:全称:gfdglusterFS开源的分布式的文件系统存储服务器客户端以及网络(NFS/samba)网关传统式老的分布式系统元服务器,元服务器保存存储节点的目录树信息。
DDYYmmm
·
2023-12-18 05:26
运维
Datax学习整理
一、简介DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、
HDFS
、Hive、ADS、HBase、TableStore(
耗子背刀PK猫
·
2023-12-18 02:53
学习
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他