E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
通过NFS将
HDFS
映射到本地文件系统
hdfs
是分布式文件系统,要想访问
hdfs
上的文件,可以用javaapi或者hadoopshell等工具,如果想操作
hdfs
文件系统就像操作本地文件系统一样的便捷,可以将
hdfs
文件系统挂载到本地的一个目录上
鹅鹅鹅_
·
2023-11-23 03:06
Hadoop学习笔记
HDFS
、YARN、MapReduce概述及三者之间的关系一、Hadoop组成(面试重点)1.1Hadoop1.x、2.x、3.x区别在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度
怕被各位卷死
·
2023-11-23 03:16
大数据学习笔记
hadoop
学习
大数据
六、Big Data Tools安装
2、示例下面以DadaGrip为例:(1)打开插件中心(2)搜索BigDataTools,下载3、链接
hdfs
(1)选择
hdfs
在配置完成之后,重启应用,进入一个新的项目文件,可以看到右侧出现了新的选项
弦之森
·
2023-11-22 22:11
Hadoop
大数据
七、
HDFS
文件系统的存储原理
1、总结之所以把总结放在文件开头,是为了让读者对这篇文章有更好的理解,(其实是因为我比较懒……)对于整个
HDFS
文件系统的存储原理,我们可以总结为一句话,那就是:分块+备份2、存储结构和问题(1)存储方式对于一个比较大文件
弦之森
·
2023-11-22 22:11
Hadoop
hdfs
hadoop
大数据
Hadoop -
hdfs
的读写请求
1、
HDFS
写数据(宏观):1、首先,客户端发送一个写数据的请求,通过rpc与NN建立连接,NN会做一些简单的校验,文件是否存在,是否有空间存储数据等。
新手小农
·
2023-11-22 17:03
Hadoop
3.1.1
hadoop
hdfs
大数据
云计算与大数据第16章 分布式内存计算平台Spark习题
A.HadoopB.MapReduceC.YarnD.
HDFS
2、以下(D)不是Spark的主要组件。
高校知识店铺合集汇总
·
2023-11-22 16:24
spark
分布式
大数据
数仓问答篇(一)
有些大数据数据仓库产品也采用混合架构,以融合两者的优点,例如Impala、Presto等都是基于
HDFS
的MPP分析引擎,仅利用
HDFS
实现分区容错性,放弃MapReduce计算模型,在面向OLAP场景时可实现更好的性能
AII派森
·
2023-11-22 16:36
大数据
Hive VS Spark
最底层的存储往往都是使用
hdfs
。如果将spark比喻成发动机,hive比喻为加油站,
hdfs
类似于石油。参考1在超大数据规模处理的场景下,Spark和Hive都有各自的优势。Sp
AII派森
·
2023-11-22 16:55
hive
spark
hadoop
格式化名称节点,启动Hadoop
/bin/
hdfs
namenode-format3.启动所有节点.
北辰Charih
·
2023-11-22 14:04
大数据挖掘
hadoop
大数据
分布式
HDFS
常用命令
HDFS
命令格式:hadoopfs-cmdExample:hadoopfs-ls///列出
hdfs
文件系统根目录下的目录和文件hadoopfs-ls-R/列出
hdfs
文件系统所有的目录和文件PUThadoopfs-put
hdfs
file
索伦x
·
2023-11-22 14:21
Sylph平台自定义数据源
hdfs
数据源
地址:https://github.com/harbby/sylph/以下开发基于Sylph0.5.0版本开发目标:由于当前Sylph提供的数据流接入类型仅有kafka及一个test类型,希望可以支持从
hdfs
cherishpf
·
2023-11-22 14:24
数据仓库工具之Hive的架构原理
1.Hive的本质Hive是基于Hadoop的一个数据仓库工具,它的本质是将HQL语句转化成MapReduce程序.在它的底层,
HDFS
负责存储数据,YARN负责进行资源管理,MapReduce负责数据处理
GuangHui
·
2023-11-22 13:05
大数据处理技术Spark
大作业要求:伪分布式hadoop+pandas预处理数据+
hdfs
保存数据+spark从
hdfs
读取数据+sparksql处
我叫桃小夭
·
2023-11-22 13:54
大数据
hadoop
分布式
python
spark
python:excel导入hive
实现方案web交互:Flaskexcel解析:Pandas数据导入:Impyla或
Hdfs
使用Flask快速搭建web应用,实现接收文件、流程控制、
没有文化,啥也不会
·
2023-11-22 12:29
python
Linux应用参数配置和调优,Hadoop 性能调优 重要参数设置技巧
这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:
HDFS
:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks
花猹猹
·
2023-11-22 09:13
Linux应用参数配置和调优
hadoop性能调优
在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对
HDFS
这种读取操作频繁的系统来说,可以节约一笔可观的开销。
挑战不可能,努力
·
2023-11-22 09:12
大数据
hadoop性能调优之参数调优
这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:
HDFS
:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentma
我是机智的鱼油
·
2023-11-22 09:12
Hadoop之常用端口号
hadoop3.x
HDFS
NameNode内部通常端口:8020、9000、9820
HDFS
NameNode对用户的查询端口:9870Yarn查看任务运行情况的端口:8088历史服务器:19888
HDFS
NameNode
m0_67393828
·
2023-11-22 09:41
java
hadoop
大数据
hdfs
linux
爬虫
Hadoop常见端口号及配置文件
1Hadoop2.x版本端口号1.1访问
HDFS
端口号:500701.2NN内部通信端口:90001.3访问MR执行任务情况端口:80881.4Yarn内部通信端口:80321.5访问历史服务器端口:198881.6
曹称象
·
2023-11-22 09:10
离线
hadoop
大数据
数据库
Hadoop常用端口号及配置文件
端口号Hadoop3.x
HDFS
NameNode内部通常端口号:8020/9000/9820
HDFS
NameNode对用户的查询端口:9870Yarn查看任务的运行情况:8088历史服务器:90080Hadoop2
LydiaaLi
·
2023-11-22 09:09
Hadoop
hadoop
大数据
hadoop常用端口号与配置文件
常用端口号hadoop3.x
HDFS
NameNode内部通常端口:8020/9000/9820
HDFS
NameNode对用户的查询端口:9870Yarn查看任务运行情况:8088历史服务器:19888hadoop2
UserOrz
·
2023-11-22 09:39
大数据学习
hadoop
big
data
Hadoop 3.X 和 2.X 的常用端口号和配置文件
Hadoop常用端口号Hadoop3.X
HDFS
NameNode内部通信端口:8020/9000/9820
HDFS
NameNodeHTTPUI:9870
HDFS
DataNodeHTTPUI:9864Yarn
hmyqwe
·
2023-11-22 09:38
hadoop
Hadoop性能调优概要说明
Hadoop容易遇到的问题有:Namenode/jobtracker单点故障、
HDFS
小文件问题、数据处理性能等。为此“HadoopPerformanceOptimization”(HPO)是必要的。
fjssharpsword
·
2023-11-22 09:07
Big
data
Hadoop专栏
hadoop——常用端口号——常用的配置文件,3.x与2.x区别
常用端口号hadoop3.x
HDFS
NameNode内部通常端口:8020/9000/9820
HDFS
NameNode对用户的查询端口:9870Yarn查看任务运行情况:8088历史服务器:19888hadoop2
小魏___
·
2023-11-22 09:37
hadoop
hdfs
big
data
hadoop常用端口号/常用配置文件
常用端口号hadoop3.x
HDFS
NameNode内部通常端口:8020/9000/9820
HDFS
NameNode对用户的查询端口:9870yarn查看任务允许情况的:8088历史服务器:19888hadoop2
asd623444055
·
2023-11-22 09:06
hadoop
服务器
big
data
Hadoop学习-常用端口和配置文件
一、常用端口号hadoop3.x
HDFS
NameNode内部通常端口:8020/9000/9820
HDFS
NameNode对用户的查询端口:9870Yarn查看任务运行情况:8088历史服务器:19888hadoop2
HaveAGoodDay.
·
2023-11-22 09:34
Hadoop
学习
hadoop
hadoop 常用端口号,常用配置文件都有哪些?hadoop3.x端口号 hadoop(十二)
1.hadoop3.x系列常用端口号:类型desc端口
hdfs
NameNode内部通常端口号8020/9000/9820
hdfs
NameNode对用户的查询端口9870yarn查看历史任务运行情况8088
不努力就种地~
·
2023-11-22 09:34
大数据
hadoop
java
大数据
二百零七、Flume——Flume实时采集5分钟频率的Kafka数据直接写入ODS层表的
HDFS
文件路径下
一、目的在离线数仓中,需要用Flume去采集Kafka中的数据,然后写入
HDFS
中。由于每种数据类型的频率、数据大小、数据规模不同,因此每种数据的采集需要不同的Flume配置文件。
天地风雷水火山泽
·
2023-11-22 09:15
Flume
flume
kafka
hdfs
使用Docker部署HBase并使用Java-API连接
HBase利用Hadoop
HDFS
作为其文件
当一艘船沉入海底8
·
2023-11-22 04:56
HBase
docker
hbase
Mac环境部署单机版Hbase及使用JavaAPI对Hbase增删改查
HBase底层存储基于
HDFS
实现,集群的管理基于ZooKeeper实现。
Liu_Shihao
·
2023-11-22 04:25
大数据
hbase
hadoop
大数据
数据治理之考评环节
考评的流程(批处理)周期调度,每天一次:采集hive,
hdfs
元数据存放到mysql中的dga库的metainfo表手动通过管理页面补充辅助信息指标考评读取要考评的表的元数据及辅助信息读取要考评的指标对每张表的每个指标逐个进行考评保存考评结果代码生成后每个
十七✧ᐦ̤
·
2023-11-22 04:05
大数据
数据治理平台之数据采集细节
计算
HDFS
系统中分区文件的大小利用递归对树形结构遍历准备阶段递归起点访问工具收集数据的容器遍历阶段中间节点:根据需要处理计算,收集数据,继续递归叶子节点:收集数据写代码注意事项不要反复连接数据库,尤其不要把对数据库的操作写在循环中提前设置
十七✧ᐦ̤
·
2023-11-22 04:04
大数据
sql
hadoop、hive、DBeaver的环境搭建及使用
本文主要介绍hadoop、hive的结构及使用,具体的操作步骤见最后的附件;hadoop提供大数据的存储、资源调度、计算,分为三个模块:
HDFS
、YRAN、MapReduce
HDFS
提供数据的分布式存储
骑士999111
·
2023-11-22 03:14
hadoop
hive
大数据
hadoop查看文件夹大小java,hadoop fs:du统计
hdfs
文件(目录下文件)大小的用法
hadoopfs更多用法,请参考官网:http://hadoop.apache.org/docs/r1.0.4/cn/
hdfs
_shell.html以下是我的使用hadoopfs-du统计文件时使用的记录
上海Josh哥
·
2023-11-21 23:54
hdfs
Client_java对
hdfs
进行上传、下载、删除、移动、打印文件信息尚硅谷大海哥
Java可以通过Hadoop提供的
HDFS
JavaAPI来控制
HDFS
。通过
HDFS
JavaAPI,可以实现对
HDFS
的文件操作,包括文件的创建、读取、写入、删除等操作。
hys_guff
·
2023-11-21 21:28
java
hdfs
开发语言
[SparkSQL] 列转行lateral view explode函数和FlatMap算子两种方式实现炸裂
[SparkSQL]列转行lateralviewexplode函数和FlatMap算子两种方式实现炸裂我用了两种方法实现列转行,说一下我平时使用SparkSQL的习惯,我通常1)是先读取
HDFS
中的文件
林沐之森
·
2023-11-21 17:18
Spark
sparksql
spark
类转行
炸裂
flatmap
Mac上搭建Hadoop环境(3) — Hive下载及安装
前言之前已经完成了hadoop集群的安装,测试了
HDFS
的使用,现在准备在此基础上,继续安装Hive。
LestatZ
·
2023-11-21 13:54
Spark---介绍及安装
所开源的类HadoopMapReduce的通用并行计算框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写
HDFS
30岁老阿姨
·
2023-11-21 13:26
Spark
spark
大数据
分布式
Hadoop--
hdfs
1、
HDFS
中的三个进程:NameNode(NN)、DataNode(DN)、SecondNameNode(SNN)2、NameNode(NN)1、作用:1、接收客户端的一个读、写的服务,在namenode
新手小农
·
2023-11-21 11:11
Hadoop
3.1.1
hadoop
hdfs
大数据
hadoop 编写开启关闭集群脚本, hadoop
hdfs
,yarn开启关闭脚本。傻瓜式hadoop脚本 hadoop(九)
1.三台机器:hadoop22,hadoop23,hadoop242.
hdfs
在22机器启动,yarn在hadoop23机器3.脚本需要hadoop用户启动才可以4.脚本必须在hadoop22机器运行。
不努力就种地~
·
2023-11-21 11:30
大数据
hadoop
hdfs
大数据
Spark 从Hive表中读数据或向Hive中写入数据
ConfigurationofHiveisdonebyplacingyourhive-site.xml,core-site.xml(forsecurityconfiguration),and
hdfs
-site.xml
pageniao
·
2023-11-21 10:27
Spark
Hive本地模式安装(详细)
Hive是建立在Hadoop文件系统上的数据仓库,它提供了一系列工具,能够对存储在
HDFS
中的数据进行数据提取、转换和加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。
i阿极(暂时无法回复版)
·
2023-11-20 20:48
大数据
hive
数据库
hadoop
综合架构-nfs备份服务(网络文件系统)
NFS系统和Windows网络共享、网络驱动器类似,只不过windows用于局域网,NFS用于企业集群架构中,如果是大型网站,会用到更复杂的分布式文件系统FastDFS,glusterfs,
HDFS
1.1
A宽宽
·
2023-11-20 20:13
分布式架构关键技术
作为这个领域最富盛名的开源项目,Hadoop实现的是分布式的文件系统
HDFS
,和分布式的计算(Map/Reduce)框架。分布式架构关键技术主要有分布式文件系统、分布式存储和分布式数据库。分
talentluke
·
2023-11-20 20:53
架构设计
数据库
运维
java
Flume基本原理及使用
Flume最主要是用在分布式系统中,例如读取服务器本地的磁盘数据,并将数据写入到
HDFS
中。对Flume的学习,最好就是结合官方文档进行学习。
zkyCoder
·
2023-11-20 18:45
Flume
flume
数据仓库
大数据技术之Flume(概述,安装,案例等)
输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小
hdfs
的压力。flume中的事务基于channel,使用了两个事务模型(sender+receiver),确保消息被可靠发送
往事随风_h
·
2023-11-20 18:37
Flume
Flume安装
关于Flume
Flume案例
21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件
Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、
HDFS
操作-shell客户端3、
HDFS
的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-20 13:18
#
hadoop专栏
mapreduce
hadoop
hdfs
大数据
big
data
三十分钟学会Hive
Hive的概念与运用Hive是一个构建在Hadoop之上的数据分析工具(Hive没有存储数据的能力,只有使用数据的能力),底层由
HDFS
来提供数据存储,可以将结构化的数据文件映射为一张数据库表,并且提供类似
地球魔
·
2023-11-20 12:11
hive
hadoop
数据仓库
让你彻底学会HBase
利用Hadoop
HDFS
作为其文件存储系统,利用ZooKeeper作为其分布式协同服务。主要用来存储非结构化和半结构化的松散数据(列式存储NoSQL数据库)。
地球魔
·
2023-11-20 12:11
hbase
数据库
大数据
HDFS
完全分布式集群搭建与配置及常见问题总结
思路:1.准备3台虚拟机(静态IP,IP映射,主机名称,防火墙关闭,普通用户创建等等)2.安装JDK,配置环境变量3.安装Hadoop,配置环境变量4.配置免密登录5.编写同步脚本,配置集群(前三步已完成)搭建集群步骤1.首先要关闭防火墙systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalld2.还要关闭SELi
HUNG4050
·
2023-11-20 12:03
分布式
hdfs
java
hadoop
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他