E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop生态圈
Hadoop基础【HDFS、Yarn、MapReduce框架概述、框架的搭建】
1、Hadoop是什么是一个由Apache基金会所开发的分布式系统基础架构;主要解决海量数据的存储和海量数据的分析计算问题;hadoop通常是指一个更加宽泛的概念,
Hadoop生态圈
。
OneTenTwo76
·
2023-03-09 07:10
大数据开发
hadoop
big
data
hdfs
Hadoop三大框架
广义上来说,Hadoop通胀指一个更宽泛的概念——
Hadoop生态圈
1、Hadoop优势高可靠性:Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
five小点心
·
2023-03-09 07:02
Hadoop
hadoop
clickhouse与hbase性能对比
1ClickHouse与Hbase的基础
hadoop生态圈
技术繁多,HDFS主要用于保存底层数据。Hbase是一款NoSQL也是
Hadoop生态圈
的核心组件,其具有海量的存储能力,优秀的随机读写能力。
程序猿张同学
·
2023-02-23 14:42
大数据学习
学习
hbase
clickhouse
数据库
ZooKeeper从入门到精通13:使用ZooKeeper实现Hadoop的HA
Hadoop的HA搭建过程是所有
Hadoop生态圈
组件中最复杂的,本节就来详细说明如何使用ZooKeeper来搭建Hadoop的HA环境。
金字塔下的小蜗牛
·
2023-02-18 18:51
大数据Hadoop面试题(一)
1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、
Hadoop生态圈
的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper
蓦然1607
·
2023-02-05 18:07
HADOOP介绍
根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有HDFS(分布式文件系统)YARN(运算资源调度系统)MAPREDUCE(分布式运算编程框架)广义上来说,HADOOP通常是指一个更广泛的概念——
HADOOP
BoltBear
·
2023-02-02 14:00
大数据
hadoop
mapreduce
big
data
hadoop介绍
目录大数据与HadoopHadoop模块:HadoopCommon:Hadoop分布式文件系统(HDFS):HadoopYARN:HadoopMapReduce:
Hadoop生态圈
组件:Spark(分布式计算框架
昊昊该干饭了
·
2023-02-02 14:58
大数据
hadoop
hive
database
大数据
数据仓库
Hadoop--基本概念
一、Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础框架2、主要解决,海量数据的存储和海量数据的分析计算问题3、广义上来说,Hadoop通常是指一个更广泛的概念–
hadoop
LiSY.
·
2023-02-02 14:24
大数据
hadoop
大数据之hadoop3入门到精通
3)广义上来说,Hadoop通常是指一个更广泛的概念——
Hadoop生态圈
。
放学-别走
·
2023-01-30 14:43
hadoop
大数据
hdfs
yarn
mapreduce
02 Hadoop概述
广义的Hadoop是一个更广泛的概念——
Hadoop生态圈
。重点框架:Kafka、Spark、Flink、Hi
长不大的大灰狼
·
2023-01-12 11:59
大数据
hadoop
大数据
hive
spark day01
目录1.spark基本信息1.生产背景2.什么是spark1.官网2.计算引擎3.功能4.特点5.运行作业的地方3.
hadoop生态圈
vsspark生态圈1.Batch2.SQL3.stream4.MLLib5
不想写bug第n天
·
2023-01-10 14:35
spark
spark
大数据
hive
大数据面试通关手册 | Hadoop面试题(一)
1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、
Hadoop生态圈
的组件并做简要描述1)Zookeeper:是一个开源的分布式应
王知无(import_bigdata)
·
2023-01-07 15:07
大数据面试通关手册
大数据
面试
从0到1搭建大数据平台之数据计算
我们都知道大数据计算平台都是围绕着
Hadoop生态圈
发展的,以HDFS分布式文件
大数据指北
·
2022-12-21 04:35
#
---
大数据
大数据
hadoop
数据库
hadoop生态圈
之hive面试(一)
hadoop生态圈
之hive面试(一)说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?问过的一些公司:头条,字节x2,阿里参考答案:1、为什么要使用Hive?
大数据小理
·
2022-12-21 04:04
数据仓库
hadoop
大数据面试
hadoop
hive
面试
Hadoop生态圈
-高可用集群
Hadoop生态圈
-高可用集群
Hadoop生态圈
即全部组件高可用集群自动故障转移工作机制1)故障检测:故障检测:集群中的每个NameNode在ZooKeeper中维护了一个持久会话,如果机器崩溃,ZooKeeper
无忧→捕获一只程序员
·
2022-12-20 16:20
hadoop
大数据可视化
案列分享
hadoop
分布式
大数据
Hadoop生态圈
介绍及入门(转)
本帖最后由howtodown于2015-4-223:15编辑问题导读1.
Hadoop生态圈
介绍了哪些组件,分别都是什么?2.大数据与Hadoop是什么关系?
weixin_30381793
·
2022-12-04 15:36
Hive、Impala、Hue集成LDAP
在
hadoop生态圈
中,LDAP主要是用来做账号管理的。
心有猛虎_xy
·
2022-11-29 16:30
hadoop
ldap
大数据基础之Hive(四)—— 常用函数和压缩存储
那么不如就来了解了解
Hadoop生态圈
的另一名成员——Hive
Duktig丶
·
2022-11-26 09:01
大数据
hive
big
data
hadoop
【PDF大放送】Spark&Hadoop Summit精选分享PDF合集
大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具,锅碗瓢盆,各有各的用处,互相之间又有重合。
weixin_33961829
·
2022-11-20 04:05
大数据
嵌入式
python
大数据学习的第一课-大数据概论和技术原理
目录大数据概论大数据概念为什么会有大数据大数据的4v特征大数据的来源云计算与大数据大数据发展历史大数据技术原理大数据的存储技术大数据的计算技术数据分析技术
Hadoop生态圈
大数据概论大数据概念大数据(BigData
莫浅子
·
2022-11-11 10:13
hadoop
大数据
Hadoop 概念 环境搭建 启动 测试
广义:
Hadoop生态圈
的代名词狭义:Apache软件基金会下用Java语言开发的一个开源分布式计算平台2.Hadoop发展历史来源:2005年,Hadoop作为Lucene子项目Nutch的一部分正式被引入
A52091
·
2022-11-08 10:44
Hadoop
hadoop
Hadoop简介
Hadoop简介Hadoop是什么hadoop是有Apache基金会所开发的分布式系统基础架构hadoop主要解决,海量数据的存储和海量数据的分析计算问题广义来说,Hadoop通常是指
Hadoop生态圈
anethesi
·
2022-11-02 11:35
hadoop
hadoop
大数据
hdfs
Hadoop大数据实战笔记
2、
Hadoop生态圈
:什么组件组成了Hadoop的生态圈?Hadoop的生态圈组成为:数据存储、数据集成、数据处理和其他进行数据分析的专门工具。HDFS:HDFS是一种数据保存机制,数据被保存在集群
Popuessing's Jersey
·
2022-11-02 11:26
hadoop
大数据
hdfs
Hadoop专业解决方案-第一章 大数据和
Hadoop生态圈
一、前言:非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和
Hadoop生态圈
小组已经翻译完成,在此对:译者
数据饕餮
·
2022-10-03 17:11
云计算
Hadoop生态圈
大数据基础之Hive(一)—— Hive概述
那么不如就来了解了解
Hadoop生态圈
的另一名成员——Hive
Duktig丶
·
2022-09-28 09:27
大数据
hive
big
data
hadoop
大数据技术之Hadoop入门(二)
3)广义上来说,HADOOP通常是指一个更广泛的概念——
HADOOP生态圈
1.2Hadoop发展历史1)Lucene–DougCutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能
沙漠v仙人掌
·
2022-09-09 07:48
大数据技术
猿创征文|Hadoop大数据技术
Hadoop大数据技术Hadoop背景
Hadoop生态圈
Hadoop模式HDFS概述优点缺点基本组成NameNodeSecondaryNameNodeDataNodeYARNYARN调度器(Scheduler
啊Q老师
·
2022-09-08 20:45
Hadoop
HDFS
YARN
MapReduce
Hive
Hadoop生态圈
技术栈---Zookeeper和HBase
1.Zookeeper简介1.1Zookeeper是什么?Zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。分布式系统中数据存在一致性的问题!!ZooKeeper本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。ZooKeeper提供给客户端监
猿大山
·
2022-09-07 09:57
Hadoop
zookeeper
hadoop生态圈
面试精华之zookeeper(一)
hadoop生态圈
面试精华之zookeeper(一)Zookeeper面试题介绍下Zookeeper是什么?
大数据小理
·
2022-08-31 21:10
大数据面试
hadoop
面试
hadoop
zookeeper
大数据
spark 数据框 删除列_【学习笔记】大数据运维实战
Hadoop生态圈
里的各种软件,比如HDFS、Hive、Pig、Spark、Storm等,这些软件各有各的用途
weixin_39914863
·
2022-08-21 15:07
spark
数据框
删除列
Hadoop基础入门
Hadoop生态圈
技术栈:|Hadoop技术栈||||Hadoo
女友在高考
·
2022-07-30 08:00
HBase、Kudu 和 ClickHouse 全视角对比
前言
Hadoop生态圈
的技术繁多。HDFS一直用来保存底层数据,地位牢固。
zhisheng_blog
·
2022-07-25 12:58
运维
分布式
大数据
hadoop
数据库
Hadoop笔记01-Hadoop-入门
Hadoop概述Hadoop是什么Hadoop是一个由Apache基金会开发的分布式系统基础架构Hadoop主要解决:海量数据的存储、海量数据的分析计算广义来说,Hadoop是指
Hadoop生态圈
,还包括
王劭阳
·
2022-07-21 07:56
Hadoop
hadoop
Hadoop生态圈
(一)- Hadoop详解
目录前言1.Hadoop概述1.1Hadoop是什么1.2Hadoop发展简史1.2Hadoop三大发行版本1.3Hadoop优势1.4Hadoop的组成1.4.1Hadoop1.x、2.x、3.x区别1.4.2HDFS架构概述1.4.3YARN架构概述1.4.4MapReduce架构概述1.4.5HDFS、YARN、MapReduce三者关系1.5Hadoop运行模式2.Hadoop的搭建2.1
一位木带感情的码农
·
2022-07-18 13:44
Hadoop生态圈
hadoop
mapreduce
big
data
hdfs
yarn
Hadoop生态圈
-flume日志收集工具完全分布式部署
Hadoop生态圈
-flume日志收集工具完全分布式部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。
weixin_34221276
·
2022-07-18 13:13
Hadoop生态圈
---flume
一、Flume基本介绍1.1什么是flume说白了flume就是一个采集数据的软件,是cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件;flume的核心就是把数据从数据源(source)收集过来,为了保证传输的成功性,会先缓存数据(channel),待数据到达目的地(sink)的时候,再删除自己缓存的数据;flume支持定制各类数据发送方,用于手机各类型的数据,
奈何@
·
2022-07-18 13:11
Hadoop
大数据—
Hadoop生态圈
前言整理了一下目前常用的hadoop组件,后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。生态圈数据存储:HDFSHDFS,它是Hadoop技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在HDFS上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上。如上图:
活到老&学到老
·
2022-07-18 13:38
大数据
hadoop
big
data
mapreduce
Hadoop生态圈
之Flume(一)
1.概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。2.运行机制flume本身是一个
chipeize
·
2022-07-18 13:07
Flume
大数据
Hadoop生态圈
介绍
hadoop生态:1、hadoop的核心组件:(hdfs)分布式存储、(mapReduce)分布式计算、(Yarn)资源调度与任务管理、Common2、Lucene:索引检索工具包3、Nutch:开源的搜索引擎4、HBase/Cassandra:基于google的BigTable开源的列式存储的非关系型数据库5、Hive:基于SQL的分布式计算引擎,同时是一个数据仓库6、Thrift/Avro:R
月疯
·
2022-07-18 13:07
【hadoop】
hadoop
hdfs
big
data
大数据架构之
Hadoop生态圈
第一章:集群规划测试开发集群(逻辑划分):1台管理节点理解点+1台工具节点/1台边缘节点——N太工作节点可在ClouderaManager界面查看,端口号:71801台机器上部署管理节点,通常包括以下叫角色:NN:NameNode(HDFS);SHS:SparkHistoryServer(Spark);RM:ReduceManager(YARN);JHS:jobHistoryServerZK:Zo
TT15751097576
·
2022-07-18 13:06
大数据架构之Hadoop生态圈
大数据学习之
Hadoop生态圈
(一)
文章目录前言1、什么是hadoop2、Hadoop起源3、Hadoop的四大特点4、Hadoop的三大发行版本5、Hadoop的版本迭代6、Hadoop的优点及缺点7、Hadoop组成前言上篇文章讲述了大数据的发展及历程,这篇文章就带大家进入大数据的技术应用,以下文章观点或描述如有错误,请指正!!1、什么是hadoop广义:hadoop代表是大数据的一个技术生态圈,这个生态圈中包含其他很多的技术框
Lnn_CSDN
·
2022-07-18 13:06
大数据
hadoop
big
data
Spark 对战 OushuDB !究竟是谁快出几十倍?
Hadoop生态系统经过多年的发展,已经在世界范围内广泛的采用,许多企业已经搭建了基于
Hadoop生态圈
的大数据平台,
·
2022-07-12 10:05
olap
Hadoop生态圈
hive应用
第1章Hive基本概念1.1什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。1.2Hive的优缺点1.2.1优点1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。2)避免了去写MapReduce,减少开发人员的学习成本。3)Hive的执行延迟比
无忧→捕获一只程序员
·
2022-07-11 09:22
hadoop
案列分享
其他经验
大数据
hadoop
hive
【大数据系列零二】大数据时代下的数据同步利器Sqoop
1、Apache项目,开源的数据传输工具2、
Hadoop生态圈
中的一个第三方模块,可以快速实现在Hadoop(HDFS/hive/hbase)和关系型数据库中进行数据传输3、支持分布式并行,支持多种数据库
Anlior
·
2022-07-07 15:19
大数据
sqoop
大数据----Hadoop----Spark入门介绍
文章目录Spark1.SparkCore2.SparkSQL3.SparkStreaming4.MLlibMachineLearningLibrary5.GraphX
Hadoop生态圈
包含多种组件,貌似各不相同
noworldling
·
2022-07-02 07:33
大数据
hadoop
Spark
hadoop
大数据
spark
Hadoop生态圈
(十九)- HDFS核心源码详解
目录前言1.HDFS源码结构分析1.1IDEA导入HDFS源码工程1.2HDFS工程结构1.2.1hadoop-hdfs1.2.2hadoop-hdfs-client1.2.3hadoop-hdfs-httpfs1.2.4hadoop-hdfs-native-client1.2.5hadoop-hdfs-nfs1.2.6hadoop-hdfs-rbf2.HDFS核心源码解析2.1HDFS客户端核心
一位木带感情的码农
·
2022-06-20 13:12
Hadoop生态圈
hadoop
hdfs
idea
Hadoop生态圈
之HDFS学习笔记
Hadoop生态圈
之HDFS1.HDFS定义HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位。
Jaden_JH
·
2022-06-20 13:12
学习
hadoop
Hadoop生态圈
(二):HDFS
目录1HDFS的概述1.1HDFS的概念1.2HDFS优缺点1.2.1优点1.2.2缺点1.3HDFS的架构1.4block文件块的大小2HDFS的shell客户端操作3HDFS的java客户端操作3.1HDFS客户端操作4HDFS的数据流4.1HDFS写数据流程4.2HDFS读数据流程5NameNode和SecondNameNode的工作机制5.1NN和2NN的工作流程5.2checkpoint
jiezou12138
·
2022-06-20 12:35
Hadoop
ACA(大数据助理工程师备考)笔记
处理速度快3.价值密度低4.种类多来源结构化半结构化非结构化云计算大数据关系云计算提供计算与存储大数据在其基础上进行应用比如大数据发展历史大数据处理问题思路分而治之存储技术分布式文件系统大数据分析技术
Hadoop
撸码的xiao摩羯
·
2022-05-28 07:21
编程语言
big
data
大数据
Spark SQL 操作 Parquet 类型文件
Parquet介绍ApacheParquet是
Hadoop生态圈
中一种新型列式存储格式,它可以兼容
Hadoop生态圈
中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala
路飞DD
·
2022-05-17 16:52
SparkSQL
Scala
大数据
Hadoop
Spark
Spark
Parquet
SparkSQL
操作
Parquet
Spark
Spark
读取
Parquet
SQL
方式读取
Parquet
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他