E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【Hadoop生态圈】
Hive架构
Hive架构在
Hadoop生态圈
中已经是老生常谈。尽管如此,很多资料并没有将Hive模块之间的关系描述的十分清楚,本人也在管理Hive数据仓库时绕了不少弯路。
RangeYan2012
·
2020-06-30 06:50
原创
大数据系统组件原理笔记
Hive
Hive
架构
原理
开发
性能调优
Oozie简介
[1]在
Hadoop生态圈
中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。
维尼弹着肖邦的夜曲
·
2020-06-30 01:15
hadoop
盘点
Hadoop生态圈
:13个让大象飞起来的开源工具
资源统一管理/调度系统在公司和机构中,服务器往往会因为业务逻辑被拆分为多个集群,基于数据密集型的处理框架也是不断涌现,比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4,它们诞生于不同的实验室,并各有所长。为了减少管理成本,提升资源的利用率,一个共同的想法产生——让这些框架运行在同一个集群上;因此,就有了当下众多的资源统一管理/调
Albert陈凯
·
2020-06-29 14:38
大数据开发学习:进行大数据开发课程有哪些
1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、
Hadoop生态圈
以及各组成部分
y南风知我意
·
2020-06-29 14:10
大数据
工作过程中用到的大数据工具,以及业务流程详解
一、大数据相关基本内容及基本框架介绍:所有的大数据相关所用到的技术都是基于
Hadoop生态圈
的1、HadoopHadoop是一个开
稻一肖
·
2020-06-29 05:22
大数据
Hadoop生态圈
常用面试题
面试总结1.生产环境中有多少个reduce该问题可以总结为:1.一个task的map数量由谁来决定?inputsplit的大小间接决定了一个job拥有多少个map默认input大小是64M可以通过修改mapred.min.split.size参数决定inputsplit的大小从而影响map数量a.map的数量通常是由输入文件的总块数决定的,正常的map数量的并行规模大致是每一个Node是10~10
械风
·
2020-06-29 01:56
大数据面试题——Zookeeper篇
他属于
Hadoop生态圈
中重要的组件框架之一。
提灯寻梦在南国
·
2020-06-28 20:58
大数据
zookeeper
Hadoop生态圈
-大数据生态体系快速入门篇
Hadoop生态圈
-大数据生态体系快速入门篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。
weixin_34417635
·
2020-06-28 19:42
Hadoop生态圈
-Azkaban实战之Command类型多job工作流flow
Hadoop生态圈
-Azkaban实战之Command类型多job工作流flow作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。Azkaban内置的任务类型支持command、java。
weixin_34294649
·
2020-06-28 16:04
hadoop生态圈
列式存储系统--kudu介绍及安装配置
介绍Kudu是一个针对ApacheHadoop平台而开发的列式存储管理器。Kudu共享Hadoop生态系统应用的常见技术特性:它在commodityhardware(商品硬件)上运行,horizontallyscalable(水平可扩展),并支持highlyavailable(高可用)性操作。此外,Kudu还有更多优化的特点:OLAP工作的快速处理。与MapReduce,Spark和其他Hadoo
weixin_33842328
·
2020-06-28 06:11
大数据:Hive - ORC 文件存储格式
一、ORCFile文件结构ORC的全称是(OptimizedRowColumnar),ORC文件格式是一种
Hadoop生态圈
中的列式存储格式,它的产生早在2013年初,最初产生自ApacheHive,用于降低
weixin_33810302
·
2020-06-28 05:59
oozie的安装和部署及实例
在
Hadoop生态圈
中,有一种相对比较新的组件叫做Oozie,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。
weixin_33743248
·
2020-06-28 04:14
Hadoop与海量数据计算
企业对于数据价值高度重视和新的要求,加速了
Hadoop生态圈
进一步地衍生和发展。本文主要介绍
Hadoop生态圈
、海量数据计算应用以及目前面临的问
Jogging
·
2020-06-27 14:54
Kudu vs HBase
Hadoop生态圈
中的技术繁多,HDFS作为底层数据存储的地位一直很牢固。
wangyiyungw
·
2020-06-27 13:12
大数据日志收集工具Flume快速入门介绍、Flume是什么、能干什么、Flume核心概念
Flume介绍Flume是cloudera公司开发的分布式、高可用的日志收集系统,是
Hadoop生态圈
内的关键组件之一,目前已开源给apache。
Java开发与架构
·
2020-06-27 13:26
技术类书籍读书分享
大数据
【大数据 hadoop】
hadoop生态圈
hadoop生态圈
hadoop提供的功能,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理核心组件:A、HDFS分布式文件系统B、YARN运算资源调度系统C、MAPREDUCE分布式运算编程框架生态圈
开心果汁
·
2020-06-27 06:59
数据开发--hadoop
spark ORC原理
orc历史ORC的全称是(OptimizedRowColumnar),ORC文件格式是一种
Hadoop生态圈
中的列式存储格式,它的产生早在2013年初,最初产生自ApacheHive,用于降低Hadoop
sunkl_
·
2020-06-26 23:32
大数据
spark
orc
Spark-Hadoop、Hive、Spark 之间是什么关系?
原文链接本文来自知乎:XiaoyuMa,大数据工程师大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。
吉阿
·
2020-06-26 22:54
NoSQL(mongodb)
流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)
因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了
Hadoop生态圈
的各项技术的发展。
to.to
·
2020-06-26 20:05
#
storm(实时计算)
Greenplum性能调试记录
前言:以目前的使用体验的话,Greenplum(以下简称GP)的实时性确实比较高,从存储层到计算层,数据吞吐效率比类
Hadoop生态圈
的sql工具要好得多。
tomson8975
·
2020-06-26 20:45
Greenplum
大数据相关知识点总结汇总
HDFS1.Hadoop的历史作者dogcuttingDougCutting是Lucene、Nutch、Hadoop等项目的发起人1.1.Hadoop的三驾马车GFSMapReduceBigTable1.2.
hadoop
thyyyyyyy
·
2020-06-26 19:26
大数据学习
大数据技术生态介绍 一文读懂
大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。
小晓酱手记
·
2020-06-26 10:46
数据库
Database
Spark
Hadoop
浅显易懂入门大数据系列:三、Zookeeper(超详细)
文章目录一、Zookeeper在
Hadoop生态圈
的位置分布式环境下常见的问题二、Zookeeper的概念及特点Zookeeper的概念Zookeeper的特点Zookeeper的相关名词解释三、Zookeeper
邵奈一
·
2020-06-26 08:15
大数据
大白话入门大数据(超简单)
Hadoop生态圈
(七)──Hive的认识的安装
文章目录为什么要使用Hive(优点)Hive系统结构数据想象Hive的Driver的原理Hive的搭建今日总结==友情链接==前言Hive是建立在Hadoop基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。同时,
你的男孩.
·
2020-06-26 01:41
Hadoop
Hive
Hadoop完美实战系列视频(七天全)
课程介绍:这个大数据系列的课程,可以让大家从一完全零基础的朋友,从Java和Linux基础入门,一直到Hadoop核心课程,以及
Hadoop生态圈
的其他知识点都能够有一个完美认识,非常推荐!!
qq_42872377
·
2020-06-26 00:07
浅谈大数据中Hadoop、Hive和Spark的详解
首先大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。
CtrlC V型程序员
·
2020-06-25 19:54
大数据:Hadoop、Hive、Spark的关系
文章转载自:https://www.cnblogs.com/jins-note/p/9513426.html大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的
JacksonKim
·
2020-06-25 18:56
大数据
基于Ambari安装HDP2.6.X
说明,本次采用三台服务器去安装
Hadoop生态圈
全家桶第一部分:安装第二部分:出现问题解决方案第一部分首先需要三台ssh互通其次也需要自己对自己互通,避免出现安装过程中自己不能和自己连接,如果自己没有对自己
null_水金admin
·
2020-06-25 12:45
大数据的点点滴滴
错误总结
工具使用
大数据学习笔记二:解析大数据使用的技术
主要应用的技术如下图展示:此图也是展示的
Hadoop生态圈
,即以Hadoop为核心扩展的技术,接下来将分开介绍:HadoopHadoop是一个能够对大量数据进
绿洲守望者
·
2020-06-25 11:56
大数据
CentOS7下Cloudera ManagerCDH-5.11安装配置详解
来替代Apache的hadoop,于是研究了一下怎么使用ClouderaManager来安装CDH(以前一直都是手动安装的,不得不说ClouderaManager实在是方便了很多),最方便的是不用考虑各种
hadoop
张老湿
·
2020-06-24 22:11
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
CDH5.8是目前比较新的版本,自带hadoop2.0以上的hadoop,而且已经包含了很多组件,也是我们接下来需要学习的
hadoop生态圈
中的组件。环境ClouderaManager是为
张小凡vip
·
2020-06-24 21:36
hadoop
开源的OLAP引擎
大数据的声音虽然没有前几年热闹,但
hadoop生态圈
的造轮子脚步一点也没停下来。最近几天有空,梳理一下各种OLAP的计算和存储框架。
百科全书学派
·
2020-06-24 08:20
Hadoop生态组件-HIVE学习
本文将
Hadoop生态圈
中的一个重要组件Hive。内容包括安装,运行测试,使用MySQL存储Hive的matedata,还包括其他使用Hive的知识,比如数据分区等。
蜗牛爱上星星
·
2020-06-24 04:06
bigData
大数据学习
hive
Hadoop生态圈
(六):Hive(二)
目录5DML操作5.1数据导入5.1.1向表中加载数据(load)5.1.2通过查询语句向表中插入数据(Insert)5.1.3查询语句中创建表并加载数据(AsSelect)5.1.4创建表时通过location指定加载数据路径5.1.5Import数据到指定Hive表中5.2数据导出5.2.1Insert导出5.2.2Hadoop与hiveShell导出到本地对比5.2.3Export导出到HD
jiezou12138
·
2020-06-23 22:58
Hadoop
HADOOP快速入门
目录课程大纲(HADOOP快速入门)2HADOOP快速入门3什么是HADOOP3HADOOP产生背景3HADOOP在大数据、云计算中的位置和关系3国内外HADOOP应用案例介绍4国内HADOOP的就业情况分析5
HADOOP
志明与春娇
·
2020-06-23 20:01
【知乎】能不能用形象的比喻描述一下大数据的技术生态?
大数据本身是个很宽泛的概念,
Hadoop生态圈
(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。
i_chips
·
2020-06-23 17:32
大数据
Hadoop生态圈
核心:HDFS:全称为Hapdoop分布式文件系统(HadoopDistributeFileSystem),提供了高吞吐量的访问和应用程序数据。HadoopMapReduce:基于YARN的大数据集的并行处理系统。HadoopCommon:支持其他Hadoop模块的通用功能,包括序列化、JavaRPC和持久化数据结构等。其他子项目:Ambari:是一个部署、管理和监控ApacheHadoop集群的
秋幻旎苏
·
2020-06-23 10:56
大数据平台hadoop运维之hadoop入门-高俊峰-专题视频课程
大数据平台hadoop运维之hadoop入门—5245人已学习课程介绍主要介绍
hadoop生态圈
的常用软件和基础知识,可使学员迅速了解hadoop运维的基础知识,并迅速掌握hadoop运维的基本技能,达到
exitgogo
·
2020-06-23 06:09
视频教程
ProxySQL!像C罗一样的强大!
近10年互联网线上处理及培训经验,专注于MySQL数据库,对MongoDB、Redis等NoSQL数据库以及
Hadoop生态圈
相关技术有深入研究,具备非常丰富的理论与实战经验。
Enmotech
·
2020-06-23 06:24
大数据平台框架、组件以及处理流程详解
本篇文章从三个维度:1.大数据的处理流程2.大数据的的平台框架Hadoop3.
Hadoop生态圈
组件理解了数据从产生到场景应用每个环节的流程过程以及企业在建立大数据平台时需要采用的技术框架Hadoop
李旭me
·
2020-06-23 03:30
浅谈一个新人的大数据之路-ORC篇
ORC的全称是(OptimizedRowColumnar),ORC文件格式是一种
Hadoop生态圈
中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。
Cold丶kl
·
2020-06-21 12:59
大数据之禅
Hadoop生态圈
-Hive快速入门篇之Hive环境搭建
Hadoop生态圈
-Hive快速入门篇之Hive环境搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。
weixin_33872660
·
2020-06-21 10:27
大数据———Flume使用
1.什么是FlumeFLUME是
HADOOP生态圈
中的一个组件。
ipoo
·
2020-06-21 05:51
大数据
Kafka快速入门系列(13) | Flume对接Kafka
Flume比较在企业中必须要清楚流式数据采集框架flume和kafka的定位是什么:1.flume:cloudera公司研发适合多个生产者;适合下游数据消费者不多的情况;适合数据安全性要求不高的操作;适合与
Hadoop
不温卜火
·
2020-06-21 04:12
Hadoop
#
Kafka
视频教程-30天大数据
Hadoop生态圈
体系完整教程-Hadoop
30天大数据
Hadoop生态圈
体系完整教程张长志技术全才、擅长领域:区块链、大数据、Java等。10余年软件研发及企业培训经验,曾为多家大型企业提供企业内训如中石化,中国联通,中国移动等知名企业。
weixin_34340387
·
2020-05-28 10:00
从大数据到数据挖掘之后分布式的学习之路
当时接触的是
Hadoop生态圈
,从cloudera的HDP4开始入手(当年cloudera和hortonworks还没有合并),入手的时候从hdfs(文件系统)和mapreduce(计算框架)开始学起,
viking714
·
2020-05-15 09:40
Hadoop
分布式
大数据干货:Apache NiFi介绍及使用体验
传统的办法是使用ETL来完成,而实际上我们期望这样的过程更加的平滑、可视,而且能跟
hadoop生态圈
,以及层出不穷的存储分析组件能对接起来。
Java程序员YY
·
2020-04-08 22:58
Hadoop生态圈
与Zookeeper应用实践
1.上传、解压zookeeper安装文件tar-zxvfzookeeper-3.4.10.tar.gz2.创建软连接ln-s/bigdata/zookeeper-3.4.10/usr/local/zookeeper3.修改zoo.cfgdataDir=/usr/local/zookeeper/datadataLogDir=/usr/local/zookeeper/logserver.1=node0
congchp
·
2020-04-05 23:46
HUE从入门到精通1:HUE简介及HUE-4.2.0的安装配置
通过使用HUE工具,可以使用浏览器控制台对
Hadoop生态圈
中的各个组件进行交互控制,
金字塔下的小蜗牛
·
2020-04-03 08:57
宏观了解之
hadoop生态圈
ApacheHadoop简称Hadoop,有两个核心组件:分布式文件系统(HadoopDistributedFileSystem,HDFS)的文件存储,以及被称为MapReduce的编程框架。HDFS:它是一个分布式文件系统,最大特点是分布式存储。存在的意义是提供了海量数据存储方案!,因为单个的硬件是无法满足数据的存储,而HDFS就是利用很多个磁盘来合并起来存储(分布式存储),而不会丝毫破坏、妨碍
终生学习丶
·
2020-04-01 21:28
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他