【Hadoop生态圈】第8页

Hive架构

Hive架构在Hadoop生态圈中已经是老生常谈。尽管如此，很多资料并没有将Hive模块之间的关系描述的十分清楚，本人也在管理Hive数据仓库时绕了不少弯路。

RangeYan2012·2020-06-30 06:50

Oozie简介

[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。

维尼弹着肖邦的夜曲·2020-06-30 01:15

盘点Hadoop生态圈：13个让大象飞起来的开源工具

资源统一管理/调度系统在公司和机构中，服务器往往会因为业务逻辑被拆分为多个集群，基于数据密集型的处理框架也是不断涌现，比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4，它们诞生于不同的实验室，并各有所长。为了减少管理成本，提升资源的利用率，一个共同的想法产生——让这些框架运行在同一个集群上；因此，就有了当下众多的资源统一管理/调

Albert陈凯·2020-06-29 14:38

大数据开发学习：进行大数据开发课程有哪些

1、Hadoop产生背景2、Hadoop在大数据、云计算中的位置和关系3、国内外Hadoop应用案例介绍4、国内Hadoop的就业情况分析及课程大纲介绍5、分布式系统概述6、Hadoop生态圈以及各组成部分

y南风知我意·2020-06-29 14:10

工作过程中用到的大数据工具，以及业务流程详解

稻一肖·2020-06-29 05:22

大数据Hadoop生态圈常用面试题

面试总结1.生产环境中有多少个reduce该问题可以总结为：1.一个task的map数量由谁来决定？inputsplit的大小间接决定了一个job拥有多少个map默认input大小是64M可以通过修改mapred.min.split.size参数决定inputsplit的大小从而影响map数量a.map的数量通常是由输入文件的总块数决定的，正常的map数量的并行规模大致是每一个Node是10~10

械风·2020-06-29 01:56

大数据面试题——Zookeeper篇

他属于Hadoop生态圈中重要的组件框架之一。

提灯寻梦在南国·2020-06-28 20:58

Hadoop生态圈-大数据生态体系快速入门篇

weixin_34417635·2020-06-28 19:42

Hadoop生态圈-Azkaban实战之Command类型多job工作流flow

weixin_34294649·2020-06-28 16:04

hadoop生态圈列式存储系统--kudu介绍及安装配置

介绍Kudu是一个针对ApacheHadoop平台而开发的列式存储管理器。Kudu共享Hadoop生态系统应用的常见技术特性:它在commodityhardware（商品硬件）上运行，horizontallyscalable（水平可扩展），并支持highlyavailable（高可用）性操作。此外，Kudu还有更多优化的特点：OLAP工作的快速处理。与MapReduce，Spark和其他Hadoo

weixin_33842328·2020-06-28 06:11

大数据：Hive - ORC 文件存储格式

一、ORCFile文件结构ORC的全称是(OptimizedRowColumnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自ApacheHive，用于降低

weixin_33810302·2020-06-28 05:59

oozie的安装和部署及实例

在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie，它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。

weixin_33743248·2020-06-28 04:14

Hadoop与海量数据计算

企业对于数据价值高度重视和新的要求，加速了Hadoop生态圈进一步地衍生和发展。本文主要介绍Hadoop生态圈、海量数据计算应用以及目前面临的问

Jogging·2020-06-27 14:54

Kudu vs HBase

Hadoop生态圈中的技术繁多，HDFS作为底层数据存储的地位一直很牢固。

wangyiyungw·2020-06-27 13:12

大数据日志收集工具Flume快速入门介绍、Flume是什么、能干什么、Flume核心概念

Flume介绍Flume是cloudera公司开发的分布式、高可用的日志收集系统，是Hadoop生态圈内的关键组件之一，目前已开源给apache。

Java开发与架构·2020-06-27 13:26

【大数据 hadoop】hadoop生态圈

hadoop生态圈hadoop提供的功能，利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理核心组件：A、HDFS分布式文件系统B、YARN运算资源调度系统C、MAPREDUCE分布式运算编程框架生态圈

开心果汁·2020-06-27 06:59

spark ORC原理

orc历史ORC的全称是(OptimizedRowColumnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自ApacheHive，用于降低Hadoop

sunkl_·2020-06-26 23:32

Spark-Hadoop、Hive、Spark 之间是什么关系？

原文链接本文来自知乎：XiaoyuMa，大数据工程师大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。

吉阿·2020-06-26 22:54

流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型（来自学习资料）

因为其高吞吐、高可靠等特点，很多互联网公司都已经使用Hadoop来构建数据仓库，高频使用并促进了Hadoop生态圈的各项技术的发展。

to.to·2020-06-26 20:05

Greenplum性能调试记录

前言：以目前的使用体验的话，Greenplum（以下简称GP）的实时性确实比较高，从存储层到计算层，数据吞吐效率比类Hadoop生态圈的sql工具要好得多。

tomson8975·2020-06-26 20:45

thyyyyyyy·2020-06-26 19:26

大数据技术生态介绍一文读懂

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。

小晓酱手记·2020-06-26 10:46

浅显易懂入门大数据系列：三、Zookeeper（超详细）

文章目录一、Zookeeper在Hadoop生态圈的位置分布式环境下常见的问题二、Zookeeper的概念及特点Zookeeper的概念Zookeeper的特点Zookeeper的相关名词解释三、Zookeeper

邵奈一·2020-06-26 08:15

Hadoop生态圈(七)──Hive的认识的安装

文章目录为什么要使用Hive(优点)Hive系统结构数据想象Hive的Driver的原理Hive的搭建今日总结==友情链接==前言Hive是建立在Hadoop基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为QL，它允许熟悉SQL的用户查询数据。同时，

你的男孩.·2020-06-26 01:41

Hadoop完美实战系列视频(七天全)

课程介绍：这个大数据系列的课程，可以让大家从一完全零基础的朋友，从Java和Linux基础入门，一直到Hadoop核心课程，以及Hadoop生态圈的其他知识点都能够有一个完美认识，非常推荐！！

qq_42872377·2020-06-26 00:07

浅谈大数据中Hadoop、Hive和Spark的详解

首先大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。

CtrlC V型程序员·2020-06-25 19:54

大数据：Hadoop、Hive、Spark的关系

文章转载自：https://www.cnblogs.com/jins-note/p/9513426.html大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的

JacksonKim·2020-06-25 18:56

基于Ambari安装HDP2.6.X

说明，本次采用三台服务器去安装Hadoop生态圈全家桶第一部分：安装第二部分：出现问题解决方案第一部分首先需要三台ssh互通其次也需要自己对自己互通，避免出现安装过程中自己不能和自己连接，如果自己没有对自己

null_水金admin·2020-06-25 12:45

大数据学习笔记二：解析大数据使用的技术

主要应用的技术如下图展示：此图也是展示的Hadoop生态圈，即以Hadoop为核心扩展的技术，接下来将分开介绍：HadoopHadoop是一个能够对大量数据进

绿洲守望者·2020-06-25 11:56

CentOS7下Cloudera ManagerCDH-5.11安装配置详解

来替代Apache的hadoop，于是研究了一下怎么使用ClouderaManager来安装CDH（以前一直都是手动安装的，不得不说ClouderaManager实在是方便了很多），最方便的是不用考虑各种hadoop

张老湿·2020-06-24 22:11

hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装

CDH5.8是目前比较新的版本，自带hadoop2.0以上的hadoop，而且已经包含了很多组件，也是我们接下来需要学习的hadoop生态圈中的组件。环境ClouderaManager是为

张小凡vip·2020-06-24 21:36

开源的OLAP引擎

大数据的声音虽然没有前几年热闹，但hadoop生态圈的造轮子脚步一点也没停下来。最近几天有空，梳理一下各种OLAP的计算和存储框架。

百科全书学派·2020-06-24 08:20

Hadoop生态组件-HIVE学习

本文将Hadoop生态圈中的一个重要组件Hive。内容包括安装，运行测试，使用MySQL存储Hive的matedata，还包括其他使用Hive的知识，比如数据分区等。

蜗牛爱上星星·2020-06-24 04:06

Hadoop生态圈（六）：Hive（二）

目录5DML操作5.1数据导入5.1.1向表中加载数据（load）5.1.2通过查询语句向表中插入数据（Insert）5.1.3查询语句中创建表并加载数据（AsSelect）5.1.4创建表时通过location指定加载数据路径5.1.5Import数据到指定Hive表中5.2数据导出5.2.1Insert导出5.2.2Hadoop与hiveShell导出到本地对比5.2.3Export导出到HD

jiezou12138·2020-06-23 22:58

HADOOP快速入门

目录课程大纲（HADOOP快速入门）2HADOOP快速入门3什么是HADOOP3HADOOP产生背景3HADOOP在大数据、云计算中的位置和关系3国内外HADOOP应用案例介绍4国内HADOOP的就业情况分析5HADOOP

志明与春娇·2020-06-23 20:01

【知乎】能不能用形象的比喻描述一下大数据的技术生态？

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。

i_chips·2020-06-23 17:32

Hadoop生态圈

核心：HDFS：全称为Hapdoop分布式文件系统（HadoopDistributeFileSystem），提供了高吞吐量的访问和应用程序数据。HadoopMapReduce：基于YARN的大数据集的并行处理系统。HadoopCommon：支持其他Hadoop模块的通用功能，包括序列化、JavaRPC和持久化数据结构等。其他子项目：Ambari：是一个部署、管理和监控ApacheHadoop集群的

秋幻旎苏·2020-06-23 10:56

大数据平台hadoop运维之hadoop入门-高俊峰-专题视频课程

大数据平台hadoop运维之hadoop入门—5245人已学习课程介绍主要介绍hadoop生态圈的常用软件和基础知识，可使学员迅速了解hadoop运维的基础知识，并迅速掌握hadoop运维的基本技能，达到

exitgogo·2020-06-23 06:09

ProxySQL！像C罗一样的强大！

近10年互联网线上处理及培训经验，专注于MySQL数据库，对MongoDB、Redis等NoSQL数据库以及Hadoop生态圈相关技术有深入研究，具备非常丰富的理论与实战经验。

Enmotech·2020-06-23 06:24

大数据平台框架、组件以及处理流程详解

本篇文章从三个维度：1.大数据的处理流程2.大数据的的平台框架Hadoop3.Hadoop生态圈组件理解了数据从产生到场景应用每个环节的流程过程以及企业在建立大数据平台时需要采用的技术框架Hadoop

李旭me·2020-06-23 03:30

浅谈一个新人的大数据之路-ORC篇

ORC的全称是(OptimizedRowColumnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式。ORCFile作用用于降低Hadoop数据存储空间和加速Hive查询速度。

Cold丶kl·2020-06-21 12:59

Hadoop生态圈-Hive快速入门篇之Hive环境搭建

weixin_33872660·2020-06-21 10:27

大数据———Flume使用

1.什么是FlumeFLUME是HADOOP生态圈中的一个组件。

ipoo·2020-06-21 05:51

Kafka快速入门系列(13) | Flume对接Kafka

Flume比较在企业中必须要清楚流式数据采集框架flume和kafka的定位是什么：1.flume：cloudera公司研发适合多个生产者；适合下游数据消费者不多的情况；适合数据安全性要求不高的操作；适合与Hadoop

不温卜火·2020-06-21 04:12

视频教程-30天大数据Hadoop生态圈体系完整教程-Hadoop

30天大数据Hadoop生态圈体系完整教程张长志技术全才、擅长领域：区块链、大数据、Java等。10余年软件研发及企业培训经验，曾为多家大型企业提供企业内训如中石化，中国联通，中国移动等知名企业。

weixin_34340387·2020-05-28 10:00

从大数据到数据挖掘之后分布式的学习之路

当时接触的是Hadoop生态圈，从cloudera的HDP4开始入手（当年cloudera和hortonworks还没有合并），入手的时候从hdfs（文件系统）和mapreduce（计算框架）开始学起，

viking714·2020-05-15 09:40

大数据干货：Apache NiFi介绍及使用体验

传统的办法是使用ETL来完成，而实际上我们期望这样的过程更加的平滑、可视，而且能跟hadoop生态圈，以及层出不穷的存储分析组件能对接起来。

Java程序员YY·2020-04-08 22:58

Hadoop生态圈与Zookeeper应用实践

1.上传、解压zookeeper安装文件tar-zxvfzookeeper-3.4.10.tar.gz2.创建软连接ln-s/bigdata/zookeeper-3.4.10/usr/local/zookeeper3.修改zoo.cfgdataDir=/usr/local/zookeeper/datadataLogDir=/usr/local/zookeeper/logserver.1=node0

congchp·2020-04-05 23:46

HUE从入门到精通1：HUE简介及HUE-4.2.0的安装配置

通过使用HUE工具，可以使用浏览器控制台对Hadoop生态圈中的各个组件进行交互控制，

金字塔下的小蜗牛·2020-04-03 08:57

宏观了解之hadoop生态圈

ApacheHadoop简称Hadoop,有两个核心组件:分布式文件系统(HadoopDistributedFileSystem,HDFS)的文件存储，以及被称为MapReduce的编程框架。HDFS：它是一个分布式文件系统，最大特点是分布式存储。存在的意义是提供了海量数据存储方案！，因为单个的硬件是无法满足数据的存储，而HDFS就是利用很多个磁盘来合并起来存储（分布式存储），而不会丝毫破坏、妨碍

终生学习丶·2020-04-01 21:28

推荐频道

【Hadoop生态圈】