hadoop生态组件

我的大数据之路：2023年度总结

2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。

话数Science·2024-01-03 18:07

Flink+Doris 实时数仓

架构图如下可以看到Doris的数仓架构十分简洁，不依赖Hadoop生态组件，构建及运维成本较低。

不二人生·2023-10-09 04:42

FMI飞马网【线上直播】大数据安全实践

现就职于某知名移动互联网公司，主要负责Hadoop生态组件技术预研及选型、数据平台开发

尤娜_d831·2023-09-14 13:13

000 Hadoop 生态系统及其组件 - 完整教程

000HadoopEcosystemandTheirComponents–ACompleteTutorial1.HadoopEcosystemComponents1.Hadoop生态组件TheobjectiveofthisApacheHadoopecosystemcomponentstutorialistohaveanoverviewofwhatarethedifferentcomponentso

胡巴Lei特·2023-04-15 17:48

大数据测试

大数据系统测试和大数据应用产品测试：这里的大数据系统一般是指使用hadoop生态组件搭建的或者自主研发的大数据系统。自主研发的大数据系统主要包括数据的存储、计算和分析等应用。大数据系统

ABCDLEE·2023-01-17 07:37

SpringCloud分布式、微服务、云架构快速开发平台源码之ClickHouse 存算分离架构

区别于Hadoop生态组件通常依赖HDFS作为底层的数据存储，ClickHouse使用本地盘来自己管理数据，官方推荐使用SSD作为存储介质来提升性能。

不会写代码的女程序猿·2022-09-21 08:17

ClickHouse 存算分离架构探索

区别于Hadoop生态组件通常依赖HDFS作为底层的数据存储，ClickHouse使用本地盘来自己管理数据，官方推荐使用SSD作为存储介质来提升性能。

Juicedata·2022-09-21 08:15

搭建Hadoop完全分布式集群（三台虚拟机）

经常查阅资料搭建Hadoop集群进行hadoop生态组件的学习，于是打算自己做一套完整的资料，方便以后查阅。一、模板机准备1.安装虚拟机模板机安装前置工作。

第六序列·2022-09-06 15:46

ClickHouse 存算分离架构探索

区别于Hadoop生态组件通常依赖HDFS作为底层的数据存储，ClickHouse使用本地盘来自己管理数据，官方推荐使用SSD作为存储介质来提升性能。

·2021-10-19 16:43

ClickHouse 存算分离架构探索

区别于Hadoop生态组件通常依赖HDFS作为底层的数据存储，ClickHouse使用本地盘来自己管理数据，官方推荐使用SSD作为存储介质来提升性能。

JuiceFS·2021-10-19 15:00

Hadoop生态组件原理解析

Hadoop和Spark都是目前主流的大数据框架，但是随着Spark在速度和易用性方面表现出的优势，一些国内外专家逐渐推崇Spark技术，并且认为Spark才是大数据的未来。本文将会浅析Hadoop生态的发展历程及其中部分组件的技术原理，最终就Hadoop是否会被Spark取代给出结论。一、Hadoop的核心组件在对Hadoop核心组件进行介绍之前，我们需要先了解Hadoop解决了什么问题。Had

·2021-07-27 19:24

Hadoop学习笔记—HDFS

[TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题，直接释出原始笔记。

西北偏北·2021-06-25 07:40

基于kerberos的hadoop安全集群搭建

[TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题，直接释出原始笔记。

·2021-06-20 14:50

基于kerberos的hadoop安全集群搭建

[TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题，直接释出原始笔记。

·2021-06-20 14:13

Hadoop生态组件原理解析

Hadoop和Spark都是目前主流的大数据框架，但是随着Spark在速度和易用性方面表现出的优势，一些国内外专家逐渐推崇Spark技术，并且认为Spark才是大数据的未来。本文将会浅析Hadoop生态的发展历程及其中部分组件的技术原理，最终就Hadoop是否会被Spark取代给出结论。一、Hadoop的核心组件在对Hadoop核心组件进行介绍之前，我们需要先了解Hadoop解决了什么问题。Had

·2021-06-18 21:12

impala 概念及其特性

Impala通过使用hadoop生态组件（如HDFS，HBase，Metastore，YARN和Sentry）将传统分析数据库的SQL支持和多用户性能与Ap

起个什么呢称呢·2021-05-17 18:49

Hadoop学习笔记—Yarn

Hadoop学习笔记—Yarn@(Hadoop)[hadoop,yarn][TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题

·2021-04-10 18:29

Hadoop学习笔记—Yarn

Hadoop学习笔记—Yarn@(Hadoop)[hadoop,yarn][TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题

·2021-04-10 18:15

Hadoop学习笔记—HDFS

[TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题，直接释出原始笔记。

·2021-04-04 01:06

Hadoop学习笔记—HDFS

[TOC]上一份工作主要负责大数据平台的建设，在这个过程中积累了一些Hadoop生态组件的搭建和使用笔记，由于时间关系，不打算去修改其中的错别字和排版问题，直接释出原始笔记。

·2021-04-04 01:30

大数据工程师的通关攻略

平台型大于业务行大数据工程师所需的核心技能大数据团队构成以及岗位职责简介Hadoop生态研发工程师（平台工程师）对Hadoop生态组件很了解，精度开源框架源码，对业务平台支撑，适合技术极客的人。

·2021-03-12 06:17

大数据面试题

一、hadoop（1）、概念题1、简述hadoop生态组件2、mapreduce原理3、对mapreduce的了解4、hadoop任务调度，进程调度5、mapReduce的过程6、hadoop的事务怎么操作

流云先生·2020-09-13 00:22

Hadoop大数据平台实践（二）：Hadoop生态组件的学习文档

Hadoop基础组件学习-Yzg-2019-03-06Hadoop基础组件学习文档..1简介..4HDFS.5HDFS读文件..6HDFS写文件..7Mapreduce8单词计数..9数据去重..9单表关联..10多表关联..11Hadoop流..12Hadoop流的工作原理..13Hadoop流的命令..13HadoopStreaming的优缺点..15Yarn.15Resourcemanage

有腹肌的小蝌蚪_·2020-08-09 03:24

一张表看懂大数据计算框架，浅析Hadoop(MapReduce)、Spark、Storm比较

学习大数据首先要明白生态系统蓝色部分为Hadoop生态组件，橙黄色部分为Spark生态组件，紫色部分为Storm应用一、工作机制MapReduce框架MapReduce是一个编程模型，封装了并行计算、容错

言希灬·2020-07-30 18:21

FMI飞马网【线上直播】大数据安全实践

现就职于某知名移动互联网公司，主要负责Hadoop生态组件技术预研及选型、数据平台开发

FMI飞马网·2020-07-13 11:29

Hadoop生态组件之Hive环境搭建--第九讲(hive实战)

本文转载自：http://blog.csdn.net/u013063153/article/details/54313217本文数据来自于搜狗实验室：用户查询日志下载路径http://www.sogou.com/labs/resource/q.php1、Hive操作演示1.1内部表1.1.1创建表并加载数据第一步启动HDFS、YARN和Hive，启动完毕后创建Hive数据库hive>created

郝文龙·2020-07-01 15:09

Hadoop生态组件之Hive环境搭建--第十讲(hive实战-java连接hive)

1.确认虚拟机防火墙已经关闭2.启动hive2.1shell模式切换到bin下./hive启动2.2hiveJDBC服务./hive--servicehiveserver2&2.3测试jdbc连接是否可用切换到bin下./beeline然后输入!connectjdbc:hive2://ip地址:10000rootroot后面两个是你创建的用户名和密码如果能连接上就表示jdbc没有问题了注：!con

郝文龙·2020-07-01 15:38

Hadoop生态组件之Hive环境搭建--第九讲

hadoop2.4.1+apache-hive-1.2.1-bin.tar.gz1.内嵌模式将元数据保存在本地内嵌的Derby数据库中，这是使用Hive最简单的方式。但是这种方式缺点也比较明显，因为一个内嵌的Derby数据库每次只能访问一个数据文件，这也就意味着它不支持多会话连接。2.本地模式这种模式是将元数据保存在本地独立的数据库中（一般是MySQL），这用就可以支持多会话和多用户连接了。3.远

郝文龙·2020-07-01 15:38

【Spark深入学习-11】Spark基本概念和运行模式

----本节内容-------1.大数据基础1.1大数据平台基本框架1.2学习大数据的基础1.3学习Spark的Hadoop基础2.Hadoop生态基本介绍2.1Hadoop生态组件介绍2.2Hadoop

weixin_34004750·2020-06-28 09:03

Java实现Kafka生产者消费者功能

最近学的东西很多，但一直忙的没有时间去写，先补充一篇kafka的，最基本的功能使用，不得不感叹大数据确实难，即使只说一个简单的功能，之前也需要铺垫很多完成的功能，比如这篇博客的前提是，你已经安装了虚拟机，里面配置了Hadoop

AlgoRain·2020-06-26 05:54

Hadoop生态组件-HIVE学习

本文将Hadoop生态圈中的一个重要组件Hive。内容包括安装，运行测试，使用MySQL存储Hive的matedata，还包括其他使用Hive的知识，比如数据分区等。本文是本人学习Hive过程中的记录，对于一些“理所当然”的简单的东西就只是一笔带过或者没有记录在这里。阅读本文需要对Hadoop有一定的了解，特别是对HDFS，所以，对HDFS的安装和使用部分写得比较简略。一开始的时候，对于Hive的

蜗牛爱上星星·2020-06-24 04:06

Vertica-MPP解决方案

笔者从事通信行业数据仓库已有近十年工作经验，这类数据库选型和使用从Teradata到DB2，再从DB2到Vertica，期间老板决策说要用hadoop生态组件替代Teradata和DB2（成本因素和集团的去

Mr_Yu_1024·2020-01-14 16:50

hadoop生态组件安装

本文是在自己工作中用到各个组件的安装方式的记录，包括：hadoop,hbase,kafka,es,hive,flume,druid，flink，spark等，在持续更新中。具体的使用记录另有博文具体介绍。hdfs这里是列表文本Hadoop有三种分布模式：单机模式、伪分布、全分布模式，本文讲解分布式搭建方式。假设有a,b,c三个节点。第一步：新建用户#增加用户，并赋予其密码$adduserhadoo

-九天-·2019-05-22 09:41

Hadoop生态组件Yarn之长期运行服务支持篇！

众所周知，Yarn是大数据核心调度组件，其使用覆盖率非常高。在“Hadoop是否已失宠”的选题调研中，不少专家都对Yarn这一核心组件的生命力表达了自己的看法。阿里云技术专家封神认为，Yarn在离线与在线数据混合方面表现欠佳，但这也是其背景使然，支持Yarn的几家公司主要做离线系统，对在线系统部署问题关注不够。当然，目前市场已经存在具备一定竞争关系的产品，比如Mesos，但这两大调度系统的设计目标

大数据vvv·2019-05-02 21:36

大数据工程师的通关攻略

平台型大于业务行大数据工程师所需的核心技能大数据团队构成以及岗位职责简介Hadoop生态研发工程师（平台工程师）对Hadoop生态组件很了解，精度开源框架源码，对业务平台支撑，适合技术极客的人。

le3t·2019-03-26 22:44

一起学Hadoop——实现两张表之间的连接操作

Hadoop生态组件的高级框架Hive、Pig等也都实现了join连接操作，编写类似SQL的语句，

小菜两碟·2018-09-22 12:00

推荐频道

hadoop生态组件

我的大数据之路：2023年度总结

Flink+Doris 实时数仓

FMI飞马网【线上直播】大数据安全实践

000 Hadoop 生态系统及其组件 - 完整教程

大数据测试

SpringCloud分布式、微服务、云架构快速开发平台源码之ClickHouse 存算分离架构

ClickHouse 存算分离架构探索

搭建Hadoop完全分布式集群（三台虚拟机）

ClickHouse 存算分离架构探索

ClickHouse 存算分离架构探索

Hadoop生态组件原理解析

Hadoop学习笔记—HDFS

基于kerberos的hadoop安全集群搭建

基于kerberos的hadoop安全集群搭建

Hadoop生态组件原理解析

impala 概念及其特性

Hadoop学习笔记—Yarn

Hadoop学习笔记—Yarn

Hadoop学习笔记—HDFS

Hadoop学习笔记—HDFS

大数据工程师的通关攻略

大数据面试题

Hadoop大数据平台实践（二）：Hadoop生态组件的学习文档

一张表看懂大数据计算框架，浅析Hadoop(MapReduce)、Spark、Storm比较

FMI飞马网【线上直播】大数据安全实践

Hadoop生态组件之Hive环境搭建--第九讲(hive实战)

Hadoop生态组件之Hive环境搭建--第十讲(hive实战-java连接hive)

Hadoop生态组件之Hive环境搭建--第九讲

【Spark深入学习-11】Spark基本概念和运行模式

Java实现Kafka生产者消费者功能

Hadoop生态组件-HIVE学习

Vertica-MPP解决方案

hadoop生态组件安装

Hadoop生态组件Yarn之长期运行服务支持篇！

大数据工程师的通关攻略

一起学Hadoop——实现两张表之间的连接操作