哥不是小萝莉

Hadoop 生态系统

1.概述

　　最近收到一些同学和朋友的邮件，说能不能整理一下 Hadoop 生态圈的相关内容，然后分享一些，我觉得这是一个不错的提议，于是，花了一些业余时间整理了 Hadoop 的生态系统，并将其进行了归纳总结，进而将其以表格的形式进行了罗列。涉及的内容有以下几点：

分布式文件系统
分布式编程模型
NoSQL 数据库
SQL-On-Hadoop
数据采集
编程服务中间件
调度系统
系统部署
数据可视化

2.内容

2.1 分布式文件系统

2.1.1 Apache HDFS

　　在分布式文件系统当中，首先为大家所熟悉的是 Apache 的 HDFS。全称为 Hadoop Distributed File System，由多台机器组建的集群，存储大数据文件。HDFS 的灵感来自于 Google File System（GFS）。Hadoop 2.x 版本之前，NameNode 是存在单点故障的。在 ZooKeeper 的高可用性功能解决了 HDFS 的这个问题，通过提供运行两个冗余的节点在同一个集群中进行主备切换，即：Active & Standby

　　相关链接地址如下所示：

Apache Hadoop
Google File System
Cloudera
Hortonworks

2.1.2 Red Hat GlusterFS

　　GlusterFS 是一个扩展的网络附加存储文件系统。GlusterFS 最初是由 Gluster 公司开发的，然后，由 Red Hat 公司在2011年进行了购买。2012年六月，Red Hat 存储服务器被宣布为商业支持的整合与 Red Hat 企业 Linux GlusterFS。Gluster 文件系统，现在称为 Red Hat 存储服务器。

　　相关链接地址如下所示：

Gluster 官网
Red Hat Hadoop 插件

2.1.3 QFS

　　QFS 是一个开源的分布式文件系统软件包，用于对 MapReduce 批处理工作负载。她被设计为一种 Apache Hadoop 的 HDFS 另一种选择方案，用于大型加工集群提供更好的性能和成本效率。它用 C++ 和固定占用内存管理。QFS 使用 Reed-Solomon 纠错保证可靠的数据访问方法。Reed-Solomon 编码在海量存储系统中被广泛应用，以纠正与媒体缺陷相关的突发错误。而不是存储每个文件或是像 HDFS 一样，存储 3+ 次以上，QFS 仅仅需要 1.5 倍的原始容量，因为它存储在哎九个不同的磁盘驱动上。

　　相关链接地址如下所示：

QFS 官网
Github QFS
Hadoop-8885

2.1.4 Ceph Filesystem

　　Ceph 是一个免费的软件存储平台，被设计为对象，块和从单一节点到集群的文件存储。它的主要目标是完全分布式无单点鼓掌，可水平扩展到 PB 容量，对多种工作负载的高性能，以及高可用性。

　　相关链接地址如下所示：

Ceph Filesystem 官网
Ceph and Hadoop
HADOOP-6253

2.1.5 Lustre file system

　　Lustre 是由 Linux 和 Cluster 演变而来，是为了解决海量存储问题而设计的全新的文件系统。可支持达 1w 节点，PB 的存储容量，100GB/S 的传输速度。Lustre 是基于对象的存储系统，减少元数据服务器的 iNode。它实际上还是将数据条带化到各个存储目标上，所以可以实现高度聚合 IO 能力。Lustre 原生态支持海量小文件读写；且对大文件读写在 Linux 内核做了特殊优化。另外，Lustre 是个对用户透明的 Share 文件系统，条带化数据的位置信息不能完美的暴露出来，所以要用上 Hadoop 的 MapReduce 优势还需要做很多工作。

　　相关链接地址如下所示：

Lustre WiKi
Hadoop with Lustre
Inter HPC Hadoop

关于分布式文件系统的内容就赘述到这里；其它分布式文件系统，如：Alluxio，GridGain 以及 XtreemFS[1.官网，2.Flink on XtreemFS，3.Spark XtreemFS] 等这里就不多赘述了，大家可以下去自己普及一下。

2.2 分布式编程模型

2.2.1 Apache Ignite

　　Apache Ignite 内存数组组织框架是一个高性能、集成和分布式的内存计算和事务平台，用于大规模的数据集处理，比传统的基于磁盘或闪存的技术具有更高的性能，同时他还为应用和不同的数据源之间提供高性能、分布式内存中数据组织管理的功能。

　　它包含一个分布式的 Key/Value 存储在内存中，SQL 执行能力，MapReduce 和其它计算，分布式数据结构，连续查询，消息和事件子系统。Hadoop 和 Spark 均有集成。Ignite 编译于 Java，提供 .NET 和 C++ 的 API 接口。

　　相关链接地址如下所示：

Apache Ignite
Apache Ignite Documentation

2.2.2 Apache MapReduce

　　这个大家应该不陌生，这是一个经典的编程模型，用于在集群上处理并发，分布式大数据集。当前版本编译于 YARN 框架。这里就不多赘述了。

　　相关链接地址，如下所示：

Apache MapReduce
Google MapReduce Paper
Writing YARN Applications

2.2.3 Apache Spark

　　这个编程模型，大家也不会陌生，现在 Spark 的应用场景和社区活跃度较高。快速的执行能力，丰富的编程 API 接口，使其备受恩宠。

　　相关链接地址，如下所示：

Apache Spark
Mirror of Spark on Github
RDDs-Paper
Spark Cluster Computing
Spark Research

2.2.4 Apache Storm

　　做实时流水数据处理的同学，应该也不陌生，可以嫁接多种消息中间件（如Kafka，MQ等）。

　　相关链接地址，如下所示：

Storm Project
Storm-on-YARN

2.2.5 Apache Flink

　　Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常是分别给出两套实现方法，或者通过一个独立的开源框架来实现其中每一种处理方案。例如，实现批处理的开源方案有MapReduce、Tez、Crunch、Spark，实现流处理的开源方案有Samza、Storm。 Flink在实现流处理和批处理时，与传统的一些方案完全不同，它从另一个视角看待流处理和批处理，将二者统一起来：Flink是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的；批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。基于同一个Flink运行时（Flink Runtime），分别提供了流处理和批处理API，而这两种API也是实现上层面向流处理、批处理类型应用框架的基础。

　　相关链接地址，如下所示：

Apache Flink
Stratosphere site

这里列举了热度较高的分布式编程模型，其它的编程模型，如下表所示：

分布式编程模型	相关链接地址
Apache Pig	1.官网 2.示例
JAQL	1.JAQLL in Google Code 2.What is JAQL?
Facebook Corona	1.Corona on Github
Apache Twill	1.Twill 官网
Apache Tez	1.Tez 官网 2.Hortonworks Apacha Tez Page

2.3 NoSQL 数据库

2.3.1 列数据模型

2.3.1.1 Apache HBase

　　灵感来自于 Google 的 BigTable。非关系性分布式数据库。随机实时读写操作列扩展的大表。

　　相关链接地址，如下所示：

Apache HBase Home
HBase on Github

2.3.1.2 Apache Cassandra

　　Apache Cassandra 是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发，用于储存特别大的数据。 Cassandra 不是一个数据库，它是一个混合型的非关系的数据库，类似于 Google 的 BigTable。Cassandra 的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前，需要先记录日志 ( CommitLog )，然后数据开始写入到 Column Family 对应的 Memtable 中，Memtable 是一种按照 key 排序数据的内存结构，在满足一定条件时，再把 Memtable 的数据批量的刷新到磁盘上，存储为 SSTable 。

　　相关链接地址，如下所示：

Cassandra On Github
Training Resources
Cassandra-Paper

2.3.1.3 Apache Kudu

　　Kudu 是 Cloudera 开源的列式存储引擎，具有一下几个特点：

C++ 语言开发
高效处理类 OLAP 负载
与 MR，Spark 以及 Hadoop 生态系统中其它组件友好集成
可以与 Cloudera Impala 集成
灵活的一致性模型
顺序和随机写并存的场景下，仍能达到良好的性能
高可用，使用 Raft 协议保证数据高可靠存储
结构化数据模型

　　相关链接地址，如下所示：

Apache Kudu Home
Kudu on Github
Kudu Technical

2.3.2 文档数据模型

2.3.2.1 MongoDB

　　面向文档的数据库系统。它是数据库系统中 NoSQL 家族的一部分。MongoDB 存储结构化数据以 JSON 格式的文件形式进行存储。

　　相关链接地址，如下所示：

MongoDB 官网

2.3.3 Key-Value 数据模型

2.3.3.1 Redis 数据库

　　Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

　　相关链接地址，如下所示：

Redis Home
Redis Labs

2.4 SQL-On-Hadoop

2.4.1 Apache Hive

　　一款由 Facebook 开发的数据仓库。数据聚合，查询和分析。提供类 SQL 语言：HiveQL

　　相关链接地址，如下所示：

Apache Hive Home
Hive on Github

2.4.2 Apache Trafodion

　　Trafodion是一个构建在Hadoop/HBase基础之上的关系型数据库，它完全开源免费。Trafodion能够完整地支持ANSI SQL，并且提供ACID事务保证。和传统关系数据库不同的地方在于，Trafodion利用底层Hadoop的横向扩展能力，可以提供极高的扩展性。而传统数据库，比如MySQL，在数据量达到P级别的时候就很难处理。而Trafodion却可以借助HBase的扩展性，仅通过增加普通Linux服务器就可以增加计算和存储能力，进而支持大数据应用。

　　相关链接地址，如下所示：

Apache Trafodion Home
Apache Trafodion WiKi
Apache Trafodion On Github

2.4.3 Apache Drill

　　Drill 是 Apache 开源的，用于大数据探索的 SQL 查询引擎。她在大数据应用中，面对结构化数据和变化迅速的数据，她能够去兼容，并且高性能的去分析，同时，还提供业界都熟悉的标准的查询语言，即：ANSI SQL 生态系统。Drill 提供即插即用，在现有的 Hive，HBase，S3 等存储介质中可以随时整合部署。

　　相关链接地址，如下所示：

Apache Drill Home

2.4.4 Cloudera Impala

　　类似于 Drill 的一款大数据实时查询引擎，依赖 CDH 环境。

　　相关链接地址，如下所示：

Cloudera Impala Home
Impala On Github

2.4.5 Apache Kylin

　　Kylin 是一款开源的分布式数据分析引擎由 eBay 公司提供。支持 Hadoop 大数据集 OLAP 业务／

　　相关链接地址，如下所示：

Apache Kylin Home

另外，还有[Apache Tajo]，[Apache Phoenix] 等，这里就不一一列举了。

2.5 数据采集

2.5.1 Apache Flume

　　Flume 是一个分布式，可靠的，可用的服务，有效的收集，聚合和移动海量的日志数据。它有一个简单而灵活的架构，基于流数据流。具有很好的冗余和容错性，以及可靠性和多故障转移和恢复机制。它使用一个简单的可扩展数据模型，并允许在线分析应用。

　　相关链接地址，如下所示：

Apache Flume Home

2.5.2 Apache Sqoop

　　一款从 HDFS 到 RDBMS 之间做数据交互的工具。类似于 Flume。

　　相关链接地址，如下所示：

Apache Sqoop Project

2.5.3 Apache Kafka

　　分布式发布－订阅消息系统，用于处理流式海量数据。Kafka 是一个由 LinkedIn 开发的消息队列。能嫁接 HDFS 这样的存储介质，能被 Storm，Spark这类实时或类实时数据模型消费。

　　相关链接地址，如下所示：

Apache Kafka
Kafka On Github

2.5.4 Apache NiFi

　　Apache NiFi 是由美国国家安全局（NSA）贡献给 Apache 基金会的开源项目，目前已被顺利孵化完成成为 Apache 的顶级项目之一。Apache NiFi 其设计目标是自动化系统间的数据流。基于其工作流式的编程理念，NiFi 拥有易使用，高可用以及高配置等特性。其尤为突出的两大特性是：强大的用户界面和良好的数据回溯工具。NiFi 的用户界面允许用户在浏览器中直观的理解并与数据流进行交互，快速和安全的进迭代。其数据回溯特性允许用户查看一个对象如何在系统间流转，回放以及可视化关键步骤之前以及之后发生的情况，包括大量复杂的图式转换，Fork，Join 以及其它操作等。另外，NiFi 使用基于组件的扩展模型用以为复杂的数据流快速增加功能，开箱即用的组件中，处理文件系统的包括 FTP，SFTP 以及 HTTP 等，同样也支持 HDFS。

　　相关链接地址，如下所示：

Apache NiFi

　　另外，还有 Facebook Scribe，Apache Chukwa，Netflix Suro，Apache Samza，Cloudera Morphline，HIHO 等套件就不一一介绍了，大家可以下去了解这些数据采集套件相关内容。

2.6 编程服务中间件

2.6.1 Apache Thrift

　　Thrift 是一个软件框架，用来进行可扩展且跨语言的服务开发。它结合了功能强大的软件堆栈和代码生成引擎，用以构建在 C++，Java，Python，Ruby 等编程语言上，进行无缝，高效的衔接。其最初由 Facebook 开发用做系统内各个语言之间的 RPC 通信，后 Facebook 贡献给 Apache，目前成为 Apache 的顶级项目之一。

　　相关链接地址，如下所示：

Apache Thrift

2.6.2 Apache Zookeeper

　　Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务，状态同步服务，集群管理，分布式应用配置项的管理等。

　　相关链接地址，如下所示：

Apache Zookeeper
Google Chubby

2.6.3 Apache Avro

　　Apache Avro 是 Hadoop 中的一个子项目，也是 Apache 中的一个独立的项目，Avro 是一个基于二进制数据传输高性能的中间件。在 Hadoop 的其它项目中，例如 HBase，Hive 的 Client 端与服务端的数据传输也采用了这个工具。Avro 是一个数据序列化的系统，它可以将数据结构或对象转化成便于存储或传输的格式。Avro 设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。拥有一下特点：

丰富的数据结构类型
快速可压缩的二进制数据形式，对数据二进制序列化后可以节约数据存储空间和网络传输带宽
存储持久数据的文件容器
可以实现远程过程调用 RPC
简单的动态语言结合功能

　　相关链接地址，如下所示：

Apache Avro

　　另外，还有 Apache Curator，Twitter Elephant Bird，Linkedin Norbert 等工具，这里就不一一介绍了。

2.7 调度系统

2.7.1 Apache Oozie

　　在 Hadoop 中执行的任务有时候需要把多个 MR 作业连接到一起，这样才能达到目的。在 Hadoop 生态圈中，Oozie 可以把多个 MR 作业组合到一个逻辑工作单元中，从而完成更大型的任务。Oozie 是一种 Java Web 应用程序，它运行在 Java Servlet 容器中（即：Tomcat）中，并使用数据库来存储一下内容：

工作流定义
当前运行的工作流实例，包括实例的状态和变量

　　Oozie 工作流是放置在控制依赖 DAG 中的一组动作（如 Hadoop 的 MR 作业，Pig 作业等），其中指定了动作执行的顺序。

　　相关链接地址，如下所示：

Apache Oozie
Oozie On Github

2.7.2 Linkedin Azkaban

　　Hadoop 工作流管理。提供友好的 Web UI 界面进行批处理作业调度（定时或及时）。

　　相关链接地址，如下所示：

Azkaban Home
Azkaban On Github

2.7.3 Apache Falcon

　　Apache Falcon 是一个面向 Hadoop 的，新的数据处理和管理平台，设计用于数据移动，数据管道协调，生命周期管理和数据发现。它使用终端用户可以快速的将他们的数据以及相关的处理和管理任务上载到 Hadoop 集群。在 Apache Falcon 中，基础设施端点，数据集，处理规则均是声明式的。这种声明式配置显式定义了实体之间的依赖关系。这也是该平台的一个特点，它本身只维护依赖关系，而并不做任何繁重的工作，所有的功能和工作流状态管理需求都委托给工作流调度程序来完成。

　　相关链接地址，如下所示：

Apache Falcon

2.8 系统部署

2.8.1 Apache Ambari

　　用于创建，管理，监控 Hadoop 集群的工具，可以很方便的安装，调试 Hadoop 集群，支持的平台组件也是越来越多，如 Spark，Storm 等计算模型，以及资源调度平台 YARN 等，都能通过 Ambari 轻松部署管理。

　　相关链接地址，如下所示：

Apache Ambari

2.8.2 CDH

　　Cloudera 公司的产品，类似于 Ambari 产品，用于创建，管理，监控 Hadoop 集群。

　　相关链接地址，如下所示：

2.9 可视化

2.9.1 Apache Zeppelin

　　你可以制作出漂亮的数据，使用 SQL，Scala 或者其它。它拥有以下特性：

数据收集
数据发掘
数据分析
数据可视化和集成

　　目前支持的中间件有：Spark，md，sh，Hive，Tajo，Flink，Cassandra，Phoenix，Kylin 等

　　相关链接地址，如下所示：

Apache Zeppelin

3.总结

　　Hadoop 生态圈是非常庞大的，上述列举的只是其生态圈中常用的一部分，下图给大家展示了本篇博客相关内容的关联图，如下图所示：

4.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
最超值的Mac——Mac mini 初心么么哒
你知道最超值的Mac是什么吗？自2005年以来，Macmini一直是Apple台式机产品线中的主要产品。最初推出是为了让对Mac好奇的Mac进入Apple生态系统的一种简单方式，现在新的AppleSiliconMacmini可能是任何寻找新Mac的人的最有吸引力的购买。什么是AppleSiliconMacmini？M1Macmini是Apple最小的台式电脑，同时也是最快的台式电脑之一。最新型号由
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
Rust是否会取代C/C++？Rust与C/C++的较量 AI与编程之窗源码编译与开发 rust c语言 c++内存安全并发编程代码安全性能优化
目录引言第一部分：Rust语言的优势内存安全性并发性性能社区和生态系统的成长第二部分：C/C++语言的优势和地位历史积淀和成熟度广泛的库和工具支持性能优化和硬件控制丰富的行业应用社区和行业支持第三部分：挑战和阻碍学习曲线现有代码库的迁移成本生态系统和工具链的完善度社区和人才培养行业应用和推广法规和标准化第四部分：未来趋势和可能性行业趋势教育和人才培养兼容和共存行业标准化企业支持和应用开源社区和生态
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
为用户都喜欢购买阿里云服务器？阿里云服务器有何优势？阿里云最新优惠和活动汇总
随着企业数字化转型的加速和云计算技术的日益成熟，云服务器已成为企业搭建应用、存储和处理数据的重要基础设施。在众多云服务提供商中，阿里云以其卓越的性能、丰富的产品线、出色的技术支持和强大的生态系统，赢得了众多用户的青睐。那么，阿里云服务器到底有哪些优势？为何如此多的用户选择使用阿里云服务器呢？阿里云服务器优势图.jpg阿里云服务器的优势一、技术领先，性能卓越阿里云作为国内最早涉足云计算领域的企业之一
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Eclipse 悬浮提示：提高编程效率的利器 lly202406 开发语言
Eclipse悬浮提示：提高编程效率的利器引言在当今的软件开发领域，Eclipse是一款广受欢迎的集成开发环境（IDE）。它以其强大的功能和灵活性而著称，被全球的开发者用于各种编程语言和项目。Eclipse的一个显著特点是其丰富的插件生态系统，这些插件极大地增强了其核心功能。其中，悬浮提示（Hover）功能是一个看似简单，但实际上非常实用的特性，它能在编程时提供即时的信息反馈，从而显著提高开发效率
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
全球化时代的生态系统架构与开放标准：跨行业技术创新的驱动引擎 The Open Group 数字化转型企业架构师架构云原生微服务
在全球化的背景下，企业运营和市场竞争已经超越了传统的地域和行业限制。全球市场的高度互联使得跨行业的协作成为推动创新和可持续发展的核心驱动力。为了在这一复杂的环境中保持竞争力，企业必须采用更具灵活性和扩展性的技术架构——即生态系统架构，并通过开放标准推动全球市场的互通与技术集成。这不仅帮助企业实现跨行业技术创新，还能提升其在绿色经济中的竞争优势，推动全球可持续发展目标的实现。本文将从全球化视角出发，
2023-03-30 叶桉
今天星期三，天气多云转小雨。写日记确实很重要（事件）从生态系统理论分析刘旭东的问题有：1.“他在中学没有朋友成绩不好导致他重读三年级”中可以看出，刘旭东他缺少与其环境之间的互动。人们所处的环境被视为相互依赖、彼此补充的整体；在这个过程中，他在中学时期就要知道人们可以相互改变、塑造对方。2.“他在中学没有朋友成绩不好导致他重读三年级”中可以看出，刘旭东在三年级阶段就没有解决掉‘处于没有朋友’的这一环
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Spring Cloud Gateway：现代微服务架构中的API网关解决方案鹿又笑架构微服务 spring cloud gateway
引言在微服务架构中，API网关作为客户端与后端服务之间的中介，承担着请求路由、负载均衡、认证授权等重要职责。SpringCloudGateway是Spring生态系统中的一款强大且灵活的API网关解决方案，本文将深入探讨其工作原理、核心功能及应用场景。什么是SpringCloudGateway？SpringCloudGateway是SpringCloud项目的一部分，旨在为微服务架构提供高效的AP
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

Hadoop 生态系统

1.概述

2.内容

2.1 分布式文件系统

2.1.1 Apache HDFS

2.1.2 Red Hat GlusterFS

2.1.3 QFS

2.1.4 Ceph Filesystem

2.1.5 Lustre file system

2.2 分布式编程模型

2.2.1 Apache Ignite

2.2.2 Apache MapReduce

2.2.3 Apache Spark

2.2.4 Apache Storm

2.2.5 Apache Flink

2.3 NoSQL 数据库

2.3.1 列数据模型

2.3.1.1 Apache HBase

2.3.1.2 Apache Cassandra

2.3.1.3 Apache Kudu

2.3.2 文档数据模型

2.3.2.1 MongoDB

2.3.3 Key-Value 数据模型

2.3.3.1 Redis 数据库

2.4 SQL-On-Hadoop

2.4.1 Apache Hive

2.4.2 Apache Trafodion

2.4.3 Apache Drill

2.4.4 Cloudera Impala

2.4.5 Apache Kylin

2.5 数据采集

2.5.1 Apache Flume

2.5.2 Apache Sqoop

2.5.3 Apache Kafka

2.5.4 Apache NiFi

2.6 编程服务中间件

2.6.1 Apache Thrift

2.6.2 Apache Zookeeper

2.6.3 Apache Avro

2.7 调度系统

2.7.1 Apache Oozie

2.7.2 Linkedin Azkaban

2.7.3 Apache Falcon

2.8 系统部署

2.8.1 Apache Ambari

2.8.2 CDH

2.9 可视化

2.9.1 Apache Zeppelin

3.总结

4.结束语

你可能感兴趣的:(Hadoop 生态系统)