ArimaMisaki

Hadoop总结

大数据概述

Hadoop大数据开发平台

资源管理YARN

分布式文件系统HDFS

非关系型数据库NOSQL

分布式数据库HBASE

批处理和MapReduce

数据仓库查询分析和Hive

基于内存计算的Spark

流计算和Flink

图计算和PREGEL

Hadoop常用命令总结

大数据概述

大数据的4V：大量化、快速化、多样化、价值密度低。

大数据对思维方式的影响：颠覆了传统的思维方式——全样而非抽样、效率而非精确、相关而非因果

大数据对科学研究的影响：实验、理论、计算、数据

三次信息化浪潮

第一次——1980——个人计算机为标志——解决信息处理——Intel、AMD、IBM

第二次——1995——互联网——信息传输——雅虎、谷歌

第三次——2010——物联网、云计算和大数据——信息爆炸——亚马逊、美团

信息科技为大数据提供的技术

存储设备容量增加、成本降低
CPU性能提升
网络带宽增加、终端数目增加

数据变革阶段

运营式系统阶段、用户原创内容阶段、感知式系统阶段。

大数据发展三个阶段

萌芽期（第一）：20世纪90年代至21世纪初——随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识管理技术开始被应用。如数据仓库、专家系统、知识管理系统等。

成熟期（第二）：21世纪第一个十年——Web2.0应用迅速发展，非结构化数据大量产生，传统处理方法难以应对，带动了大数据技术的快速突破，大数据解决方案逐渐走向成熟，GFS和MapReduce等大数据技术受到追捧，Hadoop平台开始崭露头角。

大规模应用期（第三）：2010年以后——大数据应用渗透各行各业，数据驱动决策，信息社会智能化程度大幅提高。

Hadoop大数据开发平台

谷歌2004年“三驾马车”处理海量数据问题：GFS分布式文件系统、MapReduce大数据分布式计算框架、NoSQL数据库系统BigTable

大数据两个核心技术：分布式存储、分布式处理

分布式存储

文件系统：HDFS
NoSQL：HBase、MongoDB
消息系统：Kafka

分布式处理

批处理计算：MapReduce、Spark
流计算：Storm，Flink
图计算：Pregel
查询分析计算：Hive、Impala

Hadoop：是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，

Hadoop特性：高扩展、高效性、高可靠、高容错、成本低。

Hadoop生态：

Zookeeper：分布式协调服务
Hbase：分布式数据库
Ambari：安装部署工具
Oozie：作业流调度系统
MapReduce：离线计算
Tez：DAG计算
Spark：内存计算
yean：资源调度管理
HDFS：分布式存储系统
Sqoop：数据库TEL工具
Flume：日志收集

Hadoop三种安装模式

单机模式：一台机器上运行。（真正单机）

伪分布式模式：一台机器上模拟一个小集群，依赖SSH，需要初始化文件系统，本地的input文件夹和HDFS的input文件夹都在同一台机器上，并不需要通过网络传输数据。（单机装多机）

完全分布式模式：存储采用分布式文件系统HDFS，而且HDFS的名称结点和数据结点位于不同机器上。（真正多机）

伪分布式安装

Hadoop进程可以分离的多个Java进程来运行
单结点，既作为NameNode也作为DataNode
Hadoop配置文件位于/uhadoop/etc/hadoop/中，伪分布式需要修改配置文件core-site.xml和hdfs-site.xml
Hadoop的配置文件是xml格式，每个配置以声明property的name和value来实现

伪分布式安装是在一个单机上模拟一个分布式的环境，启动Hadoop时，HDFS和yarn都将启动。其中HDFS包括Namenode、Datanode、SecondaryNamenode。Yarn包括Resourcemanager、Nodemanager。伪分布式具备Hadoop的主要功能。

伪分布式用途：常用于调试程序

Hadoop的版本

Hadoop2.0三大主要部分：HDFS、MapReduce、yarn。其中HDFS包括NN Federation和HA；MapReduce运行于Yean之上。

1.0到2.0版本差异：

资源管理YARN

yarn——2.0的资源调度框架

MapReduce1.0既是一个计算框架，也是一个资源管理调度框架。到了Hadoop2.0后，其资源调度功能被分离形成Yarn，而被剥离了资源调度功能的MapReduce1.0变为2.0，只拥有计算功能。

总结：Yarn是纯粹的资源调度框架，MR2.0是纯粹的计算框架。

yarn的调度策略

先进先出——队列
容器——多队列——资源使用量小、优先级高的先执行；最大化吞吐量和利用率
公平——多队列——公平调度算法，支持资源抢占，确保平均而言所有作业获得等量的资源

yarn的目标就是实现一个集群多个框架。即在一个集群上部署一个统一的资源调度框架yean，在yean之上可以部署其他各种计算框架。

yarn好处

yarn为这些计算框架提供统一的资源调度管理服务，并且能够根据各种计算框架的负载需求，调整各自占用的资源，实现集群资源共享和资源弹性收缩。
其可以实现一个集群上的不同应用负载混搭，有效提高了集群的利用率
不同计算框架可以共享底层存储，避免了数据集跨集群移动

分布式文件系统HDFS

分布式文件系统

分布式文件系统指通过网络实现文件在多台主机上进行分布式存储的文件系统，一般采用“客户机/服务器”(CS)模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请求，如GFS和HDFS。

注：分布式文件系统是大集合，HDFS是子集。

HDFS目标

兼容廉价的硬件设备
流数据读写
大数据集
简单的文件模型
强大的跨平台兼容性

HDFS局限性

不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件

HDFS存储的好处

加快数据传输速度
很容易检查数据错误
保证数据可靠性

HDFS构造

块（HDFS的核心概念）：HDFS默认一个块64MB，一个文件被分成多个块，以块作为存储单位。

名称结点(NameNode)：负责管理分布式文件系统的命名空间，用两个文件保存了两个核心的数据结构（FSImage和EditLog）。

数据结点(DataNode)：负责数据的存储和读取，会根据客户端或者是名称结点的调度来进行数据的存储和检索，并且向名称结点定期发送自己所存储的块的列表

第二名称结点（SecondaryNamenode）：用来保存名称结点对HDFS元数据信息的备份，并减少名称结点重启的时间。

注：一个机架上可以放一个名称节点、多个数据节点。

拓展：

块的默认大小是64MB，但是也可以128MB。HDFS中的块比一般普通文件系统的块大很多。之所以设计成一块一块是因为HDFS是面向大规模数据存储，且降低分布式节点的寻址开销。但是块不是越大越好，如果块过大会导致MapReduce才执行一两个任务，这样牺牲了其并行度，发挥不了分布式并行处理的效果。

名称节点也叫主节点。它是整个HDFS集群的管家，可以理解为是数据库中的数据目录。而数据节点才是存储真实数据即元数据。

FSImage用于保存系统文件树（如文件的复制等级、修改和访问时间、访问权限、块大小以及组成文件的块等）。EditLog用于记录对数据进行的操作。

名称节点若出错则根据第二名称结点备份。

名称节点管家会定期检查数据节点是否坏掉，如坏掉则标志位宕机，然后将坏掉的数据节点中的数据迁移到另外一个数据节点上。这种做法有时也可以解决负载均衡问题。

总结：HDFS用块存文件内容，名称结点做管家只有通知功能不具备亲自上手功能，数据节点相当于工人真正在干活，管家中的FSImage用于存储信息在块的位置，EditLog记录操作，EditLog做记录肯定不断变大，第二名称结点则作为备份工人和垃圾回收工人，定期处理不断变大的EditLog。

HDFS如何减轻中心结点的负担？

当客户端需要访问一个文件时，首先把文件名发送给名称结点，名称结点根据文件名找到对应的数据块（一个文件可能包括多个数据块），再根据每个数据块信息找到实际存储各个数据库的数据节点的位置，并把数据节点位置发送给客户端，最后客户端直接访问这些数据节点获取数据，在整个访问过程中，名称节点并不参与数据的传输。名称节点启动成功并进入正常运行状态以后，HDFS的更新操作都会被写入到EditLog，而不是直接写入FSImage。第二名称结点可以完成EditLog与FSImage的合并操作，减小EditLog文件大小，缩短名称结点重启时间。

HDFS对于冗余数据的保存

HDFS默认的冗余复制因子是3。其中，有两份副本放在同一个机架的不同机器上面，第三个副本放在不同机架的机器上面，这样既可以保证机架发送异常时的数据恢复，也可以提高数据读写性能。一般而言，如果是在集群内发起写操作请求，则把第一个副本放置在发起写操作请求的数据结点上，实现就近写数据。如果是来自集群外部的写操作请求，则从集群内部挑选一台磁盘不太慢，CPU不太忙的数据结点作为第一个副本的存放地。

非关系型数据库NOSQL

关系数据库和NoSQL（非关系数据库）的比较

关系数据库

优势：以完善的关系代数理论作为基础，有严格的标准，支持ACID四大特性，借助索引机制可以实现高效的查询，技术成熟，有专业公司的技术支持。
劣势：可扩展性差，无法较好支持海量数据存储，数据规模过于死板，无法较好支持Web2.0应用，事务机制影响了系统的整体性能等。

NoSQL数据库

优势：可以支持超大规模的数据存储，灵活的数据模型可以很好地支持Web2.0应用，具有强大的横向扩展能力等。
劣势：缺乏数据理论支持，复杂查询性能不高，大都不能实现事务强一致性，很难实现数据完整性，技术尚不成熟，缺乏专业团队的技术支持，维护较困难等。

两者各有优缺点，彼此无法替代。

关系数据库应用场景：电信银行等领域的关键业务系统，需要保证强事务一致性。

NOSQL数据库应用场景：互联网企业、传统企业的非关键业务。

采用混合架构

亚马逊公司使用不同类型的数据库来支撑它的电子商务应用。
对于购物篮这种临时性数据，采用键值存储会更加高效
当前的产品和订单信息则适合存储在关系数据库中
大量的历史订单信息则适合保存在类似MongoDB这类文档数据库中。

NoSQL四大类型

文档数据库：以文档为数据库的最小单位，对文档以某种标准化格式封装，每个文档可能具有完全不同的结构，具有基于文档内容的索引和查询能力。如mongoDB。

图数据库：使用图作为数据模型来存储数据，可以高效地存储不同顶点之间的关系，专门用于处理具有高度相互关联关系的数据，可以高效地处理实体之间的关系。如InfiniteGraph。

键值数据库：使用键定位值，值对数据库而言是透明不可见的，不能对值进行索引和查询，只能通过键进行查询。如Redis。

列族数据库：采用列族数据模型，数据库由多个行构成，每行数据包含多个列族，不同的行可以具有不同数量的列族，属于同一列族的数据会被存放在一起。如HBase。

拓展：MongoDB

MongoDB简介

MongoDB是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统，在高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB特点

提供了一个面向文档存储，操作起来比较简单和容易
可以设置任何属性的索引，实现更快的排序
具有较好的水平可扩展性
支持丰富的查询表达式，可查询文档中内嵌的对象及数组
可体会已完成文档某个指定的数据字段
安装非常简单
MongDB中的MR主要是对数据进行批量处理和聚合操作

NoSQL的三大基石

三大基石：CAP、BASE、最终一致性

CAP：CAP指的是Consistency一致性、Availability可用性、Partition Tolerance分区容错率。CA最简单的做法是把所有的事务放在同一台机器上，但这种做法会严重影响系统的可扩展性。CP当出现网络分区的情况时，受影响的服务需要等待数据一致，因此在等待期间就无法对外提供服务。AP允许系统返回不一致的数据。

BASE：并非表示“基础”。而是指Basically Available、Soft state、Eventual consistency。其中Basically Available表示基本可用（一个分布式系统的一部分发生问题变得不可用时，其他部分仍然可以使用，允许分区失败的情形出现）。Soft state表示软状态（和一致性相反，状态可以有一段时间不同步，具有一定的滞后性）。Eventual consistency表示最终一致性（后续的访问操作可能暂时读不到更新后的数据，但最终必须能读到）。

拓展：事务的ACID四大特性

Atomicity原子性：事务必须是不可再分的，要么全执行，要么不执行。

Consistency一致性（硬状态）：所有的数据都应该在事务执行前后保持一致。

Isolation隔离性：事务之间互不影响

Durability持久性：事务完成之后对系统的影响是持久性的，即使发生故障。

最终一致性

根据更新数据后各进程访问到数据的时间和方式的不同，可以区分为以下几种：

因果一致性：如果进程A通知进程B它已经更新了一个数据项，那么进程B的后续访问将获得A写入的最新值。
“读己之所写”一致性：当进程A自己执行一个更新操作后，它自己总是可以访问自己更新过的值，不会看到旧值。
单调读一致性：如果进程已经看到过数据对象的某个值，那么任何后续访问，都不会返回在那个值之前的旧值。
会话一致性：它会把访问存储系统的这些进程放到会话的上下文进程当中，这时只要这些会话存储，系统就可以保证读己之所写一致性。
单调写一致性：系统需要保证来自同一个进程的写操作按顺序执行。

分布式数据库HBASE

Hbase简介

HBase是一个高可靠、高性能（可以支持PB级别的数据）、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表，其运行在HDFS或Alluxio（读音：/a’la’so/）之上。

拓展：BigTable

其架构于GFS之上，使用MapReduce作为数据处理，使用Chubby作为协同管理服务。

而HBase架构于HDFS之上，使用Hadoop MapReduce作为数据处理，使用Zookeeper作为协同管理服务。

Hbase和传统关系数据库的对比分析

HBase的出现原因：虽然已经有了HDFS和MapReduce，但是Hadoop主要解决大规模数据离线批量数据，没法满足大数据实时处理。

关系数据库：多种数据类型，使用传统的关系数据模型，非常多的数据操作，支持多表连接，基于行存储，可以构建多个索引提高查询效率，更新操作会覆盖旧值，很难实现横线扩展和纵向扩展。

HBase：只有字符串类型，有多种操作，但是要避免多表连接（表中数据过多，若多表连接时间复杂度很高），基于列存储，只有行键索引，更新时生成新版本保留旧版本，可以轻易在集群中增加或者减少硬件数量来实现性能的压缩。

Hbase数据模型

表：Hbase采用表来组织数据，表由行和列组成，列划分为若干个列族。

行：每个Hbase表由若干行组成，每个行有一个行键。

列族：一个Hbase表被分组成许多列族的集合，它是基本的访问控制单元。

列限定符（列）：列族里的数据通过列来定位。

单元格：在Hbase表中，通过行、列族和列限定符确定一个单元格，单元格存储的数据类型被视为字节数组byte[]。

时间戳：每个单元格都保存着同一份数据的多个版本，这些版本用时间戳进行索引。

总结：一言蔽之，行键确定行，列族确定大概方位，列确定具体列的位置，上面三者所确定的具体位置即为单元格，单元格可以多版本，确定版本可以用时间戳。

批处理和MapReduce

分布式并行编程

批处理计算：解决针对大规模数据的批量处理需求，MapReduce是最具有代表性和影响力的大数据批处理技术，用于大规模数据集的并行运算。

MR设计理念：计算向数据靠拢而非数据向计算靠拢（要完成一次数据分析时，选择一个计算节点，把运行数据分析的程序放到计算节点上运行，然后把它涉及的数据，全部从各个不同节点上面拉过来，传输到计算发生的地方）。

传统并行计算框架：使用共享内存并行计算模型，容错性差；使用刀片服务器、高速网、SAN、价格贵、扩展性差；编程难度高；适用于实时细粒度计算，属于计算密集型。

MR：使用非共享式并行计算模型，容错性好；普通PC机即可并行，扩展性好；编程简单；适用于非实时批处理计算，属于数据密集型。

扩展：MapReduce策略

其采用分而治之的策略，将非常大的数据集切分为非常多的独立的小分片，然后为每一个分片单独地启动一个map任务，最终通过多个map任务，并行地在多个机器上去处理。

Split

MR基本处理单位为Split。Split是为逻辑概念，只记录数据元信息，划分数据为多少个Split由用户自己决定。

扩展：MapReduce架构

MR采用Master/slave架构。MR中带有一个Master服务器和多个slave服务器，Master服务器带有一个作业跟踪器JobTracker，用于负责整个作业的调度和处理以及失败和恢复，而slave服务器带有负责具体任务执行的组件TaskTracker，TaskTracker主要负责接收JobTracker给它发的作业处理指令完成具体的任务处理。

如上，用户可以通过Client用户端提交用户编写的应用程序（也可以查看当前提交作业的运行状态），而后用户端提交作业给作业跟踪器，作业跟踪器指明作业的分配后，将作业交给TaskTracker去落实这个分配计划，而作业跟踪器则监督其是否落实。

Map和Reduce

MapReduce的任务被抽象为两个函数：Map和Reduce。其中Map的功能是将一个键值对输出分为一堆的键值对输出。至于要分为多少由用户决定，这是一个分片split的过程。而Reduce是一个汇总的过程，Map将一个任务分成多个子任务进行处理后，Reduce将结果进行简单求和。

如：输入<行号，”a,b,c”>则map后输出<”a”,1><”b”,1><”c”,1>。

如：输入<”a”,<1,1,1>>则Reduce后输出<”a”,3>

任务的数量

Map任务的数量

Hadoop为每个split创建一个Map任务，split的多少决定了Map任务的数目。大多数情况下，理想的分片大小是一个HDFS块。

Reduce的数量

最优的Reduce任务个数取决于急群中可用的reduce任务槽（Slot）的数目
通常设置比reduce任务槽数目小一些的Reduce任务个数（这样可以预留一些系统资源处理可能发生的错误）

注：MapReduce过程中用户无法参与，也无法从一台机器中发送消息给另一台。

拓展：MapReduce的执行过程

从HDFS中读取数据-》加载到InputFormat中-》用户指定Split大小进行逻辑分割-》转换为RR数据集-》进行Map，此时变为-》进行Shuffle-》进行Reduce，此时变为-》通过outputFormat输出结果-》写入HDFS

Shuffle过程

Shuffle就是指将Map后的数据进行分区、排序、合并、归并的过程，中文叫做洗牌。

从图中可以看出，Shuffle分为Map端的Shuffle和Reduce端的Shuffle。

MapShuffle

MapShuffle的过程是这样的：首先将数据转换为key-value的形式后切分为多个Map任务，一个map任务需要分配一定的缓存，一般默认100MB。一旦缓存过多，则启动溢写功能，将缓存中的数据通过分区、排序、合并后，需要通过归并形成一个大的文件放在本地磁盘。

注：溢写功能并非缓存达到100MB后才启动，否则后续源源不断的数据无处可放。故一般设置溢写比例为0.8。分区时，一般采用哈希函数，分区的作用是适配多个Reduce任务。排序后可以合并，合并就是如<”a”,1>,<”a”,1>变为<”a”,2>的过程，这样一些重复的键值对可以合并为一个，大大减少溢写到磁盘的数据量。需要注意的是，合并不是必须的，也就是说，要视具体问题来看，合并不能改变最终结果。文件归并时，如果溢写的文件数量大于预定值（默认是3）则可以再次启动Combiner合并，少于3则不需要（因为合并也是一个耗时的过程）。

ReduceShuffle

JobTracker作为作业监视器，一直在监视作业的情况。一旦Map过程处理完成，则Reduce端会被其通知来取走属于自己需要处理的一份，取走后进行合并(combine)和归并(merge)。

注：一个Reduce端可能处理来自多个map端的数据，一个map端可能产生多个Reduce端处理的数据。合并和归并也是不一样的，合并时<”a”,1><”a”,1>-><”a”,2>，归并时<”a”,<1,1>>。

MapReduce阶段

只有当Map处理全部结束后，Reduce过程才能开始
Map需要考虑数据局部性，Reduce无需考虑数据局部性

理解：WordCount的执行过程

WordCount简单来说就是词频统计，假设我们现在有三个字符串，那么通过map过程后，字符串就会被分割为多个键值对的形式。

这个时候Map输出后要经过Shuffle过程，Shuffle后就执行Reduce过程。

类序列化（JavaSE的知识补充）

当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。

Writable是Hadoop的序列化格式，Hadoop定义了这样一个Writable接口。一个类要支持可序列化只需实现这个接口即可。

数据仓库查询分析和Hive

Hive简介

Hive是一个构建在Hadoop顶层的数据仓库工具
依赖分布式文件系统HDFS存储数据
依赖分布式并行计算模型MapReduce处理数据
借鉴SQL语言设计了新的查询语言HiveQL
用户可以通过编写的HiveQL语句运行MapReduce任务
支持类似SQL的接口，很容易进行移植

总结：Hive是一个可以提供有效合理直观组织和使用数据的分析工具。

Hive特性

采用批处理方式处理海量数据

Hive提供了一系列对数据进行提取、转换、加载ETL的工具

Hive与传统数据库的对比分析

Hive的用户体验在很多方面和传统的关系数据库相似，但是它底层依赖的是HDFS和MapReduce，所以在很多方面又有别于传统数据库。

Hive中SQL查询转换为MR作业的过程

输入SQL-》转换为抽象语法树-》转换为查询块-》转换为逻辑查询计划-》重写逻辑查询计划-》转为物理查询计划-》选择最优查询策略

基于内存计算的Spark

Spark简介

2013年，Spark加入Apache孵化器项目后发展迅猛，如今已经成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）。

注：Hadoop是离线批处理框架，Spark是基于内存计算的实时数据分析框架，Storm是数据流分析框架。

Spark特点

运行速度快：使用DAG执行引擎以支持循环数据流和内存计算。
容易使用：支持使用Scala、java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程。
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件。
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等。

Scala简介

Scala是一门现代的多范式编程语言，运行于Java平台，并兼容现有的Java

程序。

注：多范式指的是可以支持多种编程风格，如函数式编程、面向对象编程。

Scala特性

Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
Scala语法简洁，能提供优雅的API
Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中
Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言
Scala的优势是提供了REPL即交互式解释器来提高开发效率

Spark和Hadoop的对比

Hadoop的缺点

表达能力有限；并非所有的应用都可以使用MapReduce编程范式
磁盘IO开销大；在Map的Shuffle过程中需要将数据写入磁盘
延迟高；Task以进程的方式维护，需要数秒时间才能启动任务
在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务

Spark相对于Hadoop MR的优点

Spark的计算模式借鉴了MR又不同于MR，除了Map和Reduce之外还提供了多种数据集操作类型，编程模型比Hadoop的MR更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运行效率更高
Spark基于DAG的任务调度执行机制，要由于Hadoop的MR迭代执行机制
Task以线程的方式维护，对于小数据集读取可以达到亚秒级的延迟

Spark的基本概念

RDD(Resillient Distributed Dataset,弹性分布式数据集)：一种高度受限的共享内存模型，是一个分布式对象集合，本质上是一个只读的分区记录集合，不同分区可以被保存到集群中不同的结点上，从而可以进行分布式计算

DAG(Directed Acyclic Graph，有向无环图)：反映了RDD之间的依赖关系

Stage：是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，也可以叫TaskSet，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

拓展：其他概念以及概念的关系

Executor：是运行在工作结点的一个进程，负责运行Task

Application：用户编写的Spark应用程序

Task：运行在Executor上的工作单元

Job：一个Job包含多个RDD及作用于相应RDD上的各种操作

当执行一个Application时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行Task，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中

RDD的运行原理

设计背景

许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，共同之处是，不同计算机阶段之间重用中间结果。

目前的MR框架都是把中间结果写入到HDFS中，带来的大量的数据复制、磁盘IO和序列化开销

RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同RDD之间的转换形成依赖关系，可以实现管道化，避免中间数据存储。

RDD概念

一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。
RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，不能直接修改，只能基于稳定的物理存储中的数据集创建RDD，或者通过在其他RDD上执行确定的转换操作而创建得到新的RDD。
RDD提供了一组丰富的操作以支持常见的数据运行，分为动作（Action）和转换（Transformation）两种类型
RDD提供的转换接口都非常简单，都是类似map、filter、groupBy、join等粗粒度的数据转换操作，而不是针对某个数据项的细粒度修改（不适合网页爬虫）。
表面上RDD的功能很受限、不够强大，实际上RDD已经被实践证明可以高效地表达许多框架的编程模型（比如MR、SQL、Pregel）。
Spark用Scala实现了RDD的API，程序员可以通过调用API实现对RDD的各种操作。

RDD的执行过程

RDD读入外部数据源进行创建
RDD经过一系列的转换操作，每一次都会产生不同的RDD，并供给下一个转换操作使用
最后一个RDD经过动作操作进行转换，并输出到外部数据源

以上一系列操作被称为一个Lineage（血缘关系），即DAG拓扑排序的结果。这样做的优点是惰性调用、管道化（流水线化）、避免同步等待、不需要保存中间结果、每次操作变得简单。

拓展：RDD特性

高效的容错性

现有容错机制：数据复制或者记录日志
RDD天生的容错性：可以根据血缘关系重新计算丢失分区、无需回滚

中间结果持久化到内存中，数据在内存中的多个RDD操作之间进行传递，避免了不必要的读写磁盘开销

存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化

阶段的划分

窄依赖可以实现流水线优化
宽依赖无法实现流水线优化

拓展：窄依赖、宽依赖和Stage的划分

窄依赖就是父RDD分区和子RDD分区表现为一对一或多对一

宽依赖就是父RDD分区和子RDD分区表现为一对多

Stage的划分方式是:在DAG中进行反向解析，遇到宽依赖就断开，遇见窄依赖就把当前的RDD加入到Stage中，尽量将窄依赖划分在同一个Stage，这样可以实现流水线计算，从而使得数据可以直接在内存中进行交换，避免了磁盘IO开销

如A中的分区，由于A到B为宽依赖，故B断开不再Stage1中。而C到D属于窄依赖，故D存在于Stage2中，F亦是，直到F到G为宽依赖，此时G不存在于Stage2中。

Hadoop和Spark的联合部署

由于Hadoop生态系统中的一些组件实现的功能，目前还是无法由Spark取代，比如Storm，现有的Hadoop组件开发的应用，完全转移到Spark上需要一定的成本。

拓展：不同角度的Spark部署方式

角度一

方式一：Standalone

这种方式类似于MR1.0，Slot为资源分配单元。

方式二：Spark on Mesos

Mesos和Spark具有血缘关系，官方推荐部署方式

方式三：Spark on Yarn

角度二

Hadoop+Storm联合部署

部署较繁琐，但是是企业常用的部署方式

Spark一站式部署（只用Spark）

实现一键式安装和配置、线程级别的任务监控和警告
降低硬件集群、软件维护、任务监控和应用开发的难度
便于做成统一的硬件、计算平台资源池
需要说明的是，Spark Streaming无法实现毫秒级的流计算，因此，对于需要毫秒级实时响应的企业应用而言，仍然需要采用流计算框架（如Storm）

Hadoop+Spark联合部署

这种部署方式对应角度1的方式3。将多种计算框架统一运行在YARN之上，这种部署方式在新时代下替代了Hadoop+Storm联合部署。这样可以做到如下好处：

计算资源按需伸缩
不用负载应用混搭，集群利用率高
共享底层存储，避免数据跨集群迁移

流计算和Flink

基本概念

静态数据：一言蔽之就是非实时数据；很多企业为了支持决策分析都会构建数据仓库系统，其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息
流数据：一言蔽之就是实时数据；大数据分析中的重要数据类型，指在时间分布和数量上无限的一系列动态数据集合体，数据的价值随着时间的流逝而降低，因此必须采用实时计算的方式给出秒级响应。

对静态数据和流数据采用两种不同的计算方式

批量计算：充裕时间处理静态数据，如Hadoop

实时计算：即流计算；实时获取来自不同数据源的海量数据经过实时分析处理，获得有价值的信息。

注：流数据不适合采用批量计算，因为流数据不适合用传统关系模型建模。流数据必须采用实时计算，因为实时计算响应时间为毫秒级。数据量少时，不是问题，但是，在大数据时代，数据格式复杂、来源众多、数据量巨大，对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算应运而生。

流计算

流计算秉承一个及基本理念，即数据的价值随着时间的流逝而降低，如用户点击流。因此，当事件出现时就应该立即进行处理，而不是缓存起来进行批量处理。为了及时处理流数据，就需要一个低延迟、可扩展、高可靠的处理引擎。也就是说，一个流计算系统应该达到如下要求：

高性能：处理大数据的基本要求，如每秒处理几十万条数据
海量式：支持TB级甚至是PB级别的数据规模
实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别
分布式：支持大数据的基本架构，必须能够平滑扩展
易用性：能够快速进行开发和部署
可靠性：能可靠地处理流数据

Storm简介

Twitter Storm是一个免费、开源的分布式实时计算系统，Storm对于实时计算的意义类似于Hadoop对于批处理的意义，Storm可以简单、高效、可靠地处理流数据，并支持多种编程语言
Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统

Storm设计思想

Storm主要术语包括Streams、Spouts、Bolts、Topology和StreamGroupings

Streams

Storm将流数据Stream描述成一个无限的Tuple序列，这些Tuple序列会以分布式的方式并行地创建和处理
每个Tuple是一堆值，每个值有一个名字，并且每个值可以是任何类型。
Tuple本来应该是一个Key-Value的Map，由于各个组件间传递的tuple的字段名称已经事先定义好了，所以Tuple只需要按序列填入各个Value，所以就是一个Value List（值列表）

Spout

Storm认为每个Stream都有一个源头，并把这个源头抽象为Spout
通常Spout会从外部数据源读取数据，然后封装成Tuple形式，发送到Stream中。Spout是一个主动的角色，在接口内部有个nextTuple函数，Storm框架会不停地调用该函数

Bolt

Storm将Streams的状态转换过程抽象为Bolt。Bolt即可以处理Tuple，也可以处理后的Tuple作为新的Streams发送给其他Bolt
Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
Bolt是一个被动的角色，其接口中有一个execute方法，在接收到消息之后会调用此函数，用户可以在此方法中执行自己的处理逻辑

Topology

Storm将Spouts和Bolts组成的网络抽象为Topology，它可以被提交到Storm集群执行。Topology可视为流转换图，图中结点是一个Spout或Bolt，边则表示Bolt订阅了哪个Stream。当Spout或者Bolt发送元组时，它会把元组发送到每个订阅了该Stream的Bolt上进行处理。
Topology里面的每个处理组件都包含处理逻辑，而组件之间的连接则表示数据流动的方向。
Topology里面的每一个组件都是并行运行的
在Topology里面可以指定每个组件的并行度，Storm会在集群里面分配那么多的线程来同时计算
在Topology的具体实现上，Storm中的Topology定义仅仅是一些Thrift结构体（二进制高性能的通信中间件），支持各种编程语言进行定义。

拓展：一些难点

一个Streams（流数据）输入进来就像小溪一样，被Storm这个框架所处理。其中小溪的源头我们叫做Spout，当然，Storm可以同时处理多条小溪。

Streams在我们看起来像是小溪，而在Storm看来实际上是一个Tuple传送带，或者说，Streams是一条装有无限个tuple的小溪，所有的小tuple构成大Tuple。

Tuple本来可以看做是许多个，但是由于tuple的key通常都是约定好的，故通常我们说每个tuple实际上就是一个装value的容器罢了。

也就是说，Tuple不是…而是可以看做是v1,v2…，也就是一个list列表。

Spout不仅是源头，你更可以看做是一个主动吸数据的源头（使用nextTuple来主动吸入），它将元数据不断地吸入，然后将它们转换为能够在Stream上流动的Tuple形式，发送到Stream上。

Blot可以看做是小溪的分支处，明显此时小溪分出支流是被动的。被分开的小溪形成了n条新的Stream。

在Blot所在的分支处还可以对Tuple做各种操作。

Topology可以理解为是Storm流程的一个思维导图。也就是说它不去考虑细节，其把整个处理的流程抽象为一张图，提交给Storm框架。

Spark Streaming设计

Spark Streaming最主要的抽象是DStream，即将连续的数据流按照时间片（如一段一秒）拆分为离散的数据流，每一段数据转换为Spark的RDD，并且对DStream的操作都最终转变为相应的RDD操作。（这实际上借鉴了操作系统中的时间片轮转法）。

Spark Streaming和Storm的对比

两者最大的区别在于，Spark Streaming无法实现毫秒级的流计算，而Storm可以实现。

Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎可以用于实时计算，另一方面，相比于Storm，RDD数据集更容易做高效的容错处理

Spark Streaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法，因此，方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Spark Streaming和Storm的应用场景

从编程的灵活性来讲，Storm是比较理想的选择，它使用Apache Thrift，可以用任何编程语言来编写拓扑结构。

当需要在一个集群中把流计算和图计算、机器学习、SQL查询分析等进行结合时，可以选择Spark Streaming，因为在Spark上可以统一部署SparkSQL，Spark Streaming、MLlib、GraphX等组件，提供便捷的一体化编程模型

大部分应用场景都不需要毫秒级的响应，因此SparkStreaming在企业还是比较流行，Spark Streaming无法实现毫秒级的流计算，当需要使用毫秒级的流计算时，人们也会选择流行的Flink而非过时的Storm。

Spark流计算组件的演进和Structured Streaming

Spark2.0之前，使用Spark Streaming，基于RDD的数据抽象
Spark2.0之后，新增了Structured Streaming，基于DataFrame的数据抽象，采用“微批次模式”
Structured Streaming在Spark2.0中只是测试版本，2.2版本时才正式发布
2018年2月28日，Spark2.3重磅发布，新版本Structured Streaming引入了持续流式处理模式，可以将流处理延迟降低至毫秒级别，与Flink一较高下

为什么设计Structured Streaming

重新抽象了流式计算
易于实现数据的exactly。2.0之前的Spark Streaming只能做到at-least once，框架层次很难帮你做到exactly-once。现在在通过重新设计流式计算框架，使得实现exactly-once变得容易了

Flink简介

Flink是Apache软件基金会的一个顶级项目，是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架，并且可以同时支持实时计算和批量计算。
Flink具有十分强大的功能，可以支持不同类型的应用程序。Flink的主要特性包括：批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。
Flink不仅可以运行包括yarn、Mesos、Kubernetes等在内的多种资源管理框架上，还支持在裸机集群上独立部署。在启用高可用选项的情况下，它不存在单点失效的问题。
事实证明，Flink已经可以扩展到数千核心，其状态可以达到TB级别，且仍能保持高吞吐、低延迟的特性。世界各地有很多要求严苛的流处理应用都运行在Flink之上。

Flink是理想的流计算框架

流处理架构需要具备低延迟、高吞吐和高性能的特性，而目前从市场上已有的产品来看，只有Flink可以满足需求。
Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态
Spark Streaming通过采用微批处理方法实现了高吞吐和容错性，但是牺牲了低延迟和实时处理能力
Flink实现了Google DataFlow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理。此外，Flink支持高度容错的状态管理，防止状态在计算过程中因为系统异常而出现丢失。因此，Flink就成为了能够满足流处理架构要求的理想的流计算框架。

Kafka消息队列

Kafka（读音：/kfuke/）是一种高吞吐量的分布式发布订阅消息系统，用户通过Kafka系统可以发布大量消息，同时也能实时订阅消费消息。
Kafka可以同时满足在线实时处理和批量离线处理。
在公司的大数据生态系统中，可以把Kafka作为数据交换枢纽，不同类型的分布式系统，可以统一接入到Kafka，实现和Hadoop各个组件之间的不同类型数据的实施高效交换。

图计算和PREGEL

图结构数据

许多大数据都是以大规模图或网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响。
许多非图结构的大数据，也常常会被转换为图模型后进行分析
图数据结构很好地表达了数据之间的关联性
关联性计算时大数据计算的核心——通过获得数据的关联性，可以从噪声很多的海量数据中抽取有用的信息

图计算通用软件

一次BSP(Bulk Synchronous Parallel Computing Model,“大同步”模型)计算过程包括一系列全局超步（所谓的超步就是计算中的一次迭代），每个超步主要包括三个组件：

局部计算：每个参与的处理器都有自身的计算任务，它们只读取存储在本地内存中的值，不同处理器的计算任务都是异步并且独立的。

通讯：处理器群相互交换数据，交换的方式是，由一方发起推送(put)和获取(get)操作。

栅栏同步：当一个处理器遇到“路障”，会等到其他所有处理器完成它们的计算步骤；每一次同步也是一个超步的完成和下一个超步的开始。

Pregel简介

谷歌公司在2003年到2004年公布的GFS、MR、BigTable，称为后来云计算和Hadoop项目的重要基石。
谷歌在后Hadoop时代的新三驾马车——Caffeine(帮助谷歌快速实现大规模网页索引的构建)、Dremel（实时交互分析产品，支持分析PB级别的数据）、Pregel再一次影响着圈子与大数据技术的发展潮流。
Pregel是一种基于BSP模型实现的并行图处理系统。为了解决大型图的分布式计算问题，Pregel搭建了一套可扩张的、有容错机制的平台，该平台提供了一套非常灵活的API，可以描述各种各样的图计算。Pregel作为分布式图计算的计算框架，主要用于图遍历、最短路径、PageRank计算。

Pregel图计算模型

Pregel计算模型以有向图作为输入
有向图的每个顶点都有一个String类型的顶点ID
每个顶点都有一个可修改的用户自定义值与之关联
每条有向边都和其源顶点关联，并记录了其目标顶点ID
边上有一个可修改的用户自定义值与之关联

顶点之间的消息传递

采用消息传递模型主要基于以下两个原因：

消息传递具有足够的表达能力，没有必要使用远程读取或共享内存的方式

有助于提升系统整体性能。大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟；Pregel的消息模式采用异步和批量的方式传递消息，因此可以缓解远程读取的延迟。

Hadoop常用命令总结

启动Hadoop所有进程

start-all.sh #等价于下列两条指令

start-dfs.sh #启动分布式文件系统

start-yarn.sh #启动资源管理系统

注：一般不推荐使用start-all.sh来启动，因为开源框架中内部命令有很多问题。

对HDFS的文件操作

注：由于是对Hdfs操作，故命令基本上前面都带有hdfs dfs，后面跟的基本上都是一些linux指令，大同小异不过多赘述，以下列举一些常用的。

查看指定目录下内容

hdfs dfs -cat [file_path]

将本地文件或文件夹存储到hadoop

hdfs dfs -put [本地地址/目录] [hadoop目录]

将hadoop上某个文件down至本地已有目录下

Hadoop dfs -get [文件目录] [本地目录]

删除hadoop上指定文件或文件夹

hdfs dfs -rm [文件地址/文件夹地址]

在hadoop指定目录内创建新目录

hdfs dfs -mkdir -p /user/[目录名]

在hadoop指定目录下新建一个空文件

hdfs dfs -touchz /user/[文件名]

重命名Hadoop上某个文件

hdfs dfs -mv /user/[文件地址]

杀死hadoop作业

Hadoop job -kill [job-id]

查看帮助

hdfs dfs -help

查看HDFS支持的所有命令

hdfs dfs

Hadoop框架控制

节点添加

添加一个新的DataNode节点，先在新加节点上安装好Hadoop，要和NameNode使用相同的配置（可以直接从NameNode复制），修改HADOOPHOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改HADOOP_HOME/conf/slaves文件，加入新节点名，再建立新加节点无密码的SSH连接，运行启动命令为：/usr/local/hadoop$bin/start-all.sh

负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀，尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布：/usr/local/hadoop$bin/start-balancer.sh

退出安全模式

NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态，在这个阶段，文件系统不允许有任何修改。

系统显示Name node in safe mode，说明系统正处于安全模式，这时只需要等待几十秒即可，也可通过下面的命令退出安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

进入安全模式

在必要情况下，可以通过以下命令把HDFS置于安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

你可能感兴趣的:(大数据,hadoop,大数据,分布式)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST