m0_67403240

Hadoop总结

大数据概述

Hadoop大数据开发平台

资源管理YARN

分布式文件系统HDFS

非关系型数据库NOSQL

分布式数据库HBASE

批处理和MapReduce

数据仓库查询分析和Hive

基于内存计算的Spark

流计算和Flink

图计算和PREGEL

Hadoop常用命令总结

大数据概述

大数据的4V：大量化、快速化、多样化、价值密度低。

大数据对思维方式的影响：颠覆了传统的思维方式——全样而非抽样、效率而非精确、相关而非因果

大数据对科学研究的影响：实验、理论、计算、数据

三次信息化浪潮

第一次——1980——个人计算机为标志——解决信息处理——Intel、AMD、IBM

第二次——1995——互联网——信息传输——雅虎、谷歌

第三次——2010——物联网、云计算和大数据——信息爆炸——亚马逊、美团

信息科技为大数据提供的技术

存储设备容量增加、成本降低
CPU性能提升
网络带宽增加、终端数目增加

数据变革阶段

运营式系统阶段、用户原创内容阶段、感知式系统阶段。

大数据发展三个阶段

萌芽期（第一）：20世纪90年代至21世纪初——随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识管理技术开始被应用。如数据仓库、专家系统、知识管理系统等。

成熟期（第二）：21世纪第一个十年——Web2.0应用迅速发展，非结构化数据大量产生，传统处理方法难以应对，带动了大数据技术的快速突破，大数据解决方案逐渐走向成熟，GFS和MapReduce等大数据技术受到追捧，Hadoop平台开始崭露头角。

大规模应用期（第三）：2010年以后——大数据应用渗透各行各业，数据驱动决策，信息社会智能化程度大幅提高。

Hadoop大数据开发平台

谷歌2004年“三驾马车”处理海量数据问题：GFS分布式文件系统、MapReduce大数据分布式计算框架、NoSQL数据库系统BigTable

大数据两个核心技术：分布式存储、分布式处理

分布式存储

文件系统：HDFS
NoSQL：HBase、MongoDB
消息系统：Kafka

分布式处理

批处理计算：MapReduce、Spark
流计算：Storm，Flink
图计算：Pregel
查询分析计算：Hive、Impala

Hadoop：是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，

Hadoop****特性：高扩展、高效性、高可靠、高容错、成本低。

Hadoop****生态：

Zookeeper：分布式协调服务
Hbase：分布式数据库
Ambari：安装部署工具
Oozie：作业流调度系统
MapReduce：离线计算
Tez：DAG计算
Spark：内存计算
yean：资源调度管理
HDFS：分布式存储系统
Sqoop：数据库TEL工具
Flume：日志收集

Hadoop****三种安装模式

单机模式：一台机器上运行。（真正单机）

伪分布式模式：一台机器上模拟一个小集群，依赖SSH，需要初始化文件系统，本地的input文件夹和HDFS的input文件夹都在同一台机器上，并不需要通过网络传输数据。（单机装多机）

完全分布式模式：存储采用分布式文件系统HDFS，而且HDFS的名称结点和数据结点位于不同机器上。（真正多机）

伪分布式安装

Hadoop进程可以分离的多个Java进程来运行
单结点，既作为NameNode也作为DataNode
Hadoop配置文件位于/uhadoop/etc/hadoop/中，伪分布式需要修改配置文件core-site.xml和hdfs-site.xml
Hadoop的配置文件是xml格式，每个配置以声明property的name和value来实现

伪分布式安装是在一个单机上模拟一个分布式的环境，启动Hadoop时，HDFS和yarn都将启动。其中HDFS包括Namenode、Datanode、SecondaryNamenode。Yarn包括Resourcemanager、Nodemanager。伪分布式具备Hadoop的主要功能。

伪分布式用途：常用于调试程序

Hadoop****的版本

Hadoop2.0****三大主要部分：HDFS、MapReduce、yarn。其中HDFS包括NN Federation和HA；MapReduce运行于Yean之上。

1.0****到2.0版本差异：

资源管理YARN

yarn——2.0的资源调度框架

MapReduce1.0既是一个计算框架，也是一个资源管理调度框架。到了Hadoop2.0后，其资源调度功能被分离形成Yarn，而被剥离了资源调度功能的MapReduce1.0变为2.0，只拥有计算功能。

总结：Yarn是纯粹的资源调度框架，MR2.0是纯粹的计算框架。

yarn的调度策略

先进先出——队列
容器——多队列——资源使用量小、优先级高的先执行；最大化吞吐量和利用率
公平——多队列——公平调度算法，支持资源抢占，确保平均而言所有作业获得等量的资源

yarn的目标就是实现一个集群多个框架。即在一个集群上部署一个统一的资源调度框架yean，在yean之上可以部署其他各种计算框架。

yarn好处

yarn为这些计算框架提供统一的资源调度管理服务，并且能够根据各种计算框架的负载需求，调整各自占用的资源，实现集群资源共享和资源弹性收缩。
其可以实现一个集群上的不同应用负载混搭，有效提高了集群的利用率
不同计算框架可以共享底层存储，避免了数据集跨集群移动

分布式文件系统HDFS

分布式文件系统

分布式文件系统指通过网络实现文件在多台主机上进行分布式存储的文件系统，一般采用“客户机/服务器”(CS)模式，客户端以特定的通信协议通过网络与服务器建立连接，提出文件访问请求，如GFS和HDFS。

注：分布式文件系统是大集合，HDFS是子集。

HDFS目标

兼容廉价的硬件设备
流数据读写
大数据集
简单的文件模型
强大的跨平台兼容性

HDFS局限性

不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件

HDFS存储的好处

加快数据传输速度
很容易检查数据错误
保证数据可靠性

HDFS构造

块（HDFS的核心概念）：HDFS默认一个块64MB，一个文件被分成多个块，以块作为存储单位。

名称结点(NameNode)：负责管理分布式文件系统的命名空间，用两个文件保存了两个核心的数据结构（FSImage和EditLog）。

数据结点(DataNode)：负责数据的存储和读取，会根据客户端或者是名称结点的调度来进行数据的存储和检索，并且向名称结点定期发送自己所存储的块的列表

第二名称结点（****SecondaryNamenode）：用来保存名称结点对HDFS元数据信息的备份，并减少名称结点重启的时间。

注：一个机架上可以放一个名称节点、多个数据节点。

拓展：

块的默认大小是64MB，但是也可以128MB。HDFS中的块比一般普通文件系统的块大很多。之所以设计成一块一块是因为HDFS是面向大规模数据存储，且降低分布式节点的寻址开销。但是块不是越大越好，如果块过大会导致MapReduce才执行一两个任务，这样牺牲了其并行度，发挥不了分布式并行处理的效果。

名称节点也叫主节点。它是整个HDFS集群的管家，可以理解为是数据库中的数据目录。而数据节点才是存储真实数据即元数据。

FSImage用于保存系统文件树（如文件的复制等级、修改和访问时间、访问权限、块大小以及组成文件的块等）。EditLog用于记录对数据进行的操作。

名称节点若出错则根据第二名称结点备份。

名称节点管家会定期检查数据节点是否坏掉，如坏掉则标志位宕机，然后将坏掉的数据节点中的数据迁移到另外一个数据节点上。这种做法有时也可以解决负载均衡问题。

总结：HDFS用块存文件内容，名称结点做管家只有通知功能不具备亲自上手功能，数据节点相当于工人真正在干活，管家中的FSImage用于存储信息在块的位置，EditLog记录操作，EditLog做记录肯定不断变大，第二名称结点则作为备份工人和垃圾回收工人，定期处理不断变大的EditLog。

HDFS如何减轻中心结点的负担？

当客户端需要访问一个文件时，首先把文件名发送给名称结点，名称结点根据文件名找到对应的数据块（一个文件可能包括多个数据块），再根据每个数据块信息找到实际存储各个数据库的数据节点的位置，并把数据节点位置发送给客户端，最后客户端直接访问这些数据节点获取数据，在整个访问过程中，名称节点并不参与数据的传输。名称节点启动成功并进入正常运行状态以后，HDFS的更新操作都会被写入到EditLog，而不是直接写入FSImage。第二名称结点可以完成EditLog与FSImage的合并操作，减小EditLog文件大小，缩短名称结点重启时间。

HDFS对于冗余数据的保存

HDFS默认的冗余复制因子是3。其中，有两份副本放在同一个机架的不同机器上面，第三个副本放在不同机架的机器上面，这样既可以保证机架发送异常时的数据恢复，也可以提高数据读写性能。一般而言，如果是在集群内发起写操作请求，则把第一个副本放置在发起写操作请求的数据结点上，实现就近写数据。如果是来自集群外部的写操作请求，则从集群内部挑选一台磁盘不太慢，CPU不太忙的数据结点作为第一个副本的存放地。

非关系型数据库NOSQL

关系数据库和NoSQL（非关系数据库）的比较

关系数据库

优势：以完善的关系代数理论作为基础，有严格的标准，支持ACID四大特性，借助索引机制可以实现高效的查询，技术成熟，有专业公司的技术支持。
劣势：可扩展性差，无法较好支持海量数据存储，数据规模过于死板，无法较好支持Web2.0应用，事务机制影响了系统的整体性能等。

NoSQL数据库

优势：可以支持超大规模的数据存储，灵活的数据模型可以很好地支持Web2.0应用，具有强大的横向扩展能力等。
劣势：缺乏数据理论支持，复杂查询性能不高，大都不能实现事务强一致性，很难实现数据完整性，技术尚不成熟，缺乏专业团队的技术支持，维护较困难等。

两者各有优缺点，彼此无法替代。

关系数据库应用场景：电信银行等领域的关键业务系统，需要保证强事务一致性。

NOSQL数据库应用场景：互联网企业、传统企业的非关键业务。

采用混合架构

亚马逊公司使用不同类型的数据库来支撑它的电子商务应用。
对于购物篮这种临时性数据，采用键值存储会更加高效
当前的产品和订单信息则适合存储在关系数据库中
大量的历史订单信息则适合保存在类似MongoDB这类文档数据库中。

NoSQL四大类型

文档数据库：以文档为数据库的最小单位，对文档以某种标准化格式封装，每个文档可能具有完全不同的结构，具有基于文档内容的索引和查询能力。如mongoDB。

图数据库：使用图作为数据模型来存储数据，可以高效地存储不同顶点之间的关系，专门用于处理具有高度相互关联关系的数据，可以高效地处理实体之间的关系。如InfiniteGraph。

键值数据库：使用键定位值，值对数据库而言是透明不可见的，不能对值进行索引和查询，只能通过键进行查询。如Redis。

列族数据库：采用列族数据模型，数据库由多个行构成，每行数据包含多个列族，不同的行可以具有不同数量的列族，属于同一列族的数据会被存放在一起。如HBase。

拓展：MongoDB

MongoDB简介

MongoDB是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统，在高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB特点

提供了一个面向文档存储，操作起来比较简单和容易
可以设置任何属性的索引，实现更快的排序
具有较好的水平可扩展性
支持丰富的查询表达式，可查询文档中内嵌的对象及数组
可体会已完成文档某个指定的数据字段
安装非常简单
MongDB中的MR主要是对数据进行批量处理和聚合操作

NoSQL的三大基石

三大基石：CAP、BASE、最终一致性

CAP：CAP指的是Consistency一致性、Availability可用性、Partition Tolerance分区容错率。CA最简单的做法是把所有的事务放在同一台机器上，但这种做法会严重影响系统的可扩展性。CP当出现网络分区的情况时，受影响的服务需要等待数据一致，因此在等待期间就无法对外提供服务。AP允许系统返回不一致的数据。

BASE：并非表示“基础”。而是指Basically Available、Soft state、Eventual consistency。其中Basically Available表示基本可用（一个分布式系统的一部分发生问题变得不可用时，其他部分仍然可以使用，允许分区失败的情形出现）。Soft state表示软状态（和一致性相反，状态可以有一段时间不同步，具有一定的滞后性）。Eventual consistency表示最终一致性（后续的访问操作可能暂时读不到更新后的数据，但最终必须能读到）。

拓展：事务的ACID四大特性

Atomicity原子性：事务必须是不可再分的，要么全执行，要么不执行。

Consistency一致性（硬状态）：所有的数据都应该在事务执行前后保持一致。

Isolation隔离性：事务之间互不影响

Durability持久性：事务完成之后对系统的影响是持久性的，即使发生故障。

最终一致性

根据更新数据后各进程访问到数据的时间和方式的不同，可以区分为以下几种：

因果一致性：如果进程A通知进程B它已经更新了一个数据项，那么进程B的后续访问将获得A写入的最新值。
“读己之所写”一致性：当进程A自己执行一个更新操作后，它自己总是可以访问自己更新过的值，不会看到旧值。
单调读一致性：如果进程已经看到过数据对象的某个值，那么任何后续访问，都不会返回在那个值之前的旧值。
会话一致性：它会把访问存储系统的这些进程放到会话的上下文进程当中，这时只要这些会话存储，系统就可以保证读己之所写一致性。
单调写一致性：系统需要保证来自同一个进程的写操作按顺序执行。

分布式数据库HBASE

Hbase简介

HBase是一个高可靠、高性能（可以支持PB级别的数据）、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表，其运行在HDFS或Alluxio（读音：/a’la’so/）之上。

拓展：BigTable

其架构于GFS之上，使用MapReduce作为数据处理，使用Chubby作为协同管理服务。

而HBase架构于HDFS之上，使用Hadoop MapReduce作为数据处理，使用Zookeeper作为协同管理服务。

Hbase和传统关系数据库的对比分析

HBase的出现原因：虽然已经有了HDFS和MapReduce，但是Hadoop主要解决大规模数据离线批量数据，没法满足大数据实时处理。

关系数据库：多种数据类型，使用传统的关系数据模型，非常多的数据操作，支持多表连接，基于行存储，可以构建多个索引提高查询效率，更新操作会覆盖旧值，很难实现横线扩展和纵向扩展。

HBase：只有字符串类型，有多种操作，但是要避免多表连接（表中数据过多，若多表连接时间复杂度很高），基于列存储，只有行键索引，更新时生成新版本保留旧版本，可以轻易在集群中增加或者减少硬件数量来实现性能的压缩。

Hbase数据模型

表：Hbase采用表来组织数据，表由行和列组成，列划分为若干个列族。

行：每个Hbase表由若干行组成，每个行有一个行键。

列族：一个Hbase表被分组成许多列族的集合，它是基本的访问控制单元。

列限定符（列）：列族里的数据通过列来定位。

单元格：在Hbase表中，通过行、列族和列限定符确定一个单元格，单元格存储的数据类型被视为字节数组byte[]。

时间戳：每个单元格都保存着同一份数据的多个版本，这些版本用时间戳进行索引。

总结：一言蔽之，行键确定行，列族确定大概方位，列确定具体列的位置，上面三者所确定的具体位置即为单元格，单元格可以多版本，确定版本可以用时间戳。

批处理和MapReduce

分布式并行编程

批处理计算：解决针对大规模数据的批量处理需求，MapReduce是最具有代表性和影响力的大数据批处理技术，用于大规模数据集的并行运算。

MR设计理念：计算向数据靠拢而非数据向计算靠拢（要完成一次数据分析时，选择一个计算节点，把运行数据分析的程序放到计算节点上运行，然后把它涉及的数据，全部从各个不同节点上面拉过来，传输到计算发生的地方）。

传统并行计算框架：使用共享内存并行计算模型，容错性差；使用刀片服务器、高速网、SAN、价格贵、扩展性差；编程难度高；适用于实时细粒度计算，属于计算密集型。

MR：使用非共享式并行计算模型，容错性好；普通PC机即可并行，扩展性好；编程简单；适用于非实时批处理计算，属于数据密集型。

扩展：MapReduce策略

其采用分而治之的策略，将非常大的数据集切分为非常多的独立的小分片，然后为每一个分片单独地启动一个map任务，最终通过多个map任务，并行地在多个机器上去处理。

Split

MR基本处理单位为Split。Split是为逻辑概念，只记录数据元信息，划分数据为多少个Split由用户自己决定。

扩展：MapReduce架构

MR采用Master/slave架构。MR中带有一个Master服务器和多个slave服务器，Master服务器带有一个作业跟踪器JobTracker，用于负责整个作业的调度和处理以及失败和恢复，而slave服务器带有负责具体任务执行的组件TaskTracker，TaskTracker主要负责接收JobTracker给它发的作业处理指令完成具体的任务处理。

如上，用户可以通过Client用户端提交用户编写的应用程序（也可以查看当前提交作业的运行状态），而后用户端提交作业给作业跟踪器，作业跟踪器指明作业的分配后，将作业交给TaskTracker去落实这个分配计划，而作业跟踪器则监督其是否落实。

Map和Reduce

MapReduce的任务被抽象为两个函数：Map和Reduce。其中Map的功能是将一个键值对输出分为一堆的键值对输出。至于要分为多少由用户决定，这是一个分片split的过程。而Reduce是一个汇总的过程，Map将一个任务分成多个子任务进行处理后，Reduce将结果进行简单求和。

如：输入<行号，”a,b,c”>则map后输出<”a”,1><”b”,1><”c”,1>。

如：输入<”a”,<1,1,1>>则Reduce后输出<”a”,3>

任务的数量

Map任务的数量

Hadoop为每个split创建一个Map任务，split的多少决定了Map任务的数目。大多数情况下，理想的分片大小是一个HDFS块。

Reduce的数量

最优的Reduce任务个数取决于急群中可用的reduce任务槽（Slot）的数目
通常设置比reduce任务槽数目小一些的Reduce任务个数（这样可以预留一些系统资源处理可能发生的错误）

注：MapReduce过程中用户无法参与，也无法从一台机器中发送消息给另一台。

拓展：MapReduce的执行过程

从HDFS中读取数据-》加载到InputFormat中-》用户指定Split大小进行逻辑分割-》转换为RR数据集-》进行Map，此时变为-》进行Shuffle-》进行Reduce，此时变为-》通过outputFormat输出结果-》写入HDFS

Shuffle过程

Shuffle就是指将Map后的数据进行分区、排序、合并、归并的过程，中文叫做洗牌。

从图中可以看出，Shuffle分为Map端的Shuffle和Reduce端的Shuffle。

MapShuffle

MapShuffle的过程是这样的：首先将数据转换为key-value的形式后切分为多个Map任务，一个map任务需要分配一定的缓存，一般默认100MB。一旦缓存过多，则启动溢写功能，将缓存中的数据通过分区、排序、合并后，需要通过归并形成一个大的文件放在本地磁盘。

注：溢写功能并非缓存达到100MB后才启动，否则后续源源不断的数据无处可放。故一般设置溢写比例为0.8。分区时，一般采用哈希函数，分区的作用是适配多个Reduce任务。排序后可以合并，合并就是如<”a”,1>,<”a”,1>变为<”a”,2>的过程，这样一些重复的键值对可以合并为一个，大大减少溢写到磁盘的数据量。需要注意的是，合并不是必须的，也就是说，要视具体问题来看，合并不能改变最终结果。文件归并时，如果溢写的文件数量大于预定值（默认是3）则可以再次启动Combiner合并，少于3则不需要（因为合并也是一个耗时的过程）。

ReduceShuffle

JobTracker作为作业监视器，一直在监视作业的情况。一旦Map过程处理完成，则Reduce端会被其通知来取走属于自己需要处理的一份，取走后进行合并(combine)和归并(merge)。

注：一个Reduce端可能处理来自多个map端的数据，一个map端可能产生多个Reduce端处理的数据。合并和归并也是不一样的，合并时<”a”,1><”a”,1>-><”a”,2>，归并时<”a”,<1,1>>。

MapReduce阶段

只有当Map处理全部结束后，Reduce过程才能开始
Map需要考虑数据局部性，Reduce无需考虑数据局部性

理解：WordCount的执行过程

WordCount简单来说就是词频统计，假设我们现在有三个字符串，那么通过map过程后，字符串就会被分割为多个键值对的形式。

这个时候Map输出后要经过Shuffle过程，Shuffle后就执行Reduce过程。

类序列化（JavaSE的知识补充）

当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。

Writable是Hadoop的序列化格式，Hadoop定义了这样一个Writable接口。一个类要支持可序列化只需实现这个接口即可。

数据仓库查询分析和Hive

Hive简介

Hive是一个构建在Hadoop顶层的数据仓库工具
依赖分布式文件系统HDFS存储数据
依赖分布式并行计算模型MapReduce处理数据
借鉴SQL语言设计了新的查询语言HiveQL
用户可以通过编写的HiveQL语句运行MapReduce任务
支持类似SQL的接口，很容易进行移植

总结：Hive是一个可以提供有效合理直观组织和使用数据的分析工具。

Hive特性

采用批处理方式处理海量数据

Hive提供了一系列对数据进行提取、转换、加载ETL的工具

Hive与传统数据库的对比分析

Hive的用户体验在很多方面和传统的关系数据库相似，但是它底层依赖的是HDFS和MapReduce，所以在很多方面又有别于传统数据库。

Hive中SQL查询转换为MR作业的过程

输入SQL-》转换为抽象语法树-》转换为查询块-》转换为逻辑查询计划-》重写逻辑查询计划-》转为物理查询计划-》选择最优查询策略

基于内存计算的Spark

Spark简介

2013年，Spark加入Apache孵化器项目后发展迅猛，如今已经成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）。

注：Hadoop是离线批处理框架，Spark是基于内存计算的实时数据分析框架，Storm是数据流分析框架。

Spark特点

运行速度快：使用DAG执行引擎以支持循环数据流和内存计算。
容易使用：支持使用Scala、java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程。
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件。
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等。

Scala简介

Scala是一门现代的多范式编程语言，运行于Java平台，并兼容现有的Java

程序。

注：多范式指的是可以支持多种编程风格，如函数式编程、面向对象编程。

Scala特性

Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
Scala语法简洁，能提供优雅的API
Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中
Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言
Scala的优势是提供了REPL即交互式解释器来提高开发效率

Spark和Hadoop的对比

Hadoop的缺点

表达能力有限；并非所有的应用都可以使用MapReduce编程范式
磁盘IO开销大；在Map的Shuffle过程中需要将数据写入磁盘
延迟高；Task以进程的方式维护，需要数秒时间才能启动任务
在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务

Spark相对于Hadoop MR的优点

Spark的计算模式借鉴了MR又不同于MR，除了Map和Reduce之外还提供了多种数据集操作类型，编程模型比Hadoop的MR更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运行效率更高
Spark基于DAG的任务调度执行机制，要由于Hadoop的MR迭代执行机制
Task以线程的方式维护，对于小数据集读取可以达到亚秒级的延迟

Spark的基本概念

RDD(Resillient Distributed Dataset,弹性分布式数据集)：一种高度受限的共享内存模型，是一个分布式对象集合，本质上是一个只读的分区记录集合，不同分区可以被保存到集群中不同的结点上，从而可以进行分布式计算

DAG(Directed Acyclic Graph，有向无环图)：反映了RDD之间的依赖关系

Stage：是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，也可以叫TaskSet，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

拓展：其他概念以及概念的关系

Executor：是运行在工作结点的一个进程，负责运行Task

Application：用户编写的Spark应用程序

Task：运行在Executor上的工作单元

Job：一个Job包含多个RDD及作用于相应RDD上的各种操作

当执行一个Application时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行Task，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其他数据库中

RDD的运行原理

设计背景

许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，共同之处是，不同计算机阶段之间重用中间结果。

目前的MR框架都是把中间结果写入到HDFS中，带来的大量的数据复制、磁盘IO和序列化开销

RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同RDD之间的转换形成依赖关系，可以实现管道化，避免中间数据存储。

RDD概念

一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。
RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，不能直接修改，只能基于稳定的物理存储中的数据集创建RDD，或者通过在其他RDD上执行确定的转换操作而创建得到新的RDD。
RDD提供了一组丰富的操作以支持常见的数据运行，分为动作（Action）和转换（Transformation）两种类型
RDD提供的转换接口都非常简单，都是类似map、filter、groupBy、join等粗粒度的数据转换操作，而不是针对某个数据项的细粒度修改（不适合网页爬虫）。
表面上RDD的功能很受限、不够强大，实际上RDD已经被实践证明可以高效地表达许多框架的编程模型（比如MR、SQL、Pregel）。
Spark用Scala实现了RDD的API，程序员可以通过调用API实现对RDD的各种操作。

RDD的执行过程

RDD读入外部数据源进行创建
RDD经过一系列的转换操作，每一次都会产生不同的RDD，并供给下一个转换操作使用
最后一个RDD经过动作操作进行转换，并输出到外部数据源

以上一系列操作被称为一个Lineage（血缘关系），即DAG拓扑排序的结果。这样做的优点是惰性调用、管道化（流水线化）、避免同步等待、不需要保存中间结果、每次操作变得简单。

拓展：RDD特性

高效的容错性

现有容错机制：数据复制或者记录日志
RDD天生的容错性：可以根据血缘关系重新计算丢失分区、无需回滚

中间结果持久化到内存中，数据在内存中的多个RDD操作之间进行传递，避免了不必要的读写磁盘开销

存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化

阶段的划分

窄依赖可以实现流水线优化
宽依赖无法实现流水线优化

拓展：窄依赖、宽依赖和Stage的划分

窄依赖就是父RDD分区和子RDD分区表现为一对一或多对一

宽依赖就是父RDD分区和子RDD分区表现为一对多

Stage的划分方式是:在DAG中进行反向解析，遇到宽依赖就断开，遇见窄依赖就把当前的RDD加入到Stage中，尽量将窄依赖划分在同一个Stage，这样可以实现流水线计算，从而使得数据可以直接在内存中进行交换，避免了磁盘IO开销

如A中的分区，由于A到B为宽依赖，故B断开不再Stage1中。而C到D属于窄依赖，故D存在于Stage2中，F亦是，直到F到G为宽依赖，此时G不存在于Stage2中。

Hadoop和Spark的联合部署

由于Hadoop生态系统中的一些组件实现的功能，目前还是无法由Spark取代，比如Storm，现有的Hadoop组件开发的应用，完全转移到Spark上需要一定的成本。

拓展：不同角度的Spark部署方式

角度一

方式一：Standalone

这种方式类似于MR1.0，Slot为资源分配单元。

方式二：Spark on Mesos

Mesos和Spark具有血缘关系，官方推荐部署方式

方式三：Spark on Yarn

角度二

Hadoop+Storm联合部署

部署较繁琐，但是是企业常用的部署方式

Spark一站式部署（只用Spark）

实现一键式安装和配置、线程级别的任务监控和警告
降低硬件集群、软件维护、任务监控和应用开发的难度
便于做成统一的硬件、计算平台资源池
需要说明的是，Spark Streaming无法实现毫秒级的流计算，因此，对于需要毫秒级实时响应的企业应用而言，仍然需要采用流计算框架（如Storm）

Hadoop+Spark联合部署

这种部署方式对应角度1的方式3。将多种计算框架统一运行在YARN之上，这种部署方式在新时代下替代了Hadoop+Storm联合部署。这样可以做到如下好处：

计算资源按需伸缩
不用负载应用混搭，集群利用率高
共享底层存储，避免数据跨集群迁移

流计算和Flink

基本概念

静态数据：一言蔽之就是非实时数据；很多企业为了支持决策分析都会构建数据仓库系统，其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息
流数据：一言蔽之就是实时数据；大数据分析中的重要数据类型，指在时间分布和数量上无限的一系列动态数据集合体，数据的价值随着时间的流逝而降低，因此必须采用实时计算的方式给出秒级响应。

对静态数据和流数据采用两种不同的计算方式

批量计算：充裕时间处理静态数据，如Hadoop

实时计算：即流计算；实时获取来自不同数据源的海量数据经过实时分析处理，获得有价值的信息。

注：流数据不适合采用批量计算，因为流数据不适合用传统关系模型建模。流数据必须采用实时计算，因为实时计算响应时间为毫秒级。数据量少时，不是问题，但是，在大数据时代，数据格式复杂、来源众多、数据量巨大，对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算应运而生。

流计算

流计算秉承一个及基本理念，即数据的价值随着时间的流逝而降低，如用户点击流。因此，当事件出现时就应该立即进行处理，而不是缓存起来进行批量处理。为了及时处理流数据，就需要一个低延迟、可扩展、高可靠的处理引擎。也就是说，一个流计算系统应该达到如下要求：

高性能：处理大数据的基本要求，如每秒处理几十万条数据
海量式：支持TB级甚至是PB级别的数据规模
实时性：保证较低的延迟时间，达到秒级别，甚至是毫秒级别
分布式：支持大数据的基本架构，必须能够平滑扩展
易用性：能够快速进行开发和部署
可靠性：能可靠地处理流数据

Storm简介

Twitter Storm是一个免费、开源的分布式实时计算系统，Storm对于实时计算的意义类似于Hadoop对于批处理的意义，Storm可以简单、高效、可靠地处理流数据，并支持多种编程语言
Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统

Storm设计思想

Storm主要术语包括Streams、Spouts、Bolts、Topology和StreamGroupings

Streams

Storm将流数据Stream描述成一个无限的Tuple序列，这些Tuple序列会以分布式的方式并行地创建和处理
每个Tuple是一堆值，每个值有一个名字，并且每个值可以是任何类型。
Tuple本来应该是一个Key-Value的Map，由于各个组件间传递的tuple的字段名称已经事先定义好了，所以Tuple只需要按序列填入各个Value，所以就是一个Value List（值列表）

Spout

Storm认为每个Stream都有一个源头，并把这个源头抽象为Spout
通常Spout会从外部数据源读取数据，然后封装成Tuple形式，发送到Stream中。Spout是一个主动的角色，在接口内部有个nextTuple函数，Storm框架会不停地调用该函数

Bolt

Storm将Streams的状态转换过程抽象为Bolt。Bolt即可以处理Tuple，也可以处理后的Tuple作为新的Streams发送给其他Bolt
Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
Bolt是一个被动的角色，其接口中有一个execute方法，在接收到消息之后会调用此函数，用户可以在此方法中执行自己的处理逻辑

Topology

Storm将Spouts和Bolts组成的网络抽象为Topology，它可以被提交到Storm集群执行。Topology可视为流转换图，图中结点是一个Spout或Bolt，边则表示Bolt订阅了哪个Stream。当Spout或者Bolt发送元组时，它会把元组发送到每个订阅了该Stream的Bolt上进行处理。
Topology里面的每个处理组件都包含处理逻辑，而组件之间的连接则表示数据流动的方向。
Topology里面的每一个组件都是并行运行的
在Topology里面可以指定每个组件的并行度，Storm会在集群里面分配那么多的线程来同时计算
在Topology的具体实现上，Storm中的Topology定义仅仅是一些Thrift结构体（二进制高性能的通信中间件），支持各种编程语言进行定义。

拓展：一些难点

一个Streams（流数据）输入进来就像小溪一样，被Storm这个框架所处理。其中小溪的源头我们叫做Spout，当然，Storm可以同时处理多条小溪。

Streams在我们看起来像是小溪，而在Storm看来实际上是一个Tuple传送带，或者说，Streams是一条装有无限个tuple的小溪，所有的小tuple构成大Tuple。

Tuple本来可以看做是许多个，但是由于tuple的key通常都是约定好的，故通常我们说每个tuple实际上就是一个装value的容器罢了。

也就是说，Tuple不是…而是可以看做是v1,v2…，也就是一个list列表。

Spout不仅是源头，你更可以看做是一个主动吸数据的源头（使用nextTuple来主动吸入），它将元数据不断地吸入，然后将它们转换为能够在Stream上流动的Tuple形式，发送到Stream上。

Blot可以看做是小溪的分支处，明显此时小溪分出支流是被动的。被分开的小溪形成了n条新的Stream。

在Blot所在的分支处还可以对Tuple做各种操作。

Topology可以理解为是Storm流程的一个思维导图。也就是说它不去考虑细节，其把整个处理的流程抽象为一张图，提交给Storm框架。

Spark Streaming设计

Spark Streaming最主要的抽象是DStream，即将连续的数据流按照时间片（如一段一秒）拆分为离散的数据流，每一段数据转换为Spark的RDD，并且对DStream的操作都最终转变为相应的RDD操作。（这实际上借鉴了操作系统中的时间片轮转法）。

Spark Streaming和Storm的对比

两者最大的区别在于，Spark Streaming无法实现毫秒级的流计算，而Storm可以实现。

Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎可以用于实时计算，另一方面，相比于Storm，RDD数据集更容易做高效的容错处理

Spark Streaming采用的小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法，因此，方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Spark Streaming和Storm的应用场景

从编程的灵活性来讲，Storm是比较理想的选择，它使用Apache Thrift，可以用任何编程语言来编写拓扑结构。

当需要在一个集群中把流计算和图计算、机器学习、SQL查询分析等进行结合时，可以选择Spark Streaming，因为在Spark上可以统一部署SparkSQL，Spark Streaming、MLlib、GraphX等组件，提供便捷的一体化编程模型

大部分应用场景都不需要毫秒级的响应，因此SparkStreaming在企业还是比较流行，Spark Streaming无法实现毫秒级的流计算，当需要使用毫秒级的流计算时，人们也会选择流行的Flink而非过时的Storm。

Spark流计算组件的演进和Structured Streaming

Spark2.0之前，使用Spark Streaming，基于RDD的数据抽象
Spark2.0之后，新增了Structured Streaming，基于DataFrame的数据抽象，采用“微批次模式”
Structured Streaming在Spark2.0中只是测试版本，2.2版本时才正式发布
2018年2月28日，Spark2.3重磅发布，新版本Structured Streaming引入了持续流式处理模式，可以将流处理延迟降低至毫秒级别，与Flink一较高下

为什么设计Structured Streaming

重新抽象了流式计算
易于实现数据的exactly。2.0之前的Spark Streaming只能做到at-least once，框架层次很难帮你做到exactly-once。现在在通过重新设计流式计算框架，使得实现exactly-once变得容易了

Flink简介

Flink是Apache软件基金会的一个顶级项目，是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架，并且可以同时支持实时计算和批量计算。
Flink具有十分强大的功能，可以支持不同类型的应用程序。Flink的主要特性包括：批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。
Flink不仅可以运行包括yarn、Mesos、Kubernetes等在内的多种资源管理框架上，还支持在裸机集群上独立部署。在启用高可用选项的情况下，它不存在单点失效的问题。
事实证明，Flink已经可以扩展到数千核心，其状态可以达到TB级别，且仍能保持高吞吐、低延迟的特性。世界各地有很多要求严苛的流处理应用都运行在Flink之上。

Flink是理想的流计算框架

流处理架构需要具备低延迟、高吞吐和高性能的特性，而目前从市场上已有的产品来看，只有Flink可以满足需求。
Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态
Spark Streaming通过采用微批处理方法实现了高吞吐和容错性，但是牺牲了低延迟和实时处理能力
Flink实现了Google DataFlow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理。此外，Flink支持高度容错的状态管理，防止状态在计算过程中因为系统异常而出现丢失。因此，Flink就成为了能够满足流处理架构要求的理想的流计算框架。

Kafka消息队列

Kafka（读音：/kfuke/）是一种高吞吐量的分布式发布订阅消息系统，用户通过Kafka系统可以发布大量消息，同时也能实时订阅消费消息。
Kafka可以同时满足在线实时处理和批量离线处理。
在公司的大数据生态系统中，可以把Kafka作为数据交换枢纽，不同类型的分布式系统，可以统一接入到Kafka，实现和Hadoop各个组件之间的不同类型数据的实施高效交换。

图计算和PREGEL

图结构数据

许多大数据都是以大规模图或网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响。
许多非图结构的大数据，也常常会被转换为图模型后进行分析
图数据结构很好地表达了数据之间的关联性
关联性计算时大数据计算的核心——通过获得数据的关联性，可以从噪声很多的海量数据中抽取有用的信息

图计算通用软件

一次BSP(Bulk Synchronous Parallel Computing Model,“大同步”模型)计算过程包括一系列全局超步（所谓的超步就是计算中的一次迭代），每个超步主要包括三个组件：

局部计算：每个参与的处理器都有自身的计算任务，它们只读取存储在本地内存中的值，不同处理器的计算任务都是异步并且独立的。

通讯：处理器群相互交换数据，交换的方式是，由一方发起推送(put)和获取(get)操作。

栅栏同步：当一个处理器遇到“路障”，会等到其他所有处理器完成它们的计算步骤；每一次同步也是一个超步的完成和下一个超步的开始。

Pregel简介

谷歌公司在2003年到2004年公布的GFS、MR、BigTable，称为后来云计算和Hadoop项目的重要基石。
谷歌在后Hadoop时代的新三驾马车——Caffeine(帮助谷歌快速实现大规模网页索引的构建)、Dremel（实时交互分析产品，支持分析PB级别的数据）、Pregel再一次影响着圈子与大数据技术的发展潮流。
Pregel是一种基于BSP模型实现的并行图处理系统。为了解决大型图的分布式计算问题，Pregel搭建了一套可扩张的、有容错机制的平台，该平台提供了一套非常灵活的API，可以描述各种各样的图计算。Pregel作为分布式图计算的计算框架，主要用于图遍历、最短路径、PageRank计算。

Pregel图计算模型

Pregel计算模型以有向图作为输入
有向图的每个顶点都有一个String类型的顶点ID
每个顶点都有一个可修改的用户自定义值与之关联
每条有向边都和其源顶点关联，并记录了其目标顶点ID
边上有一个可修改的用户自定义值与之关联

顶点之间的消息传递

采用消息传递模型主要基于以下两个原因：

消息传递具有足够的表达能力，没有必要使用远程读取或共享内存的方式

有助于提升系统整体性能。大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟；Pregel的消息模式采用异步和批量的方式传递消息，因此可以缓解远程读取的延迟。

Hadoop常用命令总结

启动Hadoop所有进程

start-all.sh #等价于下列两条指令

start-dfs.sh #启动分布式文件系统

start-yarn.sh #启动资源管理系统

注：一般不推荐使用start-all.sh来启动，因为开源框架中内部命令有很多问题。

对HDFS的文件操作

注：由于是对Hdfs操作，故命令基本上前面都带有hdfs dfs，后面跟的基本上都是一些linux指令，大同小异不过多赘述，以下列举一些常用的。

查看指定目录下内容

hdfs dfs -cat [file_path]

将本地文件或文件夹存储到hadoop

hdfs dfs -put [本地地址/目录] [hadoop目录]

将hadoop上某个文件down至本地已有目录下

Hadoop dfs -get [文件目录] [本地目录]

删除hadoop上指定文件或文件夹

hdfs dfs -rm [文件地址/文件夹地址]

在hadoop指定目录内创建新目录

hdfs dfs -mkdir -p /user/[目录名]

在hadoop指定目录下新建一个空文件

hdfs dfs -touchz /user/[文件名]

重命名Hadoop上某个文件

hdfs dfs -mv /user/[文件地址]

杀死hadoop作业

Hadoop job -kill [job-id]

查看帮助

hdfs dfs -help

查看HDFS支持的所有命令

hdfs dfs

Hadoop框架控制

节点添加

添加一个新的DataNode节点，先在新加节点上安装好Hadoop，要和NameNode使用相同的配置（可以直接从NameNode复制），修改HADOOPHOME/conf/master文件，加入NameNode主机名。然后在NameNode节点上修改HADOOP_HOME/conf/slaves文件，加入新节点名，再建立新加节点无密码的SSH连接，运行启动命令为：/usr/local/hadoop$bin/start-all.sh

负载均衡

HDFS的数据在各个DataNode中的分布可能很不均匀，尤其是在DataNode节点出现故障或新增DataNode节点时。新增数据块时NameNode对DataNode节点的选择策略也有可能导致数据块分布不均匀。用户可以使用命令重新平衡DataNode上的数据块的分布：/usr/local/hadoop$bin/start-balancer.sh

退出安全模式

NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态，在这个阶段，文件系统不允许有任何修改。

系统显示Name node in safe mode，说明系统正处于安全模式，这时只需要等待几十秒即可，也可通过下面的命令退出安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode leave

进入安全模式

在必要情况下，可以通过以下命令把HDFS置于安全模式：/usr/local/hadoop$bin/hadoop dfsadmin -safemode enter

你可能感兴趣的:(面试,学习路线,阿里巴巴,android,前端,后端)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
2.2.6 通知类控件 Toast、Menu 常思行
本文例程下载：WillFlow_Toast、WillFlowMenu一、什么是Toast？Toast也被叫做吐司，是Android系统提供的一种非常好的提醒方式，在程序中可以使用它将一些短小的信息通知给用户，它有如下两个特点：Toast是没有焦点的Toast显示的时间有限过一定的时间就会自动消失所以一般来讲Toast的使用并不会影响我们的正常操作，并且它通常不会占用太大的屏幕空间，有着良好的用户体
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
mac 备份android 手机通讯录导入iphone,iphone如何导出通讯录（轻松教你iPhone备份通讯录的方法）... weixin_39762838 mac 备份android 手机通讯录导入iphone
在日新月异的手机更替中，换手机已经成为一个非常稀松平常的事情，但将旧手机上面的通讯录导入到新手机还是让不少小伙伴为难，本篇将给大家详细讲解这方面的知识：“苹果手机通讯录怎么导入到新手机”及“安卓手机通讯录导入到新手机”的方法。一、苹果手机通讯录导入到新手机常用方法(SIM卡导入)在苹果手机主频幕上找到“设置”，单击进入设置菜单，下拉菜单列表，点击“邮件、通讯录、日历”，然后找到“导入SIM卡通讯录
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt