13157330443

spark大数据架构初学入门基础详解

Spark是什么

a) 是一种通用的大数据计算框架

b) Spark Core 离线计算

Spark SQL 交互式查询

Spark Streaming 实时流式计算

Spark MLlib 机器学习

Spark GraphX 图计算

c) 特点：

i. 一站式：一个技术堆栈解决大数据领域的计算问题

ii. 基于内存

d) Spark2009年诞生于伯克利大学的AMPLab实验室

2010年正式开源了Spark项目

2013年Spark成为Apache下的项目

2014年飞速发展，成为Apache的顶级项目

2015年在国内兴起，代替mr,hive,storm等

作者：辛湜(shi)

e) Spark和Hive：

Spark优点：

i. 速度快

ii. Spark SQL支持大量不同的数据源

f) Spark 和Storm

i. 计算模型不一样

ii. Spark吞吐量大

g) 特点：快，易用，通用，兼容性

h) spark运行模式

i. local(本地)

ii. standalone(集群)

iii. on yarn(由 yarn作为资源调度Spark负责任务调度和计算)

iv. on mesos(由mesos作为资源调度S)

v. on cloud()

i) 配置步骤

=======================on yarn====================

【说明】

1. spark任务运行在yarn上，由yarn来进行资源调度和管理，spark只负责任务的调度和计算

2. 不需要配置和启动spark集群

3. 只需要在提交任务的节点上安装并配置spark on yarn 模式

4. 必须找一台节点安装spark

5. 步骤：

i. 安装配置JDK

ii. vi spark-env.sh

1. export JAVA_HOME=/opt/modules/jdk1.7_6.0

2. export HADOOP_CONF_DIR = /opt/modules/hadoop/etc/hadoop

iii. 测试spark on yarn 模式是否安装成功

iv. 网络测试：http://hadoop-yarn1.beicai.com:8088

=====================sdandalone模式==============

【说明】

1. spark运行在spark 集群上，由spark进行资源调度管理，同时还负责任务的调度和计算

2. 需要配置和启动spark集群

3. 步骤：

i. 安装配置JDK

ii. 上传并解压Spark

iii. 建立软连接 ln -s spark spark 或者修改名称

iv. 配置环境变量

v. 安装配置Spark,修改spark配置文件(spark-env.sh, slaves)

1. vi spark-env.sh

a) export JAVA_HOME=/opt/modules/jdk(jdk位置)

b) export SPARK_MASTER_IP=hadoop-yarn1.beicai.com

c) export SPARK_MASTER_PORT=7077

2. vi slaves(用于指定在哪些节点上启动worker)

a) hadoop-yarn2.beicai.com

hadoop-yarn3.beicai.com

vi. 将spark发送给其他主机

vii. 启动

/opt/modules/spark/bin/start-all.sh

vii. 查看SparkUI界面：http://hadoop-yarn1.beicai.com:8080

一、Spark原理

1、Spark的运行原理

i、分布式

Ii、主要基于内存（少数情况基于磁盘）

Iii、迭代式计算

2、Spark 计算模式 VS MapReduce 计算模式对比

Mr这种计算模型比较固定，只有两种阶段，map阶段和reduce阶段，两个阶段结束后，任务就结束了，这意味着我们的操作很有限，只能在map阶段和reduce阶段，也同时意味着可能需要多个mr任务才能处理完这个job

Spark 是迭代式计算，一个阶段结束后，后面可以有多个阶段，直至任务计算完成，也就意味着我们可以做很多的操作，这就是Spark计算模型比mr 强大的地方

三、什么是Spark RDD？

1、什么是RDD？

弹性的，分布式的，数据集

（RDD在逻辑上可以看出来是代表一个HDFS上的文件，他分为多个分区，散落在Spark的多个节点上）

3、RDD----弹性

当RDD的某个分区的数据保存到某个节点上，当这个节点的内存有限，保存不了这个分区的全部数据时，Spark就会有选择性的将部分数据保存到硬盘上，例如：当worker 的内存只能保存20w条数据时，但是RDD的这个分区有30w条数据，这时候Spark就会将多余的10w条数据，保存到硬盘上去。Spark的这种有选择性的在内存和硬盘之间的权衡机制就是RDD的弹性特点所在

4、Spark的容错性

RDD最重要的特性就是，提供了容错性，可以自动的从失败的节点上恢复过来，即如果某个节点上的RDD partition（数据），因为节点的故障丢了，那么RDD会自动的通过自己的数据来源重新计算该partition，这一切对使用者来说是透明的

2、Spark的开发类型

（1）、核心开发：离线批处理 / 演示性的交互式数据处理

（2）、SQL查询：底层都是RDD和计算操作

（3）、底层都是RDD和计算操作

（4）、机器学习

（5）、图计算

3、Spark 核心开发（Spark-core == Spark-RDD）步骤

（1）、创建初始的RDD

（2）、对初始的RDD进行转换操作形成新的RDD，然后对新的RDD再进行操作，直至操作计算完成

（3）、将最后的RDD的数据保存到某种介质中（hive、hdfs，MySQL、hbase...）

五、Spark原理

Driver，Master，Worker，Executor，Task各个节点之间的联系

Spark中的各节点的作用：

1、driver的作用：

（1）、向master进行任务的注册

（2）、构建运行任务的基本环境

（3）、接受该任务的executor的反向注册

（4）、向属于该任务的executor分配任务

2、什么是driver？

我们编写的程序打成jar包后，然后找一台能够连接spark集群的节点做任务的driver，具体的表现为SparkSubmit

3、Master的作用：

（1）、监控集群；

（2）、动态感知worker的上下线；

（3）、接受driver端注册请求；

（4）、任务资源的调度

4、Worker的作用：

（1）、定时向master汇报状态；

（2）、接受master资源调度命令，进行资源的调度

（3）、启动任务的容器Executor

5、Executor的作用：

（1）、保存计算的RDD分区数据；

（2）、向Driver反向注册；

（3）、接受Driver端发送来的任务Task，作用在RDD上进行执行

Spark　编程的流程：

１、我们编写的程序打包成jar包，然后调用Spark-Submit 脚本做任务的提交

２、启动driver做任务的初始化

３、Driver会将任务极其参数（core，memory，driver相关的参数）进行封装成ApplicationDescript通过taskSchedulerImpl 提交给Master

４、Master接受到driver端注册任务请求时，会将请求参数进行解析，并封装成APP，然后进行持久化，并且加入到其任务队列中的waitingAPPs

５、当轮到咱们提交的任务运行时，master会调用schedule（）这个方法，做任务资源调度

６、Master将调度好的资源封装成launchExecutor，发送给指定的worker

７、Worker接收到发送来的launchExecutor时，会将其解析并封装成ExecutorRunner，然后调用start方法，启动Executor

８、Executor启动后，会向任务的Driver进行反向注册

９、当属于这个任务的所有executor启动成功并反向注册完之后，driver会结束SparkContext对象的初始化

１０、当sc 初始化成功后，意味着运行任务的基本环境已经准备好了，driver会继续运行我们编写好的代码

１１、开始注册初始的RDD，并且不断的进行转换操作，当触发了一个action算子时，意味着触发了一个job，此时driver就会将RDD之间的依赖关系划分成一个一个的stage，并将stage封装成taskset，然后将taskset中的每个task进行序列化，封装成launchtask，发送给指定的executor执行

１２、Executor接受到driver发送过来的任务task，会对task进行反序列化，然后将对应的算子（flatmap，map，reduceByKey。。。。）作用在RDD分区上

六、RDD详解

1、什么是RDD？

RDD（Resilient Disttibuted Dataset）叫做弹性的分布式的数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可并行计算的集合

2、RDD的特点：

自动容错

位置感知性调度

伸缩性

3、RDD的属性：

（1）、一组分片（partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度，用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值，默认值就是程序所分配到的CPU Core的数目

（2）、一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的，每个RDD都会实现computer函数以达到这个目的。Computer函数会对迭代器进行复合，不需要保存每次计算的结果。

（3）、RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对ＲＤＤ的所有分区进行重新计算。

（4）、一个partition，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于hashPartitioner，另外一个是基于范围的RangePartitioner。只有对于key-value的RDD，才会有Partitioner，非key-value的RDD的Partitioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了partition RDD Shuffle输出时的分片数量。

（5）、一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFD文件来说。这个列表保存的就是每个Partition所在的快的位置。按照“移动数据不如移动计算”的理念。Spark在进行任务调度的时候，会尽可能的将计算任务分配到所要处理数据块的存储位置。

4、RDD的创建：

进行Spark核心编程时，首先要做的事就是创建一个初始的RDD。Spark Core提供了三种创建RDD的方式：

（1）、使用程序中的集合创建RDD （调用parallelize()方法）

（2）、使用本地文件创建RDD （调用textFile()方法）

（3）、使用HDFD文件创建RDD （调用textFile()方法）

七、算子

1、什么是算子？

是RDD中定义的作用在每一个RDD分片上的函数，可以对ＲＤＤ中的数据进行转换和操作

2、RDD算子的分类

（1）、Transformation算子，这类算子变换不触发提交作业（特点就是lazy特性）

返回的是一个RDD

（2）、Action算子，这类算子会触发SparkContext提交作业（触发一个spark job的运行，从而触发这个action之前所有的transformation的执行）

返回的是一个spark对象

3、常用的Transformation算子

八、RDD分区排序

I、分区

两种实现方式：coalesce 和 repartition（底层调用coalesce）

coalesce(numPartitons,isShuffle)

第一个参数是重分区后的数量，第二个参数是是否进行shuffle

如果原来有N个分区，重分区后有M个分区

如果 M > N ,必须将第二参数设置为true（也就是进行shuffle）,等价于 repartition(numPartitons) 如果是false将不起作用

如果M < N

100-->10 重分区后的分区数比原来的小的多，那么久需要使用shuffle，也即是设置为true

100-->90 重分区后的分区数和原来的差不多的，那么就不需要使用shuffle，也就是设置为false

II、排序

sortBy(x => x) 这个算子中带有隐式转换参数

x 能够排序（比较大小），那么这个类就必须有比较大小的功能，也就是实现了compareTo 或者compare

实现二次排序有两种方法：

1、继承Comparable 接口或者 Ordered

2、隐式转换：可以定义隐式转换函数（Ordered）或者隐式转换值（Ordering）

九、自定义分区

自定义分区

要求：按照key将对应的value输出到指定的分区中

解释：自定义一个自定义分区类，继承partitioner，实现他的两个方法

1、numPartitions

2、getPartition

具体的功能根据项目的要求自定义实现，然后调用partitionBy方法，new出自定义的类，传入参数即可

九、RDD持久化原理

1、持久化场景：对于一个rdd会被多次引用到，并且这个rdd计算过程复杂，计算时间特变耗时

2、如何进行持久化，调用rdd.persist方法或cache方法，cache方法底层就是调用persist方法

******************persist(StorageLevel.MEMORY_ONLY)*******************

如果对RDD做持久化，默认持久化级别是storageLevel.MEMORY_ONLY ,也就是持久化到内存中去，这种持久化级别是效率最快的，但是由于是纯Java 对象，保存到内存中，那么内存可能保存的数量就会较少

***************persist(StorageLevel.MEMORY_ONLY_SER)****************

如果当我们集群资源有限时，那么我们可以采用MEMORY_ONLY_SER，也就是将Java对象进行序列化之后持久到内存中去，这种持久化的好处是能够持久化更多的数据到内存中，但是由于在持久化时需要序列化，取出来之后又需要反序列化这一过程，这个过程会消耗CPU计算资源，性能相对于MEMORY_ONLY 这种持久化级别来说稍微弱点，但是还是比较高效的

3、如何选择ＲＤＤ持久化策略？

Spark提供的多种持久化级别，主要是为了在CPU和内存消耗之间进行取舍，下面是一些通用的持久化级别的选择建议：

1）、优先使用MEMORY_ONLY，如果可以缓存所有数据的话，那么就使用这种策略，因为纯内存速度最快，而且没有序列化，不需要消耗CPU进行反序列化操作

2）、如果MEMORY_ONLY策略，无法存储所有数据的话，那么使用MEMORY_ONLY_SER，将数据进行序列化存储，纯内存操作还是非常快的，只是要消耗CPU进行反序列化

3）、如果需要进行快速的失败恢复，那么就选择带后缀为_2的策略，进行数据的备份，这样在失败时，就不需要重新计算了

4、能不使用DISK相关的策略，就不要使用，有的时候，从磁盘读取数据，还不如重新计算一次

十一、共享变量

1、共享变量分为两种：广播变量和累加器

广播变量（broadcast）

2、日常所遇问题

因为每个task都需要拷贝这样的一个副本到executor去执行，那么我们可以想象一下，如果有1000 个task在某个worker上执行，而这个副本有100M，那么意味着我们需要拷贝100G的数据都到某个worker上执行，这样的话会大大消耗我们的网络流量，同时会加大executor的内存消耗，从而增加了我们spark作业的运行时间，大大降低了spark作业的运行效率，增加了作业失败的概率

3、如何解决以上问题，也就是说什么时候使用广播变量?

当RDD引用到了一个外部变量并且这个外部变量数据量不小，同时这个RDD对应的task数量特别多，那么此时使用广播共享变量再合适不过了

我们可以将这种大的外部变量做成广播变量，外部变量做成广播变量的时候，那么每个executor的内存中只会有一个外部变量，而这个副本针对所有的task都是共享的，这样的话就减少了网络流量消耗，降低了executor的内存消耗，提高了spark作业运行效率和缩短了运行时间，同时降低了作业失败的概率

4、广播变量的使用流程：

1）、某个executor的第一个task先执行，首先会从自己的blockManager中查找外部变量，如果没有就从邻居的executor的blockManager的内存中获取这个外部变量，如果还是获取不到，就从driver端获取，拷贝这个外部变量到本地的executor的blockManager

2）、当这个executor的其他task执行时，就不需要从外面获取这个外部变量的副本，直接从本地的blockManager中获取即可

5、如何获取广播变量的值？

可以直接调用广播变量的value() 这个方法即可

【注意】广播变量是只读的，不可写

累加器（Accumulator）

Spark提供的Accumulator ，主要用于多个节点对一个变量进行共享性的操作，Accumulator只是提供了累加的功能。但是却给我们提供了多个task对一个变量并行操作的功能，但是task只能对Accumulator进行累加操作

【注意】task只能对Accumulator进行类加操作，只有Driver程序可以读取Accumulator的值

RDD分区和容错机制讲解

1、RDD 的Lineage血统

RDD只支持粗粒度转换，即在大量记录上执行的单个操作，将创建RDD的一系列Lineage（血统）记录下来。以便恢复丢失的分区

2、RDD的依赖关系

RDD和它的父RDD的关系有两种不同的类型：

1）、窄依赖（一对一，多对一）

形象的比喻：独生子女

2）、宽依赖（多对多）

形象的比喻：超生

注释：划分stage的依据就是宽依赖，也就是RDD之间是否有shuffle，shuffle过程就是一个宽依赖过程，shuffle之前的tasks就属于一个stage，shuffle之后的也属于一个stage，shuffle之前和之后的操作都是窄依赖

【注意】shuffle过程分为：shuffle Write过程和 shuffle read过程

4、DAG的生成（有向无环图）和任务的划分

DAG（Directed Acyclic Graph）叫做有向无环图（有方向无循环的图）

5、一个wordCount过程会产生多少个RDD？

至少会产生五个RDD，

第一个，从HDFS中加载后得到一个RDD（即使用sc.textFile()算子），即HadoopRDD

在sc.textFile()过程中还会产生一个RDD（调用map算子），产生一个MapPartitionRDD

第二个，使用flatMap算子，得到一个MapPartitionRDD

第三个，使用map算子，得到一个MapPartitionRDD

第四个，使用reduceByKey算子，也就是在经过了shuffle过程后又会得到一个shuffledRDD

第五个，使用saveAsTextFile算子，再产生一个MapPartitionRDD

spark程序提交流程讲解

Spark任务简介：

Spark-submit--->SparkSubmit-->main-->submit-->doRunMain-->RunMain-->通过反射创建我们编写的主类的实例对象，调用main方法-->开始执行我们编写的代码-->初始化SparkContext对象-->创建初始的RDD-->触发action算子-->提交job-->worker执行任务-->任务结束

Spark任务详解：

1）、将我们编写的程序打成jar包

2）、调用spark-submit脚本提交任务到集群上运行

3）、运行sparkSubmit的main方法，在这个方法中通过反射的方式创建我们编写的主类的实例对象，然后调用main方法，开始执行我们的代码（注意，我们的spark程序中的driver就运行在sparkSubmit进程中）

4）、当代码运行到创建SparkContext对象时，那就开始初始化SparkContext对象了

5）、在初始化SparkContext对象的时候，会创建两个特别重要的对象，分别是：DAGScheduler

和TaskScheduler

【DAGScheduler的作用】将RDD的依赖切分成一个一个的stage，然后将stage作为taskSet提交给DriverActor

6）、在构建taskScheduler的同时，会创建两个非常重要的对象，分别是DriverActor和ClientActor

【clientActor的作用】向master注册用户提交的任务

【DriverActor的作用】接受executor的反向注册，将任务提交给executor

7）、当clientActor启动后，会将用户提交的任务和相关的参数封装到ApplicationDescription对象中，然后提交给master进行任务的注册

8）、当master接受到clientActor提交的任务请求时，会将请求参数进行解析，并封装成Application，然后将其持久化，然后将其加入到任务队列waitingApps中

9）、当轮到我们提交的任务运行时，就开始调用schedule()，进行任务资源的调度

10）、master将调度好的资源封装到launchExecutor中发送给指定的worker

11）、worker接受到Maseter发送来的launchExecutor时，会将其解压并封装到ExecutorRunner中，然后调用这个对象的start(), 启动Executor

12）、Executor启动后会向DriverActor进行反向注册

13）、driverActor会发送注册成功的消息给Executor

14）、Executor接受到DriverActor注册成功的消息后会创建一个线程池，用于执行DriverActor发送过来的task任务

15）、当属于这个任务的所有的Executor启动并反向注册成功后，就意味着运行这个任务的环境已经准备好了，driver会结束SparkContext对象的初始化，也就意味着new SparkContext这句代码运行完成

16）、当初始化sc成功后，driver端就会继续运行我们编写的代码，然后开始创建初始的RDD，然后进行一系列转换操作，当遇到一个action算子时，也就意味着触发了一个job

17）、driver会将这个job提交给DAGScheduler

18）、DAGScheduler将接受到的job，从最后一个算子向前推导，将DAG依据宽依赖划分成一个一个的stage，然后将stage封装成taskSet，并将taskSet中的task提交给DriverActor

19）、DriverActor接受到DAGScheduler发送过来的task，会拿到一个序列化器，对task进行序列化，然后将序列化好的task封装到launchTask中，然后将launchTask发送给指定的Executor

20）、Executor接受到了DriverActor发送过来的launchTask时，会拿到一个反序列化器，对launchTask进行反序列化，封装到TaskRunner中，然后从Executor这个线程池中获取一个线程，将反序列化好的任务中的算子作用在RDD对应的分区上

【注意】

Spark的任务分为为两种：

a、shuffleMapTask：shuffle之前的任务

b、resultTask：shuffle之后的任务

Spark任务的本质：

将RDD的依赖关系切分成一个一个的stage，然后将stage作为TaskSet分批次的发送到Executor上执行

十三、Checkpoint

1、使用checkpoint的场景：

某个RDD会被多次引用，计算特别复杂，计算特别耗时

担心中间某些关键的，在后面会反复几次使用的RDD，可能会因为节点的故障，导致持久化数据的丢失

2、如何对RDD进行checkpoint？

1）、设置还原点目录，设置checkpoint目录

2）、调用RDD的checkpoint的方法对该RDD进行checkpoint

3、checkpoint的原理

1）、RDD调用了checkpoint方法之后，就接受RDDCheckpointData对象的管理

2）、RDDCheckpointData对象会负责将调用了checkpoint的RDD 的状态设置为MarkedForCheckpoint

3）、当这个RDD所在的job运行结束后，会调用最后一个RDD的doCheckpoint，根据其血统向上查找，查找到被标注为MarkedForCheckpoint状态的RDD，将其状态改变为checkpointingInProgress

4）、启动一个单独的job，将血统中标记为checkpointingInProgress的RDD进行checkpoint，也就是将RDD的数据写入到checkpoint的目录中去

5）、当某个节点发生故障，导致包括持久化的数据全部丢失，此时会从还原点目录还原RDD的每个分区的数据，这样就不需要从头开始计算一次

4、checkpoint需要注意的地方

因为RDD在做checkpoint的时候，会单独启动一个job对需要进行checkpoint的RDD进行重新计算，这样就会增加spark作业运行时间，所以spark强烈建议在做checkpoint之前，应该对需要进行checkpoint的RDD进行持久化（即调用 .cache）

5、checkpoint 和持久化的区别

1）、是否改变血统：

持久化（.cache）：不会改变RDD的依赖关系，也就是不会改变其血统

Checkpoint：会改变RDD的血统，做了checkpoint的RDD会清除其所有的依赖关系，并将其父RDD强制设置为checkpointRDD，并且将RDD的状态更改为checkpointed

2）、RDD的数据的可靠性：

持久化：只是将RDD的数据持久化到内存或磁盘中，但是如果节点发生故障，那么持久化的数据还是会丢失

Checkpoint：checkpoint的数据保存在第三方高可靠的分布式的文件系统中，机试节点发生故障，数据也不会丢失，所以checkpoint比持久化可靠性更高

6、后续

我们实现了checkpoint 之后，在某个task 又调用了该RDD的iterator() 方法时，就实现了高容错机制，即使RDD的持久化数据丢失，或者压根儿就没有持久化，但是还是可以通过readCheckpointOrComputer() 方法，优先从父RDD-----checkpointRDD中读取，HDFS（外部文件系统）的数据

第二部分 spark-sql

一、Spark-SQL前世今生

1、Spark SQL的特点

1）、支持多种数据源：Hive、RDD、Parquet、JSON、JDBC等。

2）、多种性能优化技术：in-memory columnar storage、byte-code generation、cost model动态评估等。

3）、组件扩展性：对于SQL的语法解析器、分析器以及优化器，用户都可以自己重新开发，并且动态扩展

2、Spark SQL的性能优化技术简介

1）、内存列存储（in-memory columnar storage）

2）、字节码生成技术（byte-code generation）

3）、Scala代码编写的优化

3、Spark SQL and DataFrame

Spark SQL是Spark中的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象，就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。Spark SQL最重要的功能之一，就是从Hive中查询数据。

DataFrame，可以理解为是，以列的形式组织的，分布式的数据集合。它其实和关系型数据库中的表非常类似，但是底层做了很多的优化。DataFrame可以通过很多来源进行构建，包括：结构化的数据文件，Hive中的表，外部的关系型数据库，以及RDD。

二、Spark-sql的使用

1、RDD转换为DataFrame（两种）

1）、使用反射的方式来推断包含了特定数据类型的RDD的元数据

2）、通过编程接口来创建DataFrame

2、UDF自定义函数和UDAF自定义聚合函数

UDF，其实更多的是针对单行输入，返回一个输出

UDAF，则可以针对多行输入，进行聚合计算，返回一个输出，功能更加强大

3、Spark-SQL工作原理

SqlParse ---------> 解析器

Analyser ---------> 分析器

Optimizer ---------> 优化器

SparkPlan ---------> 物理计划

流程：

1）、自己编写的SQL语句

大家要知道，只要在数据库类型的技术里面，比如：最传统的MySQL，Oracle等，包括现在大数据领域的数据仓库，比如hive，他的基本的SQL执行的模型，都是类似的，首先都要生成一条SQL语句的执行计划

2）、通过SqlParser（解析器）生成未解析的逻辑计划（unresolved LogicalPlan）

3）、通过Analyzer（分析器）生成解析后的逻辑计划（resolved LogicalPlan）

4）、通过Optimizer（优化器）生成优化后的逻辑计划（optimized LogicalPlan）

实际上，比如传统的Oracle等数据库，通常都会生成多个执行计划，然后呢，最后有一个优化器，针对多个计划，选择一个最好的计划，而SparkSql这儿的优化指的是，比如说，刚生成的执行计划中，有些地方的性能是显而易见的，不太好，举例说明：

比如说，我们有一个SQL语句，select name from (select ... from ...) where ..=..;

此时，在执行计划解析出来的时候，其实就是按照他原封不动的样子，来解析成可以执行的计划，但是呢，Optimizer 在这里其实就会对执行计划进行优化，比如说，发现where 条件，其实可以放在子查询中，这样，子查询的数量大大变小，可以优化执行速度，此时，可能就会变成如下这样：select name from (select name from ...where ..=..)

5）、通过SparkPlan，生成最后的物理计划（PhysicalPlan）

到物理计划这里，那么其实就是非常“接地气”的计划了。就是说，已经很明朗了，从那几个文件读取什么数据，从那几个文件中读取，如何进行关联等等

6）、在executor中执行物理计划

逻辑的执行计划，更多的是偏向于逻辑，比如说吧，大致就是这种样子的，

From table students=>filter ... => select name ...

这里基本上，逻辑计划都是采用Tree ，树形结构

7）、生成RDD

Select name from students => 解析，从哪里去查询，students表，在哪个文件里，从哪个文件中查询哪些数据，比如说是name这个列，此外，复杂的SQL，还有，比如说查询时，是否对表中的数据进行过滤和筛选，更不用说，复杂时，需要有多表的JOIN（咋传统数据库中，比如MySQL，执行计划还涉及到如何扫描和利用索引）

4、spark-SQL性能优化

1）、设置shuffle过程的并行度：spark.sql.shuffle.partitions（SQLContext.setConf()）

2）、在hive数据仓库建设过程中，合理设置数据类型，比如能设置为int的，就不要设置为bigInt，减少数据类型导致不必要的内存开销

3）、编写SQL时，尽量给出明确的列名，比如select name from students。不要写select * 的方式。

4）、并行处理查询结果：对于spark-SQL查询的结果，如果数据量比较大，比如超过1000条，那么就不要一次性的collect（）到driver再处理，使用foreach（）算子，并行处理查询结果

5）、缓存表：对于一条SQL语句可能对此使用到的表，可以对其进行缓存，使用 sqlContext.cacheTable(tableName)，或者DataFrame.cache()即可，spark-SQL会用内存列存储的格式进行表的缓存，然后spark-sql就可以仅仅扫描需要使用的列，并且自动优化压缩，来最小化内存使用和GC开销，SQLContext.uncacheTable(tableName)可以将表从缓存中移除，用SQLContext。setConf（），设置spark.sql.inMemoryColumnarStorage.batchSize参数（默认10000），可以设置列存储的单位

6）、广播join表：spark.sql.autoBroadcastJoinThreshold，默认10485760 (10 MB)。在内存够用的情况下，可以增加其大小，参数设置了一个表在join的时候，最大在多大以内，可以被广播出去优化性能

5、Hive on Spark配置

1)、安转配置好Hive和Spark

2）、Set hive.execution.engine=spark;

3）、set spark.master=spark://mini1:7077

第三部分 spark-streaming

1, Dstream

Dstream是sparkStreaming的数据模型，本质就是一连串不间断的RDD，但是它是一个时间段的RDD.这些时间段的RDD源源不断的连接在一起。

这个时间可以自己设置，时间设置的越短，实时性越高，但是性能消耗也越大。

2, spark streaming从kafka获取数据，有哪几种方式？

有两种方式：

1.通过receiver的方式，

2，通过direct的方式，dirrect的方式需要自己来管理偏移量。

3, sparkStreaming和storm的区别

sparkStreaming是spark里面的一个做流式准实时计算的组件，它使用的数据结构是Dstream，Dstream里面是一连串时间片的rdd。

相比于storm，sparkStreaming在实时性，保证数据不丢失方面都不占用优势，spark streaming在spark支持者眼中的优势是spark Streaming具有高吞吐性，最本质来说，sparkStreaming相比于storm的优势是sparkStreaming可以和spark core，spark SQL无缝整合。

4.对于需要多次引用的，并且这个dstream计算时间特别耗时，数据特别重要，那么我们就需要对dstream进行checkpoint，（只有多次引用的，进行持久化就可以了），因为即使对这个dstream进行持久化，数据也可能会丢失，而checkpoint数据丢失的可能性小，但是这样会影响spark-streaming的数据吞吐量，因为在做计算的同时，还需要将数据写入到外部存储系统中，会降低spark性能，影响吞吐量，非必要情况下不建议使用

5.如何对dstream做checkpoint

首先设置还原点目录，其次调用dstream的checkpoint方法

【注意】：dstream的checkpoint的周期一定要是产生batch时间的整数倍，同时spark官方建议将checkpoint的时间设置为至少10秒。通常来说，将checkpoint间隔设置为窗口操作的滑动间隔的5-10倍

6.spark程序在启动时，会去这个checkpointPath目录下查看是否有保存的driver的元数据（1.dstream的操作转换关系，2.未处理完的batch）信息，当spark-streaming程序在二次启动后就会去checkpointPath目录下还原这个程序，加载未处理的batch元数据信息在内存中恢复，继续进行任务处理

7.为了保证spark-streaming程序7*24小时运行，那么我们程序应该具备高可靠性，怎样具备高可靠性？

a.程序出现故障，driver死掉了，流式程序应该具备自动重启的功能

b.没有计算完成的rdd在程序异常停止后，下次启动后还会将未处理的rdd进行处理

【注意】：要在spark_submit中，添加--deploy-mode参数，默认其值为client，即在提交应用的机器上启动driver，但是要能够自动重启driver，就必须将其值设置为cluster；此外，需要添加--supervise参数，失败后自动重启

//spark_submit --executor-memory 1g --total-execute-cores 5 --deploy-model cluster --supervise

8.启用预写机制

a.预写日志机制，简写为WAL，全称为Write Ahead Log，从spark1.2版本开始，就引入了基于容错的文件系统的WAL机制。如果启用该机制，Receiver接收到的所有数据都会写入配置的checkpoint目录中的预写日志。这中机制可以让driver在恢复的时候，避免数据丢失，并且可以确保整个实时计算过程中零数据丢失

你可能感兴趣的:(spark,大数据,架构)

YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
放弃传统模板语言，前后端分离架构和传统架构相比到底强在哪？博远~ 前端架构
引言在当今Web开发中，后端SpringBoot和前端Vue通过前后端分离架构来结合，已经是一个成熟的主流技术栈了。这种前后端分离的架构方式，目前广泛应用于约90%以上通过Java开发的Web应用中。但是，对于为何弃用了之前服务端渲染页面的方式，而选择了前后端分离架构，现有大多数开发者和企业都是懵懵懂懂，甚至有些公司还觉得，之前一个人能干的项目，现在变成了两个人干，增加了成本和复杂度，降低了效益。
Python+Pytest+Allure+Git+Jenkins数据驱动接口自动化测试框架_python+pytest+allure+jenkins架构 2401_87378716 python pytest git
接口测试流程1、需求评审，熟悉业务和需求2、开发提供接口文档3、编写接口测试用例4、用例评审5、提测后开始测试6、提交测试报告两种常见的HTTP请求方法：GET和POST二、项目说明本框架是一套基于Python+Pytest+Requests+Allure+Jenkins而设计的数据驱动接口自动化测试的框架。技术栈Python、Pytest、Requests、Pactverity、Excel、Js
docker arm/amd双架构镜像制作码农在失业 docker docker 容器
多架构打包DockerforLinux不支持构建arm架构镜像，我们可以运行一个新的容器让其支持该特性，Docker桌面版无需进行此项设置。dockerrun--rm--privilegedtonistiigi/binfmt:latest--installall由于Docker默认的builder实例不支持同时指定多个--platform，我们必须首先创建一个新的builder实例dockerbu
Node.js 到底是什么 yqcoder Node.js 从入门到精通 node.js
Node.js是一个基于ChromeV8引擎的JavaScript运行环境，它允许开发者使用JavaScript编写服务器端代码。一、主要特点1.事件驱动和非阻塞I/O模型Node.js采用事件驱动架构，通过回调函数处理I/O操作，这使得它在处理大量并发请求时表现出色。当执行I/O操作（如文件读写、网络请求等）时，Node.js不会阻塞程序的执行，而是继续处理其他任务，当I/O操作完成后，通过回调
两万字探讨时间轮算法 Damon_0411 算法 java spring
1.引言1.1背景介绍随着分布式系统、微服务架构的流行以及高并发场景的广泛应用，系统中处理延时任务的需求变得愈发重要。延时任务的常见场景包括：任务调度：某些任务需要按照预定时间执行，比如每天的定时数据备份。超时控制：网络连接的超时检测、数据库锁的释放延迟等。缓存管理：缓存数据的过期清理策略。事件驱动场景：如日志系统中，只有当所有日志接收完毕并经过一定延迟后才能触发归档。延时任务的本质是系统需要管理
Linux离线安装docker(arm64架构cpu)极速版 gallonyin linux docker 架构
之前写过x86版本的快速docker安装部署，现在遇到arm64等架构cpu不适用，主要是因为安装包不通用，因此有这篇文章。cpu测试可以支持鲲鹏cpu或interlarm版本离线安装docker，10分钟极速搞定！亲测适用于CentOS8及其衍生版本。官网下载从官网中选择相应的版本，我选择了最新的包，在联网的环境下载到本地备用https://download.docker.com/linux/s
图像生成大模型：Imagen 详解转角再相遇 imagen python 深度学习计算机视觉
近年来，图像生成技术取得了显著进展，推动了计算机视觉和生成对抗网络（GAN）等领域的发展。Imagen是一个新兴的图像生成大模型，其在生成高质量、逼真图像方面表现出色。本文将详细讲解Imagen的基本原理、架构、训练流程及应用场景。1.Imagen的基本原理1.1什么是Imagen？Imagen是一种基于深度学习的图像生成模型，结合了自注意力机制（Self-attentionMechanism）和
Java全栈项目 - 校园跑腿服务系统天天进步2015 Java项目实战 java 开发语言
项目介绍校园跑腿服务系统是一个面向高校师生的互助平台,旨在解决校园内取快递、买饭、打印等日常跑腿需求。系统采用前后端分离架构,基于SpringBoot+Vue实现。技术栈后端SpringBoot2.xSpringSecurityMyBatisPlusMySQL8.0RedisRabbitMQJWT前端Vue2.xElementUIAxiosVuexVueRouter核心功能1.用户模块注册/登录实
使用docker在amd64上运行arm64的Ubuntu Alone九年 docker ubuntu 容器 arm开发 linux 运维
前言因需要在x86的Ubuntu上运行arm64版本的Ubuntu，方便调试不同架构的代码，所以使用docker容器来实现。配置完所需环境测试后发现这个方案可行，相当于部署了虚拟环境。而且docker容器都是隔离的，使用更方便。在多台设备上配置太麻烦，所以写成简易的配置脚本。我的配置脚本#!/bin/bash#更改DNSsudosed-i's/#DNS=/DNS=192.168.101.201/'
基于区块链的云上数据访问控制模型研究 XLYcmy 论文阅读阅读笔记网络安全论文阅读论文笔记区块链访问控制云数据
论⽂选择理由:汉语论⽂,对于新⼿⼊⼿阅读相对容易之前,进⾏过区块链⽅⾯的研究，有⼀定基础⽅便理解论⽂通读情况:①基本掌握论⽂所提出背景和要解决的问题②⼤致理解论⽂所提出的⽅案和优势收获:⼤致梳理出⼀篇做的架构:(我的理解)背景→现有⽅案不⾜→预备免识→提出⽅案→⽅案核⼼设计与算法→与其他⽅案对比→设计实验环境与实验指标进⾏⽅案验证→总结与展望
程序员必须掌握的消息中间件-RocketMQ 后端
设计(design)1消息存储消息存储是RocketMQ中最为复杂和最为重要的一部分，本节将分别从RocketMQ的消息存储整体架构、PageCache与Mmap内存映射以及RocketMQ中两种不同的刷盘方式三方面来分别展开叙述。1.1消息存储整体架构消息存储架构图中主要有下面三个跟消息存储相关的文件构成。(1)CommitLog：消息主体以及元数据的存储主体，存储Producer端写入的消息主
在 X86_64(amd64) 平台上的docker支持打包跨平台的镜像(如arm64) DHclly docker java eureka
在信创，ARM开始崛起的现在，Docker也从一开始的只支持x86_64架构变为支持各种架构了，虽然Docker的目的是保证只要Docker安装好，在任意机器上运行都能达到一样的效果，但是这个的前提是Docker镜像的架构和当前服务器的架构一致，以前都是x84_64架构自然可以，但现在也有别的架构，因此一个镜像如果只有x86_64架构的版本，那么是无法在Arm架构的服务器上运行的。和运行同理，打包
docker buildx 构建arm64架构镜像_docker buildx 创建arm镜像蓉城垡程序员 docker 架构容器
参考：Buildmulti-platformimages安装dockerrun--privileged--rmtonistiigi/binfmt--installall创建builderdockerbuildxcreate--use--namemybuilddefault构建镜像使用go语言为例子，参考这位大佬博客：cat>hello.goDockerfile<
Imagen架构详解：理解其背后的技术与创新范范0825 Imagen 架构
Imagen架构详解：理解其背后的技术与创新引言近年来，生成式人工智能技术取得了飞速发展，特别是在图像生成领域。作为这一领域的重要创新之一，Imagen是由谷歌开发的一种基于文本生成图像的模型。它在生成高质量、逼真的图像方面表现出色，并通过其先进的架构和技术手段推动了图像生成的技术进步。Imagen不仅在图像生成质量上具有显著优势，还能够通过自然语言描述生成细致复杂的图像。本文将详细剖析Image
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Java 中可作为 GC Roots 的对象有哪几种？码炫课堂-码哥 java面试题 jvm 面试
作者简介：大家好，我是码炫码哥，前中兴通讯、美团架构师，现任某互联网公司CTO，兼职码炫课堂主讲源码系列专题代表作：《jdk源码&多线程&高并发》，《深入tomcat源码解析》，《深入netty源码解析》，《深入dubbo源码解析》，《深入springboot源码解析》，《深入spring源码解析》，《深入redis源码解析》等联系qq：184480602，加我进群，大家一起学习，一起进步，一起对
2025最新大数据毕业设计选题汇总：创新课题推荐 HaiLang_IT 毕业设计选题大数据毕业设计 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
VM-UNet: 基于Vision Mamba UNet的医学图像分割项目推荐翟洁英
VM-UNet:基于VisionMambaUNet的医学图像分割项目推荐VM-UNet项目地址:https://gitcode.com/gh_mirrors/vm/VM-UNet1.项目基础介绍和主要编程语言VM-UNet是一个基于VisionMambaUNet架构的开源项目，专门用于医学图像分割。该项目的主要编程语言是Python。VM-UNet结合了状态空间模型（StateSpaceModel
Java全栈项目 - 农产品溯源管理系统开发实践天天进步2015 Java项目实战 java 开发语言
一、项目介绍农产品溯源管理系统是一个基于Java全栈技术开发的现代化信息系统，旨在实现农产品从种植、生产到销售的全过程追踪管理。本系统帮助提高农产品质量安全监管效率，保障食品安全。二、技术架构后端技术栈：SpringBoot2.5.xSpringSecurityMyBatisPlusMySQL8.0RedisJWT认证前端技术栈：Vue.js3.0ElementPlusAxiosEchartsVu
PL/SQL语言的文件操作云端架构师包罗万象 golang 开发语言后端
PL/SQL语言的文件操作引言PL/SQL（ProceduralLanguage/SQL）是Oracle数据库提供的一种过程化编程语言，它结合了SQL的强大数据处理能力和过程性编程的灵活性。PL/SQL不仅可以用于数据库的操作和处理用户输入的数据，还可以进行丰富的文件操作。随着数据量的增加和信息处理需求的提高，掌握PL/SQL中的文件操作技术，对于数据库管理员和开发人员而言，显得尤为重要。本文将对
MySQL 进阶：运维与架构 - 从链式复制到主从复制墨夶数据库学习资料1 mysql 运维架构
MySQL进阶：运维与架构-从链式复制到主从复制在MySQL数据库的高可用性和扩展性架构中，链式复制提供了一种灵活的方式来扩展复制拓扑结构。然而，在某些情况下，你可能需要将复杂的链式复制架构简化为主从复制架构，例如为了减少延迟、简化管理或者应对特定的安全要求。本文将详细介绍如何从链式复制架构转换回主从复制架构，并提供相应的操作步骤和注意事项。❓引言：为什么从链式复制回到主从复制❓尽管链式复制提供了
MySQL 进阶：运维与架构 - 从主从复制到链式复制墨夶数据库学习资料1 mysql 运维架构
MySQL进阶：运维与架构-从主从复制到链式复制在MySQL数据库的高可用性和扩展性架构中，主从复制是一种常见的技术手段。通过主从复制，可以实现数据的备份、故障恢复、读写分离等功能。然而，随着业务规模的扩大和复杂度的增加，单一的主从复制架构可能无法满足更高的需求。因此，链式复制作为一种扩展形式，逐渐成为数据库架构师们关注的重点。本文将详细介绍从主从复制到链式复制的演进过程，以及如何实现和管理链式复
MySQL 进阶：运维与架构 - 延迟复制墨夶数据库学习资料1 mysql 运维架构
MySQL进阶：运维与架构-延迟复制在MySQL的主从复制架构中，延迟复制（DelayedReplication）是一种特殊的复制策略，它允许从服务器（Slave）在接收到主服务器（Master）的二进制日志事件后，延迟一段时间再执行这些事件。这种机制在多种场景下都非常有用，例如，当需要在从服务器上保留旧的数据版本以供审计或备份时，或者当需要在从服务器上进行一些非实时的数据分析时。本文将详细介绍M
keystone 存储 android,KeyStone存储器架构贺仙 keystone 存储 android
序言随着全球范围内的海量数据对无线和有线网络的强大冲击，运营商面临着严峻的挑战，他们需要不断推出既能满足当前需求也能满足未来需求的网络。因此，通信基础局端设备制造商在致力于降低每比特成本和功耗的同时，也在不断寻求能够满足当前及至未来需求的核心技术。TI最新推出的新型KeyStone多内核SoC架构能够游刃有余地满足这些挑战。本文引用地址：http://www.eepw.com.cn/article
【Linux】【内存】Buddy 系统（伙伴系统）钟离墨笺 Linux linux 服务器运维
【Linux】【内存】Buddy系统（伙伴系统）根据上篇的NUMA架构可以知道它将物理内存分成多个节点（memorynode）每个memorynode分为不同的zone每个zone又有自己的free_areaBuddy伙伴系统就是对这些free_area的一种管理方式free_area里面的内存管理是根据页面大小管理的例如:下标页面大小free_area[0]2^0*4kfree_area[1]2
OpenStack认证服务（Keystone）详细解读 D3Zane OpenStack openstack 服务器运维
文章目录前言一、项目陈述二、Keystone的基本名词概念三、相关概念关系解释三、Keystone的组件架构四、Keystone认证的基本步骤总结前言OpenStack云计算平台的组件有很多，该先安装哪个组件呢？为什么要先安装它？一、项目陈述由于OpenStack云计算平台是由众多组件构成的一套复杂系统，哪些组件被允许连入系统、进入系统后允许使用其他哪些组件功能，都需要一个认证单元去判断和决定。K
程序员必须掌握的消息中间件-RabbitMQ 后端
一、Rabbit概述RabbitMQ是一个开源的消息代理和队列服务器，用来通过普通协议在完全不同的应用中间共享数据，RabbitMQ是使用Erlang语言来编写的，并且RabbitMQ是基于AMQP协议的。特点：开源、性能优秀Erlang语言最初用在交换机的架构模式，这样使得RabbitMQ在Broker之间进行数据交互的性能时非常优秀的。Erlang的优点：Erlang有着和原生Socket一样
【软考速通笔记】系统架构设计师⑬——云原生架构设计理论与实践小康师兄系统架构设计师笔记系统架构云原生软考分布式容器微服务
文章目录一、前言二、云原生架构基础知识2.1定义2.2特点2.3原则三、云原生架构模式3.1服务化架构模式3.2Mesh化架构模式3.3Serverless模式3.4存储计算分离模式3.5分布式事务模式3.6可观测模式3.7事件驱动架构3.8反云原生模式四、云原生技术4.1容器技术4.2容器编排技术4.3微服务4.4无服务器技术4.5服务网格五、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f