young光素族

SPARK RDD编程指南

在高层次面上，每个spark应用有一个驱动程序组成，驱动程序运行用户的主函数，在集群上执行很多并行操作。Spark提供的主要抽象是RDD，可以进行并行操作的跨节点分散的元素集。RDDs可以由Hadoop文件系统中的一个文件创建，或在驱动程序中已经存在的scala集，然后转换它。用户会要求spark在内存中保留一个RDD，允许它被高效地跨并行操作重利用。最终RDD自动从节点失败中恢复。
spark中的第二个抽象是并行操作中可以使用的共享变量。默认情况下，当spark在不同节点作为一个任务集并行运行函数是，spark把每个函数中使用的每个变量副本传送给每个任务。有时，一个变量需要跨任务分享，或者在任务和驱动程序间。spark支持两种类型的共享变量：广播变量(在所有节点上内存缓冲一个值)和累加器(只增加的变量，比如计数器、汇总器)。
这个指南展示了spark支持的语言的这些特色。启动spark的互动shell，无论是scala的bin/spark-shell还是python的bin/pyspark，是很容易跟进的。
链接Spark —JAVA
Spark2.2.1支持lambda表达式来简明编写函数，反之你可以使用org.apache.spark.api.java.function包中的类。
注意Spark2.2.0中取消了对JAVA 7的支持。
为了用Java编写Spark应用，你需要增加对Spark的依赖。Spark可以通过Maven中心来获得：

groupId=org.apache.spark
artifactId=spark-core_2.11
version=2.2.1

另外，如果如果你想访问HDFS集群，你需要增加你的HDFS版本对应的Hadoop-client依赖。

groupId=org.apache.hadoop
artifactId=hadoop-client
version=

最后，你需要引入一些Spark类。增加以下行：

import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.SparkConf;

初始化Spark
一个Spark程序要做的第一件事是建立一个JavaSparkContext对象，告诉Spark如何访问一个集群。为了建立一个SparkConttext，你首先需要建立一个SparkConf对象，SparkConf对象包含你的应用的信息。

SparkConf conf=new SparkConf().setAppName(appName).setMaster(master);
JavaSparkContext sc=new JavaSparkContext(conf);

appName参数是显示在集群界面上的应用的名字。master是一个Spark/Mesos或YARN集群URL，或在一个特别的‘local’字符串表示运行在本地模式。实际中，当你运行在集群中时，你不并不想硬编码master到程序中，而是用spark-submit启动应用并在启动时得到master。然而，为了本地测试和单元测试，你可以传递local来在进程中运行Spark。
使用shell –python
在python shell中，一个特别的已翻译的SparkContext已经创建，称为sc。自己创建SparkContext不会生效。你可以使用–master参数来设置连接的集群，你还可以通过以逗号为分隔符–py-files参数增加Python .zip或.py文件清单到运行时目录。你也可以通过提供以逗号为分隔符的Maven coordinates清单到–package参数，增加依赖（比如Spark包）到shell session。任何存在依赖的额外的代码库都可以传递给–repositories参数。如果需要，Spark包包含的Python依赖（在包的requirements.txt文件中有清单）必须手工使用pip安装。比如，用4核运行bin/pyspark，使用：

$./bin/pyspark --master local[4]

或者，增加code.py来搜索路径（为了后续能够import code），使用：

$./bin/pyspark --master local[4] --py-files code.py

运行pyspark –help可以获取完整的选项清单。在这后面，pyspark触发了更通用的spark-submit脚本。
也可以在IPython（增强性的python翻译器）中运行pyspark。pyspark适用于IPython1.0.0及以后版本。为了使用IPython，使用bin/pyspark时需要设置PYSPARK_DRIVER_PYTHON变量为ipython：

$PYSPARK_DRIVER_PYTHON=ipython ./bin/pyspark

为了使用Jupyter notebook（之前称为IPython notebook），

$PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=notebook ./bin/pyspark

你可以通过设置PYSPARK_DRIVER_PYTHON_OPTS来自定义ipython或jupyter。在Jupter Notebook server启动后，你可以从“Files”选项页中建立一个新的“Python 2” notebook。在notebook中，在你开始从Jupyter notebook尝试Spark前，你可以输入%pylab inline命令作为notebook的一部分。
RDDs(Resilient Distributed Datasets)
spark围绕着RDD的概念，RDD是有容错的可以并行操作的元素集合。有两种方式创建RDDs：并行化在驱动程序中已存在的集合，或引用外部存储系统中的数据集，比如共享文件系统、HDFS、HBase或在任何提供Hadoop InputFormat的数据源。
并行化集合 —Java
并行化的集合通过对驱动程序中已存在的Collection调用JavaSparkContext‘s parallelize方法来创建。集合中的元素被复制来组成一个可以并行操作的分布式的数据集。比如，以下是如何创建一个包含数字1-5的并行化集合：

List<Integer> data=Arrays.asList(1,2,3,4,5);
JavaRDD<Integer> distData=sc.parallelize(data);

一旦创建，分布式数据集（distData）能够并行操作。比如，我们可以调用distData.reduce((a,b) -> a+b)来加起来列表中的元素。我们稍后描述对分布式数据集的操作。
并行集合的一个重要参数是把数据集分成分区的数量。Spark会对集群中每个分区运行一个任务。典型情况下，你希望集群中每个cpu2-4个分区。正常情况下，Spark自动根据你的集群设置分区的数量。然而，你也可以手动传递parallelize()第二个参数(比如sc.parallelize(data,10))来设置。注意：代码中有些地方使用slices（分区partitions的同义词）术语来维护向后兼容。
外部数据集 —Java
Spark可以从任何Hadoop支持的存储数据源创建分布式数据集，包括本地文件系统、HDFS、Cassandra、HBase、Amazon S3等等。Spark支持文本文件、SequenceFiles序列文件和任何Hadoop InputFormat。
文本文件RDDs可以使用SparkContext‘s textFile方法创建。这个方法使用文件（本机上的路径，或者hdfs://，s3n://，等等）的URI，然后作为行集合读取。以下是一个例子：

JavaRDD<String> distFile=sc.textFile("data.txt");

一旦创建，distFile可以通过数据集操作。比如，我们可以使用map和reduce操作把所有行的数量加起来：distFile.map(s -> s.length()).reduce((a,b) -> a+b).
Spark读取文件时需要注意：

如果使用本地文件系统的路径，文件必须在工作节点的相同路径可访问。要么复制文件到所有节点，要么使用网络加载的共享文件系统。
spark所有以文件为基础的输入方法，包括textFile，支持运行在目录、压缩文件和通配符。比如，你可以使用textFile（“/my/directory”），textFile（“/my/directory/.txt”)和textFile(“/my/directory/.gz”)。
textFile方法也可以选带第二个参数来控制文件的分区数量。默认Spark为文件的每个块（HDFS中块默认是128MB）创建一个分区。但是你可以通过传递更大的值来申请更多的分区。注意你不能分配比块更少的分区。
除了文本文件，Spark的Java API也支持其他数据格式：
JavaSparkContext.wholeTextFiles可以让你读取包含大量小文本文件的目录，并为每个文件返回（文件名称，内容）对。而tetFile则为文件中每行返回一条记录。
对于序列文件，则使用SparkContext‘s sequenceFile[K，V]方法，其中K 和V 是文件中key和values的类型。这些应该是Hadoop’s Writable接口的子类，比如IntWritable和Text。
对于其他的Hadoop InputFormats，你可以使用JavaSparkContext.hadoopRDD方法，该方法包含任意的JobConf和input format类，key类和value类。设置这些和你设置hadoop job的输入源是一样的。你也可以对基于新的MapReduce API（org.apache.hadoop.mapreduce）的InputFormats使用JavaSparkContext.newAPIHaddopRDD。
JavaRDD.saveAsObjectFile和JavaSparkContext.objectFile支持以包含序列花Java对象的简单方式保存一个RDD。然而这样没有专门格式像Avro那样高效，Avro提供了一种很简单的方式保存任何RDD。
RDD操作
RDDs支持两种类型的操作：转换（从一个已存在的创建一个新的数据集）和动作（对数据集进行计算后返回给驱动程序一个值）。比如，map是一种转换操作，把每个数据集元素通过一个函数并返回一个新RDD代表结果。另一方面，reduce是一种动作，使用每个函数合计RDD 的所有元素并返回给驱动程序最终的结果（虽然也有一个并行的reduceByKey返回一个分布式的数据集）。
Spark 的所有转换是惰的，即它们不立即计算结果。而是记住对基础数据集（比如一个文件）的转换。当动作需要返回结果给驱动程序时，转换才开始计算。这样设计使Spark运行更高效。比如，我们意识到一个通过map创建的数据集会在一个reduce中使用并只返回reduce的结果给驱动，而不是更大的mapped的数据集。
默认情况下，每个转换的RDD每次运行动作都会重新计算。但是你也可以使用persist（或cache）方法将RDD保留在内存中，这样Spark使集群种的元素在下次查询时保持更快的访问速度。也支持将RDDs持久化到硬盘，或在跨多个节点复制。
Basics —Java
说明RDD基础，可以考虑如下简单程序：

JavaRDD<String> lines=sc.textFile("data.txt");
JavaRDD<Integer> lingLengths=lines.map(s -> s.length());
int totalLength =lineLengths.reduce((a,b) -> a+b);

第一行从外部文件定义一个基本的RDD。数据集不加载在内存中，不进行操作，lines仅仅是指向文件的指针。第二行定义lineLengths作为map转换的结果。同样，lineLengths没有立即计算出来，由于惰性。最后我们运行reduce，这是一个动作，Spark把计算分成任务在不同的机器上运行，每台机器运行map的部分和本地的reduction，返回自己的结果给驱动程序。
如果我们想再次使用lineLengths，我们可以在reduce之前增加：

lineLengths.persist(StorageLevel.MEMORY_ONLY());

这样会在第一次计算后把lineLengths保存在内存中。
传递函数给Spark —Java
Spark‘s API严重依赖在驱动程序中传递函数来运行在集群中。Java中，实现org.apache.spark.api.java.function包中接口的类代表函数。有两种创建这样函数的方法：
- 用自己的类实现函数接口，要么作为一个匿名内部类要么一个有命名类，然后传递实例给Spark。
- 使用lambda表达式简明地定义实现。
虽然本指南多数使用简明的lambda句法，使用长格式的相同API 也是很简单的。比如，我们可以按如下编写上述的代码：

JavaRDD<String> lines=sc.textFile("data.txt");
JavaRDD<Integer> lineLengths=lines.map(new Function<String,Integer>(){
    public Integer call(String s){return s.length();}
});
int totalLength =lineLengths.reduce(new Function2<Integer,Integer,Integer>(){
    public Integer call(Integer a,Integer b){return a+b;}
});

或者如果行内函数比较笨重，也可以：

class GetLength implements Function<String,Integer>{
    public Integer call(String s){return s.length();}
}
class Sum implements Function2<Integer,Integer,Integer>{
    public Integer call(Integer a,Integer b){return a+b;}
}

JavaRDD lines=sc.textFile("data.txt");
JavaRDD lineLengths=lines.map(new GetLength());
int totalLength =lineLengths.reduce(new Sum());

注意Java匿名内部类也可以访问enclosing范围的变量，只要变量是final的。Spark会把这些变量复制到每个工作节点，正如Spark为其他语言做的。
理解闭包closures
Spark的比较难的一点是理解跨集群执行代码时变量和方法的作用范围和生命周期。在作用范围之外更改变量的RDD操作是混乱的常见来源。在下面的示例我们来看下使用foreach()来增加累加器的代码，但是相同的问题也会发生在其他操作上。
Example —Java
考虑下面简单的RDD元素汇总，会依赖是否在同一个JVM中而表现不同。常见的例子是当运行Spark在本地模式（–master =local [n]）和部署Spark应用到集群中(比如通过spark-submit到YARN)。

int counter=0;
JavaRDD<Integer> rdd=sc.parallelize(data);
//wrong:Don't do this!!
rdd.foreach(x -> counter += x);
println("Counter value:" + counter);

本地模式 vs. 集群模式
上述代码的行为没有定义，不会按意图工作。为了执行工作，Spark把RDD操作的处理分解成任务，每个任务被执行者执行。在执行之前，Spark计算任务的闭包。闭包是那些变量和方法，他们对于执行者在RDDshang （在这里就是foreach()）执行计算必须是可见的。闭包序列化后发送给每个执行者。
发送给每个执行者的闭包内的变量是副本，这样当counter在foreach函数中引用时它不再是驱动程序中的counter。在驱动节点的内存中仍然有一个counter，但它不再对执行者可见！执行者只会看到序列化闭包中的副本。这样，counter的最终值仍然时0，因为所有对counter的操作引用的是序列化闭包中的值。
在本地模式中某些环境下，foreach函数确实在和驱动相同的JVM 中执行，会引用相同的原始counter，然后确实更新它。
为了保证在这些类型的场景下定义完好的行为，应该使用Accumulator。在Spark中accumulator被专门用来提供当执行分散在集群中跨工作节点时安全更新变量的机制。本指南中accumulator部分会详细讨论这些。
一般而言，闭包（其构造像循环或本地定义的方法）不应该被用来修改全局状态。Spark不定义、不保证闭包外部引用的对象修改行为。一些代码这样做在本地模式下生效，但那只是碰巧，这样的代码在分布式模式下不会按预想的生效。如果需要全局的愈合，需要使用accumulator。
打印RDD元素
另一个惯用语法是尝试使用rdd.foreach(println)或rdd.map(println)打印RDD的元素。在一台机器上，这会产生预想的输出，打印所有的RDD元素。然而在集群模式下，执行者调用的stdout的输出会写到执行者的stdout，而不会写到驱动的stdout，所以驱动的stdout不会显示这些。为了在驱动上打印所有的元素，可以使用collect()方法首先把RDD带到驱动节点：rdd.collect().foreach(println)。因为collect（）会把整个RDD取到单独的机器，驱动会run out of memory从内存中运行；如果你只需要打印RDD 的一些元素，一个跟甘泉的方法是使用take()：rdd.take(100).foreach(println)。
使用键-值对 —Java
虽然大多数Spark操作作用于包含任何类型的RDDs，有一些特殊的操作只能
作用于键值对类型的RDDs。最常见的是分布式shuffle操作，比如按一个键对元素进行分组和愈合。
在Java中，键值对使用Scala标准库中的scala.Tuple2类来表示。你可以简单调用new Tuple2(a,b)来创建一个tuple，用tuple._1()和tuple._2()来访问它的字段。
键值对RDDs使用JavaPairRDD类来表示。你可以使用特殊版本的map操作，像mapToPair和flatMapToPair，从JavaRDDs中构造。JavaPairRDD同时具有标准RDD函数和键值对特殊的函数。
比如，以下代码对键值对使用reduceByKey操作来计算每行文本在文件中出现了几次：

JavaRDD<String> lines=sc.textFile("data.txt");
JavaPairRDD<String,Integer> pairs=lines.mapToPair(s -> new Tuple2(s,1));
JavaPairRDD<String,Integer> counts=pairs.reduceByKey((a,b) -> a+b);

我们可以使用counts.sortByKey()，比如，来按字母表排序键值对，最后使用counts.collect()来把他们以对象数组形式带回驱动程序。
注意：当使用custom对象作为键值对操作中的键时，你必须确保custom的equals方法有对应的hashCode方法。全部细节参见Object.hashCode()文档。
转换
下面的表格列出了Spark支持的常见的转换。更多细节参见RDD API doc和pairRDD函数doc文档。

转换	意义
map(func)	每个元素通过一个函数func，组成新的分布式数据集，并返回
filter(func)	筛选那些func函数返回值为true的元素，组成新的数据集，并返回
flatMap(func)	类似于map，但是每个输入项会被映射成0或更多输出向（所以func应该返回一个序列而非单一项）
mapPartition(func)
mapPartitionWithIndex(func)
sample(withReplacement,fraction,seed)
union(otherDataset)
intersection(otherDataset)
distinct([numTasks])
groupByKey([numTasks])
reduceByKey(func,[numTasks])
aggregateByKey(zeroValue)(seqOp,combOp,[numTasks])
sortByKey
join
cogroup
cartesian
pipe
coalesce
repartition
repartitionAndSortWithinPartitions

动作Actions
下面的表格列出了Spark支持的常见动作。细节参见RDD API doc和piar RDD函数doc文档。

动作	含义
reduce(func)
collect()
count()
first()
take(n)
takeSample
takeOrdered
saveATextFile
saveAsSequnenceFile
saveAsObjectFile
countByKey
foreach(func)

Spark RDD API也暴露了一些动作的异步版本，比如foreachAsync 对应foreach，foreachAsync立即返回FutureAction给调用者而不是阻塞到动作完成。这可以被用来管理或者等待动作的异步执行。
Shuffle操作
Spark内特定的操作引发一个事项叫做shuffle。shuffle是Spark再分配数据的机制，实现跨分区不同的分组。典型地会涉及跨执行者和机器复制数据，使得shuffle是一个复杂、高成本的操作。
背景
为了了解shuffle期间发生了什么，我们可以考虑下reduceByKey操作示例。reduceByKey操作生成一个新的RDD，一个单独key对应的所有值整合进一个tuple-键和执行reduce函数的结果against所有和那个key相关的值。挑战是一个单独key的所有的值不在相同的分区，甚至不在同一个机器，但是他们必须合起来计算出结果。
在Spakr中，数据一般跨区分布，不是为某个操作而存在于必要位置。在计算期间，一个单独的人物在一个单独的分区上操作，这样，为了组织一个单独的reduceByKey任务的所有的数据去执行，Spark需要执行all-to-all操作。它必须读取所有分区找到所有key的所有值，然后跨分区把所有值放在一起来计算每个key的最终结果，这被称作shuffle。（–想想wordcount要作的事–）
虽然新shuffled的数据每个分区的元素集是确定的，分区自身的顺序也是确定的，但是这些元素的顺序却不是。如果想要有顺序的数据执行shuffle，可能会使用：
- mapPartitions 来分类每个分区使用，比如，.sorted
- repartitionAndSortWithinPartitions来高效分类分区同时再分区
- sortBy来产生一个全局有序RDD
引起shuffle的操作包括repartition操作像repartition和coalesce，ByKey操作（除了counting）像groupByKey和reduceByKey，join操作像cogroup和join。
性能影响
Shuffle是高成本的操作，因为它涉及硬盘I/O、数据序列化、网络I/O。为了为shuffle组织数据，Spark生成系列任务-map任务来组织数据、一系列reduce任务来聚合。这个术语来自MapReduce，不直接和Spark的map和reduce操作相关。
从内部看，单独map任务的结果存在内存中直到放不下。然后，这些结果基于目标分区分类后写入单独文件。在reduce方面，任务读取相应的分类的块。
特定shuffle操作会消耗大量的heap内存，因为它们在使transfer数据之前或之后用内存数据结构来组织记录。特别是reduceByKey和aggregateByKey在map侧创建这些结构，ByKey操作在reduce侧产生这些。当数据不能存在内存时，Spark把这些表格输出到硬盘，引发额外的硬盘I/O消耗和垃圾回收。
Shuffle也在硬盘上生成大量的临时文件。从Spark 1.3开始，这些文件一直保存到相应的RDDs不再使用，被作为垃圾回收。这样作是为了如果lineage重新计算，shuffle文件不需要重新创建。如果应用保留对这些RDDs的引用或者垃圾回收没有频繁kick，垃圾回收在很长一段时间之后才发生。者意味着长期运行的spark工作会消耗大量的磁盘空间。配置Spark context时，临时的存储目录由spark.local.dir配置参数指定。
Shuffle行为可以通过调整很多配置参数来调节。具体见Spark Configuration Guide中的‘Shuffle Behavior’章节。
RDD持久化
Spark最重要的能力之一就是在内存中跨操作持久化（或者缓存）一个数据集。当你持久化一个RDD时，每个节点存储在内存中计算的任何分区，然后在数据集（或者从该数据集衍生的数据集）的其他动作中重复使用它们。这样可以使得将来的动作更快（经常会快超过10倍）。缓存是迭代算法和快速交互使用的关键工具。
你可以使用persist()或cache()方法标记要持久化的RDD。第一次在动作中计算后，它会保存在节点的内存中。Spark的缓存是可容错的–如果RDD的任一分区丢失，它会自动使用创建时用的转换重新计算。
另外，每个持久化的RDD可以使用不同的存储级别存储，允许你，比如持久化到硬盘，作为序列化Java对象持久化到内存中（为了节约空间），跨节点复制。这些级别通过传递一个StorageLevel对象（Scala，Java，Python）给persist()来设置。cache()方法是使用默认存储级别的简便技法，即StorageLevel.MEMORY_ONLY(存储序列化对象在内存中)。storage level的全集是：

Storage Level	Meaning
MEMORY_ONLY
MEMORY_AND_DISK
MEMORY_ONLY_SER(Java and scala)
MEMORY_AND_DISK_SER(Java and scala)
DISK_ONLY
MEMORY_ONLY_@,MEMORY_AND_DISK_2,etc
OFF_HEAP(experimental)

注意：在Python，经常使用Pickle库来序列化存储对象，所以你是否选择一个序列化级别都无所谓。Python中可用的存储级别包括MEMORY_ONLY，MEMORY_ONLY_2,MEMORY_AND_DISK,MEMORY_AND_DISK_2,DISK_ONLY,和DISK_ONLY_2.
Spark也自动持久化一些shuffle操作中的临时数据（比如reduceByKey），甚至不需要用户调用persist。这样作是为了防止重新计算整个输入以防一个节点在shuffle中失败。我们依旧建议用户对结果RDD调用persist，如果计划重新使用它。
选择哪个存储级别？
Spark的存储级别意味着在内存使用率和CPU效率中间提供不同的平衡。我们家你通过下面的流程来选者一个：

如果你的RDD 适合默认的存储级别（MEMORY_ONLY），继续保持。这是CPU效率最高的选项，使得RDDs上的操作能够尽可能快地运行。
如果不是，试着使用MEMORY_ONLY_SER，选择一个快速序列化库来使对象具有更高空间利用效率，但是依然具有很快的访问速度。（Java和Scala）
不要输出到硬盘除非计算你数据集的函数成本非常高，或在要过滤大量的数据。否则，重新计算一个分区会和从硬盘上读取它一样快。
如果你想快速灾难恢复（比如使用Spark来服务来自web应用的需求），使用复制存储级别。所有的存储级别通过重新计算数据提供全部的容灾
，但是复制存储级别让你继续在RDD上运行任何而不需要等待重新计算丢失的分区。
删除数据
Spark自动检测每个节点上的缓存使用率，然后是哟个LRU（最近最少使用）方式丢弃旧的数据分区。如果你想手动删除RDD而不是等待它从缓存中消失，使用RDD.unpersist()方法。
共享变量
正常情况下，当传递给Spark操作(比如map或reduce)的函数在一个远程集群节点上执行时，它作用于函数中所有变量的各个副本。这些变量被复制到每个机器，在远程机器上的变量更新不回传驱动程序。支持一般情况下，跨任务读写的共享变量会低效率。然而，Spark提供两种限制类型的共享变量用于两种常见用途模式：广播变量和累加器。
广播变量
广播变量允许编程者保持一个只读变量缓存在每个机器，而不是随任务复制。他们可用来，比如，高效地给每个节点复制较大的输入数据集。Spark也尝试使用高效的广播算法分发广播变量来减少沟通成本。
Spark动作通过一系列由分布式shuffle操作分隔的阶段来执行。Spark自动广播每个阶段中任务需要的共同数据。这种方式广播的数据以序列化的方式缓存，在运行每个任务前再进行反序列化。这以为着显式地创建广播变量只有当跨多个阶段的任务需要相同数据或者当以反序列化方式缓存数据很重要时是有用的。
广播变量通过调用SparkContex.broadcast(v)中的变量v创建。广播变量是v的包装类，它的值可以通过调用value方法来访问。下面的代码展示了：

Broadcast<int[]> broadcastVar=sc.broadcast(new int[]{1,2,3});
broadcastVar.value();
// returns [1,2,3]

在广播变量创建后，在任何函数中不应该是v在集群中使用，v不会传递给任何节点。另外，在广播后为了使得所有节点得到广播变量的相同值，对象不应该再被修改。
累加器 —Java
累加器是通过联想式和可交换式的操作只“增”的变量，因此高效支持并行。累加器可用来执行计数器（如在MapReduce）或汇总。Spark原生支持数字类型的计算，程序员可以增加对新类型的支持。
作为一个用户，你可以创建命名的或未命名的累加器。像下面的图片展示，命名的累加器（在这个示例中counter）会在web页面呈现累加器修改的各个阶段。Spark展示被任务表格中任务修改的每个累加器的值。

跟踪界面上的累加器对理解运行阶段的过程很有用。（注意：这还没有支持Python）
数字累加器可以通过调用SparkContext.longAccumulator()或者SparkContext.doubleAccumulator()来分别创建Long或Double类型的累加器值。在集群上运行的任务可以使用add方法来增加它。然而，集群无法读取它的值。只有驱动程序可以使用value方法读取累加器的值。
以下代码展示了一个累加器累加一个数组的元素：

LongAccumulator accum=jsc.sc().longAccumulator();
sc.parallelize(Array.asList(1,2,3,4)).foreach(x -> accum.add(x));
accum.value();

这段代码使用原生支持的Long类型的累加器，程序员可以通过实现子类AccumulatorV2来创建自己的类型。子类AccumulatorV2有一些需要覆盖的方法：用来重置累加器为0的reset，把另一个值加到累加器的add，合并另一个相同类型累加器的merge。其他需要重写的方法参见API 文档。比如，假设我们有一个MyVector类表示数字矢量，我们可以写：

class VectorAccumulatorV2 implements AccumulatorV2<MyVector,Myvector>{
    private MyVector myVector=MyVector.createZeroVector();
    public void reset(){
    myVector.reset();
    } 
    public void add(MyVector v){
    myVector.add(v);
    }
}
// then create an Accumulator of this type
VectorAccumulatorV2 myVectorAcc=new VectorAccumulatorV2();
//then registere it into spark context
jsc.sc().regiter(myVectorAcc,"MyVectorAcc1");

注意，当程序员定义自己类型的AccumulatorV2时，生成的类型可以和增加的元素类型不一样。
对于值在内部动作执行的累加器更新，Spark保证每个任务对累加器的更新只用应用一次，比如，重启的任务不会更新值。在转换中，用户应该意识到如果任务或工作阶段重新执行，每个任务的更新会应用多次。
累加器没有改变Spark的懒评测的模型。如果累加器正在一个RDD的操作中更新，RDD作为动作的一部分被计算，它们的值只会更新一次。所以，当在一个像map()的懒转换中时，累加器更新不保证会被执行。以下代码片段证明了这点：

LongAccumulator accum=jsc.sc().longAccumulator();
data.map(x -> { accum.add(x); return f(x);})
//here, accum is still 0 because no actions have caused the 'map' to be computed.

部署一个集群
应用提交指南描述了如何提交应用到集群。简短来说，一旦你打包你的应用成JAR（for Java/Scala)或.py .zip文件集（for python），bin/spark-submit脚本让你可以提交它到任何支持的集群管理器。
从Java/Scala启动Spark工作
org.apache.spark.launcher包提供了使用简单Java API启动Spark jobs作为子进程的类。
单元测试
Spark方便于使用任何流行的单元测试框架进行单元测试。简单地在你的测试中用主机URL设置local创建一个SparkContext，运行你的操作，然后调用SparkContext.stop()来停止。因为Spark不支持两个context在同一个程序中同时运行，确保你在finally块或测试框架的tearDown方法中停止context。
接下来去哪儿
你可以去看一些Spark网站上的Spark程序样例。另外，Spark包括很多样例在example文件夹。你可以通过传递类名称到Spark的bin/run-example脚本来运行Java和Scala样例。比如：

./bin/run-example SparkPi

对于Python样例，使用spark-submit脚本：

./bin/spark-submit examples/src/main/python/pi.py

对于R样例，使用spark-submit：

./bin/spark-submit examples/src/main/r/dataframe.R

为了优化你的程序，配置和调优指南提供最优实践信息。它们特别重要，对于保证你的数据高效存储在内存中。为寻求部署上的帮忙，集群模式概览描述了分布式操作和支持的集群管理器涉及的组件。
最后，全部的API文档参见Scala、Java、Python、R。

你可能感兴趣的:(spark)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include