highfei2011

[Spark 进阶]-- 优化Spark作业以获得最佳性能

感谢原文作者：https://michalsenkyr.github.io/2018/01/spark-performance

Spark作业的开发在表面上看起来很容易，而且大部分都是如此。提供的 API设计精良且功能丰富，如果您熟悉Scala集合或Java流，您将立即完成实施。实际上，当在集群上运行它们并且满负载时，硬件部分实际上是因为并非所有作业在性能方面都是相同的。不幸的是，要以最佳方式实现您的工作，您必须了解Spark及其内部结构。

在本文中，我将讨论在开发Spark应用程序时可能遇到的最常见的性能问题以及如何避免或减轻它们。

1.Transformations

使用RDD API时，最常见的性能问题是使用不适合特定用例的转换。这可能源于许多用户对SQL查询语言的熟悉以及他们对查询优化的依赖。重要的是要意识到RDD API不应用任何此类优化。

我们来看看同一计算的这两个定义：

val input = sc.parallelize(1 to 10000000, 42).map(x => (x % 42, x))
val definition1 = input.groupByKey().mapValues(_.sum)
val definition2 = input.reduceByKey(_ + _)

RDD	平均时间	闵。时间	最大。时间
定义1	2646.3ms	1570ms	8444ms
定义2	270.7ms	96ms	1569ms

Lineage（定义1）：

(42) MapPartitionsRDD[3] at mapValues at :26 []
 |   ShuffledRDD[2] at groupByKey at :26 []
 +-(42) MapPartitionsRDD[1] at map at :24 []
    |   ParallelCollectionRDD[0] at parallelize at :24 []

Lineage（定义2）：

(42) ShuffledRDD[4] at reduceByKey at :26 []
 +-(42) MapPartitionsRDD[1] at map at :24 []
    |   ParallelCollectionRDD[0] at parallelize at :24 []

第二个定义比第一个定义快得多，因为它在我们的用例上下文中更有效地处理数据，而不是不必要地收集所有元素。

在进行笛卡尔连接并稍后对结果数据进行过滤而不是转换为RDD并使用内部连接时，我们可以观察到类似的性能问题：

val input1 = sc.parallelize(1 to 10000, 42)
val input2 = sc.parallelize(1.to(100000, 17), 42)
val definition1 = input1.cartesian(input2).filter { case (x1, x2) => x1 % 42 == x2 % 42 }
val definition2 = input1.map(x => (x % 42, x)).join(input2.map(x => (x % 42, x))).map(_._2)

RDD	平均时间	闵。时间	最大。时间
定义1	9255.3ms	3750ms	12077ms
定义2	1525ms	623ms	2759ms

Lineage（定义1）：

(1764) MapPartitionsRDD[34] at filter at :30 []
  |    CartesianRDD[33] at cartesian at :30 []
  |    ParallelCollectionRDD[0] at parallelize at :24 []
  |    ParallelCollectionRDD[1] at parallelize at :24 []

Lineage（定义2）：

(42) MapPartitionsRDD[40] at map at :30 []
 |   MapPartitionsRDD[39] at join at :30 []
 |   MapPartitionsRDD[38] at join at :30 []
 |   CoGroupedRDD[37] at join at :30 []
 +-(42) MapPartitionsRDD[35] at map at :30 []
 |  |   ParallelCollectionRDD[0] at parallelize at :24 []
 +-(42) MapPartitionsRDD[36] at map at :30 []
    |   ParallelCollectionRDD[1] at parallelize at :24 []

这里的经验法则是始终使用转换边界处的最小数据量。RDD API尽最大努力优化任务调度，基于数据局部性的首选位置等背景内容。但它并不优化计算本身。事实上，它实际上是不可能的，因为每个转换都是由不透明的函数定义的，而Spark无法查看我们正在使用的数据以及如何处理。

还有另一条经验法则可以从中得出：使用丰富的变换，即在单个变换的上下文中尽可能多地进行变换。一个有用的工具是combineByKeyWithClassTag方法：

val input = sc.parallelize(1 to 1000000, 42).keyBy(_ % 1000)
val combined = input.combineByKeyWithClassTag((x: Int) => Set(x / 1000), (s: Set[Int], x: Int) => s + x / 1000, (s1: Set[Int], s2: Set[Int]) => s1 ++ s2)

Lineage:

(42) ShuffledRDD[61] at combineByKeyWithClassTag at :28 []
 +-(42) MapPartitionsRDD[57] at keyBy at :25 []
    |   ParallelCollectionRDD[56] at parallelize at :25 []

DataFrames and Datasets

Spark社区实际上认识到了这些问题，并开发了两套高级API来解决这个问题：DataFrame和Dataset。这些API带有关于数据的附加信息，并定义了整个框架中可识别的特定转换。在调用动作时，计算图被大量优化并转换为相应的RDD图，并执行该图。

为了演示，我们可以尝试两种等效的计算，以一种非常不同的方式定义，并比较它们的运行时间和作业图：

val input1 = sc.parallelize(1 to 10000, 42).toDF("value1")
val input2 = sc.parallelize(1.to(100000, 17), 42).toDF("value2")
val definition1 = input1.crossJoin(input2).where('value1 % 42 === 'value2 % 42)
val definition2 = input1.join(input2, 'value1 % 42 === 'value2 % 42)

数据帧	平均时间	闵。时间	最大。时间
定义1	1598.3ms	929ms	2765ms
定义2	1770.9ms	744ms	2954ms

解析逻辑计划（定义1）：

'Filter (('value1 % 42) = ('value2 % 42))
+- Join Cross
   :- Project [value#2 AS value1#4]
   :  +- SerializeFromObject [input[0, int, false] AS value#2]
   :     +- ExternalRDD [obj#1]
   +- Project [value#9 AS value2#11]
      +- SerializeFromObject [input[0, int, false] AS value#9]
         +- ExternalRDD [obj#8]

解析逻辑计划（定义2）：

Join Inner, ((value1#4 % 42) = (value2#11 % 42))
:- Project [value#2 AS value1#4]
:  +- SerializeFromObject [input[0, int, false] AS value#2]
:     +- ExternalRDD [obj#1]
+- Project [value#9 AS value2#11]
   +- SerializeFromObject [input[0, int, false] AS value#9]
      +- ExternalRDD [obj#8]

物理计划（定义1）：

*SortMergeJoin [(value1#4 % 42)], [(value2#11 % 42)], Cross
:- *Sort [(value1#4 % 42) ASC NULLS FIRST], false, 0
:  +- Exchange hashpartitioning((value1#4 % 42), 200)
:     +- *Project [value#2 AS value1#4]
:        +- *SerializeFromObject [input[0, int, false] AS value#2]
:           +- Scan ExternalRDDScan[obj#1]
+- *Sort [(value2#11 % 42) ASC NULLS FIRST], false, 0
   +- Exchange hashpartitioning((value2#11 % 42), 200)
      +- *Project [value#9 AS value2#11]
         +- *SerializeFromObject [input[0, int, false] AS value#9]
            +- Scan ExternalRDDScan[obj#8]

物理计划（定义2）：

*SortMergeJoin [(value1#4 % 42)], [(value2#11 % 42)], Inner
:- *Sort [(value1#4 % 42) ASC NULLS FIRST], false, 0
:  +- Exchange hashpartitioning((value1#4 % 42), 200)
:     +- *Project [value#2 AS value1#4]
:        +- *SerializeFromObject [input[0, int, false] AS value#2]
:           +- Scan ExternalRDDScan[obj#1]
+- *Sort [(value2#11 % 42) ASC NULLS FIRST], false, 0
   +- Exchange hashpartitioning((value2#11 % 42), 200)
      +- *Project [value#9 AS value2#11]
         +- *SerializeFromObject [input[0, int, false] AS value#9]
            +- Scan ExternalRDDScan[obj#8]

优化之后，原始类型和转换顺序无关紧要，这要归功于一种称为基于规则的查询优化的功能。由于基于成本的查询优化，数据大小也被考虑在内以正确的方式重新排序作业。最后，DataFrame API还将有关作业实际所需的列的信息推送到数据源读取器以限制输入读取（这称为谓词下推）。编写RDD作业实际上非常难以与DataFrame API提供的内容相提并论。

但是，有一个方面，DataFrames并不出色，并且促使创建另一种，第三种方式来表示Spark计算：类型安全性。由于数据列仅出于转换定义的目的而由名称表示，并且仅在运行时检查它们对实际数据类型的有效使用，这往往会导致繁琐的开发过程，我们需要跟踪所有正确的类型或我们最终在执行过程中出错。数据集API是作为此解决方案创建的。

Dataset API使用Scala的类型推断和基于implicits的技术来传递Encoders，这是描述Spark优化器数据类型的特殊类，就像DataFrames一样，同时保留编译时键入以进行类型检查和写入转换自然。如果这听起来很复杂，这是一个例子：

val input = sc.parallelize(1 to 10000000, 42)
val definition = input.toDS.groupByKey(_ % 42).reduceGroups(_ + _)

数据集	平均时间	闵。时间	最大。时间
定义	544.9ms	472ms	728ms

解析的逻辑计划：

'Aggregate [value#301], [value#301, unresolvedalias(reduceaggregator(org.apache.spark.sql.expressions.ReduceAggregator@1d490b2b, Some(unresolveddeserializer(upcast(getcolumnbyordinal(0, IntegerType), IntegerType, - root class: "scala.Int"), value#298)), Some(int), Some(StructType(StructField(value,IntegerType,false))), input[0, scala.Tuple2, true]._1 AS value#303, input[0, scala.Tuple2, true]._2 AS value#304, newInstance(class scala.Tuple2), input[0, int, false] AS value#296, IntegerType, false, 0, 0), Some())]
+- AppendColumns , int, [StructField(value,IntegerType,false)], cast(value#298 as int), [input[0, int, false] AS value#301]
   +- SerializeFromObject [input[0, int, false] AS value#298]
      +- ExternalRDD [obj#297]

实体计划：

ObjectHashAggregate(keys=[value#301], functions=[reduceaggregator(org.apache.spark.sql.expressions.ReduceAggregator@1d490b2b, Some(value#298), Some(int), Some(StructType(StructField(value,IntegerType,false))), input[0, scala.Tuple2, true]._1 AS value#303, input[0, scala.Tuple2, true]._2 AS value#304, newInstance(class scala.Tuple2), input[0, int, false] AS value#296, IntegerType, false, 0, 0)], output=[value#301, ReduceAggregator(int)#309])
+- Exchange hashpartitioning(value#301, 200)
   +- ObjectHashAggregate(keys=[value#301], functions=[partial_reduceaggregator(org.apache.spark.sql.expressions.ReduceAggregator@1d490b2b, Some(value#298), Some(int), Some(StructType(StructField(value,IntegerType,false))), input[0, scala.Tuple2, true]._1 AS value#303, input[0, scala.Tuple2, true]._2 AS value#304, newInstance(class scala.Tuple2), input[0, int, false] AS value#296, IntegerType, false, 0, 0)], output=[value#301, buf#383])
      +- AppendColumnsWithObject , [input[0, int, false] AS value#298], [input[0, int, false] AS value#301]
         +- Scan ExternalRDDScan[obj#297]

后来人们意识到DataFrames可以被认为只是这些数据集的一个特例，并且API是统一的（使用一个名为Row的特殊优化类作为DataFrame的数据类型）。

但是，在涉及数据集时，请记住一点需要注意。作为开发人员熟悉了采集样RDD API，数据集API提供了自己的变异是其最流行的方法- filter，map和reduce。这些工作（如预期的那样）具有任意功能。因此，Spark无法理解这些函数的细节，并且其优化能力变得有些受损，因为它无法再正确传播某些信息（例如，用于谓词下推）。这将在序列化一节中进一步解释。

val input = spark.read.parquet("file:///tmp/test_data")
val dataframe = input.select('key).where('key === 1)
val dataset = input.as[(Int, Int)].map(_._1).filter(_ == 1)

解析的逻辑计划（数据帧）：

'Filter ('key = 1)
+- Project [key#43]
   +- Relation[key#43,value#44] parquet

解析逻辑计划（数据集）：

'TypedFilter , int, [StructField(value,IntegerType,false)], unresolveddeserializer(upcast(getcolumnbyordinal(0, IntegerType), IntegerType, - root class: "scala.Int"))
+- SerializeFromObject [input[0, int, false] AS value#57]
   +- MapElements , class scala.Tuple2, [StructField(_1,IntegerType,false), StructField(_2,IntegerType,false)], obj#56: int
      +- DeserializeToObject newInstance(class scala.Tuple2), obj#55: scala.Tuple2
         +- Relation[key#43,value#44] parquet

物理计划（数据框）：

*Project [key#43]
+- *Filter (isnotnull(key#43) && (key#43 = 1))
   +- *FileScan parquet [key#43] Batched: true, Format: Parquet, Location: InMemoryFileIndex[file:/tmp/test_data], PartitionFilters: [], PushedFilters: [IsNotNull(key), EqualTo(key,1)], ReadSchema: struct

物理计划（数据集）：

*SerializeFromObject [input[0, int, false] AS value#57]
+- *Filter .apply$mcZI$sp
   +- *MapElements , obj#56: int
      +- *DeserializeToObject newInstance(class scala.Tuple2), obj#55: scala.Tuple2
         +- *FileScan parquet [key#43,value#44] Batched: true, Format: Parquet, Location: InMemoryFileIndex[file:/tmp/test_data], PartitionFilters: [], PushedFilters: [], ReadSchema: struct

Parallel transformations

Spark可以并行运行多个计算。这可以通过在驱动程序上启动多个线程并在每个线程中发出一组转换来轻松实现。然后，生成的任务将同时运行并共享应用程序的资源。这确保了资源永远不会保持空闲（例如，在等待特定转换的最后任务完成时）。默认情况下，任务以FIFO方式处理（在作业级别），但可以通过使用备用应用程序内调度程序来确保公平性（通过设置spark.scheduler.mode为FAIR）。然后，期望线程通过将spark.scheduler.pool本地属性（使用SparkContext.setLocalProperty）设置为适当的池名来设置其调度池。然后应在一个中提供每池资源分配配置spark.scheduler.allocation.file设置定义的XML文件（默认情况下，这是fairscheduler.xml在Spark的conf文件夹中）。

def input(i: Int) = sc.parallelize(1 to i*100000)
def serial = (1 to 10).map(i => input(i).reduce(_ + _)).reduce(_ + _)
def parallel = (1 to 10).map(i => Future(input(i).reduce(_ + _))).map(Await.result(_, 10.minutes)).reduce(_ + _)

计算	平均时间	闵。时间	最大。时间
串行	173.1ms	140ms的	336ms
平行	141ms	122ms	200毫秒

2.分区

大多数Spark作业遭遇的第二个问题是数据分区不足。为了使我们的计算有效，重要的是将我们的数据划分为足够大的分区，这些分区的大小尽可能接近（统一），以便Spark可以调度正在运行的各个任务。他们以不可知的方式仍然可以预测地执行。如果分区不统一，我们说分区是倾斜的。这可能由于多种原因以及我们计算的不同部分而发生。

从数据源读取时，我们的输入可能已经倾斜。在RDD API中，这通常使用textFile和wholeTextFiles方法完成，这些方法具有令人惊讶的不同分区行为。该textFile方法旨在从（通常较大的）文件中读取单独的文本行，默认情况下将每个输入文件块作为单独的分区加载。它还提供了一个minPartitions参数，当大于块数时，它会尝试进一步拆分这些分区以满足指定的值。另一方面，wholeTextFiles方法，用于读取（通常较小的）文件的全部内容，将相关文件的块按其在集群内的实际位置组合到池中，默认情况下，为每个池创建一个分区（有关详细信息，请参阅Hadoop的CombineFileInputFormat，用于其实现）。minPartitions在这种情况下，参数控制这些池的最大大小（等于totalSize/minPartitions）。所有minPartitions参数的默认值为2.这意味着wholeTextFiles如果使用默认设置而不在集群上明确管理数据位置，则更容易获得非常少数量的分区。用于数据读入RDDS其它方法包括其它格式，例如sequenceFile，binaryFiles和binaryRecords，以及通用的方法hadoopRDD并newAPIHadoopRDD采用自定义格式实现（允许自定义分区）。

在随机边界上，分区特征经常发生变化。因此，暗示shuffle的操作提供了numPartitions指定新分区计数的参数（默认情况下，分区计数保持与原始RDD中的相同）。也可以通过shuffle引入Skew，尤其是在连接数据集时。

val input = sc.parallelize(1 to 1000, 42).keyBy(Math.min(_, 10))
val joined = input.cogroup(input)

由于这些情况下的分区完全取决于所选键（特别是其Murmur3哈希），因此必须注意避免为公共键创建异常大的分区（例如，空键是常见的特殊情况）。一种有效的解决方案是分离相关记录，将盐（随机值）引入其键并在多个阶段为它们执行后续操作（例如，减少）以获得正确的结果。

val input1 = sc.parallelize(1 to 1000, 42).keyBy(Math.min(_, 10) + Random.nextInt(100) * 100)
val input2 = sc.parallelize(1 to 1000, 42).keyBy(Math.min(_, 10) + Random.nextInt(100) * 100)
val joined = input1.cogroup(input2)

有时甚至有更好的解决方案，例如，如果其中一个数据集足够小，则使用地图侧连接。

val input = sc.parallelize(1 to 1000000, 42)
val lookup = Map(0 -> "a", 1 -> "b", 2 -> "c")
val joined = input.map(x => x -> lookup(x % 3))

DataFrames和Datasets

高级API共享一种分区数据的特殊方法。输入文件的所有数据块都被添加到公共池中，就像在wholeTextFiles，但是根据两个设置将池分成多个分区：spark.sql.files.maxPartitionBytes指定最大分区大小（默认为128MB），并spark.sql.files.openCostInBytes指定估计的成本以字节为单位打开一个可以读取的新文件（默认为4MB）。该框架将根据此信息自动确定输入数据的最佳分区。

在shuffle上进行分区时，遗憾的是，高级API非常缺乏（至少从Spark 2.2开始）。只能通过指定spark.sql.shuffle.partitions设置（默认为200）在作业级别上静态指定分区数。

高级API可以自动将连接操作转换为广播连接。这是由控制的spark.sql.autoBroadcastJoinThreshold，它指定考虑广播的表的最大大小（默认为10MB）spark.sql.broadcastTimeout，并控制执行者等待广播表的时间（默认为5分钟）。

重新分区

所有API还提供了两种方法来操作分区数。第一个是repartition强制shuffle以便在指定数量的分区之间重新分配数据（通过前面提到的Murmur散列）。由于洗牌数据是一项代价高昂的操作，因此应尽可能避免重新分区。此操作还有更具体的变体：可排序对RDD repartitionAndSortWithinPartitions可以与自定义分区程序一起使用，而DataFrames和Datasets具有repartition列参数来控制分区特征。

所有API提供的第二种方法coalesce比repartition不刷新数据更有效，但只指示Spark将几个现有分区作为一个读取。但是，这只能用于减少分区数量，不能用于更改分区特征。通常没有理由使用它，因为Spark旨在利用大量的小分区，除了减少输出文件的数量或与一起使用时批量的数量foreachPartition（例如将结果发送到数据库）。

3.序列化

正确处理的另一件事是序列化，它有两种类型：数据序列化和闭包序列化。数据序列化是指对存储在RDD中的实际数据进行编码的过程，而闭包序列化是指相同的过程，但是对于外部引入计算的数据（如共享字段或变量）。区分这两者很重要，因为它们在Spark中的工作方式非常不同。

数据序列化

Spark支持两种不同的序列化程序用于数据序列化。默认的是Java序列化，虽然它很容易使用（通过简单地实现Serializable接口），效率非常低。这就是为什么建议切换到第二个支持的序列化器Kryo，用于大多数生产用途。这是通过设置spark.serializer来org.apache.spark.serializer.KryoSerializer。Kryo效率更高，不需要实现类Serializable（因为它们是由Kryo的FieldSerializer序列化的）默认情况下）。但是，在非常罕见的情况下，Kryo可能无法序列化某些类，这是它仍然不是Spark的默认值的唯一原因。注册所有预期要序列化的类也是一个好主意（Kryo将能够使用索引而不是完整的类名来识别数据类型，减少序列化数据的大小，从而进一步提高性能）。

case class Test(a: Int = Random.nextInt(1000000),
                b: Double = Random.nextDouble,
                c: String = Random.nextString(1000),
                d: Seq[Int] = (1 to 100).map(_ => Random.nextInt(1000000))) extends Serializable

val input = sc.parallelize(1 to 1000000, 42).map(_ => Test()).persist(DISK_ONLY)
input.count() // Force initialization
val shuffled = input.repartition(43).count()

RDD	平均时间	闵。时间	最大。时间
java的	65990.9ms	64482ms	68148ms
KRYO	30196.5ms	28322ms	33012ms

Lineage（Java）：

(42) MapPartitionsRDD[1] at map at :25 [Disk Serialized 1x Replicated]
 |        CachedPartitions: 42; MemorySize: 0.0 B; ExternalBlockStoreSize: 0.0 B; DiskSize: 3.8 GB
 |   ParallelCollectionRDD[0] at parallelize at :25 [Disk Serialized 1x Replicated]

Lineage（Kryo）：

(42) MapPartitionsRDD[1] at map at :25 [Disk Serialized 1x Replicated]
 |        CachedPartitions: 42; MemorySize: 0.0 B; ExternalBlockStoreSize: 0.0 B; DiskSize: 3.1 GB
 |   ParallelCollectionRDD[0] at parallelize at :25 [Disk Serialized 1x Replicated]

DataFrames和Datasets

高级API在数据序列化方面效率更高，因为他们知道他们正在使用的实际数据类型。多亏了这一点，他们可以生成专门针对这些类型定制的优化序列化代码，以及Spark将在整个计算环境中使用它们的方式。对于某些转换，它也可能只生成部分序列化代码（例如计数或数组查找）。此代码生成步骤是Project Tungsten的一个组件，它是使高级API具有高性能的重要组成部分。

值得注意的是，Spark可以在此过程中了解应用转换的属性，因为它可以传播有关在整个作业图中使用哪些列的信息（谓词下推）。在转换中使用不透明函数（例如，数据集' map或filter）时，此信息将丢失。

val input = sc.parallelize(1 to 1000000, 42).map(_ => Test()).toDS.persist(org.apache.spark.storage.StorageLevel.DISK_ONLY)
input.count() // Force initialization
val shuffled = input.repartition(43).count()

数据帧	平均时间	闵。时间	最大。时间
钨	1102.9ms	912ms	1776ms

Lineage:

(42) MapPartitionsRDD[13] at rdd at :30 []
 |   MapPartitionsRDD[12] at rdd at :30 []
 |   MapPartitionsRDD[11] at rdd at :30 []
 |   *SerializeFromObject [assertnotnull(input[0, $line16.$read$$iw$$iw$Test, true]).a AS a#5, assertnotnull(input[0, $line16.$read$$iw$$iw$Test, true]).b AS b#6, staticinvoke(class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, $line16.$read$$iw$$iw$Test, true]).c, true) AS c#7, newInstance(class org.apache.spark.sql.catalyst.util.GenericArrayData) AS d#8]
+- Scan ExternalRDDScan[obj#4]
 MapPartitionsRDD[4] at persist at :27 []
 |       CachedPartitions: 42; MemorySize: 0.0 B; ExternalBlockStoreSize: 0.0 B; DiskSize: 3.2 GB
 |   MapPartitionsRDD[3] at persist at :27 []
 |   MapPartitionsRDD[2] at persist at :27 []
 |   MapPartitionsRDD[1] at map at :27 []
 |   ParallelCollectionRDD[0] at parallelize at :27 []

关闭序列化

在大多数Spark应用程序中，不仅需要序列化数据本身。还有在各个转换中使用的外部字段和变量。让我们考虑以下代码片段：

val factor = config.multiplicationFactor
rdd.map(_ * factor)

这里我们使用从应用程序配置加载的值作为计算本身的一部分。但是，由于转换函数外部发生的所有事情都发生在驱动程序上，因此Spark必须将值传输到相关的执行程序。因此Spark计算所谓的函数闭包map包含它使用的所有外部值，序列化这些值并通过网络发送它们。由于闭包可能非常复杂，因此决定仅在那里支持Java序列化。因此，闭包的序列化比数据本身的序列化效率低，但是由于闭包仅针对每个转换而不是每个转换的每个执行器进行序列化，因此这通常不会导致性能问题。（然而，需要这些值来实现令人不快的副作用Serializable。）

闭包中的变量很容易跟踪。使用字段可能会有很多混乱。我们来看下面的例子：

class SomeClass(d: Int) extends Serializable {
  val c = 1
  val e = new SomeComplexClass

  def closure(rdd: RDD[Int], b: Int): RDD[Int] = {
    val a = 0
    rdd.map(_ + a + b + c + d)
  }
}

在这里我们可以看到它a只是一个变量（就像factor之前一样），因此被序列化为Int。b是一个方法参数（也表现为变量），因此也被序列化为Int。但是c是一个类字段，因此无法单独序列化。这意味着为了序列化它，Spark需要SomeClass用它来序列化整个实例（所以它必须扩展Serializable，否则我们会得到一个运行时异常）。d由于构造函数参数在内部转换为字段，因此也是如此。因此，在这两种情况下，星火也必须发送的值c，d并e为遗嘱执行人。如e序列化的成本可能非常高，这绝对不是一个好的解决方案。我们可以通过避免闭包中的类字段来解决这个问题：

class SomeClass(d: Int) {
  val c = 1
  val e = new SomeComplexClass

  def closure(rdd: RDD[Int], b: Int): RDD[Int] = {
    val a = 0
    val sum = a + b + c + d
    rdd.map(_ + sum)
  }
}

这里我们通过将值存储在局部变量中来准备值sum。然后将其序列化为一个简单的Int并且不会拖动整个实例SomeClass（因此它不再需要扩展Serializable）。

Spark还定义了一个特殊的构造，以便在我们需要为多个转换序列化相同的值时提高性能。它被称为广播变量，并且在计算之前被序列化并仅发送给所有执行器一次。这对于查找表等大变量特别有用。

val broadcastMap = sc.broadcast(Map(0 -> "a", 1 -> "b", 2 -> "c"))
val input = sc.parallelize(1 to 1000000, 42)
val joined = input.map(x => x -> broadcastMap.value(x % 3))

Spark提供了一个有用的工具来确定名为SizeEstimator的内存中对象的实际大小，这可以帮助我们确定特定对象是否是广播变量的良好候选对象。

4.内存管理

应用程序以有效的方式使用其内存空间非常重要。由于每个应用程序的内存要求不同，Spark将应用程序驱动程序和执行程序的内存划分为多个部分，这些部分由适当的规则管理，并通过应用程序设置将其大小规范留给用户。

司机记忆

驱动程序的内存结构非常简单。它仅使用其配置的所有内存（由spark.driver.memory设置控制，默认为1GB）作为其共享堆空间。在群集部署设置中，还添加了一个开销，以防止YARN过早地使用过多资源来杀死驱动程序容器。

执行者记忆

执行者需要将他们的内存用于几个主要目的：当前转换的中间数据（执行内存），缓存的持久数据（存储内存）和转换中使用的自定义数据结构（用户内存）。由于Spark可以计算每个存储记录的实际大小，因此它能够监视执行和存储部分并做出相应的反应。执行内存的大小通常非常不稳定，需要立即执行，而存储内存使用寿命更长，更稳定，通常可以逐出磁盘，应用程序通常只需要整个计算的某些部分（有时根本不需要））。因此，Spark为两者定义了共享空间，优先考虑执行内存。所有这些都由几个设置控制：spark.executor.memory（默认为1GB）定义可用堆空间的总大小，spark.memory.fraction设置（默认为0.6）定义执行和存储共享的内存的一小部分堆（减去300MB缓冲区）spark.memory.storageFraction（默认为0.5）定义了执行不可保存的存储内存部分。以最适合您的应用的方式定义它们很有用。例如，如果应用程序大量使用缓存数据并且不使用过多的聚合，则可以增加存储内存的比例以适应将所有缓存数据存储在RAM中，从而加快数据的读取速度。另一方面，如果应用程序使用昂贵的聚合并且不太依赖于缓存，则增加执行内存可以通过逐出不需要的缓存数据来改进计算本身。此外，请记住，您的自定义对象必须适合用户内存。

Spark还可以使用堆外内存进行存储和部分执行，这由设置spark.memory.offHeap.enabled（默认为false）和spark.memory.offHeap.size（默认为0）和OFF_HEAP持久性级别控制。这可以减轻垃圾收集暂停。

DataFrames和数据集

作为Project Tungsten的一部分，高级API使用自己的内存管理方式。由于数据类型是框架已知的，并且它们的生命周期定义得非常好，因此可以通过预先分配内存块并明确地对这些块进行微管理来完全避免垃圾收集。这样可以很好地重用已分配的内存，从而有效地消除了执行内存中垃圾收集的需要。这种优化实际上运行良好，使得堆外内存几乎没有额外的好处（尽管仍有一些）。

5.集群资源

通常导致性能降低的最后一个重点是群集资源分配不足。这需要多种形式，从低效使用数据局部性，处理分散执行程序到防止在不需要时占用集群资源。

Data locality

为了获得良好的性能，我们的应用程序的计算应尽可能接近实际数据，以避免不必要的传输。这意味着在同样存储数据本身的机器上运行执行程序是一个非常好的主意。使用HDFS时，Spark可以以最大化此概率的方式优化执行程序的分配。但是，我们可以通过良好的设计进一步提高这一点。

我们可以通过增加单个执行器的资源来减少所需的节点间通信量，同时减少执行器的总数，从而基本上强制任务由有限数量的节点处理。采用以下示例资源分配：

num_executors	executor_cores	executor_memory
15	1	1克
五	3	3克
3	五	5克

在所有情况下，我们将使用相同数量的资源（15核和15GB内存）。但是，随着我们减少执行程序的总数，我们也减少了在它们之间传输数据的需要。制定第三种选择通常是最快的。另一方面，节点级别的I / O吞吐量可能存在限制，具体取决于所请求的操作，因此我们无法无限期地增加它。例如，对于HDFS I / O，每个执行器的内核数量被认为在性能上达到峰值，大约为5。

我们还可以使用spark.locality.wait设置（默认为3秒）及其子部分（spark.locality.wait默认情况下相同）从群集中读取数据时调整Spark的局部性配置。这些定义了基于位置的调度的超时（在到达时降低了位置限制）。

Dynamic allocation

显式应用程序范围的执行程序分配可能有其缺点。在某些情况下，我们可能不希望在整个计算期间拥有统一数量的执行程序，而是希望进行一些扩展。在给定时间集群上可用的资源不足，但是我们想要运行我们的计算，我们可能正在处理需要更少资源并且不想比我们需要的更多的转换，等等。这是其中，动态分配的用武之地。

通过动态分配（通过设置spark.dynamicAllocation.enabled为true 启用）Spark通过尝试分配尽可能多的执行程序（最多为给定阶段的最大并行度或spark.dynamicAllocation.maxExecutors默认为无穷大）来开始每个阶段，其中第一阶段必须至少得到spark.dynamicAllocation.initialExecutors（相同于spark.dynamicAllocation.minExecutors或spark.executor.instances默认情况下）。

在计算过程中，如果执行程序空闲超过spark.dynamicAllocation.executorIdleTimeout（默认为60秒），它将被删除（除非它会使执行程序的数量低于spark.dynamicAllocation.minExecutors（默认为0）。这可确保我们的应用程序在执行时不会不必要地占用集群资源更便宜的转型。

为了能够启用动态分配，我们还必须启用Spark的外部shuffle服务。它充当在群集中的每台计算机上运行的单独服务器，当适当的执行程序不再存在（已被删除或丢失）时，该计算机能够管理随机文件。这在丢失执行者的情况下也是有益的（例如由于先发制人），因为不必重新计算所讨论的混洗数据。

Speculative execution

有时，即使我们正确地执行了所有操作，由于我们无法控制的情况（与Spark无关的重负载，硬件故障等），我们仍可能在特定计算机上的性能不佳。对于这些情况，我们可能会指示Spark在检测到此类落后者后自动重新执行任务。为此，请启用该spark.speculation设置。可以使用以下设置来配置检测例程：spark.speculation.interval定义检查落后者的频率（默认为100毫秒），spark.speculation.multiplier定义落后者必须慢多少倍（默认为1.5）并spark.speculation.quantile定义必须执行的任务的分数。完成，直到检测程序启动（默认为0.75）。

结论

正如您所看到的，为性能设计Spark应用程序可能非常具有挑战性，并且每一步都会增加复杂性，降低通用性或延长特定用例的分析。幸运的是，很少需要实现所有这些，因为无论如何典型的Spark应用程序都不是性能敏感的。此外，只需使用高级API（DataFrames或Datasets）即可实现很多功能。尽管在开发过程中必须尽早做出使用它们的决定，因为切换它们并非易事。

此外，还有许多其他技术可以帮助您进一步提高Spark作业的性能。即GC调整，适当的硬件配置和调整Spark的众多配置选项。

你可能感兴趣的:(Spark,Scala)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
svg图片兼容性和用法优缺点独行侠_ef93
svg图片的使用方法第一次来认认真真的研究了下svg图片，之前只是在网上见过，但都是一晃而过也没当回事，最近网站改版看到同事有用到svg格式的图片，想想自己干了几年的重构也没用过，这些细节的知识是应该好好研究研究了。暂时还没研究得完全透切，先记下目前为止所看到的吧不然又给忘了。svg可缩放矢量图形（ScalableVectorGraphics），顾名思义就是任意改变其大小也不会变形，是基于可扩展标
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Scala学习之旅－对Option友好的flatMap 喝冰咖啡 scala 学习
聊点什么OptionflatMapvs.OptionOption的作用在Java/Scala中,Optional/Option(本文还是以scala代码为例)是用来表示某个对象存在或者不存在，也就是说,Option是某个类型T的Wrapper,如果T!=null,Option(T).isDefined==true如果T==null,Option(T).isEmpty==true有了Option这层
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
区块链的可伸缩性以及面临的挑战 Mindfulness code 区块链开发区块链
1.可伸缩性在过去的几年中，可伸缩性（Scalability,也称为可扩展性)问题一直是激烈辩论、严格研究和媒体关注的焦点。这是一个至关重要的问题，因为它可能意味着区块链不适于广泛应用，而仅限于联盟许可的私有网络。在经过对该领域的大量研究之后，人们提出了许多解决方案，下面将详细介绍这些解决方案。从理论上讲，解决可伸缩性问题的一般方法通常围绕协议级别的强化。例如，通常提到的比特比可伸缩性解决方案是增
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
Scala教程之:静态类型 flydean程序那些事
Scala是静态类型的，它拥有一个强大的类型系统，静态地强制以安全、一致的方式使用抽象，我们通过下面几个特征来一一说明：泛类型型变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐式转换多态方法类型推断通过这些特性，为安全可重用的编程抽象以及类型安全的扩展提供了强大的基础。泛类型和java一样，Scala也有泛型的概念，在scala里面泛型是使用方括号[]来接受类型参数的。通常使用字母A来作为
Pytorch深度学习- Tensorboard的使用以及图像变换transform的使用（小土堆） Mr chenxizhi 深度学习人工智能 python
Tensorboard中的SummaryWriter使用导入数据包fromtorch.utils.tensorboardimportSummaryWriter构造函数方法#那么生成的数据文件都存在于logs文件夹下writer=SummaryWriter("logs")add_scalar代码示例'''tag:数据标题global_step:x轴数据scalar_value:y轴数据'''#运行结
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h