年青人阿奔

spark配置详解

spark-submit 参数：
Usage: spark-submit [options]  [app options]
Options:
  --master              | MASTER_URL         spark://host:port, mesos://host:port, yarn, or local.
  --deploy-mode         | DEPLOY_MODE   driver运行之处，client运行在本机，cluster运行在集群
  --class               | CLASS_NAME          应用程序包的要运行的class
  --name                | NAME                 应用程序名称
  --jars                | JARS                 用逗号隔开的 driver 本地jar包列表以及executor类路径, 
  --conf PROP=VALUE     |      Arbitrary Spark configuration property.  
  --py-files            | PY_FILES         用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表
  --files               | FILES               用逗号隔开的要放置在每个executor工作目录的文件列表
  --properties-file     | FILE      设置应用程序属性的文件放置位置，默认是conf/spark-defaults.conf
  --driver-memory       | MEM         driver内存大小，默认512M
  --driver-java-options | driver 的java选项
  --driver-library-path | driver 的库路径 ，用冒号分割各库   **/lib:##/lib
  --driver-class-path   | driver 的类路径，用--jars 添加的jar包会自动包含在类路径里，用冒号分割，**.jar:##.jar
  --executor-memory     | MEM       每个executor内存大小，standalone模式默认512M
  --version             |     Print the version of current Spark  Spark standalone with cluster deploy mode only
  --driver-cores | NUM          driver使用内核数，默认为1

Spark standalone and Mesos with cluster deploy mode only:
  --supervise    | 如果设置了该参数，driver失败是会重启
  --kill SUBMISSION_ID   |     If given, kills the driver specified.   
  --status SUBMISSION_ID |     If given, requests the status of the driver specified. 

Spark standalone and Mesos only:
  --total-executor-cores | NUM  executor使用的总核数。 也可通过spark-env.sh中来设置，效果等同spark.deploy.defaultCores、spark.cores.max

YARN-only:
  --executor-cores | NUM        每个executor使用的内核数，默认为1。也可通过spark-env.sh中SPARK_EXECUTOR_CORES来设置
  --queue          | QUEUE_NAME          提交应用程序给哪个YARN的队列，默认是default队列
  --num-executors  | NUM         启动的executor数量，默认是2个。也可通过spark-env.sh中SPARK_EXECUTOR_INSTANCES来设置
  --archives       | ARCHIVES         被每个executor提取到工作目录的档案列表，用逗号隔开
  
--------------------------------------------------------------------------------------------------------------
  Master URL 	 | 含义
local 	       | 使用1个worker线程在本地运行Spark应用程序
local[K] 	       | 使用K个worker线程在本地运行Spark应用程序
local[*]           | 使用所有剩余worker线程在本地运行Spark应用程序
spark://HOST:PORT  |	连接到Spark Standalone集群，以便在该集群上运行Spark应用程序
mesos://HOST:PORT  |	连接到Mesos集群，以便在该集群上运行Spark应用程序
yarn-client 	 | 以client方式连接到YARN集群，集群的定位由环境变量HADOOP_CONF_DIR定义，该方式driver在client运行。
yarn-cluster 	 | 以cluster方式连接到YARN集群，集群的定位由环境变量HADOOP_CONF_DIR定义，该方式driver也在集群中运行。


--------------------------------------------------------------------------------------------------------------

这些皆可在 spark-default.conf配置，或者部分可在 sparkconf().set设置

应用程序属性
|--------------------------------------------------------------------------------------------
| 属性名称                   | 默认值 | 含义
|--------------------------------------------------------------------------------------------
| spark.app.name             | (none) | 你的应用程序的名字。这将在UI和日志数据中出现
|--------------------------------------------------------------------------------------------
| spark.driver.cores         | 1      | driver程序运行需要的cpu内核数
|--------------------------------------------------------------------------------------------
| spark.driver.maxResultSize | 1g     | 每个Spark action(如collect)所有分区的序列化结果的总大小限制
|                            |        | 。设置的值应该不小于1m，0代表没有限制。如果总大小超过这个限制，程序将会终止。
|                            |        | 大的限制值可能导致driver出现内存溢出错误（依赖于spark.driver.
|                            |        | memory和JVM中对象的内存消耗）。
|--------------------------------------------------------------------------------------------
| spark.driver.memory        | 512m   | driver进程使用的内存数
|--------------------------------------------------------------------------------------------
| spark.executor.memory      | 512m   | 每个executor进程使用的内存数。和JVM内存串拥有相同的格式（如512m,
|                            |        | 2g）
|--------------------------------------------------------------------------------------------
| spark.extraListeners       | (none) | 注册监听器，需要实现SparkListener
|--------------------------------------------------------------------------------------------
| spark.local.dir            | /tmp   | Spark中暂存空间的使用目录。在Spark1.0以及更高的版本中，这个属性被S
|                            |        | PARK_LOCAL_DIRS(Standalone, Mesos)和LOCAL
|                            |        | _DIRS(YARN)环境变量覆盖。
|--------------------------------------------------------------------------------------------
| spark.logConf              | false  | 当SparkContext启动时，将有效的SparkConf记录为INFO。
|--------------------------------------------------------------------------------------------
| spark.master               | (none) | 集群管理器连接的地方
|--------------------------------------------------------------------------------------------
 
 


运行环境
|----------------------------------------------------------------------------------------------------------------
| 属性名称                                     | 默认值   | 含义
|----------------------------------------------------------------------------------------------------------------
| spark.driver.extraClassPath                  | (none)   | 附加到driver的classpath的额外的classpath实体。
|----------------------------------------------------------------------------------------------------------------
| spark.driver.extraJavaOptions                | (none)   | 传递给driver的JVM选项字符串。例如GC设置或者其它日志设置。注意，在这个
|                                              |          | 选项中设置Spark属性或者堆大小是不合法的。Spark属性需要用--drive
|                                              |          | r-class-path设置。
|----------------------------------------------------------------------------------------------------------------
| spark.driver.extraLibraryPath                | (none)   | 指定启动driver的JVM时用到的库路径
|----------------------------------------------------------------------------------------------------------------
| spark.driver.userClassPathFirst              | false    | (实验性)当在driver中加载类时，是否用户添加的jar比Spark自己的ja
|                                              |          | r优先级高。这个属性可以降低Spark依赖和用户依赖的冲突。它现在还是一个实验性
|                                              |          | 的特征。
|----------------------------------------------------------------------------------------------------------------
| spark.executor.extraClassPath                | (none)   | 附加到executors的classpath的额外的classpath实体。这个
|                                              |          | 设置存在的主要目的是Spark与旧版本的向后兼容问题。用户一般不用设置这个选项
|----------------------------------------------------------------------------------------------------------------
| spark.executor.extraJavaOptions              | (none)   | 传递给executors的JVM选项字符串。例如GC设置或者其它日志设置。注意，
|                                              |          | 在这个选项中设置Spark属性或者堆大小是不合法的。Spark属性需要用Spar
|                                              |          | kConf对象或者spark-submit脚本用到的spark-defaults
|                                              |          | .conf文件设置。堆内存可以通过spark.executor.memory设置
|                                              |          | 
|----------------------------------------------------------------------------------------------------------------
| spark.executor.extraLibraryPath              | (none)   | 指定启动executor的JVM时用到的库路径
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.maxRetainedFiles | (none)   | 设置被系统保留的最近滚动日志文件的数量。更老的日志文件将被删除。默认没有开启。
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.size.maxBytes    | (none)   | executor日志的最大滚动大小。默认情况下没有开启。值设置为字节
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.strategy         | (none)   | 设置executor日志的滚动(rolling)策略。默认情况下没有开启。可以配
|                                              |          | 置为time和size。对于time，用spark.executor.logs.
|                                              |          | rolling.time.interval设置滚动间隔；对于size，用spar
|                                              |          | k.executor.logs.rolling.size.maxBytes设置最
|                                              |          | 大的滚动大小
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.time.interval    | daily    | executor日志滚动的时间间隔。默认情况下没有开启。合法的值是daily, 
|                                              |          | hourly, minutely以及任意的秒。
|----------------------------------------------------------------------------------------------------------------
| spark.files.userClassPathFirst               | false    | (实验性)当在Executors中加载类时，是否用户添加的jar比Spark自己
|                                              |          | 的jar优先级高。这个属性可以降低Spark依赖和用户依赖的冲突。它现在还是一个
|                                              |          | 实验性的特征。
|----------------------------------------------------------------------------------------------------------------
| spark.python.worker.memory                   | 512m     | 在聚合期间，每个python worker进程使用的内存数。在聚合期间，如果内存
|                                              |          | 超过了这个限制，它将会将数据塞进磁盘中
|----------------------------------------------------------------------------------------------------------------
| spark.python.profile                         | false    | 在Python worker中开启profiling。通过sc.show_pro
|                                              |          | files()展示分析结果。或者在driver退出前展示分析结果。可以通过sc.
|                                              |          | dump_profiles(path)将结果dump到磁盘中。如果一些分析结果已
|                                              |          | 经手动展示，那么在driver退出前，它们再不会自动展示
|----------------------------------------------------------------------------------------------------------------
| spark.python.profile.dump                    | (none)   | driver退出前保存分析结果的dump文件的目录。每个RDD都会分别dump一
|                                              |          | 个文件。可以通过ptats.Stats()加载这些文件。如果指定了这个属性，分析
|                                              |          | 结果不会自动展示
|----------------------------------------------------------------------------------------------------------------
| spark.python.worker.reuse                    | true     | 是否重用python worker。如果是，它将使用固定数量的Python wo
|                                              |          | rkers，而不需要为每个任务fork()一个Python进程。如果有一个非常大
|                                              |          | 的广播，这个设置将非常有用。因为，广播不需要为每个任务从JVM到Python w
|                                              |          | orker传递一次
|----------------------------------------------------------------------------------------------------------------
| spark.executorEnv.[EnvironmentVariableName]  | (none)   | 通过EnvironmentVariableName添加指定的环境变量到execu
|                                              |          | tor进程。用户可以指定多个EnvironmentVariableName，设置
|                                              |          | 多个环境变量
|----------------------------------------------------------------------------------------------------------------
| spark.mesos.executor.home                    | driver   | side SPARK_HOME 	设置安装在Mesos的executor上的Sp
|                                              |          | ark的目录。默认情况下，executors将使用driver的Spark本地（
|                                              |          | home）目录，这个目录对它们不可见。注意，如果没有通过 spark.execu
|                                              |          | tor.uri指定Spark的二进制包，这个设置才起作用
|----------------------------------------------------------------------------------------------------------------
| spark.mesos.executor.memoryOverhead          | executor | memory * 0.07, 最小384m 	这个值是spark.executo
|                                              |          | r.memory的补充。它用来计算mesos任务的总内存。另外，有一个7%的硬编
|                                              |          | 码设置。最后的值将选择spark.mesos.executor.memoryOv
|                                              |          | erhead或者spark.executor.memory的7%二者之间的大者
|----------------------------------------------------------------------------------------------------------------
 
 
Shuffle行为
|---------------------------------------------------------------------------------------------------------
| 属性名称                                | 默认值 | 含义
|---------------------------------------------------------------------------------------------------------
| spark.reducer.maxMbInFlight             | 48     | 从递归任务中同时获取的map输出数据的最大大小（mb）。因为每一个输出都需要我们
|                                         |        | 创建一个缓存用来接收，这个设置代表每个任务固定的内存上限，所以除非你有更大的内存
|                                         |        | ，将其设置小一点
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.blockTransferService      | netty  | 实现用来在executor直接传递shuffle和缓存块。有两种可用的实现：ne
|                                         |        | tty和nio。基于netty的块传递在具有相同的效率情况下更简单
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.compress                  | true   | 是否压缩map操作的输出文件。一般情况下，这是一个好的选择。
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.consolidateFiles          | false  | 如果设置为”true”，在shuffle期间，合并的中间文件将会被创建。创建更少
|                                         |        | 的文件可以提供文件系统的shuffle的效率。这些shuffle都伴随着大量递归
|                                         |        | 任务。当用ext4和dfs文件系统时，推荐设置为”true”。在ext3中，因为
|                                         |        | 文件系统的限制，这个选项可能机器（大于8核）降低效率
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.file.buffer.kb            | 32     | 每个shuffle文件输出流内存内缓存的大小，单位是kb。这个缓存减少了创建只中
|                                         |        | 间shuffle文件中磁盘搜索和系统访问的数量
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.maxRetries             | 3      | Netty only，自动重试次数
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.numConnectionsPerPeer  | 1      | Netty only
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.preferDirectBufs       | true   | Netty only
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.retryWait              | 5      | Netty only
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.manager                   | sort   | 它的实现用于shuffle数据。有两种可用的实现：sort和hash。基于sor
|                                         |        | t的shuffle有更高的内存使用率
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.memoryFraction            | 0.2    | 如果spark.shuffle.spill为true，shuffle中聚合和合并
|                                         |        | 组操作使用的java堆内存占总内存的比重。在任何时候，shuffles使用的所有
|                                         |        | 内存内maps的集合大小都受这个限制的约束。超过这个限制，spilling数据将
|                                         |        | 会保存到磁盘上。如果spilling太过频繁，考虑增大这个值
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.sort.bypassMergeThreshold | 200    | (Advanced) In the sort-based shuffle man
|                                         |        | ager, avoid merge-sorting data if there 
|                                         |        | is no map-side aggregation and there are
|                                         |        |  at most this many reduce partitions
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.spill                     | true   | 如果设置为”true”，通过将多出的数据写入磁盘来限制内存数。通过spark.s
|                                         |        | huffle.memoryFraction来指定spilling的阈值
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.spill.compress            | true   | 在shuffle时，是否将spilling的数据压缩。压缩算法通过spark.i
|                                         |        | o.compression.codec指定。
|---------------------------------------------------------------------------------------------------------
 
 
Spark UI
|-----------------------------------------------------------------------------------------------------------
| 属性名称                | 默认值                   | 含义
|-----------------------------------------------------------------------------------------------------------
| spark.eventLog.compress | false                    | 是否压缩事件日志。需要spark.eventLog.enabled为true
|-----------------------------------------------------------------------------------------------------------
| spark.eventLog.dir      | file:///tmp/spark-events | Spark事件日志记录的基本目录。在这个基本目录下，Spark为每个应用程序创建
|                         |                          | 一个子目录。各个应用程序记录日志到直到的目录。用户可能想设置这为统一的地点，像H
|                         |                          | DFS一样，所以历史文件可以通过历史服务器读取
|-----------------------------------------------------------------------------------------------------------
| spark.eventLog.enabled  | false                    | 是否记录Spark的事件日志。这在应用程序完成后，重新构造web UI是有用的
|-----------------------------------------------------------------------------------------------------------
| spark.ui.killEnabled    | true                     | 运行在web UI中杀死stage和相应的job
|-----------------------------------------------------------------------------------------------------------
| spark.ui.port           | 4040                     | 你的应用程序dashboard的端口。显示内存和工作量数据
|-----------------------------------------------------------------------------------------------------------
| spark.ui.retainedJobs   | 1000                     | 在垃圾回收之前，Spark UI和状态API记住的job数
|-----------------------------------------------------------------------------------------------------------
| spark.ui.retainedStages | 1000                     | 在垃圾回收之前，Spark UI和状态API记住的stage数
|-----------------------------------------------------------------------------------------------------------
 
 
压缩和序列化
|--------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                               | 默认值                                     | 含义
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.broadcast.compress               | true                                       | 在发送广播变量之前是否压缩它
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.closure.serializer               | org.apache.spark.serializer.JavaSerializer | 闭包用到的序列化类。目前只支持java序列化器
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.io.compression.codec             | snappy                                     | 压缩诸如RDD分区、广播变量、shuffle输出等内部数据的编码解码器。默认情况
|                                        |                                            | 下，Spark提供了三种选择：lz4、lzf和snappy，你也可以用完整的类名
|                                        |                                            | 来制定。
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.io.compression.lz4.block.size    | 32768                                      | LZ4压缩中用到的块大小。降低这个块的大小也会降低shuffle内存使用率
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.io.compression.snappy.block.size | 32768                                      | Snappy压缩中用到的块大小。降低这个块的大小也会降低shuffle内存使用率
|                                        |                                            | 
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.classesToRegister           | (none)                                     | 如果你用Kryo序列化，给定的用逗号分隔的自定义类名列表表示要注册的类
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.referenceTracking           | true                                       | 当用Kryo序列化时，跟踪是否引用同一对象。如果你的对象图有环，这是必须的设置。
|                                        |                                            | 如果他们包含相同对象的多个副本，这个设置对效率是有用的。如果你知道不在这两个场景
|                                        |                                            | ，那么可以禁用它以提高效率
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.registrationRequired        | false                                      | 是否需要注册为Kyro可用。如果设置为true，然后如果一个没有注册的类序列化，
|                                        |                                            | Kyro会抛出异常。如果设置为false，Kryo将会同时写每个对象和其非注册类
|                                        |                                            | 名。写类名可能造成显著地性能瓶颈。
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.registrator                 | (none)                                     | 如果你用Kryo序列化，设置这个类去注册你的自定义类。如果你需要用自定义的方式注
|                                        |                                            | 册你的类，那么这个属性是有用的。否则spark.kryo.classesToRe
|                                        |                                            | gister会更简单。它应该设置一个继承自KryoRegistrator的类
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryoserializer.buffer.max.mb     | 64                                         | Kryo序列化缓存允许的最大值。这个值必须大于你尝试序列化的对象
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryoserializer.buffer.mb         | 0.064                                      | Kyro序列化缓存的大小。这样worker上的每个核都有一个缓存。如果有需要，缓
|                                        |                                            | 存会涨到spark.kryoserializer.buffer.max.mb设置
|                                        |                                            | 的值那么大。
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.rdd.compress                     | true                                       | 是否压缩序列化的RDD分区。在花费一些额外的CPU时间的同时节省大量的空间
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.serializer                       | org.apache.spark.serializer.JavaSerializer | 序列化对象使用的类。默认的Java序列化类可以序列化任何可序列化的java对象但
|                                        |                                            | 是它很慢。所有我们建议用org.apache.spark.serializer.
|                                        |                                            | KryoSerializer
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.serializer.objectStreamReset     | 100                                        | 当用org.apache.spark.serializer.JavaSerial
|                                        |                                            | izer序列化时，序列化器通过缓存对象防止写多余的数据，然而这会造成这些对象的垃
|                                        |                                            | 圾回收停止。通过请求’reset’，你从序列化器中flush这些信息并允许收集老
|                                        |                                            | 的数据。为了关闭这个周期性的reset，你可以将值设为-1。默认情况下，每一百个
|                                        |                                            | 对象reset一次
|--------------------------------------------------------------------------------------------------------------------------------------------
 
 
运行时行为
|------------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                         | 默认值                                               | 含义
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.broadcast.blockSize        | 4096                                                 | TorrentBroadcastFactory传输的块大小，太大值会降低并发，太
|                                  |                                                      | 小的值会出现性能瓶颈
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.broadcast.factory          | org.apache.spark.broadcast.TorrentBroadcastFactory   | broadcast实现类
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.cleaner.ttl                | (infinite)                                           | spark记录任何元数据（stages生成、task生成等）的持续时间。定期清理
|                                  |                                                      | 可以确保将超期的元数据丢弃，这在运行长时间任务是很有用的，如运行7*24的spa
|                                  |                                                      | rkstreaming任务。RDD持久化在内存中的超期数据也会被清理
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.default.parallelism        | 本地模式：机器核数；Mesos：8；其他：max(executor的core，2) | 如果用户不设置，系统使用集群中运行shuffle操作的默认任务数（groupBy
|                                  |                                                      | Key、 reduceByKey等）
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.executor.heartbeatInterval | 10000                                                | executor 向 the driver 汇报心跳的时间间隔，单位毫秒
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.files.fetchTimeout         | 60                                                   | driver 程序获取通过SparkContext.addFile()添加的文件
|                                  |                                                      | 时的超时时间，单位秒
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.files.useFetchCache        | true                                                 | 获取文件时是否使用本地缓存
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.files.overwrite            | false                                                | 调用SparkContext.addFile()时候是否覆盖文件
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.hadoop.cloneConf           | false                                                | 每个task是否克隆一份hadoop的配置文件
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.hadoop.validateOutputSpecs | true                                                 | 是否校验输出
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.storage.memoryFraction     | 0.6                                                  | Spark内存缓存的堆大小占用总内存比例，该值不能大于老年代内存大小，默认值为0
|                                  |                                                      | .6，但是，如果你手动设置老年代大小，你可以增加该值
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.storage.memoryMapThreshold | 2097152                                              | 内存块大小
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.storage.unrollFraction     | 0.2                                                  | Fraction of spark.storage.memoryFraction
|                                  |                                                      |  to use for unrolling blocks in memory.
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.tachyonStore.baseDir       | System.getProperty(“java.io.tmpdir”)                 | Tachyon File System临时目录
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.tachyonStore.url           | tachyon://localhost:19998                            | Tachyon File System URL
|------------------------------------------------------------------------------------------------------------------------------------------------
 
 
网络
|---------------------------------------------------------------------------------------------------------
| 属性名称                              | 默认值   | 含义
|---------------------------------------------------------------------------------------------------------
| spark.driver.host                     | (local   | hostname) 	driver监听的主机名或者IP地址。这用于和execut
|                                       |          | ors以及独立的master通信
|---------------------------------------------------------------------------------------------------------
| spark.driver.port                     | (random) | driver监听的接口。这用于和executors以及独立的master通信
|---------------------------------------------------------------------------------------------------------
| spark.fileserver.port                 | (random) | driver的文件服务器监听的端口
|---------------------------------------------------------------------------------------------------------
| spark.broadcast.port                  | (random) | driver的HTTP广播服务器监听的端口
|---------------------------------------------------------------------------------------------------------
| spark.replClassServer.port            | (random) | driver的HTTP类服务器监听的端口
|---------------------------------------------------------------------------------------------------------
| spark.blockManager.port               | (random) | 块管理器监听的端口。这些同时存在于driver和executors
|---------------------------------------------------------------------------------------------------------
| spark.executor.port                   | (random) | executor监听的端口。用于与driver通信
|---------------------------------------------------------------------------------------------------------
| spark.port.maxRetries                 | 16       | 当绑定到一个端口，在放弃前重试的最大次数
|---------------------------------------------------------------------------------------------------------
| spark.akka.frameSize                  | 10       | 在”control plane”通信中允许的最大消息大小。如果你的任务需要发送大
|                                       |          | 的结果到driver中，调大这个值
|---------------------------------------------------------------------------------------------------------
| spark.akka.threads                    | 4        | 通信的actor线程数。当driver有很多CPU核时，调大它是有用的
|---------------------------------------------------------------------------------------------------------
| spark.akka.timeout                    | 100      | Spark节点之间的通信超时。单位是秒
|---------------------------------------------------------------------------------------------------------
| spark.akka.heartbeat.pauses           | 6000     | This is set to a larger value to disable
|                                       |          |  failure detector that comes inbuilt akk
|                                       |          | a. It can be enabled again, if you plan 
|                                       |          | to use this feature (Not recommended). A
|                                       |          | cceptable heart beat pause in seconds fo
|                                       |          | r akka. This can be used to control sens
|                                       |          | itivity to gc pauses. Tune this in combi
|                                       |          | nation of spark.akka.heartbeat.interval 
|                                       |          | and spark.akka.failure-detector.threshol
|                                       |          | d if you need to.
|---------------------------------------------------------------------------------------------------------
| spark.akka.failure-detector.threshold | 300.0    | This is set to a larger value to disable
|                                       |          |  failure detector that comes inbuilt akk
|                                       |          | a. It can be enabled again, if you plan 
|                                       |          | to use this feature (Not recommended). T
|                                       |          | his maps to akka’s akka.remote.transport
|                                       |          | -failure-detector.threshold. Tune this i
|                                       |          | n combination of spark.akka.heartbeat.pa
|                                       |          | uses and spark.akka.heartbeat.interval i
|                                       |          | f you need to.
|---------------------------------------------------------------------------------------------------------
| spark.akka.heartbeat.interval         | 1000     | This is set to a larger value to disable
|                                       |          |  failure detector that comes inbuilt akk
|                                       |          | a. It can be enabled again, if you plan 
|                                       |          | to use this feature (Not recommended). A
|                                       |          |  larger interval value in seconds reduce
|                                       |          | s network overhead and a smaller value (
|                                       |          |  ~ 1 s) might be more informative for ak
|                                       |          | ka’s failure detector. Tune this in comb
|                                       |          | ination of spark.akka.heartbeat.pauses a
|                                       |          | nd spark.akka.failure-detector.threshold
|                                       |          |  if you need to. Only positive use case 
|                                       |          | for using failure detector can be, a sen
|                                       |          | sistive failure detector can help evict 
|                                       |          | rogue executors really quick. However th
|                                       |          | is is usually not the case as gc pauses 
|                                       |          | and network lags are expected in a real 
|                                       |          | Spark cluster. Apart from that enabling 
|                                       |          | this leads to a lot of exchanges of hear
|                                       |          | t beats between nodes leading to floodin
|                                       |          | g the network with those.
|---------------------------------------------------------------------------------------------------------
 
 
调度相关属性
|--------------------------------------------------------------------------------------------------------------
| 属性名称                        | 默认值              | 含义
|--------------------------------------------------------------------------------------------------------------
| spark.task.cpus                 | 1                   | 为每个任务分配的内核数
|--------------------------------------------------------------------------------------------------------------
| spark.task.maxFailures          | 4                   | Task的最大重试次数
|--------------------------------------------------------------------------------------------------------------
| spark.scheduler.mode            | FIFO                | Spark的任务调度模式，还有一种Fair模式
|--------------------------------------------------------------------------------------------------------------
| spark.cores.max                 | 无                  | 当应用程序运行在Standalone集群或者粗粒度共享模式Mesos集群时，单个应用
|                                 |                     | 程序向集群请求的最大CPU内核总数（不是指每台机器，而是整个集群）。如果不设置，
|                                 |                     | 对于Standalone集群将使用spark.deploy.defaultCores中数值，
|                                 |                     | 而Mesos将使用集群中可用的内核。设置后可以实现多个应用同时运行。否则只能FIFO
|--------------------------------------------------------------------------------------------------------------
| spark.mesos.coarse              | False               | 如果设置为true，在Mesos集群中运行时使用粗粒度共享模式
|--------------------------------------------------------------------------------------------------------------
| spark.speculation               | False               | 以下几个参数是关于Spark推测执行机制的相关参数。此参数设定是否使用推测执行机
|                                 |                     | 制，如果设置为true则spark使用推测执行机制，对于Stage中拖后腿的Ta
|                                 |                     | sk在其他节点中重新启动，并将最先完成的Task的计算结果最为最终结果
|--------------------------------------------------------------------------------------------------------------
| spark.speculation.interval      | 100                 | Spark多长时间进行检查task运行状态用以推测，以毫秒为单位
|--------------------------------------------------------------------------------------------------------------
| spark.speculation.quantile      | 无                  | 推测启动前，Stage必须要完成总Task的百分比
|--------------------------------------------------------------------------------------------------------------
| spark.speculation.multiplier    | 1.5                 | 比已完成Task的运行速度中位数慢多少倍才启用推测
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait             | 3000                | 以下几个参数是关于Spark数据本地性的。本参数是以毫秒为单位启动本地数据tas
|                                 |                     | k的等待时间，如果超出就启动下一本地优先级别的task。该设置同样可以应用到各优
|                                 |                     | 先级别的本地性之间（本地进程 -> 本地节点 -> 本地机架 -> 任意节点 ）
|                                 |                     | ，当然，也可以通过spark.locality.wait.node等参数设置不同
|                                 |                     | 优先级别的本地性
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait.process     | spark.locality.wait | 本地进程级别的本地等待时间
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait.node        | spark.locality.wait | 本地节点级别的本地等待时间
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait.rack        | spark.locality.wait | 本地机架级别的本地等待时间
|--------------------------------------------------------------------------------------------------------------
| spark.scheduler.revive.interval | 1000                | 复活重新获取资源的Task的最长时间间隔（毫秒），发生在Task因为本地资源不足
|                                 |                     | 而将资源分配给其他Task运行后进入等待时间，如果这个等待时间内重新获取足够的资
|                                 |                     | 源就继续计算
|--------------------------------------------------------------------------------------------------------------
 
 
Dynamic Allocation
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                                                 | 默认值                               | 含义
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.enabled                          | false                                | 是否开启动态资源搜集
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.executorIdleTimeout              | 600                                  | 
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.initialExecutors                 | spark.dynamicAllocation.minExecutors | 
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.maxExecutors                     | Integer.MAX_VALUE                    | 
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.minExecutors                     | 0                                    | 
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.schedulerBacklogTimeout          | 5                                    | 
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.sustainedSchedulerBacklogTimeout | schedulerBacklogTimeout              | 
|--------------------------------------------------------------------------------------------------------------------------------------------------------
 
 
安全
|---------------------------------------------------------------------------------------------------------
| 属性名称                                | 默认值 | 含义
|---------------------------------------------------------------------------------------------------------
| spark.authenticate                      | false  | 是否Spark验证其内部连接。如果不是运行在YARN上，请看spark.auth
|                                         |        | enticate.secret
|---------------------------------------------------------------------------------------------------------
| spark.authenticate.secret               | None   | 设置Spark两个组件之间的密匙验证。如果不是运行在YARN上，但是需要验证，这
|                                         |        | 个选项必须设置
|---------------------------------------------------------------------------------------------------------
| spark.core.connection.auth.wait.timeout | 30     | 连接时等待验证的实际。单位为秒
|---------------------------------------------------------------------------------------------------------
| spark.core.connection.ack.wait.timeout  | 60     | 连接等待回答的时间。单位为秒。为了避免不希望的超时，你可以设置更大的值
|---------------------------------------------------------------------------------------------------------
| spark.ui.filters                        | None   | 应用到Spark web UI的用于过滤类名的逗号分隔的列表。过滤器必须是标准的
|                                         |        | javax servlet Filter。通过设置java系统属性也可以指定每个
|                                         |        | 过滤器的参数。spark..para
|                                         |        | ms='param1=value1,param2=value2'。例如-Dspa
|                                         |        | rk.ui.filters=com.test.filter1、-Dspark.c
|                                         |        | om.test.filter1.params='param1=foo,param
|                                         |        | 2=testing'
|---------------------------------------------------------------------------------------------------------
| spark.acls.enable                       | false  | 是否开启Spark acls。如果开启了，它检查用户是否有权限去查看或修改job
|                                         |        | 。UI利用使用过滤器验证和设置用户
|---------------------------------------------------------------------------------------------------------
| spark.ui.view.acls                      | empty  | 逗号分隔的用户列表，列表中的用户有查看Spark web UI的权限。默认情况下
|                                         |        | ，只有启动Spark job的用户有查看权限
|---------------------------------------------------------------------------------------------------------
| spark.modify.acls                       | empty  | 逗号分隔的用户列表，列表中的用户有修改Spark job的权限。默认情况下，只有
|                                         |        | 启动Spark job的用户有修改权限
|---------------------------------------------------------------------------------------------------------
| spark.admin.acls                        | empty  | 逗号分隔的用户或者管理员列表，列表中的用户或管理员有查看和修改所有Spark j
|                                         |        | ob的权限。如果你运行在一个共享集群，有一组管理员或开发者帮助debug，这个选
|                                         |        | 项有用
|---------------------------------------------------------------------------------------------------------
 
 
加密
|----------------------------------------------------------------------------------------------
| 属性名称                     | 默认值 | 含义
|----------------------------------------------------------------------------------------------
| spark.ssl.enabled            | false  | 是否开启ssl
|----------------------------------------------------------------------------------------------
| spark.ssl.enabledAlgorithms  | Empty  | JVM支持的加密算法列表，逗号分隔
|----------------------------------------------------------------------------------------------
| spark.ssl.keyPassword        | None   | 
|----------------------------------------------------------------------------------------------
| spark.ssl.keyStore           | None   | 
|----------------------------------------------------------------------------------------------
| spark.ssl.keyStorePassword   | None   | 
|----------------------------------------------------------------------------------------------
| spark.ssl.protocol           | None   | 
|----------------------------------------------------------------------------------------------
| spark.ssl.trustStore         | None   | 
|----------------------------------------------------------------------------------------------
| spark.ssl.trustStorePassword | None   | 
|----------------------------------------------------------------------------------------------
 
 
Spark Streaming
|------------------------------------------------------------------------------------------------------------------
| 属性名称                                       | 默认值   | 含义
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.blockInterval                  | 200      | 在这个时间间隔（ms）内，通过Spark Streaming receivers
|                                                |          | 接收的数据在保存到Spark之前，chunk为数据块。推荐的最小值为50ms
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.receiver.maxRate               | infinite | 每秒钟每个receiver将接收的数据的最大记录数。有效的情况下，每个流将消耗至
|                                                |          | 少这个数目的记录。设置这个配置为0或者-1将会不作限制
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.receiver.writeAheadLogs.enable | false    | Enable write ahead logs for receivers. A
|                                                |          | ll the input data received through recei
|                                                |          | vers will be saved to write ahead logs t
|                                                |          | hat will allow it to be recovered after 
|                                                |          | driver failures
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.unpersist                      | true     | 强制通过Spark Streaming生成并持久化的RDD自动从Spark内存中
|                                                |          | 非持久化。通过Spark Streaming接收的原始输入数据也将清除。设置这个
|                                                |          | 属性为false允许流应用程序访问原始数据和持久化RDD，因为它们没有被自动清除
|                                                |          | 。但是它会造成更高的内存花费
|------------------------------------------------------------------------------------------------------------------
 
 
集群管理
Spark On YARN
|-------------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                                          | 默认值                               | 含义
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.memory                              | 512m                                 | client 模式时，am的内存大小；cluster模式时，使用spark.dr
|                                                   |                                      | iver.memory变量
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.driver.cores                                | 1                                    | claster模式时，driver使用的cpu核数，这时候driver运行在am
|                                                   |                                      | 中，其实也就是am和核数；client模式时，使用spark.yarn.am.c
|                                                   |                                      | ores变量
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.cores                               | 1                                    | client 模式时，am的cpu核数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.waitTime                            | 100000                               | 启动时等待时间
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.submit.file.replication                | 3                                    | 应用程序上传到HDFS的文件的副本数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.preserve.staging.files                 | False                                | 若为true，在job结束后，将stage相关的文件保留而不是删除
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.scheduler.heartbeat.interval-ms        | 5000                                 | Spark AppMaster发送心跳信息给YARN RM的时间间隔
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.max.executor.failures                  | 2倍于executor数，最小值3              | 导致应用程序宣告失败的最大executor失败次数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.applicationMaster.waitTries            | 10                                   | RM等待Spark AppMaster启动重试次数，也就是SparkContex
|                                                   |                                      | t初始化次数。超过这个数值，启动失败
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.historyServer.address                  | Spark                                | history server的地址（不要加 http://）。这个地址会在Spa
|                                                   |                                      | rk应用程序完成后提交给YARN RM，然后RM将信息从RM UI写到histo
|                                                   |                                      | ry server UI上。
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.dist.archives                          | (none)                               | 
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.dist.files                             | (none)                               | 
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.executor.instances                          | 2                                    | executor实例个数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.executor.memoryOverhead                | executorMemory                       | * 0.07, with minimum of 384 	executor的堆内
|                                                   |                                      | 存大小设置
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.driver.memoryOverhead                  | driverMemory                         | * 0.07, with minimum of 384 	driver的堆内存大
|                                                   |                                      | 小设置
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.memoryOverhead                      | AM                                   | memory * 0.07, with minimum of 384 	am的堆
|                                                   |                                      | 内存大小设置，在client模式时设置
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.queue                                  | default                              | 使用yarn的队列
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.jar                                    | (none)                               | 
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.access.namenodes                       | (none)                               | 
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.appMasterEnv.[EnvironmentVariableName] | (none)                               | 设置am的环境变量
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.containerLauncherMaxThreads            | 25                                   | am启动executor的最大线程数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.extraJavaOptions                    | (none)                               | 
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.maxAppAttempts                         | yarn.resourcemanager.am.max-attempts | in YARN 	am重试次数
|-------------------------------------------------------------------------------------------------------------------------------------------------
 
 
Spark History Server的属性
|----------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                           | 默认                                             | 含义
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.provider             | org.apache.spark.deploy.history.FsHistoryProvide | 应用历史后端实现的类名。 目前只有一个实现, 由Spark提供, 它查看存储在文
|                                    |                                                  | 件系统里面的应用日志
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.fs.logDirectory      | file:/tmp/spark-events                           | 
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.updateInterval       | 10                                               | 以秒为单位，多长时间Spark history server显示的信息进行更新。
|                                    |                                                  | 每次更新都会检查持久层事件日志的任何变化。
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.retainedApplications | 50                                               | 在Spark history server上显示的最大应用程序数量，如果超过这个
|                                    |                                                  | 值，旧的应用程序信息将被删除。
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.ui.port              | 18080                                            | 官方版本中，Spark history server的默认访问端口
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.kerberos.enabled     | false                                            | 是否使用kerberos方式登录访问history server，对于持久层位于
|                                    |                                                  | 安全集群的HDFS上是有用的。如果设置为true，就要配置下面的两个属性。
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.kerberos.principal   | 空                                               | 用于Spark history server的kerberos主体名称
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.kerberos.keytab      | 空                                               | 用于Spark history server的kerberos keytab文件
|                                    |                                                  | 位置
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.ui.acls.enable       | false                                            | 授权用户查看应用程序信息的时候是否检查acl。如果启用，只有应用程序所有者和sp
|                                    |                                                  | ark.ui.view.acls指定的用户可以查看应用程序信息;如果禁用，不做任
|                                    |                                                  | 何检查。
|----------------------------------------------------------------------------------------------------------------------------------------------

源码spark-env.sh配置选项：

# Options read when launching programs locally with
# ./bin/run-example or ./bin/spark-submit
# - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files
# - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node
# - SPARK_PUBLIC_DNS, to set the public dns name of the driver program
# - SPARK_CLASSPATH, default classpath entries to append

# Options read by executors and drivers running inside the cluster
# - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node
# - SPARK_PUBLIC_DNS, to set the public DNS name of the driver program
# - SPARK_CLASSPATH, default classpath entries to append
# - SPARK_LOCAL_DIRS, storage directories to use on this node for shuffle and RDD data
# - MESOS_NATIVE_JAVA_LIBRARY, to point to your libmesos.so if you use Mesos

# Options read in YARN client mode
# - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files
# - SPARK_EXECUTOR_INSTANCES, Number of workers to start (Default: 2)//对于yarn模式需要设置，表示集群启动的总worker（executor）进程数
# - SPARK_EXECUTOR_CORES, Number of cores for the workers (Default: 1).//对于yarn模式需要设置，表示每个worker所占核数
# - SPARK_EXECUTOR_MEMORY, Memory per Worker (e.g. 1000M, 2G) (Default: 1G)//对于yarn模式需要设置，表示每个worker所占内存量
# - SPARK_DRIVER_MEMORY, Memory for Master (e.g. 1000M, 2G) (Default: 512 Mb)//可设置为1-2G，表示driver内存
# - SPARK_YARN_APP_NAME, The name of your application (Default: Spark)
# - SPARK_YARN_QUEUE, The hadoop queue to use for allocation requests (Default: ‘default’)
# - SPARK_YARN_DIST_FILES, Comma separated list of files to be distributed with the job.
# - SPARK_YARN_DIST_ARCHIVES, Comma separated list of archives to be distributed with the job.

# Options for the daemons used in the standalone deploy mode
# - SPARK_MASTER_IP, to bind the master to a different IP address or hostname
# - SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports for the master
# - SPARK_MASTER_OPTS, to set config properties only for the master (e.g. "-Dx=y")
# - SPARK_WORKER_CORES, to set the number of cores to use on this machine //在该节点上可供该节点上所有worker使用的总核数,默认是所有
# - SPARK_WORKER_MEMORY, to set how much total memory workers have to give executors (e.g. 1000m, 2g)
# - SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT, to use non-default ports for the worker
# - SPARK_WORKER_INSTANCES, to set the number of worker processes per node// 它对于yarn、 mesos模式是无意义的。因为在yarn和 mesos中每个节点跑一个worker可以运行多个excutor。但是对于standalone模式对于一个application只允许一个worker进程（WORKER_INSTANCES）跑一个executor（但是对于多个application是可以每个app在worker内启一个executor）。故提供该配置以实现一个节点运行多个EXECUTER，因此，在standalone模式下设置--num-executors（spark-submit）或者 SPARK_EXECUTOR_INSTANCES （spark-env.sh）都是无效的。

# - SPARK_WORKER_DIR, to set the working directory of worker processes
# - SPARK_WORKER_OPTS, to set config properties only for the worker (e.g. "-Dx=y")
# - SPARK_HISTORY_OPTS, to set config properties only for the history server (e.g. "-Dx=y")
# - SPARK_SHUFFLE_OPTS, to set config properties only for the external shuffle service (e.g. "-Dx=y")
# - SPARK_DAEMON_JAVA_OPTS, to set config properties for all daemons (e.g. "-Dx=y")
# - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers

# Generic options for the daemons used in the standalone deploy mode
# - SPARK_CONF_DIR Alternate conf dir. (Default: ${SPARK_HOME}/conf)
# - SPARK_LOG_DIR Where log files are stored. (Default: ${SPARK_HOME}/logs)
# - SPARK_PID_DIR Where the pid file is stored. (Default: /tmp)
# - SPARK_IDENT_STRING A string representing this instance of spark. (Default: $USER)
# - SPARK_NICENESS The scheduling priority for daemons. (Default: 0)
"spark-env.sh" 59L, 3565C 2,0-1 Top
# - SPARK_IDENT_STRING A string representing this instance of spark. (Default: $USER)
# - SPARK_NICENESS The scheduling priority for daemons. (Default: 0)

你可能感兴趣的:(spark)

优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
【新品发售】NVIDIA 发布全球最小个人 AI 超级计算机 DGX Spark segmentfault
GTC2025大会上，NVIDIA正式推出了搭载NVIDIAGraceBlackwell平台的个人AI超级计算机——DGXSpark。赞奇可接受预订，直接私信后台即刻预订！DGXSpark(前身为ProjectDIGITS)支持AI开发者、研究人员、数据科学家和学生，在台式电脑上对大模型进行原型设计、微调和推理。用户可以在本地运行这些模型，或将其部署在NVIDIADGXCloud或任何其他加速云或
Kafka Connect Node.js Connector 指南丁操余
KafkaConnectNode.jsConnector指南kafka-connectequivalenttokafka-connect:wrench:fornodejs:sparkles::turtle::rocket::sparkles:项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect项目介绍KafkaConnectNode.jsConn
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
SparkSQL编程-RDD、DataFrame、DataSet 早拾碗吧 Spark spark hadoop 大数据 sparksql
三者之间的关系在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD(Spark1.0)—>Dataframe(Spark1.3)—>Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
pyspark 遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\ 2pi spark python
Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_22732/1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\pyspark\sql\data
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
自定义Spark启动的metastore_db和derby.log生成路径节昊文 spark 大数据分布式
1.进入安装spark目录的conf目录下2.复制spark-defaults.conf.template文件为spark-defaults.conf3.在spark-defaults.conf文件的末尾添加一行：spark.driver.extraJavaOptions-Dderby.system.home=/log即生成的文件存放的目录
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
Spark Sql 简单校验的实现小小小小小小小小小小码农 spark sql java
在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。不使用Sparksession获取上下文，利用spark和antlr的静态方法使用java实现简单的sparksql的语法以及内置函数的校验。1.spark版本3.2.0org.apache.sparkspark-sql_2.123.2.0org.antlrantlr4-runtim
PySpark安装及WordCount实现（基于Ubuntu） uui1885478445 ubuntu linux 运维
在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK：sudoaptupdatesudoaptinstalldefault-jredefault-jdk安装Scala：PySpark还需要Scala，可以使用以下命令安装：sudoaptinstallscala安装Pyth
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found