YZJ8819

spark配置详解

原文链接： http://www.cnblogs.com/OS-BigData/p/8526966.html

对付看把到这里格式变化太大了，懒得调整了，这是大概spark1.5版本时候的一些参数默认值，现在2.x会有变化

这些皆可在 spark-default.conf配置，或者部分可在 sparkconf().set设置

应用程序属性

|--------------------------------------------------------------------------------------------
| 属性名称                                    | 默认值 | 含义
|--------------------------------------------------------------------------------------------
| spark.app.name | (none) | 你的应用程序的名字。这将在UI和日志数据中出现
|--------------------------------------------------------------------------------------------
| spark.driver.cores    | 1      | driver程序运行需要的cpu内核数
|--------------------------------------------------------------------------------------------
| spark.driver.maxResultSize | 1g    | 每个Spark action(如collect)所有分区的序列化结果的总大小限制
|    |        | 。设置的值应该不小于1m，0代表没有限制。如果总大小超过这个限制，程序将会终止。
|    |        | 大的限制值可能导致driver出现内存溢出错误（依赖于spark.driver.
|    |        | memory和JVM中对象的内存消耗）。
|--------------------------------------------------------------------------------------------
| spark.driver.memory    | 512m   | driver进程使用的内存数
|--------------------------------------------------------------------------------------------
| spark.executor.memory | 512m   | 每个executor进程使用的内存数。和JVM内存串拥有相同的格式（如512m,
|    | | 2g）
|--------------------------------------------------------------------------------------------
| spark.extraListeners       | (none) | 注册监听器，需要实现SparkListener
|--------------------------------------------------------------------------------------------
| spark.local.dir            | /tmp   | Spark中暂存空间的使用目录。在Spark1.0以及更高的版本中，这个属性被S
|                            |        | PARK_LOCAL_DIRS(Standalone, Mesos)和LOCAL
|                            |        | _DIRS(YARN)环境变量覆盖。
|--------------------------------------------------------------------------------------------
| spark.logConf              | false | 当SparkContext启动时，将有效的SparkConf记录为INFO。
|--------------------------------------------------------------------------------------------
| spark.master               | (none) | 集群管理器连接的地方
|--------------------------------------------------------------------------------------------

运行环境
|----------------------------------------------------------------------------------------------------------------
| 属性名称                                     | 默认值   | 含义
|----------------------------------------------------------------------------------------------------------------
| spark.driver.extraClassPath                  | (none)   | 附加到driver的classpath的额外的classpath实体。
|----------------------------------------------------------------------------------------------------------------
| spark.driver.extraJavaOptions                | (none)   | 传递给driver的JVM选项字符串。例如GC设置或者其它日志设置。注意，在这个
|                                              |          | 选项中设置Spark属性或者堆大小是不合法的。Spark属性需要用--drive
|                                              |          | r-class-path设置。
|----------------------------------------------------------------------------------------------------------------
| spark.driver.extraLibraryPath                | (none)   | 指定启动driver的JVM时用到的库路径
|----------------------------------------------------------------------------------------------------------------
| spark.driver.userClassPathFirst              | false    | (实验性)当在driver中加载类时，是否用户添加的jar比Spark自己的ja
|                                              |          | r优先级高。这个属性可以降低Spark依赖和用户依赖的冲突。它现在还是一个实验性
|                                              |          | 的特征。
|----------------------------------------------------------------------------------------------------------------
| spark.executor.extraClassPath                | (none)   | 附加到executors的classpath的额外的classpath实体。这个
|                                              |          | 设置存在的主要目的是Spark与旧版本的向后兼容问题。用户一般不用设置这个选项
|----------------------------------------------------------------------------------------------------------------
| spark.executor.extraJavaOptions              | (none)   | 传递给executors的JVM选项字符串。例如GC设置或者其它日志设置。注意，
|                                              |          | 在这个选项中设置Spark属性或者堆大小是不合法的。Spark属性需要用Spar
|                                              |          | kConf对象或者spark-submit脚本用到的spark-defaults
|                                              |          | .conf文件设置。堆内存可以通过spark.executor.memory设置
|                                              |          |
|----------------------------------------------------------------------------------------------------------------
| spark.executor.extraLibraryPath              | (none)   | 指定启动executor的JVM时用到的库路径
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.maxRetainedFiles | (none)   | 设置被系统保留的最近滚动日志文件的数量。更老的日志文件将被删除。默认没有开启。
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.size.maxBytes    | (none)   | executor日志的最大滚动大小。默认情况下没有开启。值设置为字节spark1.4 已经废弃使用spark.executor.logs.rolling.maxSize
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.strategy         | (none)   | 设置executor日志的滚动(rolling)策略。默认情况下没有开启。可以配
|                                              |          | 置为time和size。对于time，用spark.executor.logs.
|                                              |          | rolling.time.interval设置滚动间隔；对于size，用spar
|                                              |          | k.executor.logs.rolling.size.maxBytes设置最
|                                              |          | 大的滚动大小
|----------------------------------------------------------------------------------------------------------------
| spark.executor.logs.rolling.time.interval    | daily    | executor日志滚动的时间间隔。默认情况下没有开启。合法的值是daily,
|                                              |          | hourly, minutely以及任意的秒。
|----------------------------------------------------------------------------------------------------------------
| spark.files.userClassPathFirst               | false    | (实验性)当在Executors中加载类时，是否用户添加的jar比Spark自己
|                                              |          | 的jar优先级高。这个属性可以降低Spark依赖和用户依赖的冲突。它现在还是一个
|                                              |          | 实验性的特征。
|----------------------------------------------------------------------------------------------------------------
| spark.python.worker.memory                   | 512m     | 在聚合期间，每个python worker进程使用的内存数。在聚合期间，如果内存
|                                              |          | 超过了这个限制，它将会将数据塞进磁盘中
|----------------------------------------------------------------------------------------------------------------
| spark.python.profile                         | false    | 在Python worker中开启profiling。通过sc.show_pro
|                                              |          | files()展示分析结果。或者在driver退出前展示分析结果。可以通过sc.
|                                              |          | dump_profiles(path)将结果dump到磁盘中。如果一些分析结果已
|                                              |          | 经手动展示，那么在driver退出前，它们再不会自动展示
|----------------------------------------------------------------------------------------------------------------
| spark.python.profile.dump                    | (none)   | driver退出前保存分析结果的dump文件的目录。每个RDD都会分别dump一
|                                              |          | 个文件。可以通过ptats.Stats()加载这些文件。如果指定了这个属性，分析
|                                              |          | 结果不会自动展示
|----------------------------------------------------------------------------------------------------------------
| spark.python.worker.reuse                    | true     | 是否重用python worker。如果是，它将使用固定数量的Python wo
|                                              |          | rkers，而不需要为每个任务fork()一个Python进程。如果有一个非常大
|                                              |          | 的广播，这个设置将非常有用。因为，广播不需要为每个任务从JVM到Python w
|                                              |          | orker传递一次
|----------------------------------------------------------------------------------------------------------------
| spark.executorEnv.[EnvironmentVariableName] | (none)   | 通过EnvironmentVariableName添加指定的环境变量到execu
|                                              |          | tor进程。用户可以指定多个EnvironmentVariableName，设置
|                                              |          | 多个环境变量
|----------------------------------------------------------------------------------------------------------------
| spark.mesos.executor.home                    | driver   | side SPARK_HOME     设置安装在Mesos的executor上的Sp
|                                              |          | ark的目录。默认情况下，executors将使用driver的Spark本地（
|                                              |          | home）目录，这个目录对它们不可见。注意，如果没有通过 spark.execu
|                                              |          | tor.uri指定Spark的二进制包，这个设置才起作用
|----------------------------------------------------------------------------------------------------------------
| spark.mesos.executor.memoryOverhead          | executor | memory * 0.07, 最小384m   这个值是spark.executo
|                                              |          | r.memory的补充。它用来计算mesos任务的总内存。另外，有一个7%的硬编
|                                              |          | 码设置。最后的值将选择spark.mesos.executor.memoryOv
|                                              |          | erhead或者spark.executor.memory的7%二者之间的大者
|----------------------------------------------------------------------------------------------------------------

Shuffle行为
|---------------------------------------------------------------------------------------------------------
| 属性名称                                | 默认值 | 含义
|---------------------------------------------------------------------------------------------------------
| spark.reducer.maxMbInFlight             | 48     | 从递归任务中同时获取的map输出数据的最大大小（mb）。因为每一个输出都需要我们
|                                         |        | 创建一个缓存用来接收，这个设置代表每个任务固定的内存上限，所以除非你有更大的内存
|                                         |        | ，将其设置小一点
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.blockTransferService      | netty | 实现用来在executor直接传递shuffle和缓存块。有两种可用的实现：ne
|                                         |        | tty和nio。基于netty的块传递在具有相同的效率情况下更简单
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.compress                  | true   | 是否压缩map操作的输出文件。一般情况下，这是一个好的选择。
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.consolidateFiles          | false | 如果设置为”true”，在shuffle期间，合并的中间文件将会被创建。创建更少
|                                         |        | 的文件可以提供文件系统的shuffle的效率。这些shuffle都伴随着大量递归
|                                         |        | 任务。当用ext4和dfs文件系统时，推荐设置为”true”。在ext3中，因为
|                                         |        | 文件系统的限制，这个选项可能机器（大于8核）降低效率
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.file.buffer.kb            | 32     | 每个shuffle文件输出流内存内缓存的大小，单位是kb。这个缓存减少了创建只中
|                                         |        | 间shuffle文件中磁盘搜索和系统访问的数量
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.maxRetries             | 3      | Netty only，自动重试次数
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.numConnectionsPerPeer | 1      | Netty only
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.preferDirectBufs       | true   | Netty only
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.io.retryWait              | 5      | Netty only
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.manager                   | sort   | 它的实现用于shuffle数据。有两种可用的实现：sort和hash。基于sor
|                                         |        | t的shuffle有更高的内存使用率
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.memoryFraction            | 0.2    | 如果spark.shuffle.spill为true，shuffle中聚合和合并
|                                         |        | 组操作使用的java堆内存占总内存的比重。在任何时候，shuffles使用的所有
|                                         |        | 内存内maps的集合大小都受这个限制的约束。超过这个限制，spilling数据将
|                                         |        | 会保存到磁盘上。如果spilling太过频繁，考虑增大这个值
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.sort.bypassMergeThreshold | 200    | (Advanced) In the sort-based shuffle man
|                                         |        | ager, avoid merge-sorting data if there
|                                         |        | is no map-side aggregation and there are
|                                         |        | at most this many reduce partitions
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.spill                     | true   | 如果设置为”true”，通过将多出的数据写入磁盘来限制内存数。通过spark.s
|                                         |        | huffle.memoryFraction来指定spilling的阈值
|---------------------------------------------------------------------------------------------------------
| spark.shuffle.spill.compress            | true   | 在shuffle时，是否将spilling的数据压缩。压缩算法通过spark.i
|                                         |        | o.compression.codec指定。
|---------------------------------------------------------------------------------------------------------

Spark UI
|-----------------------------------------------------------------------------------------------------------
| 属性名称                | 默认值                   | 含义
|-----------------------------------------------------------------------------------------------------------
| spark.eventLog.compress | false                    | 是否压缩事件日志。需要spark.eventLog.enabled为true
|-----------------------------------------------------------------------------------------------------------
| spark.eventLog.dir      | file:///tmp/spark-events | Spark事件日志记录的基本目录。在这个基本目录下，Spark为每个应用程序创建
|                         |                          | 一个子目录。各个应用程序记录日志到直到的目录。用户可能想设置这为统一的地点，像H
|                         |                          | DFS一样，所以历史文件可以通过历史服务器读取
|-----------------------------------------------------------------------------------------------------------
| spark.eventLog.enabled | false                    | 是否记录Spark的事件日志。这在应用程序完成后，重新构造web UI是有用的
|-----------------------------------------------------------------------------------------------------------
| spark.ui.killEnabled    | true                     | 运行在web UI中杀死stage和相应的job
|-----------------------------------------------------------------------------------------------------------
| spark.ui.port           | 4040                     | 你的应用程序dashboard的端口。显示内存和工作量数据
|-----------------------------------------------------------------------------------------------------------
| spark.ui.retainedJobs   | 1000                     | 在垃圾回收之前，Spark UI和状态API记住的job数
|-----------------------------------------------------------------------------------------------------------
| spark.ui.retainedStages | 1000                     | 在垃圾回收之前，Spark UI和状态API记住的stage数
|-----------------------------------------------------------------------------------------------------------

压缩和序列化
|--------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                               | 默认值                                     | 含义
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.broadcast.compress               | true                                       | 在发送广播变量之前是否压缩它
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.closure.serializer               | org.apache.spark.serializer.JavaSerializer | 闭包用到的序列化类。目前只支持java序列化器
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.io.compression.codec             | snappy                                     | 压缩诸如RDD分区、广播变量、shuffle输出等内部数据的编码解码器。默认情况
|                                        |                                            | 下，Spark提供了三种选择：lz4、lzf和snappy，你也可以用完整的类名
|                                        |                                            | 来制定。
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.io.compression.lz4.block.size    | 32768                                      | LZ4压缩中用到的块大小。降低这个块的大小也会降低shuffle内存使用率
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.io.compression.snappy.block.size | 32768                                      | Snappy压缩中用到的块大小。降低这个块的大小也会降低shuffle内存使用率
|                                        |                                            |
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.classesToRegister           | (none)                                     | 如果你用Kryo序列化，给定的用逗号分隔的自定义类名列表表示要注册的类
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.referenceTracking           | true                                       | 当用Kryo序列化时，跟踪是否引用同一对象。如果你的对象图有环，这是必须的设置。
|                                        |                                            | 如果他们包含相同对象的多个副本，这个设置对效率是有用的。如果你知道不在这两个场景
|                                        |                                            | ，那么可以禁用它以提高效率
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.registrationRequired        | false                                      | 是否需要注册为Kyro可用。如果设置为true，然后如果一个没有注册的类序列化，
|                                        |                                            | Kyro会抛出异常。如果设置为false，Kryo将会同时写每个对象和其非注册类
|                                        |                                            | 名。写类名可能造成显著地性能瓶颈。
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryo.registrator                 | (none)                                     | 如果你用Kryo序列化，设置这个类去注册你的自定义类。如果你需要用自定义的方式注
|                                        |                                            | 册你的类，那么这个属性是有用的。否则spark.kryo.classesToRe
|                                        |                                            | gister会更简单。它应该设置一个继承自KryoRegistrator的类
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryoserializer.buffer.max.mb     | 64                                         | Kryo序列化缓存允许的最大值。这个值必须大于你尝试序列化的对象
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.kryoserializer.buffer.mb         | 0.064                                      | Kyro序列化缓存的大小。这样worker上的每个核都有一个缓存。如果有需要，缓
|                                        |                                            | 存会涨到spark.kryoserializer.buffer.max.mb设置
|                                        |                                            | 的值那么大。
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.rdd.compress                     | true                                       | 是否压缩序列化的RDD分区。在花费一些额外的CPU时间的同时节省大量的空间
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.serializer                       | org.apache.spark.serializer.JavaSerializer | 序列化对象使用的类。默认的Java序列化类可以序列化任何可序列化的java对象但
|                                        |                                            | 是它很慢。所有我们建议用org.apache.spark.serializer.
|                                        |                                            | KryoSerializer
|--------------------------------------------------------------------------------------------------------------------------------------------
| spark.serializer.objectStreamReset     | 100                                        | 当用org.apache.spark.serializer.JavaSerial
|                                        |                                            | izer序列化时，序列化器通过缓存对象防止写多余的数据，然而这会造成这些对象的垃
|                                        |                                            | 圾回收停止。通过请求’reset’，你从序列化器中flush这些信息并允许收集老
|                                        |                                            | 的数据。为了关闭这个周期性的reset，你可以将值设为-1。默认情况下，每一百个
|                                        |                                            | 对象reset一次
|--------------------------------------------------------------------------------------------------------------------------------------------

运行时行为
|------------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                         | 默认值                                               | 含义
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.broadcast.blockSize        | 4096                                                 | TorrentBroadcastFactory传输的块大小，太大值会降低并发，太
|                                  |                                                      | 小的值会出现性能瓶颈
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.broadcast.factory          | org.apache.spark.broadcast.TorrentBroadcastFactory   | broadcast实现类
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.cleaner.ttl                | (infinite)                                           | spark记录任何元数据（stages生成、task生成等）的持续时间。定期清理
|                                  |                                                      | 可以确保将超期的元数据丢弃，这在运行长时间任务是很有用的，如运行7*24的spa
|                                  |                                                      | rkstreaming任务。RDD持久化在内存中的超期数据也会被清理
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.default.parallelism        | 本地模式：机器核数；Mesos：8；其他：max(executor的core，2) | 如果用户不设置，系统使用集群中运行shuffle操作的默认任务数（groupBy
|                                  |                                                      | Key、 reduceByKey等）
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.executor.heartbeatInterval | 10000                                                | executor 向 the driver 汇报心跳的时间间隔，单位毫秒
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.files.fetchTimeout         | 60                                                   | driver 程序获取通过SparkContext.addFile()添加的文件
|                                  |                                                      | 时的超时时间，单位秒
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.files.useFetchCache        | true                                                 | 获取文件时是否使用本地缓存
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.files.overwrite            | false                                                | 调用SparkContext.addFile()时候是否覆盖文件
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.hadoop.cloneConf           | false                                                | 每个task是否克隆一份hadoop的配置文件
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.hadoop.validateOutputSpecs | true                                                 | 是否校验输出
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.storage.memoryFraction     | 0.6                                                  | Spark内存缓存的堆大小占用总内存比例，该值不能大于老年代内存大小，默认值为0
|                                  |                                                      | .6，但是，如果你手动设置老年代大小，你可以增加该值
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.storage.memoryMapThreshold | 2097152                                              | 内存块大小
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.storage.unrollFraction     | 0.2                                                  | Fraction of spark.storage.memoryFraction
|                                  |                                                      | to use for unrolling blocks in memory.
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.tachyonStore.baseDir       | System.getProperty(“java.io.tmpdir”)                 | Tachyon File System临时目录
|------------------------------------------------------------------------------------------------------------------------------------------------
| spark.tachyonStore.url           | tachyon://localhost:19998                            | Tachyon File System URL
|------------------------------------------------------------------------------------------------------------------------------------------------

网络
|---------------------------------------------------------------------------------------------------------
| 属性名称                              | 默认值   | 含义
|---------------------------------------------------------------------------------------------------------
| spark.driver.host                     | (local   | hostname) driver监听的主机名或者IP地址。这用于和execut
|                                       |          | ors以及独立的master通信
|---------------------------------------------------------------------------------------------------------
| spark.driver.port                     | (random) | driver监听的接口。这用于和executors以及独立的master通信
|---------------------------------------------------------------------------------------------------------
| spark.fileserver.port                 | (random) | driver的文件服务器监听的端口
|---------------------------------------------------------------------------------------------------------
| spark.broadcast.port                  | (random) | driver的HTTP广播服务器监听的端口
|---------------------------------------------------------------------------------------------------------
| spark.replClassServer.port            | (random) | driver的HTTP类服务器监听的端口
|---------------------------------------------------------------------------------------------------------
| spark.blockManager.port               | (random) | 块管理器监听的端口。这些同时存在于driver和executors
|---------------------------------------------------------------------------------------------------------
| spark.executor.port                   | (random) | executor监听的端口。用于与driver通信
|---------------------------------------------------------------------------------------------------------
| spark.port.maxRetries                 | 16       | 当绑定到一个端口，在放弃前重试的最大次数
|---------------------------------------------------------------------------------------------------------
| spark.akka.frameSize                  | 10       | 在”control plane”通信中允许的最大消息大小。如果你的任务需要发送大
|                                       |          | 的结果到driver中，调大这个值
|---------------------------------------------------------------------------------------------------------
| spark.akka.threads                    | 4        | 通信的actor线程数。当driver有很多CPU核时，调大它是有用的
|---------------------------------------------------------------------------------------------------------
| spark.akka.timeout                    | 100      | Spark节点之间的通信超时。单位是秒
|---------------------------------------------------------------------------------------------------------
| spark.akka.heartbeat.pauses           | 6000     | This is set to a larger value to disable
|                                       |          | failure detector that comes inbuilt akk
|                                       |          | a. It can be enabled again, if you plan
|                                       |          | to use this feature (Not recommended). A
|                                       |          | cceptable heart beat pause in seconds fo
|                                       |          | r akka. This can be used to control sens
|                                       |          | itivity to gc pauses. Tune this in combi
|                                       |          | nation of spark.akka.heartbeat.interval
|                                       |          | and spark.akka.failure-detector.threshol
|                                       |          | d if you need to.
|---------------------------------------------------------------------------------------------------------
| spark.akka.failure-detector.threshold | 300.0    | This is set to a larger value to disable
|                                       |          | failure detector that comes inbuilt akk
|                                       |          | a. It can be enabled again, if you plan
|                                       |          | to use this feature (Not recommended). T
|                                       |          | his maps to akka’s akka.remote.transport
|                                       |          | -failure-detector.threshold. Tune this i
|                                       |          | n combination of spark.akka.heartbeat.pa
|                                       |          | uses and spark.akka.heartbeat.interval i
|                                       |          | f you need to.
|---------------------------------------------------------------------------------------------------------
| spark.akka.heartbeat.interval         | 1000     | This is set to a larger value to disable
|                                       |          | failure detector that comes inbuilt akk
|                                       |          | a. It can be enabled again, if you plan
|                                       |          | to use this feature (Not recommended). A
|                                       |          | larger interval value in seconds reduce
|                                       |          | s network overhead and a smaller value (
|                                       |          | ~ 1 s) might be more informative for ak
|                                       |          | ka’s failure detector. Tune this in comb
|                                       |          | ination of spark.akka.heartbeat.pauses a
|                                       |          | nd spark.akka.failure-detector.threshold
|                                       |          | if you need to. Only positive use case
|                                       |          | for using failure detector can be, a sen
|                                       |          | sistive failure detector can help evict
|                                       |          | rogue executors really quick. However th
|                                       |          | is is usually not the case as gc pauses
|                                       |          | and network lags are expected in a real
|                                       |          | Spark cluster. Apart from that enabling
|                                       |          | this leads to a lot of exchanges of hear
|                                       |          | t beats between nodes leading to floodin
|                                       |          | g the network with those.
|---------------------------------------------------------------------------------------------------------

调度相关属性
|--------------------------------------------------------------------------------------------------------------
| 属性名称                        | 默认值              | 含义
|--------------------------------------------------------------------------------------------------------------
| spark.task.cpus                 | 1                   | 为每个任务分配的内核数
|--------------------------------------------------------------------------------------------------------------
| spark.task.maxFailures          | 4                   | Task的最大重试次数
|--------------------------------------------------------------------------------------------------------------
| spark.scheduler.mode            | FIFO                | Spark的任务调度模式，还有一种Fair模式
|--------------------------------------------------------------------------------------------------------------
| spark.cores.max                 | 无                  | 当应用程序运行在Standalone集群或者粗粒度共享模式Mesos集群时，应用
|                                 |                     | 程序向集群请求的最大CPU内核总数（不是指每台机器，而是整个集群）。如果不设置，
|                                 |                     | 对于Standalone集群将使用spark.deploy.defaultCor
|                                 |                     | es中数值，而Mesos将使用集群中可用的内核
|--------------------------------------------------------------------------------------------------------------
| spark.mesos.coarse              | False               | 如果设置为true，在Mesos集群中运行时使用粗粒度共享模式
|--------------------------------------------------------------------------------------------------------------
| spark.speculation               | False               | 以下几个参数是关于Spark推测执行机制的相关参数。此参数设定是否使用推测执行机
|                                 |                     | 制，如果设置为true则spark使用推测执行机制，对于Stage中拖后腿的Ta
|                                 |                     | sk在其他节点中重新启动，并将最先完成的Task的计算结果最为最终结果
|--------------------------------------------------------------------------------------------------------------
| spark.speculation.interval      | 100                 | Spark多长时间进行检查task运行状态用以推测，以毫秒为单位
|--------------------------------------------------------------------------------------------------------------
| spark.speculation.quantile      | 无                  | 推测启动前，Stage必须要完成总Task的百分比
|--------------------------------------------------------------------------------------------------------------
| spark.speculation.multiplier    | 1.5                 | 比已完成Task的运行速度中位数慢多少倍才启用推测
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait             | 3000                | 以下几个参数是关于Spark数据本地性的。本参数是以毫秒为单位启动本地数据tas
|                                 |                     | k的等待时间，如果超出就启动下一本地优先级别的task。该设置同样可以应用到各优
|                                 |                     | 先级别的本地性之间（本地进程 -> 本地节点 -> 本地机架 -> 任意节点）
|                                 |                     | ，当然，也可以通过spark.locality.wait.node等参数设置不同
|                                 |                     | 优先级别的本地性
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait.process     | spark.locality.wait | 本地进程级别的本地等待时间
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait.node        | spark.locality.wait | 本地节点级别的本地等待时间
|--------------------------------------------------------------------------------------------------------------
| spark.locality.wait.rack        | spark.locality.wait | 本地机架级别的本地等待时间
|--------------------------------------------------------------------------------------------------------------
| spark.scheduler.revive.interval | 1000                | 复活重新获取资源的Task的最长时间间隔（毫秒），发生在Task因为本地资源不足
|                                 |                     | 而将资源分配给其他Task运行后进入等待时间，如果这个等待时间内重新获取足够的资
|                                 |                     | 源就继续计算
|--------------------------------------------------------------------------------------------------------------

Dynamic Allocation
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                                                 | 默认值                               | 含义
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.enabled                          | false                                | 是否开启动态资源搜集
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.executorIdleTimeout              | 600                                  |
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.initialExecutors                 | spark.dynamicAllocation.minExecutors |
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.maxExecutors                     | Integer.MAX_VALUE                    |
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.minExecutors                     | 0                                    |
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.schedulerBacklogTimeout          | 5                                    |
|--------------------------------------------------------------------------------------------------------------------------------------------------------
| spark.dynamicAllocation.sustainedSchedulerBacklogTimeout | schedulerBacklogTimeout              |
|--------------------------------------------------------------------------------------------------------------------------------------------------------

安全
|---------------------------------------------------------------------------------------------------------
| 属性名称                                | 默认值 | 含义
|---------------------------------------------------------------------------------------------------------
| spark.authenticate                      | false | 是否Spark验证其内部连接。如果不是运行在YARN上，请看spark.auth
|                                         |        | enticate.secret
|---------------------------------------------------------------------------------------------------------
| spark.authenticate.secret               | None   | 设置Spark两个组件之间的密匙验证。如果不是运行在YARN上，但是需要验证，这
|                                         |        | 个选项必须设置
|---------------------------------------------------------------------------------------------------------
| spark.core.connection.auth.wait.timeout | 30     | 连接时等待验证的实际。单位为秒
|---------------------------------------------------------------------------------------------------------
| spark.core.connection.ack.wait.timeout | 60     | 连接等待回答的时间。单位为秒。为了避免不希望的超时，你可以设置更大的值
|---------------------------------------------------------------------------------------------------------
| spark.ui.filters                        | None   | 应用到Spark web UI的用于过滤类名的逗号分隔的列表。过滤器必须是标准的
|                                         |        | javax servlet Filter。通过设置java系统属性也可以指定每个
|                                         |        | 过滤器的参数。spark..para
|                                         |        | ms='param1=value1,param2=value2'。例如-Dspa
|                                         |        | rk.ui.filters=com.test.filter1、-Dspark.c
|                                         |        | om.test.filter1.params='param1=foo,param
|                                         |        | 2=testing'
|---------------------------------------------------------------------------------------------------------
| spark.acls.enable                       | false | 是否开启Spark acls。如果开启了，它检查用户是否有权限去查看或修改job
|                                         |        | 。UI利用使用过滤器验证和设置用户
|---------------------------------------------------------------------------------------------------------
| spark.ui.view.acls                      | empty | 逗号分隔的用户列表，列表中的用户有查看Spark web UI的权限。默认情况下
|                                         |        | ，只有启动Spark job的用户有查看权限
|---------------------------------------------------------------------------------------------------------
| spark.modify.acls                       | empty | 逗号分隔的用户列表，列表中的用户有修改Spark job的权限。默认情况下，只有
|                                         |        | 启动Spark job的用户有修改权限
|---------------------------------------------------------------------------------------------------------
| spark.admin.acls                        | empty | 逗号分隔的用户或者管理员列表，列表中的用户或管理员有查看和修改所有Spark j
|                                         |        | ob的权限。如果你运行在一个共享集群，有一组管理员或开发者帮助debug，这个选
|                                         |        | 项有用
|---------------------------------------------------------------------------------------------------------

加密
|----------------------------------------------------------------------------------------------
| 属性名称                     | 默认值 | 含义
|----------------------------------------------------------------------------------------------
| spark.ssl.enabled            | false | 是否开启ssl
|----------------------------------------------------------------------------------------------
| spark.ssl.enabledAlgorithms | Empty | JVM支持的加密算法列表，逗号分隔
|----------------------------------------------------------------------------------------------
| spark.ssl.keyPassword        | None   |
|----------------------------------------------------------------------------------------------
| spark.ssl.keyStore           | None   |
|----------------------------------------------------------------------------------------------
| spark.ssl.keyStorePassword   | None   |
|----------------------------------------------------------------------------------------------
| spark.ssl.protocol           | None   |
|----------------------------------------------------------------------------------------------
| spark.ssl.trustStore         | None   |
|----------------------------------------------------------------------------------------------
| spark.ssl.trustStorePassword | None   |
|----------------------------------------------------------------------------------------------

Spark Streaming
|------------------------------------------------------------------------------------------------------------------
| 属性名称                                       | 默认值   | 含义
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.blockInterval                  | 200      | 在这个时间间隔（ms）内，通过Spark Streaming receivers
|                                                |          | 接收的数据在保存到Spark之前，chunk为数据块。推荐的最小值为50ms
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.receiver.maxRate               | infinite | 每秒钟每个receiver将接收的数据的最大记录数。有效的情况下，每个流将消耗至
|                                                |          | 少这个数目的记录。设置这个配置为0或者-1将会不作限制
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.receiver.writeAheadLogs.enable | false    | Enable write ahead logs for receivers. A
|                                                |          | ll the input data received through recei
|                                                |          | vers will be saved to write ahead logs t
|                                                |          | hat will allow it to be recovered after
|                                                |          | driver failures
|------------------------------------------------------------------------------------------------------------------
| spark.streaming.unpersist                      | true     | 强制通过Spark Streaming生成并持久化的RDD自动从Spark内存中
|                                                |          | 非持久化。通过Spark Streaming接收的原始输入数据也将清除。设置这个
|                                                |          | 属性为false允许流应用程序访问原始数据和持久化RDD，因为它们没有被自动清除
|                                                |          | 。但是它会造成更高的内存花费
|------------------------------------------------------------------------------------------------------------------

集群管理
Spark On YARN
|-------------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                                          | 默认值                               | 含义
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.memory                              | 512m                                 | client 模式时，am的内存大小；cluster模式时，使用spark.dr
|                                                   |                                      | iver.memory变量
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.driver.cores                                | 1                                    | claster模式时，driver使用的cpu核数，这时候driver运行在am
|                                                   |                                      | 中，其实也就是am和核数；client模式时，使用spark.yarn.am.c
|                                                   |                                      | ores变量
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.cores                               | 1                                    | client 模式时，am的cpu核数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.waitTime                            | 100000                               | 启动时等待时间
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.submit.file.replication                | 3                                    | 应用程序上传到HDFS的文件的副本数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.preserve.staging.files                 | False                                | 若为true，在job结束后，将stage相关的文件保留而不是删除
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.scheduler.heartbeat.interval-ms        | 5000                                 | Spark AppMaster发送心跳信息给YARN RM的时间间隔
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.max.executor.failures                  | 2倍于executor数，最小值3              | 导致应用程序宣告失败的最大executor失败次数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.applicationMaster.waitTries            | 10                                   | RM等待Spark AppMaster启动重试次数，也就是SparkContex
|                                                   |                                      | t初始化次数。超过这个数值，启动失败
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.historyServer.address                  | Spark                                | history server的地址（不要加 http://）。这个地址会在Spa
|                                                   |                                      | rk应用程序完成后提交给YARN RM，然后RM将信息从RM UI写到histo
|                                                   |                                      | ry server UI上。
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.dist.archives                          | (none)                               |
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.dist.files                             | (none)                               |
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.executor.instances                          | 2                                    | executor实例个数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.executor.memoryOverhead                | executorMemory                       | * 0.07, with minimum of 384    executor的堆内
|                                                   |                                      | 存大小设置
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.driver.memoryOverhead                  | driverMemory                         | * 0.07, with minimum of 384    driver的堆内存大
|                                                   |                                      | 小设置
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.memoryOverhead                      | AM                                   | memory * 0.07, with minimum of 384     am的堆
|                                                   |                                      | 内存大小设置，在client模式时设置
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.queue                                  | default                              | 使用yarn的队列
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.jar                                    | (none)                               |
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.access.namenodes                       | (none)                               |
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.appMasterEnv.[EnvironmentVariableName] | (none)                               | 设置am的环境变量
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.containerLauncherMaxThreads            | 25                                   | am启动executor的最大线程数
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.am.extraJavaOptions                    | (none)                               |
|-------------------------------------------------------------------------------------------------------------------------------------------------
| spark.yarn.maxAppAttempts                         | yarn.resourcemanager.am.max-attempts | in YARN    am重试次数
|-------------------------------------------------------------------------------------------------------------------------------------------------

Spark History Server的属性
|----------------------------------------------------------------------------------------------------------------------------------------------
| 属性名称                           | 默认                                             | 含义
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.provider             | org.apache.spark.deploy.history.FsHistoryProvide | 应用历史后端实现的类名。目前只有一个实现, 由Spark提供, 它查看存储在文
|                                    |                                                  | 件系统里面的应用日志
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.fs.logDirectory      | file:/tmp/spark-events                           |
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.updateInterval       | 10                                               | 以秒为单位，多长时间Spark history server显示的信息进行更新。
|                                    |                                                  | 每次更新都会检查持久层事件日志的任何变化。
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.retainedApplications | 50                                               | 在Spark history server上显示的最大应用程序数量，如果超过这个
|                                    |                                                  | 值，旧的应用程序信息将被删除。
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.ui.port              | 18080                                            | 官方版本中，Spark history server的默认访问端口
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.kerberos.enabled     | false                                            | 是否使用kerberos方式登录访问history server，对于持久层位于
|                                    |                                                  | 安全集群的HDFS上是有用的。如果设置为true，就要配置下面的两个属性。
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.kerberos.principal   | 空                                               | 用于Spark history server的kerberos主体名称
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.kerberos.keytab      | 空                                               | 用于Spark history server的kerberos keytab文件
|                                    |                                                  | 位置
|----------------------------------------------------------------------------------------------------------------------------------------------
| spark.history.ui.acls.enable       | false                                            | 授权用户查看应用程序信息的时候是否检查acl。如果启用，只有应用程序所有者和sp
|                                    |                                                  | ark.ui.view.acls指定的用户可以查看应用程序信息;如果禁用，不做任
|                                    |                                                  | 何检查。
|----------------------------------------------------------------------------------------------------------------------------------------------

转载于:https://www.cnblogs.com/OS-BigData/p/8526966.html

你可能感兴趣的:(spark配置详解)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Etcd 配置详解 SkTj
配置标记成员标记—name—data-dir—wal-dir—snapshot-count—heartbeat-interval—election-timeout—listen-peer-urls—listen-client-urls—max-snapshots—max-wals—cors集群标记—initial-advertise-peer-urls—initial-cluster—initia
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
Spring Boot 自动配置 Flying_Fish_Xuan spring boot 后端 java
SpringBoot自动配置详解SpringBoot是一种基于Spring框架的快速开发工具，提供了诸多便捷的功能，其中自动配置是其核心特性之一。自动配置大幅简化了Spring应用的开发过程，开发者无需手动编写繁琐的配置文件，SpringBoot会根据项目的依赖、运行环境以及类路径中的组件自动进行适当的配置。1.SpringBoot自动配置概述在传统的Spring应用中，开发者通常需要手动编写大量
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理