wyc_595998412

spark-参数配置总结

Spark属性控制大多数应用程序设置，并为每个应用程序单独配置。这些属性可以直接在传递给你的SparkConf上设置 SparkContext。SparkConf允许您通过该set()方法配置一些常见属性（例如主URL和应用程序名称）以及任意键值对。例如，我们可以使用两个线程初始化应用程序，如下所示：

请注意，我们使用local [2]运行，这意味着两个线程 - 代表“最小”并行性，这可以帮助检测仅在我们在分布式上下文中运行时存在的错误。

val conf = new SparkConf()
             .setMaster("local[2]")
             .setAppName("CountingSheep")
val sc = new SparkContext(conf)

请注意，我们可以在本地模式下拥有多个线程，在像Spark Streaming这样的情况下，我们实际上可能需要多个线程来防止出现任何类型的饥饿问题。

指定某个持续时间的属性应使用时间单位进行配置。接受以下格式：

25ms (milliseconds)
5s (seconds)
10m or 10min (minutes)
3h (hours)
5d (days)
1y (years)

指定字节大小的属性应使用单位大小进行配置。接受以下格式：

1b (bytes)
1k or 1kb (kibibytes = 1024 bytes)
1m or 1mb (mebibytes = 1024 kibibytes)
1g or 1gb (gibibytes = 1024 mebibytes)
1t or 1tb (tebibytes = 1024 gibibytes)
1p or 1pb (pebibytes = 1024 tebibytes)

虽然没有单位的数字通常被解释为字节，但有些数字被解释为KiB或MiB。请参阅各个配置属性的文档。在可能的情况下，需要指定单位。

动态加载Spark属性

在某些情况下，您可能希望避免对某些配置进行硬编码SparkConf。例如，如果您想使用不同的主服务器或不同的内存量运行相同的应用程序。Spark允许您简单地创建一个空conf：

val sc = new SparkContext(new SparkConf())

然后，您可以在运行时提供配置值：

./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog.enabled=false
  --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

Spark shell和spark-submit 工具支持两种动态加载配置的方法。第一个是命令行选项，例如--master，如上所示。spark-submit可以使用--conf 标志接受任何Spark属性，但是对于在启动Spark应用程序中起作用的属性使用特殊标志。Running ./bin/spark-submit --help将显示这些选项的完整列表。

bin/spark-submit还将读取配置选项conf/spark-defaults.conf，其中每一行由一个键和一个由空格分隔的值组成。例如：

spark.master            spark://5.6.7.8:7077
spark.executor.memory   4g
spark.eventLog.enabled  true
spark.serializer        org.apache.spark.serializer.KryoSerializer

指定为flags或属性文件中的任何值都将传递给应用程序，并与通过SparkConf指定的值合并。直接在SparkConf上设置的属性取最高优先级，然后传递给spark-submit或者传递给文件中的spark-shell选项spark-defaults.conf。自早期版本的Spark以来，已经重命名了一些配置键; 在这种情况下，旧的密钥名称仍然被接受，但优先级低于任何新密钥的实例。

Spark属性主要可以分为两种：一种与deploy相关，如“spark.driver.memory”，“spark.executor.instances”，这种属性SparkConf在运行时以编程方式设置时可能不会受到影响，或者行为取决于您选择的集群管理器和部署模式，因此建议通过配置文件或spark-submit命令行选项进行设置; 另一个主要与Spark运行时控件有关，比如“spark.task.maxFailures”，这种属性可以以任何一种方式设置。

查看Spark属性

应用程序Web UI在http://:4040“环境”选项卡中列出Spark属性。这是一个检查以确保您的属性设置正确的有用位置。请注意，只有价值明确规定通过spark-defaults.conf，SparkConf或在命令行中会出现。对于所有其他配置属性，您可以假设使用默认值。

可用属性

控制内部设置的大多数属性都具有合理的默认值。一些最常见的选项是：

应用属性

属性名称	默认	含义
`spark.app.name`	（没有）	您的申请名称。这将显示在UI和日志数据中。
`spark.driver.cores`	1	仅在群集模式下用于驱动程序进程的核心数。
`spark.driver.maxResultSize`	1克	每个Spark操作（例如，收集）的所有分区的序列化结果的总大小限制（以字节为单位）。应至少为1M，或0为无限制。如果总大小超过此限制，则将中止作业。具有高限制可能会导致驱动程序中出现内存不足错误（取决于spark.driver.memory和JVM中对象的内存开销）。设置适当的限制可以保护驱动程序免受内存不足错误的影响。
`spark.driver.memory`	1克	的存储器的量以用于驱动器的过程，即其中SparkContext被初始化时，在MIB除非另有规定（例如`1g`，`2g`）。注意：在客户端模式下，不能`SparkConf` 直接在应用程序中设置此配置，因为驱动程序JVM已在此时启动。相反，请通过`--driver-memory`命令行选项或默认属性文件设置此项。
`spark.driver.memoryOverhead`	driverMemory * 0.10，最小值为384	除非另有说明，否则在群集模式下为每个驱动程序分配的堆外内存量（MiB）。这是一个内存，可以解决诸如VM开销，实习字符串，其他本地开销等问题。这会随着容器大小（通常为6-10％）而增长。YARN和Kubernetes目前支持此选项。
`spark.executor.memory`	1克	除非另有说明，否则每个执行程序进程使用的内存量（MiB）。（例如`2g`，`8g`）。
`spark.executor.memoryOverhead`	executorMemory * 0.10，最小值为384	除非另有说明，否则每个执行程序要分配的堆外内存量（MiB）。这是内存，可以解决诸如VM开销，实习字符串，其他本机开销等问题。这会随着执行程序大小（通常为6-10％）而增长。YARN和Kubernetes目前支持此选项。
`spark.extraListeners`	（没有）	以逗号分隔的实现类列表`SparkListener`; 在初始化SparkContext时，将创建这些类的实例并使用Spark的侦听器总线进行注册。如果一个类有一个接受SparkConf的单参数构造函数，那么将调用该构造函数; 否则，将调用零参数构造函数。如果找不到有效的构造函数，SparkContext创建将失败并出现异常。
`spark.local.dir`	/ tmp目录	用于Spark中“临时”空间的目录，包括存储在磁盘上的映射输出文件和RDD。这应该位于系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意：在Spark 1.0及更高版本中，这将由集群管理器设置的SPARK_LOCAL_DIRS（Standalone，Mesos）或LOCAL_DIRS（YARN）环境变量覆盖。
`spark.logConf`	假	启动SparkContext时，将有效的SparkConf记录为INFO。
`spark.master`	（没有）	要连接的集群管理器。请参阅允许的主URL列表。
`spark.submit.deployMode`	（没有）	Spark驱动程序的部署模式，“客户端”或“集群”，这意味着在集群内的其中一个节点上本地（“客户端”）或远程（“集群”）启动驱动程序。
`spark.log.callerContext`	（没有）	在Yarn / HDFS上运行时将写入Yarn RM log / HDFS审核日志的应用程序信息。它的长度取决于Hadoop配置`hadoop.caller.context.max.size`。它应该简洁，通常最多可包含50个字符。
`spark.driver.supervise`	假	如果为true，则在失败且退出状态为非零时自动重新启动驱动程序。仅在Spark独立模式或Mesos集群部署模式下有效。

除此之外，还提供以下属性，在某些情况下可能有用：

运行环境

属性名称	默认	含义
`spark.driver.extraClassPath`	（没有）	额外的类路径条目，前置于驱动程序的类路径。注意：在客户端模式下，不能`SparkConf` 直接在应用程序中设置此配置，因为驱动程序JVM已在此时启动。相反，请通过`--driver-class-path`命令行选项或默认属性文件设置此项。
`spark.driver.extraJavaOptions`	（没有）	要传递给驱动程序的一串额外JVM选项。例如，GC设置或其他日志记录。请注意，使用此选项设置最大堆大小（-Xmx）设置是非法的。可以`spark.driver.memory`在群集模式下和`--driver-memory`客户端模式下的命令行选项中设置最大堆大小设置。注意：在客户端模式下，不能`SparkConf` 直接在应用程序中设置此配置，因为驱动程序JVM已在此时启动。相反，请通过`--driver-java-options`命令行选项或默认属性文件设置此项。
`spark.driver.extraLibraryPath`	（没有）	设置启动驱动程序JVM时要使用的特殊库路径。注意：在客户端模式下，不能`SparkConf` 直接在应用程序中设置此配置，因为驱动程序JVM已在此时启动。相反，请通过`--driver-library-path`命令行选项或默认属性文件设置此项。
`spark.driver.userClassPathFirst`	假	（实验）在驱动程序中加载类时，是否优先使用用户添加的jar优先于Spark自己的jar。此功能可用于缓解Spark的依赖项和用户依赖项之间的冲突。它目前是一个实验性功能。这仅在群集模式下使用。
`spark.executor.extraClassPath`	（没有）	额外的类路径条目，前置于执行程序的类路径。这主要是为了向后兼容旧版本的Spark。用户通常不需要设置此选项。
`spark.executor.extraJavaOptions`	（没有）	要传递给执行程序的一串额外JVM选项。例如，GC设置或其他日志记录。请注意，使用此选项设置Spark属性或最大堆大小（-Xmx）设置是非法的。应使用SparkConf对象或spark-submit脚本使用的spark-defaults.conf文件设置Spark属性。可以使用spark.executor.memory设置最大堆大小设置。
`spark.executor.extraLibraryPath`	（没有）	设置启动执行程序JVM时要使用的特殊库路径。
`spark.executor.logs.rolling.maxRetainedFiles`	（没有）	设置将由系统保留的最新滚动日志文件的数量。旧的日志文件将被删除。默认情况下禁用。
`spark.executor.logs.rolling.enableCompression`	假	启用执行程序日志压缩。如果已启用，则将压缩已滚动的执行程序日志。默认情况下禁用。
`spark.executor.logs.rolling.maxSize`	（没有）	设置文件的最大大小（以字节为单位），执行程序日志将通过该字节翻转。默认情况下禁用滚动。请参阅`spark.executor.logs.rolling.maxRetainedFiles` 自动清洁旧日志。
`spark.executor.logs.rolling.strategy`	（没有）	设置执行程序日志的滚动策略。默认情况下，它被禁用。它可以设置为“时间”（基于时间的滚动）或“大小”（基于大小的滚动）。对于“时间”，用于`spark.executor.logs.rolling.time.interval`设置滚动间隔。对于“大小”，用于`spark.executor.logs.rolling.maxSize`设置滚动的最大文件大小。
`spark.executor.logs.rolling.time.interval`	日常	设置执行程序日志将被滚动的时间间隔。默认情况下禁用滚动。有效值是`daily`，`hourly`，`minutely`或在几秒钟内的任何时间间隔。请参阅`spark.executor.logs.rolling.maxRetainedFiles` 自动清洁旧日志。
`spark.executor.userClassPathFirst`	假	（实验）功能相同`spark.driver.userClassPathFirst`，但应用于执行程序实例。
`spark.executorEnv.[EnvironmentVariableName]`	（没有）	将指定的环境变量添加`EnvironmentVariableName`到Executor进程。用户可以指定其中的多个来设置多个环境变量。
`spark.redaction.regex`	秘密（我？）\|密码	正则表达式决定驱动程序和执行程序环境中的哪些Spark配置属性和环境变量包含敏感信息。当此正则表达式与属性键或值匹配时，将从环境UI和各种日志（如YARN和事件日志）中编辑该值。
`spark.python.profile`	假	在Python worker中启用性能分析，配置文件结果将显示`sc.show_profiles()`，或者在驱动程序退出之前显示。它也可以通过转储到磁盘中 `sc.dump_profiles(path)`。如果手动显示某些配置文件结果，则在驱动程序退出之前不会自动显示它们。默认情况下`pyspark.profiler.BasicProfiler`将使用它，但可以通过将探查器类作为参数传递给`SparkContext`构造函数来覆盖它。
`spark.python.profile.dump`	（没有）	在驱动程序退出之前用于转储配置文件结果的目录。结果将作为每个RDD的单独文件转储。它们可以通过ptats.Stats（）加载。如果指定了此选项，则不会自动显示配置文件结果。
`spark.python.worker.memory`	512米	的存储器的量，以聚合期间每蟒工作进程使用，以相同的格式作为具有大小单位后缀（“K”，“M”，“G”或“t”）（例如JVM存储器串`512m`，`2g`）。如果聚合期间使用的内存超过此数量，则会将数据溢出到磁盘中。
`spark.python.worker.reuse`	真正	是否重用Python工作者。如果是，它将使用固定数量的Python工作者，不需要为每个任务fork（）一个Python进程。如果有大型广播，那将非常有用，那么就不需要广播从JVM转移到Python工作人员来完成每项任务。
`spark.files`		以逗号分隔的文件列表，放在每个执行程序的工作目录中。允许使用全球。
`spark.submit.pyFiles`		以逗号分隔的.zip，.egg或.py文件列表，放在Python应用程序的PYTHONPATH上。允许使用全球。
`spark.jars`		以逗号分隔的jar列表，包含在驱动程序和执行程序类路径中。允许使用全球。
`spark.jars.packages`		以逗号分隔的jar的Maven坐标列表，包含在驱动程序和执行程序类路径中。坐标应为groupId：artifactId：version。如果`spark.jars.ivySettings` 给定工件将根据文件中的配置进行解析，否则将在本地maven repo中搜索工件，然后在maven central中搜索，最后由命令行选项给出任何其他远程存储库`--repositories`。有关更多详细信息，请参阅高级依赖关系管理。
`spark.jars.excludes`		逗号分隔的groupId：artifactId列表，在解析提供的依赖项时排除，`spark.jars.packages`以避免依赖性冲突。
`spark.jars.ivy`		指定Ivy用户目录的路径，用于本地Ivy缓存和包文件 `spark.jars.packages`。这将覆盖`ivy.default.ivy.user.dir` 默认为〜/ .ivy2 的Ivy属性。
`spark.jars.ivySettings`		常春藤设置文件的路径，用于自定义使用`spark.jars.packages` 而不是内置默认值（例如maven central）指定的jar的分辨率。命令行选项提供的其他存储库`--repositories`或`spark.jars.repositories`也将包含在内。用于允许Spark从防火墙后面解析工件，例如通过像Artifactory这样的内部工件服务器。有关设置文件格式的详细信息，请访问http://ant.apache.org/ivy/history/latest-milestone/settings.html
`spark.jars.repositories`		用逗号分隔的其他远程存储库列表，用于搜索用`--packages`或给出的maven坐标`spark.jars.packages`。
`spark.pyspark.driver.python`		Python二进制可执行文件，用于驱动程序中的PySpark。（默认是`spark.pyspark.python`）
`spark.pyspark.python`		Python二进制可执行文件，用于驱动程序和执行程序中的PySpark。

随机行为

属性名称	默认	含义
`spark.reducer.maxSizeInFlight`	48米	除非另有说明，否则在MiB中同时从每个reduce任务获取的映射输出的最大大小。由于每个输出都需要我们创建一个缓冲区来接收它，这表示每个reduce任务的固定内存开销，所以除非你有大量的内存，否则保持它很小。
`spark.reducer.maxReqsInFlight`	Int.MaxValue	此配置限制在任何给定点获取块的远程请求数。当群集中的主机数量增加时，可能会导致与一个或多个节点的入站连接数量非常大，从而导致工作负载失败。通过允许它限制获取请求的数量，可以减轻此方案。
`spark.reducer.maxBlocksInFlightPerAddress`	Int.MaxValue	此配置限制从给定主机端口每个reduce任务获取的远程块的数量。当在单次提取中同时从给定地址请求大量块时，这可能会使服务执行程序或节点管理器崩溃。这对于在启用外部随机播放时减少节点管理器上的负载特别有用。您可以通过将其设置为较低的值来缓解此问题。
`spark.maxRemoteBlockSizeFetchToMem`	Long.MaxValue	当块的大小高于此阈值（以字节为单位）时，远程块将被提取到磁盘。这是为了避免巨大的请求占用太多内存。我们可以通过设置特定值（例如200米）来启用此配置。请注意，此配置将影响随机提取和块管理器远程块提取。对于启用了外部shuffle服务的用户，只有当外部shuffle服务比Spark 2.2更新时，才能使用此功能。
`spark.shuffle.compress`	真正	是否压缩地图输出文件。一般来说是个好主意。压缩将使用`spark.io.compression.codec`。
`spark.shuffle.file.buffer`	32K	除非另有说明，否则每个shuffle文件输出流的内存缓冲区大小（KiB）。这些缓冲区减少了在创建中间shuffle文件时进行的磁盘搜索和系统调用的次数。
`spark.shuffle.io.maxRetries`	3	（仅限Netty）如果将此设置为非零值，则会自动重试因IO相关异常而失败的提取。这种重试逻辑有助于在长时间GC暂停或瞬态网络连接问题时稳定大型混洗。
`spark.shuffle.io.numConnectionsPerPeer`	1	（仅限Netty）重用主机之间的连接，以减少大型群集的连接建立。对于具有许多硬盘和少数主机的群集，这可能导致并发性不足以使所有磁盘饱和，因此用户可能会考虑增加此值。
`spark.shuffle.io.preferDirectBufs`	真正	（仅限Netty）堆外缓冲区用于减少随机播放和缓存块传输期间的垃圾收集。对于严格限制堆外内存的环境，用户可能希望将其关闭以强制Netty的所有分配都在堆上。
`spark.shuffle.io.retryWait`	5S	（仅限Netty）在重试提取之间等待多长时间。默认情况下，重试导致的最大延迟为15秒，计算方式为`maxRetries * retryWait`。
`spark.shuffle.service.enabled`	假	启用外部随机服务。此服务保留执行程序写入的随机文件，以便可以安全地删除执行程序。如果`spark.dynamicAllocation.enabled`为“true”，则必须启用此选项。必须设置外部随机服务才能启用它。有关更多信息，请参阅动态分配配置和设置文档。
`spark.shuffle.service.port`	7337	将运行外部shuffle服务的端口。
`spark.shuffle.service.index.cache.size`	百米	缓存条目仅限于指定的内存占用（以字节为单位）
`spark.shuffle.maxChunksBeingTransferred`	Long.MAX_VALUE	允许在随机服务上同时传输的最大块数。请注意，当达到最大数量时，将关闭新的传入连接。客户端将根据shuffle重试配置重试（请参阅`spark.shuffle.io.maxRetries`和 `spark.shuffle.io.retryWait`），如果达到这些限制，任务将因提取失败而失败。
`spark.shuffle.sort.bypassMergeThreshold`	200	（高级）在基于排序的shuffle管理器中，如果没有映射端聚合，则避免合并排序数据，并且最多存在多个reduce分区。
`spark.shuffle.spill.compress`	真正	是否压缩在随机播放期间溢出的数据。压缩将使用`spark.io.compression.codec`。
`spark.shuffle.accurateBlockThreshold`	100 * 1024 * 1024	以字节为单位的阈值，高于该阈值可准确记录HighlyCompressedMapStatus中随机块的大小。这有助于通过避免在获取shuffle块时低估shuffle块大小来防止OOM。
`spark.shuffle.registration.timeout`	5000	注册到外部shuffle服务的超时（以毫秒为单位）。
`spark.shuffle.registration.maxAttempts`	3	当我们未能注册到外部shuffle服务时，我们将重试maxAttempts次。
`spark.io.encryption.enabled`	假	启用IO加密。目前除了Mesos之外的所有模式都支持。建议在使用此功能时启用RPC加密。
`spark.io.encryption.keySizeBits`	128	IO加密密钥大小（位）。支持的值为128,192和256。
`spark.io.encryption.keygen.algorithm`	HMACSHA1	生成IO加密密钥时使用的算法。Java Cryptography体系结构标准算法名称文档的KeyGenerator部分中描述了支持的算法。

Spark UI

属性名称	默认	含义
`spark.eventLog.logBlockUpdates.enabled`	假	是否为每个块更新记录事件，if是否`spark.eventLog.enabled`为真。警告：这会大大增加事件日志的大小。
`spark.eventLog.compress`	假	是否压缩已记录的事件，if是否`spark.eventLog.enabled`为真。压缩将使用`spark.io.compression.codec`。
`spark.eventLog.dir`	文件：/// TMP /火花事件	记录Spark事件的基目录，如果`spark.eventLog.enabled`为true。在此基本目录中，Spark为每个应用程序创建一个子目录，并将特定于该应用程序的事件记录在此目录中。用户可能希望将其设置为统一位置（如HDFS目录），以便历史记录服务器可以读取历史记录文件。
`spark.eventLog.enabled`	假	是否记录Spark事件，对于在应用程序完成后重建Web UI非常有用。
`spark.eventLog.overwrite`	假	是否覆盖任何现有文件。
`spark.eventLog.buffer.kb`	100K	写入输出流时使用的缓冲区大小，以KiB表示，除非另有说明。
`spark.ui.enabled`	真正	是否为Spark应用程序运行Web UI。
`spark.ui.killEnabled`	真正	允许从Web UI中删除作业和阶段。
`spark.ui.port`	4040	应用程序仪表板的端口，显示内存和工作负载数据。
`spark.ui.retainedJobs`	1000	在垃圾收集之前，Spark UI和状态API记住了多少个作业。这是目标最大值，在某些情况下可以保留更少的元素。
`spark.ui.retainedStages`	1000	在垃圾收集之前，Spark UI和状态API记住了多少个阶段。这是目标最大值，在某些情况下可以保留更少的元素。
`spark.ui.retainedTasks`	100000	垃圾收集之前Spark UI和状态API记住了多少个任务。这是目标最大值，在某些情况下可以保留更少的元素。
`spark.ui.reverseProxy`	假	启用Spark Master作为工作程序和应用程序UI的反向代理。在此模式下，Spark master将反向代理工作者和应用程序UI以启用访问，而无需直接访问其主机。请谨慎使用，因为工作人员和应用程序UI无法直接访问，您只能通过spark master / proxy公共URL访问它们。此设置会影响群集中运行的所有工作程序和应用程序UI，并且必须在所有工作程序，驱动程序和主服务器上进行设置。
`spark.ui.reverseProxyUrl`		这是运行代理的URL。此URL用于在Spark Master前运行的代理。这在运行代理进行身份验证（例如OAuth代理）时很有用。确保这是一个完整的URL，包括方案（http / https）和端口以访问您的代理。
`spark.ui.showConsoleProgress`	真正	在控制台中显示进度条。进度条显示运行时间超过500毫秒的阶段的进度。如果多个阶段同时运行，则会在同一行上显示多个进度条。
`spark.worker.ui.retainedExecutors`	1000	在垃圾收集之前，Spark UI和状态API记住了多少个已完成的执行程序。
`spark.worker.ui.retainedDrivers`	1000	在垃圾收集之前，Spark UI和状态API记住了多少个已完成的驱动程序。
`spark.sql.ui.retainedExecutions`	1000	在垃圾收集之前，Spark UI和状态API记住完成的执行次数。
`spark.streaming.ui.retainedBatches`	1000	在垃圾收集之前，Spark UI和状态API记住了多少批次。
`spark.ui.retainedDeadExecutors`	100	在垃圾收集之前，Spark UI和状态API记住了多少个死执行程序。

压缩和序列化

属性名称	默认	含义
`spark.broadcast.compress`	真正	是否在发送之前压缩广播变量。一般来说是个好主意。压缩将使用`spark.io.compression.codec`。
`spark.io.compression.codec`	LZ4	用于压缩内部数据的编解码器，例如RDD分区，事件日志，广播变量和随机输出。默认情况下，星火提供了四个编解码器：`lz4`，`lzf`， `snappy`，和`zstd`。您还可以使用完全限定类名来指定的编解码器，例如 `org.apache.spark.io.LZ4CompressionCodec`，`org.apache.spark.io.LZFCompressionCodec`，`org.apache.spark.io.SnappyCompressionCodec`，和`org.apache.spark.io.ZstdCompressionCodec`。
`spark.io.compression.lz4.blockSize`	32K	在使用LZ4压缩编解码器的情况下，LZ4压缩中使用的块大小（以字节为单位）。当使用LZ4时，降低此块大小也会降低随机内存使用量。
`spark.io.compression.snappy.blockSize`	32K	在使用Snappy压缩编解码器的情况下，在Snappy压缩中使用的块大小（以字节为单位）。使用Snappy时，降低此块大小也会降低随机内存使用量。
`spark.io.compression.zstd.level`	1	Zstd压缩编解码器的压缩级别。增加压缩级别将导致更好的压缩，代价是更多的CPU和内存。
`spark.io.compression.zstd.bufferSize`	32K	在使用Zstd压缩编解码器的情况下，在Zstd压缩中使用的缓冲区大小（以字节为单位）。降低此大小将降低使用Zstd时的随机内存使用量，但由于过多的JNI调用开销，可能会增加压缩成本。
`spark.kryo.classesToRegister`	（没有）	如果使用Kryo序列化，请提供以逗号分隔的自定义类名列表以向Kryo注册。有关详细信息，请参阅调整指南。
`spark.kryo.referenceTracking`	真正	在使用Kryo序列化数据时是否跟踪对同一对象的引用，如果对象图形具有循环并且如果它们包含同一对象的多个副本，则这对于效率是有用的。如果您知道不是这种情况，可以禁用以提高性能。
`spark.kryo.registrationRequired`	假	是否要求注册Kryo。如果设置为'true'，如果未注册的类被序列化，Kryo将抛出异常。如果设置为false（默认值），Kryo将写入未注册的类名以及每个对象。编写类名会导致显着的性能开销，因此启用此选项可以严格执行用户未从注册中省略的类。
`spark.kryo.registrator`	（没有）	如果您使用Kryo序列化，请提供以逗号分隔的类列表，这些类使用Kryo注册您的自定义类。如果您需要以自定义方式注册类，例如指定自定义字段序列化程序，则此属性非常有用。否则`spark.kryo.classesToRegister`更简单。它应该设置为扩展的类。有关详细信息，请参阅调整指南。 `KryoRegistrator`
`spark.kryo.unsafe`	假	是否使用不安全的Kryo序列化程序。使用基于不安全的IO可以大大加快速度。
`spark.kryoserializer.buffer.max`	64米	除非另有说明，否则MiB中Kryo序列化缓冲区的最大允许大小。这必须大于您尝试序列化的任何对象，且必须小于2048米。如果在Kryo中出现“超出缓冲区限制”异常，请增加此值。
`spark.kryoserializer.buffer`	64K	除非另有说明，否则Kryo序列化缓冲区的初始大小（KiB）。请注意，每个worker上每个核心将有一个缓冲区。`spark.kryoserializer.buffer.max`如果需要，此缓冲区将增长。
`spark.rdd.compress`	假	是否压缩序列化RDD分区（例如，用于`StorageLevel.MEMORY_ONLY_SER`Java和Scala或`StorageLevel.MEMORY_ONLY`Python）。可以节省大量空间，但需要额外的CPU时间。压缩将使用`spark.io.compression.codec`。
`spark.serializer`	org.apache.spark.serializer。 JavaSerializer	用于序列化将通过网络发送或需要以序列化形式缓存的对象的类。Java序列化的默认设置适用于任何Serializable Java对象但速度很慢，因此我们建议在需要速度时使用`org.apache.spark.serializer.KryoSerializer`和配置Kryo序列化。可以是任何子类。 `org.apache.spark.Serializer`
`spark.serializer.objectStreamReset`	100	使用org.apache.spark.serializer.JavaSerializer进行序列化时，序列化程序会缓存对象以防止写入冗余数据，但是会停止对这些对象进行垃圾回收。通过调用'reset'，您可以从序列化程序中清除该信息，并允许收集旧对象。要关闭此定期重置，请将其设置为-1。默认情况下，它将每100个对象重置序列化程序。

内存管理

属性名称	默认	含义
`spark.memory.fraction`	0.6	用于执行和存储的（堆空间 - 300MB）的分数。这个越低，溢出和缓存的数据驱逐就越频繁发生。此配置的目的是在稀疏，异常大的记录的情况下为内部元数据，用户数据结构和不精确的大小估计留出内存。建议将此值保留为默认值。有关更多详细信息，包括有关在增加此值时正确调整JVM垃圾回收的重要信息，请参阅此说明。
`spark.memory.storageFraction`	0.5	存储记忆的数量不受驱逐的影响，表示为预留区域大小的一小部分`spark.memory.fraction`。这个越高，执行的工作内存越少，任务可能会更频繁地溢出到磁盘。建议将此值保留为默认值。有关更多详细信息，请参阅此说明。
`spark.memory.offHeap.enabled`	假	如果为true，Spark将尝试使用堆外内存进行某些操作。如果启用了堆外内存使用，则`spark.memory.offHeap.size`必须为正数。
`spark.memory.offHeap.size`	0	可用于堆外分配的绝对内存量（以字节为单位）。此设置对堆内存使用没有影响，因此如果执行程序的总内存消耗必须符合某些硬限制，那么请确保相应地缩小JVM堆大小。这必须设置为正值`spark.memory.offHeap.enabled=true`。
`spark.memory.useLegacyMode`	假	是否启用Spark 1.5及之前使用的旧式内存管理模式。传统模式将堆空间严格划分为固定大小的区域，如果未调整应用程序，可能会导致过多的溢出。除非已启用，否则不会读取以下不推荐使用的内存分数配置：`spark.shuffle.memoryFraction` `spark.storage.memoryFraction` `spark.storage.unrollFraction`
`spark.shuffle.memoryFraction`	0.2	（不建议使用）如果`spark.memory.useLegacyMode`启用，则为只读。在随机播放期间用于聚合和cogroup的Java堆的分数。在任何给定时间，用于shuffle的所有内存映射的集合大小受此限制的限制，超过该限制，内容将开始溢出到磁盘。如果经常发生泄漏，请考虑增加此值 `spark.storage.memoryFraction`。
`spark.storage.memoryFraction`	0.6	（不建议使用）如果`spark.memory.useLegacyMode`启用，则为只读。用于Spark内存缓存的Java堆的分数。这不应该大于JVM中的“旧”对象生成，默认情况下会给出0.6的堆，但如果配置自己的旧生成大小，则可以增加它。
`spark.storage.unrollFraction`	0.2	（不建议使用）如果`spark.memory.useLegacyMode`启用，则为只读。`spark.storage.memoryFraction`用于在内存中展开块的分数。当没有足够的可用存储空间来完全展开新块时，通过删除现有块来动态分配。
`spark.storage.replication.proactive`	假	为RDD块启用主动块复制。如果存在任何可用的副本，则会因执行程序故障而丢失缓存的RDD块副本。这会尝试将块的复制级别设置为初始编号。
`spark.cleaner.periodicGC.interval`	30分钟	控制触发垃圾回收的频率。仅当弱引用被垃圾收集时，此上下文清除程序才会触发清理。在具有大型驱动程序JVM的长时间运行的应用程序中，驱动程序上的内存压力很小，这可能偶尔发生或根本不发生。根本不清理可能会导致执行程序在一段时间后耗尽磁盘空间。
`spark.cleaner.referenceTracking`	真正	启用或禁用上下文清理。
`spark.cleaner.referenceTracking.blocking`	真正	控制清理线程是否应该阻止清除任务（除了由`spark.cleaner.referenceTracking.blocking.shuffle`Spark属性控制的shuffle）。
`spark.cleaner.referenceTracking.blocking.shuffle`	假	控制清理线程是否应阻止随机清理任务。
`spark.cleaner.referenceTracking.cleanCheckpoints`	假	控制是否在引用超出范围时清除检查点文件。

执行行为

属性名称	默认	含义
`spark.broadcast.blockSize`	4米	`TorrentBroadcastFactory`除非另有说明，否则每个块的大小为KiB。太大的值会降低广播期间的并行度（使其变慢）; 但是，如果它太小，`BlockManager`可能会受到性能影响。
`spark.executor.cores`	1在YARN模式下，工作站上的所有可用内核都是独立模式和Mesos粗粒度模式。	每个执行程序使用的核心数。在独立和Mesos粗粒度模式中，有关更多详细信息，请参阅此说明。
`spark.default.parallelism`	对于分布式shuffle操作，例如，`reduceByKey`和`join`父RDD中最大数量的分区。对于`parallelize` 没有父RDD的操作，它取决于集群管理器：本地模式：本地计算机上的核心数 Mesos细粒度模式：8 其他：所有执行程序节点上的核心总数或2，以较大者为准	在RDDS分区的默认数量返回的喜欢变换`join`， `reduceByKey`以及`parallelize`当不能由用户设置。
`spark.executor.heartbeatInterval`	10S	每个执行者的心跳与驾驶员之间的间隔。Heartbeats让驱动程序知道执行程序仍处于活动状态，并使用正在进行的任务的度量标准对其进行更新。spark.executor.heartbeatInterval应该远远小于spark.network.timeout
`spark.files.fetchTimeout`	60年代	从驱动程序获取通过SparkContext.addFile（）添加的文件时使用的通信超时。
`spark.files.useFetchCache`	真正	如果设置为true（默认值），则文件获取将使用由属于同一应用程序的执行程序共享的本地缓存，这可以在同一主机上运行多个执行程序时提高任务启动性能。如果设置为false，则将禁用这些缓存优化，并且所有执行程序都将获取自己的文件副本。可以禁用此优化以使用驻留在NFS文件系统上的Spark本地目录（有关更多详细信息，请参阅 SPARK-6313）。
`spark.files.overwrite`	假	当目标文件存在且其内容与源的文件不匹配时，是否覆盖通过SparkContext.addFile（）添加的文件。
`spark.files.maxPartitionBytes`	134217728（128 MB）	读取文件时打包到单个分区的最大字节数。
`spark.files.openCostInBytes`	4194304（4 MB）	可以同时扫描通过字节数测量的打开文件的估计成本。将多个文件放入分区时使用。过度估计会更好，那么具有小文件的分区将比具有更大文件的分区更快。
`spark.hadoop.cloneConf`	假	如果设置为true，`Configuration`则为每个任务克隆新的Hadoop 对象。应启用此选项以解决`Configuration`线程安全问题（有关详细信息，请参阅 SPARK-2546）。默认情况下禁用此选项，以避免不受这些问题影响的作业出现意外性能回归。
`spark.hadoop.validateOutputSpecs`	真正	如果设置为true，则验证saveAsHadoopFile和其他变体中使用的输出规范（例如，检查输出目录是否已存在）。可以禁用此选项以消除由于预先存在的输出目录而导致的异常。我们建议用户不要禁用此功能，除非尝试实现与以前版本的Spark的兼容性。只需使用Hadoop的FileSystem API手动删除输出目录。对于通过Spark Streaming的StreamingContext生成的作业，将忽略此设置，因为在检查点恢复期间可能需要将数据重写为预先存在的输出目录。
`spark.storage.memoryMapThreshold`	2米	块中的大小（以字节为单位），当从磁盘读取块时，Spark内存会映射到该块。这可以防止Spark从内存映射非常小的块。通常，对于接近或低于操作系统页面大小的块，内存映射具有高开销。
`spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version`	1	文件输出提交者算法版本，有效算法版本号：1或2.版本2可能具有更好的性能，但是根据MAPREDUCE-4815，版本1可以在某些情况下更好地处理故障。

联网

属性名称	默认	含义
`spark.rpc.message.maxSize`	128	“控制平面”通信中允许的最大消息大小（以MB为单位）; 通常仅适用于执行程序和驱动程序之间发送的映射输出大小信息。如果您正在运行具有数千个map和reduce任务的作业并查看有关RPC消息大小的消息，请增加此值。
`spark.blockManager.port`	（随机）	所有块管理器的端口都可以监听。它们存在于驱动程序和执行程序中。
`spark.driver.blockManager.port`	（spark.blockManager.port的值）	如果不能使用与执行程序相同的配置，则块管理器要侦听的特定于驱动程序的端口。
`spark.driver.bindAddress`	（spark.driver.host的值）	主机名或IP地址绑定侦听套接字的位置。此配置会覆盖SPARK_LOCAL_IP环境变量（请参见下文）。它还允许将与本地地址不同的地址通告给执行者或外部系统。例如，在运行具有桥接网络的容器时，这很有用。为了正常工作，需要从容器的主机转发驱动程序使用的不同端口（RPC，块管理器和UI）。
`spark.driver.host`	（本地主机名）	驱动程序的主机名或IP地址。这用于与执行程序和独立主服务器通信。
`spark.driver.port`	（随机）	用于侦听的驱动程序的端口。这用于与执行程序和独立主服务器通信。
`spark.network.timeout`	120秒	所有网络交互的默认超时。该配置将替代使用`spark.core.connection.ack.wait.timeout`，`spark.storage.blockManagerSlaveTimeoutMs`，`spark.shuffle.io.connectionTimeout`，`spark.rpc.askTimeout`或者`spark.rpc.lookupTimeout`如果没有配置它们。
`spark.port.maxRetries`	16	在放弃之前绑定到端口时的最大重试次数。当端口被赋予特定值（非0）时，每次后续重试都会在重试之前将先前尝试中使用的端口增加1。这实际上允许它尝试从指定的起始端口到端口+ maxRetries的一系列端口。
`spark.rpc.numRetries`	3	在RPC任务放弃之前重试的次数。RPC任务将在此数字的大多数时间运行。
`spark.rpc.retry.wait`	3S	RPC请求操作在重试之前等待的持续时间。
`spark.rpc.askTimeout`	`spark.network.timeout`	RPC请求操作在超时之前等待的持续时间。
`spark.rpc.lookupTimeout`	120秒	RPC远程端点查找操作在超时之前等待的持续时间。

调度

属性名称	默认	含义
`spark.cores.max`	（没有设置）	当一个上运行的独立的部署簇或在“粗粒度”共享模式Mesos簇，CPU核心的最大数量，以请求从跨集群（未从每个机）中的应用。如果未设置，则默认值将`spark.deploy.defaultCores`在Spark的独立集群管理器上，或者在Mesos上为无限（所有可用核心）。
`spark.locality.wait`	3S	在放弃并在较少本地节点上启动数据本地任务之前等待多长时间才能启动数据本地任务。相同的等待将用于逐步执行多个位置级别（进程本地，节点本地，机架本地，然后是任何）。也可以通过设置`spark.locality.wait.node`等来自定义每个级别的等待时间。如果您的任务很长并且看到不良位置，则应该增加此设置，但默认情况通常很有效。
`spark.locality.wait.node`	spark.locality.wait	自定义位置等待节点位置。例如，您可以将此值设置为0以跳过节点位置并立即搜索机架位置（如果您的群集有机架信息）。
`spark.locality.wait.process`	spark.locality.wait	自定义位置等待进程位置。这会影响尝试访问特定执行程序进程中的缓存数据的任务。
`spark.locality.wait.rack`	spark.locality.wait	自定义本地等待机架位置。
`spark.scheduler.maxRegisteredResourcesWaitingTime`	30多岁	在计划开始之前等待资源注册的最长时间。
`spark.scheduler.minRegisteredResourcesRatio`	0.8为KUBERNETES模式; YARN模式为0.8; 0.0表示独立模式和Mesos粗粒度模式	注册资源（注册资源/预期资源总量）的最小比率（资源是纱线模式和Kubernetes模式下的执行者，独立模式下的CPU核心和Mesos粗粒度模式['spark.cores.max'值是总预期资源Mesos粗粒度模式]）在调度开始之前等待。指定为0.0和1.0之间的双精度。无论是否达到最小资源比率，在调度开始之前等待的最长时间由config控制`spark.scheduler.maxRegisteredResourcesWaitingTime`。
`spark.scheduler.mode`	FIFO	提交到同一SparkContext的作业之间的调度模式。可以设置为`FAIR` 使用公平共享而不是一个接一个地排队作业。对多用户服务很有用。
`spark.scheduler.revive.interval`	1秒	调度程序恢复工作程序资源的间隔长度提供了运行任务。
`spark.scheduler.listenerbus.eventqueue.capacity`	10000	Spark侦听器总线中事件队列的容量必须大于0.如果侦听器事件被删除，请考虑增加值（例如20000）。增加此值可能会导致驱动程序使用更多内存。
`spark.blacklist.enabled`	假	如果设置为“true”，则阻止Spark在由于任务失败太多而被列入黑名单的执行程序上计划任务。黑名单算法可以通过其他“spark.blacklist”配置选项进一步控制。
`spark.blacklist.timeout`	1H	（实验）在将节点或执行程序无条件地从黑名单中删除以尝试运行新任务之前，将整个应用程序列入黑名单的时间长度。
`spark.blacklist.task.maxTaskAttemptsPerExecutor`	1	（实验）对于给定任务，在执行者被列入黑名单之前，可以在一个执行程序上重试多少次。
`spark.blacklist.task.maxTaskAttemptsPerNode`	2	（实验）对于给定任务，在整个节点被列入黑名单之前，可以在一个节点上重试多少次。
`spark.blacklist.stage.maxFailedTasksPerExecutor`	2	（实验）在执行者被列入该阶段的黑名单之前，在一个阶段内，一个执行者必须完成多少个不同的任务。
`spark.blacklist.stage.maxFailedExecutorsPerNode`	2	（实验）在整个节点被标记为阶段失败之前，在给定阶段将多少个不同的执行程序标记为黑名单。
`spark.blacklist.application.maxFailedTasksPerExecutor`	2	（实验）在执行程序被列入整个应用程序的黑名单之前，在一个执行程序中，在成功的任务集中，有多少个不同的任务必须失败。在指定的超时后，列入黑名单的执行程序将自动添加回可用资源池 `spark.blacklist.timeout`。请注意，通过动态分配，执行程序可能会被标记为空闲并由集群管理器回收。
`spark.blacklist.application.maxFailedExecutorsPerNode`	2	（实验）在将节点列入整个应用程序的黑名单之前，必须将多个不同的执行程序列入黑名单。在指定的超时后，列入黑名单的节点将自动添加回可用资源池`spark.blacklist.timeout`。但请注意，通过动态分配，节点上的执行程序可能会被标记为空闲并由集群管理器回收。
`spark.blacklist.killBlacklistedExecutors`	假	（实验）如果设置为“true”，则允许Spark在被列入黑名单时自动终止并尝试重新创建执行程序。请注意，当整个节点添加到黑名单时，该节点上的所有执行程序都将被终止。
`spark.blacklist.application.fetchFailure.enabled`	假	（实验）如果设置为“true”，Spark会在发生提取失败时立即将执行程序列入黑名单。如果启用了外部随机服务，则整个节点将被列入黑名单。
`spark.speculation`	假	如果设置为“true”，则执行任务的推测执行。这意味着如果一个或多个任务在一个阶段中运行缓慢，它们将被重新启动。
`spark.speculation.interval`	100毫秒	Spark经常检查要推测的任务。
`spark.speculation.multiplier`	1.5	任务的速度比投机的中位数慢多少倍。
`spark.speculation.quantile`	0.75	在为特定阶段启用推测之前必须完成的任务的分数。
`spark.task.cpus`	1	为每个任务分配的核心数。
`spark.task.maxFailures`	4	在放弃工作之前任何特定任务的失败次数。在不同任务中传播的故障总数不会导致作业失败; 特定任务必须通过这么多尝试才能失败。应大于或等于1.允许的重试次数=此值 - 1。
`spark.task.reaper.enabled`	假	允许监视已终止/中断的任务。设置为true时，执行程序将监视任何被杀死的任务，直到该任务实际完成执行。有关`spark.task.reaper.*`如何控制此监视的确切行为的详细信息，请参阅其他配置。设置为false（默认值）时，任务查杀将使用缺少此类监视的旧代码路径。
`spark.task.reaper.pollingInterval`	10S	何时`spark.task.reaper.enabled = true`，此设置控制执行程序轮询已终止任务状态的频率。如果在轮询时仍然运行被杀死的任务，则会记录警告，并且默认情况下将记录任务的线程转储（可以通过`spark.task.reaper.threadDump`设置禁用此线程转储，如下所述）。
`spark.task.reaper.threadDump`	真正	何时`spark.task.reaper.enabled = true`，此设置控制是否在定期轮询已终止任务期间记录任务线程转储。将此属性设置为false可禁用线程转储的收集。
`spark.task.reaper.killTimeout`	-1	何时`spark.task.reaper.enabled = true`，此设置指定超时，如果已终止的任务未停止运行，执行程序JVM将自行终止。默认值-1禁用此机制并阻止执行程序自毁。此设置的目的是充当安全网，以防止无法执行的无法执行的任务使执行程序无法使用。
`spark.stage.maxConsecutiveAttempts`	4	在中止阶段之前允许的连续阶段尝试次数。

动态分配

属性名称	默认	含义
`spark.dynamicAllocation.enabled`	假	是否使用动态资源分配，该分配根据工作负载上下调整使用此应用程序注册的执行程序的数量。有关更多详细信息，请参阅此处的说明。这需要`spark.shuffle.service.enabled`设置。下面的配置也与此有关： `spark.dynamicAllocation.minExecutors`，`spark.dynamicAllocation.maxExecutors`，和`spark.dynamicAllocation.initialExecutors`
`spark.dynamicAllocation.executorIdleTimeout`	60年代	如果启用了动态分配并且执行程序空闲时间超过此持续时间，则执行程序将被删除。有关更多详细信息，请参阅此说明。
`spark.dynamicAllocation.cachedExecutorIdleTimeout`	无穷	如果启用了动态分配并且具有高速缓存数据块的执行程序已空闲超过此持续时间，则将删除执行程序。有关更多详细信息，请参阅此说明。
`spark.dynamicAllocation.initialExecutors`	`spark.dynamicAllocation.minExecutors`	启用动态分配时要运行的初始执行程序数。如果设置了`--num-executors`（或`spark.executor.instances`）并且大于此值，它将被用作执行者的初始数量。
`spark.dynamicAllocation.maxExecutors`	无穷	启用动态分配时执行程序数的上限。
`spark.dynamicAllocation.minExecutors`	0	启用动态分配时执行程序数量的下限。
`spark.dynamicAllocation.schedulerBacklogTimeout`	1秒	如果启用了动态分配并且已有挂起的任务积压超过此持续时间，则将请求新的执行程序。有关更多详细信息，请参阅此说明。
`spark.dynamicAllocation.sustainedSchedulerBacklogTimeout`	`schedulerBacklogTimeout`	与之相同`spark.dynamicAllocation.schedulerBacklogTimeout`，但仅用于后续执行程序请求。有关更多详细信息，请参阅此说明。

安全

属性名称	默认	含义
`spark.acls.enable`	假	是否应该启用Spark acls。如果启用，则会检查用户是否具有查看或修改作业的访问权限。请注意，这需要知道用户，因此如果用户遇到null，则不会进行任何检查。可以使用过滤器对UI进行身份验证和设置用户。
`spark.admin.acls`	空	以逗号分隔的用户/管理员列表，可以查看和修改对所有Spark作业的访问权限。如果您在共享群集上运行并且有一组管理员或开发人员在事情不起作用时帮助调试，则可以使用此方法。在列表中加上“*”表示任何用户都可以拥有admin权限。
`spark.admin.acls.groups`	空	逗号分隔的组列表，具有查看和修改所有Spark作业的访问权限。如果您有一组帮助维护和调试底层基础结构的管理员或开发人员，则可以使用此方法。在列表中加上“*”表示任何组中的任何用户都可以拥有admin的权限。用户组是从指定的组映射提供程序的实例获取的`spark.user.groups.mapping`。查看条目`spark.user.groups.mapping`以获取更多详细信息。
`spark.user.groups.mapping`	`org.apache.spark.security.ShellBasedGroupsMappingProvider`	用户的组列表由特征org.apache.spark.security.GroupMappingServiceProvider定义的组映射服务确定，该服务可由此属性配置。提供了一个默认的基于unix shell的实现`org.apache.spark.security.ShellBasedGroupsMappingProvider`，可以指定该实现来解析用户的组列表。注意：此实现仅支持基于Unix / Linux的环境。目前不支持Windows环境。但是，通过实现特征可以支持新的平台/协议`org.apache.spark.security.GroupMappingServiceProvider`。
`spark.authenticate`	假	Spark是否验证其内部连接。看看 `spark.authenticate.secret`是否没有在YARN上运行。
`spark.authenticate.secret`	没有	设置用于Spark的密钥以在组件之间进行身份验证。如果未在YARN上运行并且启用了身份验证，则需要设置此项。
`spark.network.crypto.enabled`	假	使用commons-crypto库为RPC和块传输服务启用加密。需要`spark.authenticate`启用。
`spark.network.crypto.keyLength`	128	要生成的加密密钥的位长度。有效值为128,192和256。
`spark.network.crypto.keyFactoryAlgorithm`	PBKDF2WithHmacSHA1	生成加密密钥时使用的密钥工厂算法。应该是正在使用的JRE中的javax.crypto.SecretKeyFactory类支持的算法之一。
`spark.network.crypto.saslFallback`	真正	如果使用Spark的内部机制验证失败，是否回退到SASL身份验证。当应用程序连接到不支持内部Spark身份验证协议的旧shuffle服务时，这非常有用。在服务器端，这可用于阻止较旧的客户端对新的shuffle服务进行身份验证。
`spark.network.crypto.config.*`	没有	commons-crypto库的配置值，例如要使用的密码实现。配置名称应该是没有“commons.crypto”前缀的commons-crypto配置的名称。
`spark.authenticate.enableSaslEncryption`	假	启用身份验证时启用加密通信。块传输服务和RPC端点支持此功能。
`spark.network.sasl.serverAlwaysEncrypt`	假	为支持SASL身份验证的服务禁用未加密的连接。
`spark.core.connection.ack.wait.timeout`	`spark.network.timeout`	在超时和放弃之前连接等待ack的时间有多长。为避免因GC等长时间停顿而导致的不必要的超时，您可以设置更大的值。
`spark.modify.acls`	空	逗号分隔的用户列表，具有对Spark作业的修改权限。默认情况下，只有启动Spark作业的用户才有权修改它（例如，将其删除）。在列表中加上“*”表示任何用户都可以有权修改它。
`spark.modify.acls.groups`	空	逗号分隔的组列表，具有对Spark作业的修改权限。如果您有一组来自同一团队的管理员或开发人员有权控制该作业，则可以使用此方法。在列表中加上“*”表示任何组中的任何用户都有权修改Spark作业。用户组是从指定的组映射提供程序的实例获取的`spark.user.groups.mapping`。查看条目`spark.user.groups.mapping` 以获取更多详细信息。
`spark.ui.filters`	没有	逗号分隔的过滤器类名列表，以应用于Spark Web UI。过滤器应该是标准的 javax servlet过滤器。也可以通过设置java系统属性来指定每个过滤器的参数： `spark..params='param1=value1,param2=value2'` 例如： `-Dspark.ui.filters=com.test.filter1` `-Dspark.com.test.filter1.params='param1=foo,param2=testing'`
`spark.ui.view.acls`	空	逗号分隔的用户列表，具有对Spark Web ui的查看权限。默认情况下，只有启动Spark作业的用户才具有视图访问权限。在列表中加上“*”表示任何用户都可以拥有对此Spark作业的查看权限。
`spark.ui.view.acls.groups`	空	逗号分隔的组列表，具有对Spark Web ui的查看访问权限，以查看Spark作业详细信息。如果您有一组可以监视提交的Spark作业的管理员或开发人员或用户，则可以使用此方法。在列表中添加“*”表示任何组中的任何用户都可以在Spark Web ui上查看Spark作业详细信息。用户组是从指定的组映射提供程序的实例获取的`spark.user.groups.mapping`。查看条目`spark.user.groups.mapping`以获取更多详细信息。

TLS / SSL

属性名称	默认	含义
`spark.ssl.enabled`	假	是否在所有支持的协议上启用SSL连接。何时`spark.ssl.enabled`配置，`spark.ssl.protocol` 是必需的。像所有的SSL设置`spark.ssl.xxx`那里`xxx`是一个特别的配置属性，表示对所有支持的协议的全局配置。为了覆盖特定协议的全局配置，必须在特定于协议的命名空间中覆盖这些属性。使用`spark.ssl.YYY.XXX`设置覆盖由表示的特定协议的全局配置`YYY`。例如值`YYY` 包括`fs`，`ui`，`standalone`，和 `historyServer`。看到SSL配置，了解有关服务的分层SSL配置的详细信息。
`spark.ssl.[namespace].port`	没有	SSL服务将侦听的端口。必须在命名空间配置中定义端口; 请参阅可用命名空间的SSL配置。未设置时，SSL端口将从同一服务的非SSL端口派生。值“0”将使服务绑定到临时端口。
`spark.ssl.enabledAlgorithms`	空	以逗号分隔的密码列表。JVM必须支持指定的密码。可以在此页面上找到的协议参考列表。注意：如果未设置，它将使用JVM的默认密码套件。
`spark.ssl.keyPassword`	没有	密钥库中私钥的密码。
`spark.ssl.keyStore`	没有	密钥库文件的路径。该路径可以是启动组件的目录的绝对路径或相对路径。
`spark.ssl.keyStorePassword`	没有	密钥库的密码。
`spark.ssl.keyStoreType`	JKS	密钥库的类型。
`spark.ssl.protocol`	没有	协议名称。JVM必须支持该协议。可以在此页面上找到的协议参考列表。
`spark.ssl.needClientAuth`	假	如果SSL需要客户端验证，则设置为true
`spark.ssl.trustStore`	没有	信任存储文件的路径。该路径可以是启动组件的目录的绝对路径或相对路径。
`spark.ssl.trustStorePassword`	没有	信任存储区的密码。
`spark.ssl.trustStoreType`	JKS	信任存储的类型。

Spark SQL

运行该SET -v命令将显示SQL配置的完整列表。

// spark is an existing SparkSession
spark.sql("SET -v").show(numRows = 200, truncate = false)

Spark Streaming

属性名称	默认	含义
`spark.streaming.backpressure.enabled`	假	启用或禁用Spark Streaming的内部背压机制（自1.5起）。这使Spark Streaming能够根据当前的批处理调度延迟和处理时间来控制接收速率，以便系统只接收系统可以处理的速度。在内部，这动态地设置接收器的最大接收速率。这个速率的上限取决于值`spark.streaming.receiver.maxRate`，`spark.streaming.kafka.maxRatePerPartition`如果设置了它们（见下文）。
`spark.streaming.backpressure.initialRate`	没有设置	这是启用背压机制时每个接收器将接收第一批数据的初始最大接收速率。
`spark.streaming.blockInterval`	200毫秒	Spark Streaming接收器接收的数据在存储到Spark之前被分块为数据块的时间间隔。建议最低 - 50毫秒。有关更多详细信息，请参阅Spark Streaming编程指南中的性能调整部分。
`spark.streaming.receiver.maxRate`	没有设置	每个接收器将接收数据的最大速率（每秒记录数）。实际上，每个流每秒最多将消耗此数量的记录。将此配置设置为0或负数将不会对速率进行限制。有关模式详细信息，请参阅Spark Streaming编程指南中的部署指南。
`spark.streaming.receiver.writeAheadLog.enable`	假	启用接收器的预写日志。通过接收器接收的所有输入数据将被保存到提前写入日志，以便在驱动程序失败后恢复。有关更多详细信息，请参阅Spark Streaming编程指南中的部署指南。
`spark.streaming.unpersist`	真正	Spark Streaming生成并持久化的强制RDD将自动从Spark的内存中取消。Spark Streaming接收的原始输入数据也会自动清除。将此设置为false将允许原始数据和持久RDD在流应用程序外部可访问，因为它们不会自动清除。但它的代价是Spark中更高的内存使用量。
`spark.streaming.stopGracefullyOnShutdown`	假	如果`true`，Spark `StreamingContext`在JVM关闭时优先关闭而不是立即关闭。
`spark.streaming.kafka.maxRatePerPartition`	没有设置	使用新Kafka直接流API时从每个Kafka分区读取数据的最大速率（每秒记录数）。有关更多详细信息，请参阅 Kafka集成指南。
`spark.streaming.kafka.maxRetries`	1	驱动程序为了在每个分区的leader上找到最新偏移量而进行的最大连续重试次数（默认值为1表示驱动程序最多会尝试2次）。仅适用于新的Kafka直接流API。
`spark.streaming.ui.retainedBatches`	1000	在垃圾收集之前，Spark Streaming UI和状态API会记住多少批次。
`spark.streaming.driver.writeAheadLog.closeFileAfterWrite`	假	是否在驱动程序上写入提前写入日志记录后关闭文件。如果要将S3（或任何不支持刷新的文件系统）用于驱动程序上的元数据WAL，请将此项设置为“true”。
`spark.streaming.receiver.writeAheadLog.closeFileAfterWrite`	假	是否在接收器上写入写入日志记录后关闭文件。如果要将S3（或任何不支持刷新的文件系统）用于接收器上的数据WAL，请将此设置为“true”。

SparkR

属性名称	默认	含义
`spark.r.numRBackendThreads`	2	RBackend用于处理来自SparkR包的RPC调用的线程数。
`spark.r.command`	RSCRIPT	可执行以在驱动程序和工作程序的集群模式下执行R脚本。
`spark.r.driver.command`	spark.r.command	在驱动程序的客户端模式下执行R脚本的可执行文件。在群集模式下忽略。
`spark.r.shell.command`	[R	在驱动程序的客户端模式下执行sparkR shell的可执行文件。在群集模式下忽略。它与环境变量相同`SPARKR_DRIVER_R`，但优先于它。用于运行R脚本的`spark.r.shell.command`sparkR shell `spark.r.driver.command`。
`spark.r.backendConnectionTimeout`	6000	R进程在几秒钟内连接到RBackend时设置的连接超时。
`spark.r.heartBeatInterval`	100	从SparkR后端发送到R进程的心跳间隔，以防止连接超时。

GraphX

属性名称	默认	含义
`spark.graphx.pregel.checkpointInterval`	-1	Pregel中图形和消息的检查点间隔。它用于避免stackOverflowError，因为在经过大量迭代后，由于长谱系链。默认情况下禁用检查点。

部署

属性名称	默认	含义
`spark.deploy.recoveryMode`	没有	恢复模式设置，用于在失败并重新启动时使用群集模式恢复提交的Spark作业。这仅适用于使用Standalone或Mesos运行时的群集模式。
`spark.deploy.zookeeper.url`	没有	当`spark.deploy.recoveryMode`设置为ZOOKEEPER时，此配置用于设置要连接的zookeeper URL。
`spark.deploy.zookeeper.dir`	没有	当`spark.deploy.recoveryMode`设置为ZOOKEEPER时，此配置用于将zookeeper目录设置为存储恢复状态。

集群管理器

Spark中的每个集群管理器都有其他配置选项。可以在每种模式的页面上找到配置：

YARN

Mesos

Kubernetes

独立模式

环境变量

某些Spark设置可以通过环境变量进行配置，这些变量是从conf/spark-env.sh安装Spark的目录（或conf/spark-env.cmdWindows）中的脚本中读取的。在Standalone和Mesos模式下，此文件可以提供机器特定信息，例如主机名。它还在运行本地Spark应用程序或提交脚本时获取。

请注意，conf/spark-env.sh安装Spark时默认情况下不存在。但是，您可以复制conf/spark-env.sh.template以创建它。确保使副本可执行。

可以在以下位置设置以下变量spark-env.sh：

环境变量	含义
`JAVA_HOME`	安装Java的位置（如果它不是默认值`PATH`）。
`PYSPARK_PYTHON`	用于驱动程序和工作程序中的PySpark的Python二进制可执行文件（默认为`python2.7`可用，否则`python`）。`spark.pyspark.python`如果设置，属性优先
`PYSPARK_DRIVER_PYTHON`	Python二进制可执行文件仅用于驱动程序中的PySpark（默认为`PYSPARK_PYTHON`）。`spark.pyspark.driver.python`如果设置，属性优先
`SPARKR_DRIVER_R`	用于SparkR shell的R二进制可执行文件（默认为`R`）。`spark.r.shell.command`如果设置，属性优先
`SPARK_LOCAL_IP`	要绑定的计算机的IP地址。
`SPARK_PUBLIC_DNS`	您的Spark程序的主机名将通告给其他计算机。

除上述内容外，还有用于设置Spark 独立群集脚本的选项，例如每台计算机上使用的核心数和最大内存。

由于spark-env.sh是shell脚本，因此可以通过编程方式设置其中一些脚本 - 例如，您可以SPARK_LOCAL_IP通过查找特定网络接口的IP来进行计算。

注意：在cluster模式下在YARN上运行Spark时，需要使用文件中的spark.yarn.appMasterEnv.[EnvironmentVariableName]属性设置环境变量conf/spark-defaults.conf。设置的环境变量spark-env.sh不会在cluster模式下的YARN Application Master进程中反映出来。有关更多信息，请参阅与YARN相关的Spark属性。

配置日志记录

Spark使用log4j进行日志记录。您可以通过log4j.properties在conf目录中添加文件来配置它。一种方法是复制现有的log4j.properties.template位置。

覆盖配置目录

要指定默认“SPARK_HOME / conf”以外的其他配置目录，可以设置SPARK_CONF_DIR。Spark将使用此目录中的配置文件（spark-defaults.conf，spark-env.sh，log4j.properties等）。

继承Hadoop集群配置

如果您计划使用Spark从HDFS读取和写入，则Spark的类路径中应包含两个Hadoop配置文件：

hdfs-site.xml，它为HDFS客户端提供默认行为。
core-site.xml，设置默认文件系统名称。

这些配置文件的位置因Hadoop版本而异，但是内部有一个共同的位置/etc/hadoop/conf。有些工具可以即时创建配置，但提供了下载它们副本的机制。

为了使这些文件可见星火，设置HADOOP_CONF_DIR在$SPARK_HOME/conf/spark-env.sh 包含配置文件的位置。

自定义Hadoop / Hive配置

如果您的Spark应用程序正在与Hadoop，Hive或两者进行交互，则Spark的类路径中可能存在Hadoop / Hive配置文件。

多个正在运行的应用程序可能需要不同的Hadoop / Hive客户端配置。您可以复制和修改hdfs-site.xml，core-site.xml，yarn-site.xml，hive-site.xmlSpark中的类路径中为每个应用程序。在YARN上运行的Spark群集中，这些配置文件在群集范围内设置，并且无法由应用程序安全地更改。

更好的选择是以形式使用spark hadoop属性spark.hadoop.*。它们可以被认为与可以设置的普通火花属性相同$SPARK_HOME/conf/spark-defaults.conf

在某些情况下，您可能希望避免对某些配置进行硬编码SparkConf。例如，Spark允许您简单地创建一个空conf并设置spark / spark hadoop属性。

val conf = new SparkConf().set("spark.hadoop.abc.def","xyz")
val sc = new SparkContext(conf)

此外，您可以在运行时修改或添加配置：

./bin/spark-submit \ 
  --name "My app" \ 
  --master local[4] \  
  --conf spark.eventLog.enabled=false \ 
  --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" \ 
  --conf spark.hadoop.abc.def=xyz \ 
  myApp.jar

你可能感兴趣的:(流式计算,内存参数,spark,参数配置)

C++ 内存泄漏排查全攻略：万字实战宝典 TravisBytes 编程问题档案 c++开发语言 linux ubuntu
写在前面本文定位为“从入门到精通”的深度教程，全文超过12,000字，结合作者多年在Qt框架、游戏引擎、服务器端及高并发协程框架中的一线经验，系统梳理C++内存泄漏的原理、检测、定位与修复方案。示例代码均可在GCC/Clang/MSVC（C++20标准）下编译通过，并特别对Windows、Linux、macOS三大平台的差异化工具与坑点进行说明。欢迎评论区互动交流～目录1.序章：为什么你迟早会遇到
大型语言模型中的提示工程系统综述：技术与应用 AI专题精讲 Paper阅读语言模型人工智能自然语言处理
摘要提示工程已成为扩展大型语言模型（LLMs）和视觉语言模型（VLMs）能力的不可或缺的技术。这种方法利用任务特定的指令（称为prompt），在不修改核心模型参数的情况下增强模型效能。与更新模型参数不同，prompt仅通过给定指令即可引出所需的模型行为，从而实现预训练模型在下游任务中的无缝集成。prompt可以是提供上下文以引导模型的自然语言指令，也可以是激活相关知识的学习向量表示。这一新兴领域已
java 同步redis到mysql_Yii2 redis同步数据到mysql 兰艳知己 java 同步redis到mysql
将redis数据写入mysql中：本次案例讲解将如何将商城中商品浏览次数通过缓存记录并写入mysql中具体的redis安装过程暂且就省略了.....一、安装redis插件|配置rediscomposerrequireyiisoft/yii2-redis找到common的config文件，在components下加入redis配置参数'redis'=>['class'=>'yii\redis\Con
使用 p6spy，拦截到持久层执行的sql及参数 Peter-OK 一些问题 p6spy sql
声明：文章内容是自己使用后整理，大部分工具代码出自大牛，但因无法确认出处，故仅在此处由衷的对无私分享源代码的作者表示感谢与致敬！本人在拦截到sql的基础上加了分析功能和异常告警功能1、导入p6spy的jar包，如果是maven项目引入pomp6spyp6spy3.9.12、修改datasource数据源的driverClassName驱动和url地址为com.p6spy.engine.spy.P6
k8s深度讲解----宏观架构与集群之脑 - API Server 和 etcd weixin_42587823 云原生 kubernetes 架构 etcd
宏观架构与集群之脑-APIServer和etcd宏观架构：数据中心的操作系统在开始之前，让我们先建立一个高层视角。你可以将Kubernetes想象成一个管理整个数据中心的分布式操作系统。在这个操作系统中：控制平面(ControlPlane)就是它的“内核”，负责管理和决策。工作节点(WorkerNodes)就是它的“CPU和内存”，是真正运行应用程序的地方。我们常用的kubectl就是与这个“内核
手机FunASR识别SIM卡通话占用内存和运行性能分析
手机FunASR识别SIM卡通话占用内存和运行性能分析--本地AI电话机器人上一篇：手机无网离线使用FunASR识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案。当时为了减少模型文件的数量和大小，只引入了【vad_res】、【asr_o
Go内存压力测试：模拟与应对高负载 Go高并发架构_王工 golang 压力测试后端
一、引言在当今微服务架构和云原生应用盛行的时代，Go语言凭借其出色的并发处理能力和较低的资源消耗，成为构建高性能后端服务的首选语言之一。然而，随着业务规模的扩大和用户量的增长，我们的服务经常会面临突如其来的流量高峰和持续的高负载挑战。就像一辆汽车需要在极端条件下测试其性能极限一样，我们的Go应用也需要在上线前经受住内存压力测试的洗礼。这不仅能帮助我们发现潜在的内存泄漏和性能瓶颈，还能确保系统在高负
【Flutter】面试记录古希腊被code拿捏的神 flutter 面试职场和发展
本文部分内容参考博文目录Flutter三棵树渲染原理渲染原理三者之间的关系参数位置参数mixin、extends和implementsmixin（混入）extends（继承）implements（实现）Flutter如何与Native通信的?如何从Flutter传递一个dart类到原生？常用的三种状态管理框架provider的渲染机制二叉树遍历递归与迭代什么是迭代？什么是递归？（怎么写一个递归函数
【SpringBoot】Spring Boot 高并发优化终极指南，涵盖线程模型、JVM 调优、数据库访问、缓存策略等 15+ 核心模块夜雨hiyeyu.com java spring boot jvm spring java 后端性能优化系统架构
SpringBoot高并发优化终极指南，涵盖线程模型、JVM调优、数据库访问、缓存策略等15+核心模块一、线程模型深度调优（核心瓶颈突破）1.Tomcat线程池原子级配置2.异步任务线程池隔离策略二、JVM层终极调参（G1GC深度优化）1.内存分配策略2.GC日志分析技巧三、缓存策略原子级优化1.三级缓存架构实现2.缓存穿透/雪崩防护四、数据库访问极致优化1.连接池死亡参数配置2.分页查询深度优化
[达梦数据库]达梦单节点安装
1环境配置1.1查看软硬件信息查看cpu信息：[root@localhost~]#lscpu[root@localhost~]#cat/proc/cpuinfo注意：特别是国产cpu，龙芯、飞腾查看内存信息：[root@localhost~]#free-m注意：数据库内存要至少1G，linuxswap分区一般是物理内存的1.5倍查看硬盘、分区信息[root@localhost~]#fdisk-l[
麒麟V10安装部署达梦数据库（单机版）熊娜丽莎的微笑数据库运维开发 linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.单机部署过程1.1部署规划1.2数据库软件安装及环境配置1.2.1操作系统配置1.2.2数据库软件安装1.3使用dminit工具初始化实例1.4注册服务并启动实例1.5登录数据库1.6归档配置1.7定制备份策略1.8数据库参数优化1.9配置sql日志1.10迁移信息统计查询总结前言麒麟V10安装部署达梦数据库单机安装的
Vue Router 的query和params的区别？嘉琪001 前端
区别一：（1）query相当于get请求，页面跳转的时候可以在地址栏看到请求参数（2）params相当于post请求，参数不会在地址栏中显示区别二：（1）query刷新不会query里面的数据（2）params刷新会丢失params里面的数据区别三：1.query：方式传参和接受参数（1）传递数据较多时，用query,因为query传入的是一个对象2.params：方式传参和接受参数（1）传一个值
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
柯里化（Currying）技术
目录函数结构解析：等效展开写法：使用示例：关键特性：实际应用场景：柯里化（Currying）技术：将一个多参数函数拆解为多个单参数函数的链式调用。以下是详细解释：funcadd(_a:Int)->(Int)->Int{{a+$0}}函数结构解析：外层函数add(_a:Int)接收一个整数参数a返回类型为(Int)->Int（一个接收整数并返回整数的函数）内层闭包{a+$0}捕获外层函数的参数a$0
JVM内存泄漏与内存溢出：原理详解与实战应对策略
一、核心概念深度解析内存问题一直是Java开发者面临的重要挑战，理解内存泄漏和内存溢出的本质区别是解决这类问题的第一步。1.1内存泄漏（MemoryLeak）定义：当应用程序不再需要某些对象时，由于仍然存在对这些对象的引用，导致垃圾收集器（GC）无法回收这些内存空间。关键特征：渐进式发展，如同慢性病通常由编码缺陷引起最终可能导致内存溢出1.2内存溢出（OutOfMemoryError）定义：是内存
【Java源码阅读系列44】深度解读Java NIO ByteBuffer 源码 ·云扬· 源码阅读系列之Java java nio 开发语言
JavaNIO（NewInput/Output）中的ByteBuffer是Buffer抽象类的具体子类，专门用于处理字节数据的高效读写。作为NIO的核心组件，ByteBuffer支持堆内存（Heap）和直接内存（Direct）两种存储方式，广泛应用于网络通信、文件IO等场景。本文将结合源码，深入解析ByteBuffer的核心机制、关键方法及设计模式的应用。一、ByteBuffer的核心特性与存储方
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
Rust BSS段原理与实践解析萧曵丶 Rust rust 开发语言后端内存模型
在Rust中，BSS段（BlockStartedbySymbol）是程序内存布局的关键部分，专门用于存储未初始化或零初始化的全局/静态变量。以下是从原理到实践的深入解析：一、BSS的核心特性零初始化BSS段中的所有变量在程序加载时自动初始化为0（或对应类型的零值：0、null、false等）。staticmutCOUNTER:usize=0;//实际存储在BSS段磁盘空间优化BSS段在可执行文件中
西门子触摸屏与S7-200 SMART CPU的以太网通信
用户通过以下步骤可创建以太网接口的西门子触摸屏与S7-200SMARTCPU的以太网通信，在此以设备Smart1000IE为例。在WinCCflexible的主工作窗口中添加与CPU的连接与上文中RS485接口的西门子触摸屏类似，在此不再赘述。下面主要介绍连接参数设置及下载项目等。设置连接参数，首先选择Smart1000IE的接口为“以太网”，即触摸屏的以太网接口。选中该接口后，该接口的参数设置窗
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
底层解剖ThreadLocal及其引发的内存泄漏问题我认为可以！ jvm java ThreadLocal ThreadLocalMap 内存泄漏
首先我们先明确一点，这里我们谈论的是比如线程池中的核心线程的情况，而不是普通的run完就销毁的线程。后面会继续说明为什么。关于ThreadLocal和ThreadLocalMap假设线程run()这样：publicvoidrun(){ThreadLocalthreadLocal=newThreadLocal()就只是new了一个这个工具类，其他的什么都没有发生。并不是每个线程都有一个它，不要混淆了
FPGA 47 ，MIG 内存接口生成器深度解析（ FPGA 中的 MIG 技术）北城笑笑 fpga开发 fpga
目录前言一、基础理论1.1MIG介绍1.2结构框架1.2.1主要模块①用户接口层（UserInterfaceLayer）②控制逻辑层（ControLogicLayer）③校准逻辑（CalibrationLogic）④初始化与时序控制（Initialization&TimingControl）⑤物理层接口（PHY–PhysicalLayer）⑥IO引脚驱动（引脚分配与IO配置：Pinout&IOSt
C语言指针进阶完全指南：从多级指针到函数指针的深度探索给老吕螺丝 #C语言 c语言开发语言
掌握指针基础后，你将开启C语言真正的力量之门。本文通过实战代码示例和内存布局图解，带你系统攻克指针进阶技术。一、指针核心回顾与进阶重点核心概念：指针本质：存储内存地址的变量间接访问：通过地址操作数据指针大小：64位系统固定8字节（与类型无关）进阶重点：多级指针：处理复杂间接关系动态内存管理：精准控制内存生命周期函数指针：实现代码抽象与回调复杂结构：构建链表等动态数据结构二、多级指针：指针的指针内存
穿透硅层：模电数电如何重塑你的编程基因还债大湿兄模电数电
“不理解电子运动的程序员，永远在数字世界的表层流浪。”——吉恩·阿姆达尔（IBM360系统架构师）一、晶体管级视角：代码的物理载体1.CPU指令执行的硬件真相关键模电参数：阈值电压Vth：决定晶体管开关的电压临界点（典型值0.7V）跨导gm：栅压控制电流的能力（单位mS）米勒电容Cgd：限制开关速度的核心因素2.存储器操作的电子原理DRAM存储单元刷新过程：//硬件级刷新伪代码voiddram_r
nRF52832 低功耗设计与优化 mftang zephyr架构蓝牙应用笔记 Nordic MCU系列笔记 Zephyr RTOS zephyr架构蓝牙应用笔记
目录概述1技术背景2优化策略2.1系统级电源管理2.2时钟系统优化2.3GPIO配置优化3蓝牙协议栈优化3.1连接参数优化3.2广播优化4电源管理实践4.1功耗状态转换图4.2典型功耗分布5低功耗设计最佳实践5.1事件驱动架构5.2定时任务管理5.3数据批处理6高级优化技术6.1电压调节优化6.2RAM保持策略6.3动态功耗分析7功耗测量与验证8常见问题解决8.1功耗高于预期8.2唤醒延迟过长8.
web后端框架MyBatis 猿力觉醒 java 后端 mybatis
目录前言1.xml配置方式开发步骤2.注解方式开发步骤前言mybatis是一个优秀的基于java的持久层框架，它内部封装了jdbc，使开发者只需要关注sql语句本身，而不需要花费精力去处理加载驱动、创建连接、创建statement等繁杂的过程。mybatis通过xml或注解的方式将要执行的各种statement配置起来，并通过java对象和statement中sql的动态参数进行映射生成最终执行的
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
Three.js 实现导出模型文件（.glb,.gltf）功能 GLTFExporter
Three.js提供了导出（.glb,.gltf）文件的APIGLTFExporter用于实现场景内容导出模型文件的功能导出模型文件主要使用parse方法，该方法接收三个参数：1.scene：要导出的场景对象。2.onComplete：解析完成后的回调函数，接收一个参数result，表示解析后的glTF数据。3.options：可选参数，用于配置导出的选项。下面是options的一些常用参数选项：
ECR仓库CloudFormation模板完整指南 ivwdcwso 运维与云原生自动化 aws 运维 ECR CloudFormation 镜像容器
概述本文档详细介绍了一个通用的AmazonECR（ElasticContainerRegistry）仓库CloudFormation模板，该模板支持多业务组、参数化配置，并包含完整的安全策略、生命周期管理和监控功能。模板特性核心功能✅支持4个业务组：app、ai、mall、frontend✅灵活的服务名手动输入✅多环境支持（dev/test/staging/prod）✅自动镜像扫描和安全检查✅生命
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，