qq742234984

Spark笔记（pyspark）

https://github.com/QInzhengk/Math-Model-and-Machine-Learning

Spark笔记

- - 1、基本概念
  - 2、架构设计
  - 3、Spark运行流程
  - 4、弹性分布数据集(RDD)
  - - 1.groupByKey和reduceByKey的区别
    - 2. 哪两个Action算子的结果不经过Driver, 直接输出?
    - 3. mapPartitions 和 foreachPartition 的区别?
  - 5、Shuffle与依赖
  - 6、持久化
  - - 1. Cache和Checkpoint区别
    - 2. Cache 和 CheckPoint的性能对比?
  - 7、Spark On Yarn两种模式总结
  - 8、Spark内核调度
  - - 1.DAG之Job和Action
    - 2.Spark是怎么做内存计算的？DAG的作用？Stage阶段划分的作用？
    - 3. Spark为什么比MapReduce快
    - 4.Saprk并行度
    - 5.Spark中数据倾斜
  - 9、DataFrame
  - - 1.DataFrame的组成
    - 2.DataFrame之DSL
    - 3.DataFrame之SQL
    - 4.pyspark.sql.functions 包
    - 5.SparkSQL Shuffle 分区数目
    - 6.SparkSQL 数据清洗API
    - 7.DataFrame数据写出
  - 10、SparkSQL
  - - 1.定义UDF函数
    - 2.使用窗口函数
  - 11、PySpark参数
  - - 1.spark启动参数
    - 2.参数设置
    - - 1.2.1 --driver-memory：
      - 1.2.2 --num-executors | --executor-cores | --executor-memory
      - 1.2.3 --conf spark.dynamicAllocation.maxExecutors
      - 1.2.4 日志级别设置
      - 1.2.5 spark.shuffle.memoryFraction
      - 1.2.6 spark.storage.memoryFraction
    - 3.spark调试
    - 4.错误及解决方法
    - - 3.4G物理内存已经使用了3.4G(说明物理内存不够)；16.9G虚拟内存已经使用了7.5G。
      - Python运行spark时出现版本不同的错误

Spark是什么：Spark是基于内存的迭代式计算引擎

1、基本概念

RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型

DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系

Executor：执行器，是运行在工作节点（WorkerNode）的一个进程，负责运行Task

应用（Application）：用户编写的Spark应用程序

任务（ Task ）：运行在Executor上的工作单元

作业（ Job ）：一个作业包含多个RDD及作用于相应RDD上的各种操作

阶段（ Stage ）：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为阶段，或者也被称为任务集合，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

driver：驱动程序，简单来说就是整个application的管理程序。提交到集群的spark任务，在获取到driver运行的节点前，spark任务并不会出现在Web UI的RUNNING页，会临时挂在ACCEPTED页面，等待driver机器的获取。
cluster manager：资源管理器，常用的有standalone和yarn。
worker：计算节点，在yarn上一般指的是nodemanager节点，主要作用就是运行application代码。

2、架构设计

Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）。资源管理器可以自带或Mesos或YARN 。
在Spark中，一个应用（Application）由一个任务控制节点（Driver）和若干个作业（Job）构成，一个作业由多个阶段（Stage）构成，一个阶段由多个任务（Task）组成。当执行一个应用时，任务控制节点会向集群管理器（Cluster Manager）申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行任务，运行结束后，执行结果会返回给任务控制节点，或者写到HDFS或者其他数据库中。

3、Spark运行流程

Spark运行的4个步骤：

当一个Spark应用被提交时，Driver创建一个SparkContext，由SparkContext负责和资源管理器（Cluster Manager）的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源；
资源管理器为Executor分配资源，并启动Executor进程，Executor发送心跳到资源管理器上；
SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAG调度（DAGScheduler）进行解析，将DAG图分解成多个“阶段”，并且计算出各个阶段之间的依赖关系，然后把一个个“任务集”提交给底层的任务调度器（TaskScheduler）进行处理；Executor向SparkContext申请任务，任务调度器将任务分发给Executor运行，同时，SparkContext将应用程序代码发放给Executor；
任务在Executor上运行，把执行结果反馈给任务调度器，然后反馈给DAG调度器，运行完毕后写入数据并释放所有资源。

4、弹性分布数据集(RDD)

RDD的两种操作（算子）：

转换算子（Transformation）
动作算子（Action）

flatMap(func) 类似于 map，但是每一个输入元素可以被映射为 0 或多个输出元素(所以 func 应该返回一个序列，而不是单一元素)

1.groupByKey和reduceByKey的区别

reduceByKey自带聚合逻辑, groupByKey不带；如果做数据聚合reduceByKey的效率更好, 因为可以先聚合后shuffle再最终聚合, 传输的IO小。

2. 哪两个Action算子的结果不经过Driver, 直接输出?

foreach 和 saveAsTextFile 直接由Executor执行后输出，不会将结果发送到Driver上去。

3. mapPartitions 和 foreachPartition 的区别?

mapPartitions 带有返回值；foreachPartition不带。

转换得到的RDD是惰性求值的。也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。

所以遇到错误时，不一定是行动的原因，可能是之前的某个地方的错误，要看错误原因是什么

5、Shuffle与依赖

shuffle描述着数据从map task输出到reduce task输入的这部分过程。shuffle是连接map和reduce的桥梁，包含了大量的磁盘IO、序列化、网络数据传输，可以认为大部分的spark任务作业的性能主要消耗在了这一阶段。shufle的主要工作简单来说就是跨节点将数据进行重新分配，类似reduceByKey、groupByKey等reduce算子都会触发shuffle，同时repartition也会触发shuffle。
Shuffle就是对数据进行重组
在Spark中，有两种依赖关系：

宽依赖：一个父RDD的一个分区对应一个子RDD的多个分区；
窄依赖：一个父RDD的分区对应于一个子RDD的分区，或多个父RDD的分区对应于一个子RDD的分区。
常见的窄依赖有：map、filter、union、mapPartitions、mapValues
常见的宽依赖有groupByKey、partitionBy、reduceByKey
窄依赖和宽依赖，主要取决于是否包含Shuffle操作。(宽依赖还有一个别名：shuffle)
窄依赖可以实现“流水线”优化。宽依赖无法实现“流水线”优化。

6、持久化

RDD的数据是过程数据，只在处理的过程中存在，一旦处理完成，就不见了：RDD之间进行相互迭代计算（Transformation的转换），当执行开启后，新的RDD生成，代表老RDD的消失。（这个特性可以最大化的利用资源，老旧RDD没用了，就从内存中清理，给后续的计算腾出空间）
在Spark中，RDD采用惰性求值的机制，每次遇到行动操作，都会从头开始执行计算。每次调用行动操作，都会触发一次从头开始的计算。这对于迭代计算而言，代价是很大的，迭代计算经常需要多次重复使用同一组数据。
可以使用persist()方法，对一个RDD标记为持久化，避免这种重复计算的开销。之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个行动操作触发真正计算以后，才会把计算结果进行持久化。持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用。

1. Cache和Checkpoint区别

Cache是轻量化保存RDD数据, 可存储在内存和硬盘, 是分散存储, 设计上数据是不安全的(保留RDD 血缘关系)
CheckPoint是重量级保存RDD数据, 是集中存储, 只能存储在硬盘(HDFS)上, 设计上是安全的(不保留 RDD血缘关系)

2. Cache 和 CheckPoint的性能对比?

Cache性能更好, 因为是分散存储, 各个Executor并行执行, 效率高, 可以保存到内存中(占内存),更快
CheckPoint比较慢, 因为是集中存储, 涉及到网络IO, 但是存储到HDFS上更加安全(多副本)

7、Spark On Yarn两种模式总结

Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。

Client模式:学习测试时使用，生产不推荐(要用也可以,性能略低,稳定性略低)
1.Driver运行在Client上,和集群的通信成本高
2.spark任务的日志输出将直接打印在命令行或者输出到重定向的日志文件中
3.如果kill掉这个启动进程将直接导致spark任务运行结束
Cluster模式:生产环境中使用该模式
1.Driver程序在YARN集群中，和集群的通信成本低
2.Driver输出结果不能在客户端显示
3.如果需要kill掉任务可以使用yarn指令或者spark web ui上进行手动kill

8、Spark内核调度

1.DAG之Job和Action

1个Action会产生1个DAG，如果在代码中有3个Action就产生3个DAG；一个Action产生的一个DAG，会在程序运行中产生一个JOB，所以：1个ACTION = 1个DAG= 1个JOB。
如果一个代码中，写了3个Action，那么这个代码运行起来产生3个JOB，每个JOB有自己的DAG；一个代码运行起来，在Saprk中称之为：Application。
层级关系：1个Application中，可以有多个JOB，每一个JOB内含一个DAG，同时每一个JOB都是由一个Action产生的。

2.Spark是怎么做内存计算的？DAG的作用？Stage阶段划分的作用？

Spark会产生DAG图
DAG图会基于分区和宽窄依赖关系划分阶段
一个阶段的内部都是窄依赖，窄依赖内，如果形成前后1：1的分区对应关系，就可以产生许多内存迭代计算的管道。
这些内存迭代计算的管道，就是一个个具体的执行Task
一个Task是一个具体的线程，任务跑在一个线程内，就是走内存计算了。

3. Spark为什么比MapReduce快

Spark的算子丰富，MapReduce算子匮乏（Map和Reduce），MapReduce这个编程模型，很难在一套MR中处理复杂的任务，很多复杂的任务，是需要写多个MapReduce进行串联，多个MR串联通过磁盘交互数据
Saprk可以执行内存迭代，算子之间形成DAG，基于依赖划分阶段后，在阶段内形成内存迭代管道，但是MApReduce的Map和Reduce之间的交互依旧是通过硬盘来交互的。

4.Saprk并行度

全局并行度配置的参数：spark.default.parallelism

5.Spark中数据倾斜

数据倾斜：在任务执行期间，RDD会被分为一系列的分区，每个分区都是整个数据集的子集。当spark调度并运行任务的时候，Spark会为每一个分区中的数据创建一个任务。大部分的任务处理的数据量差不多，但是有少部分的任务处理的数据量很大，因而Spark作业会看起来运行的十分的慢，从而产生数据倾斜（进行shuffle的时候）

数据倾斜只出现在shuffle过程中，可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等

解决办法：

过滤少量导致数据倾斜的key （如果发现导致倾斜的key就少数几个，而且对计算本身的影响并不大的话）
提高shuffle操作的并行度（增加shuffle read task的数量，可以让原本分配给一个task的多个key分配给多个task，从而让每个task处理比原来更少的数据）
两阶段聚合局部聚合+全局聚合（将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果）
join时使用广播变量Broadcast将较小数据量广播至每个Executor（相当于reduce join转为map join）

Peak Execution memory应该是任务用的峰值内存
shuffle read是任务读取的数据量，如果有的任务这个值明显特别高，说明出现数据倾斜
shuffle write是任务写出的数据量，同样可以表示数据倾斜

9、DataFrame

1.DataFrame的组成

在结构层面:

StructType对象描述整个DataFrame的表结构
StructField对象描述一个列的信息

在数据层面

Row对象记录一行数据
Column对象记录一列数据并包含列的信息

2.DataFrame之DSL

"""
1. agg: 它是GroupedData对象的API, 作用是 在里面可以写多个聚合
2. alias: 它是Column对象的API, 可以针对一个列 进行改名
3. withColumnRenamed: 它是DataFrame的API, 可以对DF中的列进行改名, 一次改一个列, 改多个列 可以链式调用
4. orderBy: DataFrame的API, 进行排序, 参数1是被排序的列, 参数2是 升序(True) 或 降序 False
5. first: DataFrame的API, 取出DF的第一行数据, 返回值结果是Row对象.
# Row对象 就是一个数组, 你可以通过row['列名'] 来取出当前行中, 某一列的具体数值. 返回值不再是DF 或者GroupedData 或者Column而是具体的值(字符串, 数字等)
"""

1.show方法
功能:展示DataFrame中的数据, 默认展示20条

df.show(参数1, 参数2)
- 参数1: 默认是20, 控制展示多少条
- 参数2: 是否阶段列, 默认只输出20个字符的长度, 过长不显示, 要显示的话请填入truncate=True

2.printSchema方法
功能:打印输出df的schema信息

df.printSchema()

3.select
功能:选择DataFrame中的指定列(通过传入参数进行指定)

4. filter和where
功能:过滤DataFrame内的数据，返回一个过滤后的DataFrame
5.groupBy 分组
功能:按照指定的列进行数据的分组，返回值是GroupedData对象

df.groupBy()

传入参数和select一样，支持多种形式。GroupedData对象是一个特殊的DataFrame数据集，GroupedData对象也有很多API，比如count、min、max、avg、sum等等

3.DataFrame之SQL

如果想使用SQL风格的语法，需要将DataFrame注册成表,采用如下的方式:

4.pyspark.sql.functions 包

里的功能函数, 返回值多数都是Column对象.
例：

5.SparkSQL Shuffle 分区数目

在SparkSQL中当Job中产生产生Shuffle时，默认的分区数（spark.sql.shuffle.partitions）为200，在实际项目中要合理的设置。可以设置在：

6.SparkSQL 数据清洗API

1.去重方法 dropDuplicates
功能：对DF的数据进行去重，如果重复数据有多条，取第一条

2.删除有缺失值的行方法 dropna
功能：如果数据中包含null，通过dropna来进行判断，符合条件就删除这一行数据

3.填充缺失值数据 fillna
功能：根据参数的规则，来进行null的替换

7.DataFrame数据写出

spark.read.format()和df.write.format() 是DataFrame读取和写出的统一化标准API
SparkSQL 统一API写出DataFrame数据

DataFrame可以从RDD转换、Pandas DF转换、读取文件、读取 JDBC等方法构建

10、SparkSQL

1.定义UDF函数

方式1语法:
udf对象 = sparksession.udf.register(参数1，参数2，参数3)

参数1:UDF名称，可用于SQL风格
参数2:被注册成UDF的方法名
参数3:声明UDF的返回值类型

udf对象: 返回值对象，是一个UDF对象，可用于DSL风格
方式2语法:
udf对象 = F.udf(参数1，参数2)

参数1:被注册成UDF的方法名
参数2:声明UDF的返回值类型

udf对象: 返回值对象，是一个UDF对象，可用于DSL风格
其中F是:from pyspark.sql import functions as F 其中，被注册成UDF的方法名是指具体的计算方法，如: def add(x, y): x + y
add就是将要被注册成UDF的方法名

2.使用窗口函数

开窗函数
开窗函数的引入是为了既显示聚集前的数据，又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。
开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合)，它对一组值进行操作,不需要使用GROUP BY子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。
聚合函数和开窗函数
聚合函数是将多行变成一行， count,avg…
开窗函数是将一行变成多行;
聚合函数如果要显示其他的列必须将列加入到group by中
开窗函数可以不使用group by,直接将所有信息显示出来
开窗函数分类
1.聚合开窗函数
聚合函数(列) OVER(选项)，这里的选项可以是PARTITION BY子句、但不可以是ORDER BY子句。
2.排序开窗函数
排序函数(列) OVER(选项)，这里的选项可以是ORDER BY子句，也可以是OVER(PARTITION BY子句ORDER BY子句)，但不可以是PARTITION BY子句。
3.分区类型NTILE的窗口函数

11、PySpark参数

1.spark启动参数

spark启动任务一般通过下边这种方式：

/usr/bin/spark-submit
        --master yarn \
        --deploy-mode cluster \
        --driver-memory ${driver_memory} \
        --num-executors ${executor_num} \
        --executor-cores ${executor_cores} \
        --executor-memory ${executor_memory} \
        --conf spark.dynamicAllocation.maxExecutors=${executor_max} \
        --conf spark.driver.maxResultSize=${driver_memory} \
        --conf spark.yarn.maxAppAttempts=1 \
        --conf spark.driver.extraJavaOptions=-Dlog4j.configuration=file:log4j.properties \
        --conf spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j.properties \
        --conf spark.ui.showConsoleProgress=true \
        --conf spark.executor.memoryOverhead=1g \
        --conf spark.yarn.nodemanager.localizer.cache.target-size-mb=4g \
        --conf spark.yarn.nodemanager.localizer.cache.cleanup.interval-ms=300000 \
        --files s3://learning/spark/log4j.properties \
        --py-files ../config/*.py,../util/*.py \
        --name "${WARN_SUB} => ${script} ${params}" \
        ${script} ${params}

2.参数设置

在spark中指定Python版本运行：conf spark.pyspark.python=/usr/bin/python2.7

1.2.1 --driver-memory：

一般设置1g-2g即可，如果程序中需要collect相对比较大的数据，这个参数可以适当增大

1.2.2 --num-executors | --executor-cores | --executor-memory

这三个参数是控制spark任务实际使用资源情况。其中

num-exectors*executor-memory

就是程序运行时需要的内存量（根据实际处理的数据量以及程序的复杂程度，需要针对不同的任务设置不同的参数）
一般情况下executor-cores可以设置1或者2就行了。设置的特别高，容易造成物理内存或者虚拟内存超限，最终导致任务失败。
需要注意的是，executor-memory设置最好控制在在4g以内（甚至2g），最好不要设置的特别大。（根据实际集群资源来配置）如果设置的特别大，可能会卡住整个集群，导致后续任务都无法启动。
num-executors是执行器数量，执行器越多，并行度越高，相对执行速度也会快。但是如果申请数量太多，也会造成资源的大量浪费。
一般数据量较小的任务，可以配置num-executors == 200，同时executor-memory==4g；这样申请资源大概在1TB左右。大型的任务可以根据实际情况调整num-executors即可。

num-executors
参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你启动少量的Executor进程，此时你的Spark作业的运行速度是非常慢的。
参数调优建议：每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适，设置太少或太多的Executor进程都不好。设置的太少，无法充分利用集群资源；设置的太多的话，大部分队列可能无法给予充分的资源。
executor-memory
参数说明：该参数用于设置每个Executor进程的内存。Executor内存的大小，很多时候直接决定了Spark作业的性能，而且跟常见的JVM OOM异常，也有直接的关联。
参数调优建议：每个Executor进程的内存设置4G ~ 8G较为合适。但是这只是一个参考值，具体的设置还是得根据不同部门的资源队列来定。可以看看团队的资源队列的最大内存限制是多少，num-executors乘以executor-memory，就代表了你的Spark作业申请到的总内存量（也就是所有Executor进程的内存总和），这个量是不能超过队列的最大内存量的。此外，如果你是跟团队里其他人共享这个资源队列，那么申请的总内存量最好不要超过资源队列最大总内存的1/3 ~ 1/2，避免你自己的Spark作业占用了队列所有的资源，导致别人的作业无法运行。
executor-cores
参数说明：该参数用于设置每个Executor进程的CPU core数量。这个参数决定了每个Executor进程并行执行task线程的能力。因为每个CPU core同一时间只能执行一个task线程，因此每个Executor进程的CPU core数量越多，越能够快速地执行完分配给自己的所有task线程。
参数调优建议：Executor的CPU core数量设置为2~4个较为合适。同样得根据不同部门的资源队列来定，可以看看自己的资源队列的最大CPU core限制是多少，再依据设置的Executor数量，来决定每个Executor进程可以分配到几个CPU core。同样建议，如果是跟他人共享这个队列，那么num-executors * executor-cores不要超过队列总CPU core的1/3~1/2左右比较合适，也是避免影响其他人的作业运行。

1.2.3 --conf spark.dynamicAllocation.maxExecutors

集群任务是由yarn来管理的，启动任务之后，yarn会倾向于给每个任务分配尽可能多的executor数量，num-executors的设置并不是最大的executors数量，最大executors数量通过这个参数来控制。也就是说，一个任务最大的资源占用量 = spark.dynamicAllocation.maxExecutors * executor-memory。

1.2.4 日志级别设置

--conf spark.driver.extraJavaOptions=-Dlog4j.configuration=file:log4j.properties
--conf spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j.properties
--files s3://learning/spark/log4j.properties

这三个配置是控制spark运行的日志输出级别的

1.2.5 spark.shuffle.memoryFraction

参数说明：该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能够使用的Executor内存的比例，默认是0.2。也就是说，Executor默认只有20%的内存用来进行该操作。shuffle操作在进行聚合时，如果发现使用的内存超出了这个20%的限制，那么多余的数据就会溢写到磁盘文件中去，此时就会极大地降低性能。
参数调优建议：如果Spark作业中的RDD持久化操作较少，shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。此外，如果发现作业由于频繁的gc导致运行缓慢，意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

1.2.6 spark.storage.memoryFraction

参数说明：该参数用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6。也就是说，默认Executor 60%的内存，可以用来保存持久化的RDD数据。根据你选择的不同的持久化策略，如果内存不够时，可能数据就不会持久化，或者数据会写入磁盘。
参数调优建议：如果Spark作业中，有较多的RDD持久化操作，该参数的值可以适当提高一些，保证持久化的数据能够容纳在内存中。避免内存不够缓存所有的数据，导致数据只能写入磁盘中，降低了性能。但是如果Spark作业中的shuffle类操作比较多，而持久化操作比较少，那么这个参数的值适当降低一些比较合适。此外，如果发现作业由于频繁的gc导致运行缓慢（通过spark web ui可以观察到作业的gc耗时），意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

3.spark调试

GC time太长，代表用于任务的内存太低，导致频繁GC，可以调小storage、shuffle的内存，增加任务内存
Peak Execution memory应该是任务用的峰值内存
shuffle read是任务读取的数据量，如果有的任务这个值明显特别高，说明出现数据倾斜
shuffle write是任务写出的数据量，同样可以表示数据倾斜
如果shuffle出现spill disk，说明shuffle内存不够，开始往硬盘写了。可以调大shuffle的内存，或者增大shuffle的partition数量。往硬盘写的数据如果不大，问题也不大。如果往硬盘溢写超过60G左右，节点可能就要崩了。

4.错误及解决方法

3.4G物理内存已经使用了3.4G(说明物理内存不够)；16.9G虚拟内存已经使用了7.5G。

物理内存通常表示driver-memory；虚拟内存通常表示executor-memory？

Python运行spark时出现版本不同的错误

Exception: Python in worker has different version 3.9 than that in driver 3.7, PySpark cannot run with different minor versions. Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.

import os
# 此处指定自己的python路径
os.environ["PYSPARK_PYTHON"] = "/miniconda3/envs/py37/bin/python"

参考链接：调优 Spark3.3.0 官方文档

你可能感兴趣的:(Python,spark,big,data,hadoop,人工智能,数据挖掘)

【模型调优的深入分析与Python实践】蝉叫醒了夏天机器学习 python 开发语言模型调优
模型调优的深入分析与Python实践一、模型调优的定义与目标模型调优（ModelTuning）是通过系统化调整机器学习模型的超参数和结构参数，使模型在特定数据集上达到最佳性能的过程。其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集/测试集的独立
《Python全栈开发》第1课：认识全栈开发与Web工作原理程序员没睡醒 Python全栈 python 前端开发语言
课程目标理解全栈开发的核心概念了解网站运行的底层原理建立全栈知识体系框架完成第一个网页实践一、什么是全栈开发？（用餐厅比喻）1.1餐厅后厨vs餐厅前厅顾客服务员点单厨师做菜传菜员送餐1.2对应到Web开发：餐厅角色Web开发对应关键技术服务员前端开发HTML/CSS/JavaScript厨师后端开发Python/Java/PHP传菜员数据库MySQL/MongoDB店长全栈工程师掌握所有环节二、网
量化交易中用到的回测评估指标（策略收益、基准收益、Alpha比率、Beta比率、夏普比率、索提诺比率）详解林不更新量化交易 python
前言近日在做A股的过程中接触到了量化交易。通过一个月时间的了解发现并非全自动印钞机，也有可能有全自动接盘侠的潜质。故现阶段以学习量化交易的知识为主，多学多问总是没错的嘛~现阶段使用Python爬取交易数据来验证自己的一些选股逻辑，笔者目前去一家民营的券商开户后，券商赠送了Ptrade作为量化软件供客户使用，可回测可交易（后续详细讲解记录该软件的使用过程）。目前是作为辅助选股使用，开启自动交易为时尚
python读取多张图片文字为表格_python批量给图片加图文水印+读取excel weixin_39612220
在python3.7环境实现给图片添加图片水印以及文字水印。另附python读取excel单元格内容。利用本程序修改后可以实现，给商品sku图片批量添加水印的功能。excel操作仅测试了读取单元格内容的代码。#fromPILimportImagefromPILimportImage,ImageDraw,ImageFont##pipinstallpillow##importdatetimeimpor
python开发环境spyder_Spyder：科学的Python 开发环境IDE 黑脸V
Somesourcefilesandiconsmaybeunderotherauthorship/licenses;seeNOTICE.txt.Projectstatus
spyder python下载_Spyder Python软件-Spyder Python下载-最火手机站黄sir好 spyder python下载
SpyderPython软件是一款使用用Python编写的强大的编程环境。应用于Python，由科学家、技术人员、数据分析家设计，由科学家、技术人员、数据分析家设计。综合开发工具的高级编辑、分析、调试、概要分析功能和科学包装的数据搜索、交互执行、深度检查和精巧的可视化功能被独特地结合在一起。SpyderPython下载就在最火软件站!SpyderPython软件功能编辑功能/类浏览器、代码解析工具
DeepSeek开源周：面向大模型训练的三个工具包花生糖@ AIGC学习资料库 DeepSeek 实用集 DualPipe EPLB Profile-data Deepseek
在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。这些工具包括DualPipe、EPLB以及Profile-data，它们分别从不同的角度解决了万亿参数模型训练中的算力瓶颈问题，为行业带来了前所未有的加速和效率提升。DualPipe：双向流水线架构的创新DualPipe通过其首创的双向流水线架构，极大地提高了计算与通信的重叠率至92%，相比NVIDIAMegat
python小练习，计算并显示正整数 n 的所有因子及因子的个数，其中 n 的值键盘输入。 D.Leo python
计算并显示正整数n的所有因子及因子的个数，其中n的值键盘输入。n=eval(input('请输入正整数n='))a=[]print('%d的因子为：'%n)foriinrange(1
python用“穷举”法计算两个正整数 m 和 n 的最大公约数, m 和 n 的值通过键盘输入。 D.Leo python python
python用“穷举”法计算两个正整数m和n的最大公约数,m和n的值通过键盘输入。m=eval(input('请输入一个正整数m:'))n=eval(input('请输入一个正整数n:'))if(m>n):
运行PaddleOCR时遇到的一些问题汇总江木27 PaddleOCR python ocr 计算机视觉图像处理 paddle
官方文档提供了PaddleOCR的各类用例说明，但是使用中仍然会有一些问题，这里做一些总结和整理跑通train.py代码pythontools/train.py-cconfigs/rec/PP-OCRv3/ch_PP-OCRv3_rec_distillation.yml-oGlobal.pretrained_model=ckpt/ch_PP-OCRv3_rec_train/best_accurac
神经网络探秘：原理、架构与实战案例二川bro 智能AI 神经网络人工智能深度学习
神经网络探秘：原理、架构与实战案例前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc在人工智能的浪潮中，神经网络作为核心驱动力之一，正引领着技术革新与产业变革。本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还
【图片识别保存表格】图片文档指定多个识别区域，识别固定位置的文字并导出到Excel，Python5分钟搞定，学会不求人如沐春风菜鸡收割机 excel r语言开发语言
对于企业和组织来说，他们可能拥有大量扫描的纸质文档存储为图像文件，这些文档可能包含多个部分，不同部分可能涉及不同的信息类别。例如，一份扫描的采购订单可能在不同位置有订单编号、供应商信息、采购物品列表等，通过自定义区域识别，可以更精确地提取这些信息并存储到数据库或Excel表格中，方便日后的检索和统计。以下是使用Python和飞桨实现图片文档指定多个识别区域，识别固定位置的文字并导出到Excel的详
各大AI平台优缺点分析：选对工具，让AI更高效 JXY_AI 人工智能生活 AI编程
人工智能（AI）技术的快速发展，催生了许多强大的AI平台，帮助开发者、企业和研究人员更高效地构建和部署AI应用。然而，不同的AI平台各有优缺点，如何选择合适的平台是许多从业者关心的问题。本文将分析几大主流AI平台的特点，以便大家根据需求做出更好的选择。1.OpenAI(ChatGPT、DALL·E、Codex)优点：自然语言处理（NLP）能力强：ChatGPT在对话、文本生成、翻译等方面表现优异，
Python自动化识别与删除Excel表格空白行和列 Eiceblue Python XLS python 自动化 excel 开发语言
在处理Excel数据时，经常会遇到含有空白行和空白列的情况。这些空白区域不仅占用表格显示空间，还可能导致数据分析时出现偏差，影响数据处理的效率与结果的准确性，如空白行可能干扰数据聚合操作，导致统计计数不准确；空白列则可能误导数据解析逻辑，影响后续的数据分析流程。因此，删除Excel表格中的空白行和空白列也是数据预处理中的一项基础任务。本文将介绍如何利用Python来自动化识别并删除Excel文件中
MindSearch: 革新人工智能搜索引擎的未来 2401_87189860 人工智能搜索引擎
MindSearch:革新人工智能搜索引擎的未来在人工智能和大语言模型快速发展的今天,搜索引擎领域正迎来新的变革。由上海人工智能实验室开发的MindSearch项目,正是这场变革中的佼佼者。MindSearch是一个开源的AI搜索引擎框架,它通过模仿人类思维过程,为用户提供深度的AI搜索能力。本文将深入探讨MindSearch的特点、工作原理以及它对未来搜索技术的影响。MindSearch的核心特
Python 冒泡排序 2301_80891383 python python 开发语言算法
defbubble_sort(lst):n=len(lst)#遍历所有列表元素foriinrange(n):#每次遍历后，最后的i个元素已经排好序，因此不需要再检查forjinrange(0,n-i-1):#如果当前元素比下一个大，交换它们iflst[j]>lst[j+1]:lst[j],lst[j+1]=lst[j+1],lst[j]returnlst#接收输入并转换为列表data_list=l
Manus：成为AI Agent领域的标杆喜欢猪猪人工智能
一、引言官网：Manus随着人工智能技术的飞速发展，AIAgent（智能体）作为人工智能领域的重要分支，正逐渐从概念走向现实，并在各行各业展现出巨大的应用潜力。在众多AIAgent产品中，Manus以其独特的技术优势和市场表现，有望成为该领域的标杆。作为资深AI工程师，本文将深入探讨Manus的背景知识、主要业务场景、底层原理、功能的优缺点，并尝试使用Java搭建一个属于自己的Manus助手，以期
初识开源云原生数仓Databend 开源项目精选云原生
Databend是一款开源的数据仓库产品，主要定位于OLAP场景，采用云原生架构理念（可对比snowflake），有非常好的扩展性、同时具备低成本、高性能的优势，兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准，支持复杂查询和数据版本回溯（时间旅行）功能。与流行的商业智能（BI）、提取、转换和加载（ETL）以及数据科
Django 跨域一窍不通小杨 django django
day04一、昨日内容回顾1、JsonResponsereturnJsonResponse(data,safe=False,json_dumps_params={'ensure_ascii':False})2、HttpResponsereturnHttpResponse(json.dumps(data,ensure_ascii=False))3、类视图类视图：结构清晰更强的复用性需要继承View:
python初体验——单/双/三引号的用法寻梦N python python printf
python首次课程笔记单引号用法双引号用法无引号用法三引号用法总结单引号用法 print()函数中单引号的用法：当括号内有单引号的时候，就相当于告诉计算机——你不需要执行多余的操作，我输入什么，你就打印什么简言之，单引号里面是什么内容运行后还是什么内容，例如下面的例子可以看到单引号里面是1+1，那么它运行出来还是1+1双引号用法在print()函数内不仅能使用单引号，还能使用双引号
python引号嵌套_【python】sql语句插入中内容同时包含单引号和双引号的解决办法... weixin_39520199 python引号嵌套
在python中调用MySQLdb模块插入数据信息，假设待输入信息data为：Hello'World"!其中同时包含了单引号和双引号一般插入语句为sql="insertintotb(my_str)values('%s')"%(data)cursor.execute(sql)其中values('%s')中的%s外面也要有引号，这个引号与data中的引号匹配导致了内容错误解决办法一:MySQLdb.e
基于Deepseek的智能辅助论文写作系统 CodeJourney. 算法数据库人工智能能源
在学术的浩瀚海洋中，撰写论文是每一位科研人员、学生都必须面对的挑战。从选题的迷茫，到资料收集的繁琐，再到写作过程中的反复推敲，每一个环节都充满了艰辛。然而，随着人工智能技术的飞速发展，一款名为Deepseek的工具正逐渐崭露头角，为论文写作带来了全新的解决方案。本文将深入探讨Deepseek在论文写作中的应用，以及它如何帮助我们从论文写作的“青铜”一路飙升至“王者”。一、论文写作的困境（一）选题难
Python中单引号和双引号有什么区别？快乐的阿江江 python
在Python中使用单引号或双引号是没有区别的，都可以用来表示一个字符串。但是这两种通用的表达方式可以避免出错之外，还可以减少转义字符的使用，使程序看起来更清晰。举两个例子：1、包含单引号的字符串定义一个字符串my_str，其值为：I’mastudent，可以用转义字符和不用转义字符\my_str='I\'mastudent'my_str="I'mastudent"2、包含双引号的字符串定义一个字
CentOS7升级Python3后，yum使用报错信阳农夫 linux Django学习笔记 python 开发语言
原因：这是因为yum采用Python作为命令解释器，这可以从/usr/bin/yum文件中第一行#!/usr/bin/python发现。而python版本之间兼容性不太好，使得2.X版本与3.0版本之间存在语法不一致问题。而CentOS7自带的yum采用的是python2.7，当系统将python升级到3.6后，出现语法解释错误。解决方法：1、vim/usr/libexec/urlgrabber-
【Python+OpenCV实战】手把手教你打造自定义视频播放器 m0_54877156 计算机视觉 python opencv
随着计算机视觉技术的发展，Python作为其主要开发语言，搭配强大的OpenCV库，为我们提供了无比丰富的功能和可能性。今天，我们将一起踏入这个奇妙的世界，通过Python和cv2来实现一款自定义的视频播放器，让你在理解基础原理的同时，也能亲手打造出属于自己的酷炫工具。首先我们需要确保安装了必要的库pipinstallopencv-python安装完毕之后我们就可以正式开始了。1.导入OpenCV
扎克伯格介绍了 Segment Anything 2 模型，科学家可以用它来研究自然栖息地。在 Siggraph 2024 上，两位科技界的远见卓识者——Nvidia 的黄仁勋和 Meta 的马克·扎知识大胖 NVIDIA GPU和大语言模型开发教程 ai meta llm
简介在Siggraph2024上，两位科技界的远见卓识者——Nvidia的黄仁勋和Meta的马克·扎克伯格——进行了一次精彩的交流。他们的讨论涵盖了人工智能的动态进步、混合现实的变革潜力以及开源在促进创新方面的理念。以下是他们从这场重塑我们数字格局的精彩对话中得出的关键见解。“生成式人工智能影响着每个领域，创造出了不可思议的应用并改变了各个行业。”黄仁勋Meta的AI之旅：创新的传承马克·扎克伯格
使用 PyOpenGL 进行 2D 图形渲染总结无水先生 3D图形渲染和OpenGL编程图形渲染人工智能
一、说明OpenGL是一个广泛使用的开放式跨平台实时3D图形库，开发于二十多年前。它提供了一个低级API，允许开发人员以统一的方式访问图形硬件。在开发需要硬件加速且需要在不同平台上运行的复杂2D或3D应用程序时，它是首选平台。它可以在多种语言中使用，包括C/C++、C#、Java、Objective-C（用于iPhone和iPad游戏）、Python等。在本文中，我将展示如何将OpenGL与Pyt
《Operating System Concepts》阅读笔记：p258-p271 操作系统
《OperatingSystemConcepts》学习第26天，p258-p271总结，总计14页。一、技术总结1.criticalsectionAsectionofcoderesponsibleforchangingdatathatmustonlybeexecutedbyonethreadorprocessatatimetoavoidaracecondition.2.Peterson'ssolu
美颜sdk在实时音视频中的技术应用 Face Beauty美颜SDK 实时音视频美颜sdk 视频特效美颜实时音视频
前言：FaceBeauty美颜SDK是由前相芯科技员工组建创办的新晋美颜厂商品牌，致力于为用户提供更真实自然的美颜效果，以极致性价比，降低高性能美颜的使用门槛。美颜SDK在实时音视频中的应用，通过集成图像处理算法与人工智能技术，实现了对视频流的实时美化处理，显著提升了用户体验。以下从技术模块、性能优化、应用场景及挑战等角度进行详细分析：一、核心技术模块与应用1.人脸检测与特征点定位美颜SDK通过深
揭秘,PyArmor库让你的Python代码更安全 python茶水实验室 python 安全开发语言 flask 爬虫 github jupyter
PyArmor概述:PyArmor是一个用于加密和保护Python源代码的工具,旨在防止代码被逆向工程和未经授权的使用.通过将Python源代码编译为加密的字节码,PyArmor提供了一种有效的方法来保护知识产权和敏感算法.安装pip install pyarmor安装完成后,可以通过以下命令验证安装：pyarmor --version假如创建一个简单的Python脚本hello.py：# hel
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23