y鱼鱼

PySpark Core（Checkpoint、共享变量、RDD持久化）

#博学谷IT学习技术支持#

RDD持久化

概述

在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率。

PySpark Core（Checkpoint、共享变量、RDD持久化）_第1张图片

4.1 为什么使用缓存

使用缓存的原因是什么？

提升应用程序性能

容错

思考下面两个问题？

问题1：当在计算 RDD3 的时候如果出错了, 会怎么进行容错?

问题2：会再次计算 RDD1 和 RDD2 的整个链条, 假设 RDD1 和 RDD2 是通过比较昂贵的操作得来的, 有没有什么办法减少这种开销?

PySpark Core（Checkpoint、共享变量、RDD持久化）_第2张图片

上述两个问题的解决方案其实都是缓存, 除此之外, 使用缓存的理由还有很多, 但是总结一句, 就是缓存能够帮助开发者在进行一些昂贵操作后, 将其结果保存下来, 以便下次使用无需再次执行, 缓存能够显著的提升性能.

所以, 缓存适合在一个 RDD 需要重复多次利用, 并且还不是特别大的情况下使用, 例如迭代计算等场景.

因此，Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后，每一个节点都将把计算分区结果保存在内存中，对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。

4.2 缓存函数

可以将RDD数据直接缓存到内存中，函数声明如下：

PySpark Core（Checkpoint、共享变量、RDD持久化）_第3张图片

但是实际项目中，不会直接使用上述的缓存函数，RDD数据量往往很多，内存放不下的。在实际的项目中缓存RDD数据时，往往使用如下函数，依据具体的业务和数据量，指定缓存的级别：

4.3 缓存级别

在Spark框架中对数据缓存可以指定不同的级别，对于开发来说至关重要，如下所示：

PySpark Core（Checkpoint、共享变量、RDD持久化）_第4张图片

实际项目中缓存数据时，往往选择如下两种级别：

缓存函数与Transformation函数一样，都是Lazy操作，需要Action函数触发，通常使用count函数触发。

如何选择分区级别

1.Spark 的存储级别的选择，核心问题是在 memory 内存使用率和 CPU 效率之间进行权衡。建议按下面的过程进行存储级别的选择:

2.如果您的 RDD 适合于默认存储级别（MEMORY_ONLY），leave them that way。这是 CPU 效率最高的选项，允许 RDD 上的操作尽可能快地运行.

3.如果不是，试着使用 MEMORY_ONLY_SER 和 selecting a fast serialization library 以使对象更加节省空间，但仍然能够快速访问。(Java和Scala)

4.不要溢出到磁盘，除非计算您的数据集的函数是昂贵的，或者它们过滤大量的数据。否则，重新计算分区可能与从磁盘读取分区一样快.

5.如果需要快速故障恢复，请使用复制的存储级别（例如，如果使用 Spark 来服务来自网络应用程序的请求）。All 存储级别通过重新计算丢失的数据来提供完整的容错能力，但复制的数据可让您继续在 RDD 上运行任务，而无需等待重新计算一个丢失的分区.

4.4 释放缓存

当缓存的RDD数据，不再被使用时，考虑释资源，使用如下函数：

4.5 何时缓存数据

在实际项目开发中，什么时候缓存RDD数据，最好呢？

第一点：当某个RDD被使用多次的时候，建议缓存此RDD数据

比如，从HDFS上读取网站行为日志数据，进行多维度的分析，最好缓存数据

第二点：当某个RDD来之不易，并且使用不止一次，建议缓存此RDD数据

比如，从HBase表中读取历史订单数据，与从MySQL表中商品和用户维度信息数据，进行关联Join等聚合操作，获取RDD：etlRDD，后续的报表分析使用此RDD，此时建议缓存RDD数据

案例：etlRDD.persist(StoageLeval.MEMORY_AND_DISK_2)

 
代码如下：
# -*- coding: utf-8 -*-
# Program function：Cache & Persist RDD

from pyspark import SparkContext, SparkConf
import os
import re

from pyspark.storagelevel import StorageLevel

os.environ['SPARK_HOME'] = '/export/servers/spark'
PYSPARK_PYTHON = "/root/anaconda3/envs/pyspark_env/bin/python"
# 当存在多个版本时，不指定很可能会导致出错
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
os.environ["PYSPARK_DRIVER_PYTHON"] = PYSPARK_PYTHON

if __name__ == '__main__':
    print('PySpark RDD Program')
    # TODO：1、创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)
    # TODO: 2、从文件系统加载数据，创建RDD数据集
    # TODO: 3、调用集合RDD中函数处理分析数据
    fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt")
    # 缓存RDD
    fileRDD.cache()
    fileRDD.persist()
    # 使用Action触发缓存操作
    print("fileRDD count:", fileRDD.count())
    # 释放缓存
    fileRDD.unpersist()
    # 数据的相关操作
    resultRDD2 = fileRDD.flatMap(lambda line: re.split("\s+", line)) \
        .map(lambda x: (x, 1)) \
        .reduceByKey(lambda a, b: a + b)
    print('停止 PySpark SparkSession 对象')
    # 关闭SparkContext
    sc.stop()

RDD Checkpoint

概述

RDD 数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。

Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用。

在Spark Core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；

PySpark Core（Checkpoint、共享变量、RDD持久化）_第5张图片

5.1 检查点机制案例

 
if __name__ == '__main__':
    print('PySpark checkpoint Program')
    # TODO：1、创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)
    # TODO: 2、RDD的checkpoint
    sc.setCheckpointDir("file:///export/pyfolder1/pyspark-chapter02_3.8/data/checkpoint1")
    # TODO: 3、调用集合RDD中函数处理分析数据
    fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt")
    # TODO: 调用checkpoint函数，将RDD进行备份，需要RDD中Action函数触发
    fileRDD.checkpoint()
    fileRDD.count()
    # TODO: 再次执行count函数, 此时从checkpoint读取数据
    fileRDD.count()

    time.sleep(100)
    print('停止 PySpark SparkSession 对象')
    # 关闭SparkContext
    sc.stop()
查看WebUI：http://192.168.88.161:4041/jobs/

执行Action操作会触发Checkpoint，启动两个Job，其中一个Job是count，另外一个为checkpoint启动的Job。然后在执行count操作就能看到checkkpoint截断依赖链，速度很快。

PySpark Core（Checkpoint、共享变量、RDD持久化）_第6张图片

5.2 持久化和Checkpoint的区别

持久化和Checkpoint的区别：

1）、存储位置

Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存)；

Checkpoint 可以保存数据到 HDFS 这类可靠的存储上；

2）、生命周期

Cache和Persist的RDD会在程序结束后会被清除或者手动调用unpersist方法；

Checkpoint的RDD在程序结束后依然存在，不会被删除；

3）、Lineage(血统、依赖链、依赖关系)

Persist和Cache，不会丢掉RDD间的依赖链/依赖关系，因为这种缓存是不可靠的，如果出现了一些错误(例如 Executor 宕机)，需要通过回溯依赖链重新计算出来；

Checkpoint会斩断依赖链，因为Checkpoint会把结果保存在HDFS这类存储中，更加的安全可靠，一般不需要回溯依赖链；

PySpark Core（Checkpoint、共享变量、RDD持久化）_第7张图片

5.3 先cache在checkpoint测试

查看WebUi：

Spark容错机制：首先会查看RDD是否被Cache，如果被Cache到内存或磁盘，直接获取，否则查看Checkpoint所指定的HDFS中是否缓存数据，如果都没有则直接从父RDD开始重新计算还原。

 
if __name__ == '__main__':
    print('PySpark cache&checkpoint Program')
    # TODO：1、创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)
    # TODO: 2、RDD的checkpoint
    sc.setCheckpointDir("file:///export/pyfolder1/pyspark-chapter02_3.8/data/checkpoint1")
    # TODO: 3、调用集合RDD中函数处理分析数据
    fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt")
    # TODO: 调用checkpoint和cache函数，将RDD进行容错，需要RDD中Action函数触发
    print("=======1-同时做cache和Perisist========")
    fileRDD.cache()
    fileRDD.checkpoint()
    print("=======2-启动Job1跑正常任务，启动Job2就会先从Cache读取数据，Web页面可以看到ProcessLocal========")
    fileRDD.count()
    # TODO: 再次执行count函数, 此时从checkpoint读取数据
    fileRDD.count()
    print("=======3-启动一个Job发现查询数据从checkpoint的hdfs中查找========")
    # TODO:释放cache之后如果在查询数据从哪里读取？ 答案是checkpoint的hdfs的数据中。
    fileRDD.unpersist(True)
    fileRDD.count()
查看WebUI：http://192.168.88.161:4041/jobs/

共享变量

概述

在默认情况下，当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候需要在多个任务之间共享变量，或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。

为了满足这种需求，Spark提供了两种类型的变量：

1）、广播变量Broadcast Variables

广播变量用来把变量在所有节点的内存之间进行共享，在每个机器上缓存一个只读的变量，而不是为机器上的每个任务都生成一个副本；

2）、累加器Accumulators

累加器支持在所有不同节点之间进行累加计算(比如计数或者求和)；

官方文档：http://spark.apache.org/docs/3.1.2/rdd-programming-guide.html#shared-variables

7.1 广播变量

广播变量允许开发人员在每个节点（Worker or Executor）缓存只读变量，而不是在Task之间传递这些变量。使用广播变量能够高效地在集群每个节点创建大数据集的副本。同时Spark还使用高效的广播算法分发这些变量，从而减少通信的开销。

可以通过调用sc.broadcast(v)创建一个广播变量，该广播变量的值封装在v变量中，可使用获取该变量value的方法进行访问。

PySpark Core（Checkpoint、共享变量、RDD持久化）_第8张图片

不使用广播变量

PySpark Core（Checkpoint、共享变量、RDD持久化）_第9张图片

使用广播变量

PySpark Core（Checkpoint、共享变量、RDD持久化）_第10张图片

广播变量允许程序员将一个只读的变量缓存在每台机器上，而不用在任务之间传递变量。广播变量可被用于有效地给每个节点一个大输入数据集的副本。

Spark还尝试使用高效地广播算法来分发变量，进而减少通信的开销。 Spark的动作通过一系列的步骤执行，这些步骤由分布式的洗牌操作分开。Spark自动地广播每个步骤每个任务需要的通用数据。这些广播数据被序列化地缓存，在运行任务之前被反序列化出来。这意味着当我们需要在多个阶段的任务之间使用相同的数据，或者以反序列化形式缓存数据是十分重要的时候，显式地创建广播变量才有用。

假如我们要共享的变量map，1M

在默认的，task执行的算子中，使用了外部的变量，每个task都会获取一份变量的副本。

在什么情况下，会出现性能上的恶劣的影响呢？

1000个task。大量task的确都在并行运行。这些task里面都用到了占用1M内存的map，那么首先，map会拷贝1000份副本，通过网络传输到各个task中去，给task使用。总计有1G的数据，会通过网络传输。网络传输的开销很大，也许就会消耗掉你的spark作业运行的总时间的一部分。

map副本，传输到了各个task上之后，是要占用内存的。1个map的确不大，1M；1000个map分布在你的集群中，一下子就耗费掉1G的内存。对性能会有什么影响呢？不必要的内存的消耗和占用，就导致了，你在进行RDD持久化到内存，也许就没法完全在内存中放下；就只能写入磁盘，最后导致后续的操作在磁盘IO上消耗性能；

你的task在创建对象的时候，也许会发现堆内存放不下所有对象，也许就会导致频繁的垃圾回收器的回收，GC的时候，一定是会导致工作线程停止，也就是导致Spark暂停工作那么一点时间。频繁GC的话，对Spark作业的运行的速度会有相当可观的影响。

如果说，task使用大变量（1m~100m），明知道会导致性能出现恶劣的影响。那么我们怎么来解决呢？

广播，Broadcast，将大变量广播出去。而不是直接使用。

广播变量的好处，不是每个task一份变量副本，而是变成每个节点的executor才一份副本。这样的话，就可以让变量产生的副本大大减少。

广播变量，初始的时候，就在Drvier上有一份副本。task在运行的时候，想要使用广播变量中的数据，此时首先会在自己本地的Executor对应的BlockManager中，尝试获取变量副本；如果本地没有，BlockManager，也许会从远程的Driver上面去获取变量副本；也有可能从距离比较近的其他节点的Executor的BlockManager上去获取，并保存在本地的BlockManager中；BlockManager负责管理某个Executor对应的内存和磁盘上的数据，此后这个executor上的task，都会直接使用本地的BlockManager中的副本。

使用广播变量

 
代码：
from pyspark import SparkContext, SparkConf
import os
import re
if __name__ == '__main__':
    print('PySpark Broadcast Program')
    # TODO：1、创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)

    # TODO: 2、定义累加器
    kvFruit = sc.parallelize([(1, "apple"), (2, "orange"), (3, "banana"), (4, "grape")])
    print(kvFruit.collect())
    fruitMap = kvFruit.collectAsMap()
    # print(fruitMap)#{1: 'apple', 2: 'orange', 3: 'banana', 4: 'grape'}
    # print(type(fruitMap)) # 字典类型
    fruitIds = sc.parallelize([2, 4, 1, 3])
    # TODO: 3、定义累加函数实现累加功能
    fruitNames = fruitIds.map(lambda x: fruitMap[x])#这里根据字典的健得到value
print(fruitNames.collect())
    print('停止 PySpark SparkSession 对象')
    # 关闭SparkContext
    sc.stop()

7.2 累加器

原理

Spark提供的Accumulator，主要用于多个节点对一个变量进行共享性的操作。Accumulator只提供了累加的功能，即确提供了多个task对一个变量并行操作的功能。但是task只能对Accumulator进行累加操作，不能读取Accumulator的值，只有Driver程序可以读取Accumulator的值。创建的Accumulator变量的值能够在Spark Web UI上看到，在创建时应该尽量为其命名。

PySpark Core（Checkpoint、共享变量、RDD持久化）_第11张图片

Spark内置了三种类型的Accumulator，分别是LongAccumulator用来累加整数型，DoubleAccumulator用来累加浮点型，CollectionAccumulator用来累加集合元素。

不使用累加器

 
# -*- coding: utf-8 -*-
# Program function：Cache & Persist RDD

from pyspark import SparkContext, SparkConf
import os
import re

from pyspark.storagelevel import StorageLevel

os.environ['SPARK_HOME'] = '/export/servers/spark'
PYSPARK_PYTHON = "/root/anaconda3/envs/pyspark_env/bin/python"
# 当存在多个版本时，不指定很可能会导致出错
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
os.environ["PYSPARK_DRIVER_PYTHON"] = PYSPARK_PYTHON

if __name__ == '__main__':
    print('PySpark RDD Program')
    # TODO：1、创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)

    # TODO: 2、定义累加器
    num =10 #如果这里改变为变量10，就得不到150累加值

    # TODO: 3、定义累加函数实现累加功能
    def f(x):
        global num
        num += x

    rdd = sc.parallelize([20, 30, 40, 50])
    rdd.foreach(f)
    print(num) #如果num=10，此时打印num可以查看并没有实现分布式数据的累加

    print('停止 PySpark SparkSession 对象')
    # 关闭SparkContext
    sc.stop()

使用累加器

 
通常在向 Spark 传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器driver程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。这时使用累加器就可以实现我们想要的效果。
Python中用法：SparkContext.accumulator(v)
  通过调用从初始值创建累加器SparkContext.accumulator(v)。
  然后，可以使用add方法或+=运算符将在集群上运行的任务添加到集群中。
  但是，他们无法读取其值。
  只有驱动程序可以使用其value方法读取累加器的值。
下面的代码显示了一个累加器，用于累加一个数组的元素

>>> accum = sc.accumulator(0)
>>> accum
Accumulator
>>> sc.parallelize([1, 2, 3, 4]).foreach(lambda x: accum.add(x))
>>> accum.value
10

代码

 
if __name__ == '__main__':
    print('PySpark RDD Program')
    # TODO：1、创建应用程序入口SparkContext实例对象
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    sc = SparkContext.getOrCreate(conf)

    # TODO: 2、定义累加器
    num = sc.accumulator(10) #如果这里改变为变量10，就得不到150累加值

    # TODO: 3、定义累加函数实现累加功能
    def f(x):
        global num
        num += x

    rdd = sc.parallelize([20, 30, 40, 50])
    rdd.foreach(f)
    # print(num) 如果num=10，此时打印num可以查看并没有实现分布式数据的累加
    final = num.value
    print("Accumulated value is -> %i" % (final))
    print('停止 PySpark SparkSession 对象')
    # 关闭SparkContext
    sc.stop()

累计器件还有两个小特性,

第一, 累加器能保证在 Spark 任务出现问题被重启的时候不会出现重复计算.

第二, 累加器只有在 Action 执行的时候才会被触发。

累加器只能在Driver端定义，在Executor端更新，不能在Executor端定义，不能在Executor端.value获取值。

7.3 PySpark累加器和广播变量案例演示

以词频统计WordCount程序为例，假设处理的数据如下所示，包括非单词符合，统计数据词频时过滤非单词的符合并且统计总的格式。

PySpark Core（Checkpoint、共享变量、RDD持久化）_第12张图片

实现功能：

第一、过滤非单词符合

非单词符合存储列表List中

使用广播变量广播列表

第二、累计统计非单词符号出现次数

定义一个LongAccumulator累加器，进行计数

数据

 
hello shell # ! $ % nihao
hello shell nihao  youhao haouos nihao
hello spark flink sql nihao haonirue

hello shell # ! $ % nihao

 
代码如下：
if __name__ == '__main__':
    print('PySpark broadcast Program')
    spark = SparkSession.builder.appName("broadcast").getOrCreate()
    sc = spark.sparkContext
    fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/main/broadcast/data.input")
    # TODO: 字典数据，只要有这些单词就过滤: 特殊字符存储列表List中
    acc_count=sc.accumulator(0)
    # TODO: 通过广播变量 将列表list广播到各个Executor内存中，便于多个Task使用
    list = [",", ".", "!", "#", "$", "%"]
    broadcastList = sc.broadcast(list)
    #  TODO: 定义累加器，记录单词为符号数据的个数
    def f(x):
        global acc_count
        listValue = broadcastList.value
        if x in listValue:
            #acc_count.add(1)
            acc_count +=1
            return 1
        else:
            return 0
    #1)、过滤数据，去除空行数据
    #2)、分割单词
    #3)、过滤字典数据：符号数据
    line__filter = fileRDD \
        .filter(lambda line: (len(line.strip()) > 0)) \
        .flatMap(lambda line: re.split("\\s+", line))\
        .filter(f)
    # 增加一个action算子count操作，触发累加器的计算
    print("count:",line__filter.count())
    print(f'the accumulator value is： {acc_count.value}')
    # wordcount
    print("非单词个数统计的结果")
    key1 = line__filter.map(lambda word: (word, 1)) \
        .reduceByKey(lambda k1, k2: k1 + k2) \
        .sortBy(lambda x: x[1], ascending=False) \
        .take(10)
    print(key1)#[('#', 3), ('!', 3), ('$', 3), ('%', 2)]

    sc.stop()

7.4 累加器注意事项

这里演示累加器在遇到多次action操作的时候会出现重复累加求和的问题，以及如何给出解决方案。

PySpark Core（Checkpoint、共享变量、RDD持久化）_第13张图片

PySpark Core（Checkpoint、共享变量、RDD持久化）_第14张图片

 
from pyspark.sql import SparkSession
import re
if __name__ == '__main__':
    print('PySpark broadcast Program')
    spark = SparkSession.builder.appName("broadcast").getOrCreate()
    sc = spark.sparkContext

    acc=sc.accumulator(0)

    def judge_even(row_data):
        """
        过滤奇数，计数偶数个数
        """
        global acc
        if row_data % 2 == 0:
            acc += 1
            return 1
        else:
            return 0


    a_list = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    even_num = a_list.filter(judge_even)
    print(f'the accumulator value is {acc}')
    #the accumulator value is 0
    '''
    【分析】为什么会出现这个结果呢？
    这是因为Spark中的一系列的转化（transform）算子操作会构成一长串的任务链，只有当存在行动（action）算子操作时，才会进行真正的运算。
    累加器（accumulator）也同理。
    上述代码中并没有action算子，因此累计器并没有进行累加。
    '''
    # 增加一个action算子count操作
    print(f'even_num.count {even_num.count()}') #even_num.count 5
    print(f'the accumulator value is {acc}') #accumulator value is 5
    # 扩展2：
    # print(f'even_num.count {even_num.count()}') #even_num.count 5
    print(f'even_num.collect {even_num.collect()}') #even_num.collect [2, 4, 6, 8, 10]
    print(f'the accumulator value is {acc}') #the accumulator value is 10
    '''
    【分析】我们可以看到实际上经过过滤之后的偶数为5个，但是累加器给出的数值是10个，为两倍的关系，那么为什么会是这种结果呢？
    这就涉及到Spark运行机制的问题了
    当我们遇到第一个action算子count的时候，他就会从头开始计算，这是累计器就会累加到5，直到输出count的值。
    当我们遇到第二个action算子collect时，由于前面没有缓存数据可以直接加载，因此也只能从头计算，在从头计算时，这时accumulator已经是5了，在计算过程中累计器同样会被再执行一次，因此最后会输出10
    '''
    # 扩展3：继续验证
    print(f'even_num.count {even_num.count()}')#even_num.count 5
    print(f'after the first action operator the accumulator is {acc}')#after the first action operator the accumulator is 5
    print(f'even_num.collect {even_num.collect()}')#even_num.collect [2, 4, 6, 8, 10]
    print(f'after the second action operator the accumulator is {acc}')#after the second action operator the accumulator is 10

    # 扩展4
    '''
    【分析】遇到以上问题我们应该怎么解决这个问题呢
    解决这个问题只需要切断他们之间的依赖关系即可，
    即：在累加器计算之后进行持久化操作，这样的话，第二次action操作就会从缓存的数据开始计算，不会再重复进行累计器计数
    '''
    # 增加cache
    even_num = a_list.filter(judge_even).cache()
    print(f'even_num.count {even_num.count()}')#even_num.count 5
    print(f'after the first action operator the accumulator is {acc}')#after the first action operator the accumulator is 5
    print(f'even_num.collect {even_num.collect()}')#even_num.collect [2, 4, 6, 8, 10]
    print(f'after the second action operator the accumulator is {acc}')#fter the second action operator the accumulator is 5
    # 扩展5:释放缓存位置不对
    even_num = a_list.filter(judge_even).cache()
    print(f'even_num.count {even_num.count()}')#even_num.count 5
    print(f'after the first action operator the accumulator is {acc}')#after the first action operator the accumulator is 5
    # 对缓存进行释放
    even_num.unpersist()
    print(f'even_num.collect {even_num.collect()}')#ven_num.collect [2, 4, 6, 8, 10]
    print(f'after the second action operator the accumulator is {acc}')#after the second action operator the accumulator is 10
    '''
    【分析】这是因为第一次action算子操作后，存在一步释放缓存的操作，当执行第二个action算子时，
    首先会将rdd的缓存释放，然后再对rdd进行collect操作，而由于rdd没有被缓存，
    因此想要被collect必须从头计算，那么累加器又一次被重新计算，因此又变为两倍。
    '''
    sc.stop()

你可能感兴趣的:(python,大数据)

Pybind11教程：从零开始打造 Python 的 C++ 小帮手 Yc9801 c++开发语言
参考官网文档：https://pybind11.readthedocs.io/en/stable/index.html一、Pybind11是什么？想象你在Python里写了个计算器，但跑得太慢，想用C++提速，又不想完全抛弃Python。Pybind11就像一座桥，把C++的高性能代码“嫁接”到Python里。你可以用Python调用C++函数，就像请了个跑得飞快的帮手来干活。主要功能：绑定函数：
python自定义函数的参数有多种类型_python自定义函数的参数之四种表现形式 weixin_39860755
(1)defa(x,y):printx,y这是最常见的定义方式，调用该函数，a(1,2)则x取1，y取2，形参与实参相对应，如果a(1)或者a(1,2,3)则会报错(2)defa(x,y=3):printx,y提供了默认值，调用该函数，a(1,2)同样还是x取1，y取2，但是如果a(1)，则不会报错了。上面这俩种方式，还可以更换参数位置，比如a(y=4,x=3)用这种形式也是可以的如果是defa(
Python文件操作红虾程序员 Python python
在Python中文件操作是一项基础且重要的功能，它主要包括打开、读写、关闭等操作。1.打开文件使用open()函数来打开文件，其基本语法如下： f=open(file_path,mode,encoding=None)f：是open函数的文件对象，拥有属性和方法。file_path：文件的路径，可以是相对路径或绝对路径。mode：打开文件的模式，常见的模式有：r：以只读模式打开文件，文件指针会放在文
Windows使用Browser Use笔记人工智能ai开发
相关文档：https://docs.browser-use.com/quickstart首先安装UV命令行cmdpowershell-ExecutionPolicyByPass-c"irmhttps://astral.sh/uv/install.ps1|iex"设置环境变量setPath=C:\xx\.local\bin;%Path%查看版本uv-V查看可用和已安装的Python版本uvpytho
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
python函数的多种参数使用形式红虾程序员 Python python 开发语言 pycharm
目录1.位置参数（PositionalArguments）2.关键字参数（KeywordArguments）3.默认参数（DefaultArguments）4.可变参数（VariablePositionalArguments）5.关键字可变参数（VariableKeywordArguments）6.特殊用法：传递列表或字典作为参数Python中函数的参数使用形式非常灵活，主要包括以下几种类型：位置
【附JS、Python、C++题解】Leetcode面试150题（7） moz与京 leetcode整理 javascript python c++
一、题目167.两数之和II-输入有序数组给你一个下标从1开始的整数数组numbers，该数组已按非递减顺序排列，请你从数组中找出满足相加之和等于目标数target的两个数。如果设这两个数分别是numbers[index1]和numbers[index2]，则1targetIndex(vectornums,inttarget){intlength=nums.size();if(length<2){
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
量化交易api有哪些类型？如何选择适合自己的量化交易api？股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链量化交易 api类型选择数据获取股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>量化交易API的主要类型量化交易依赖大量数据，数据获取型API就显得尤为重要。这种类型的API能够连接到各种数据源，如股票市场数据、期货数据等。它可以为交易者提供实时价格数据、历史数据等。一些API能从各大证券交易所获取股票的最新成交
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
2020年第十一届蓝桥杯python组省赛 Ruoki~ 蓝桥杯python真题蓝桥杯职场和发展
前言：python最简单的一套题了，适合小白入门练手目录填空题门牌制作寻找2020跑步锻炼蛇形填数排序编程大题成绩统计单词分析数字三角形平面切分装饰珠填空题门牌制作题目：小蓝要为一条街的住户制作门牌号。这条街一共有2020位住户，门牌号从1到2020编号。小蓝制作门牌的方法是先制作0到9这几个数字字符，最后根据需要将字符粘贴到门牌上，例如门牌1017需要依次粘贴字符1、0、1、7，即需要1个字符0
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
Python 问题：ModuleNotFoundError: No module named ‘matplotlib‘ 我命由我12345 Python -问题清单 python matplotlib 开发语言 c++c#后端
问题与处理策略1、问题描述importmatplotlib.pyplotaspltfig,ax=plt.subplots()ax.plot([1,2,3,4],[1,4,2,3])plt.show()执行上述代码，报如下错误ModuleNotFoundError:Nomodulenamed'matplotlib'#翻译ModuleNotFoundation错误：没有名为matplotlib的模块2
Python函数专题：引用传参圣逸从入门到精通Python语言 python 开发语言 Python入门精通python 数据结构
在Python编程中，函数是一个非常重要的概念。函数不仅能提高代码的可重用性，还能够使代码结构更加清晰。在函数的设计和使用中，参数的传递方式是一个关键的因素。Python中的参数传递有两种主要形式：值传递和引用传递。虽然Python的参数传递机制有时被称为"引用传递"，但实际上它更接近于"对象引用传递"。本文将深入探讨Python中的引用传参及其相关概念。一、基本概念在讨论引用传参之前，首先要理解
python函数支持哪些参数类型_Python函数的几种参数类型 weixin_39965283
以下代码均以Python3为基础理解。初识Python函数大部分常见的语言如C、Java、PHP、C#、JavaScript等属于C系语言，Python不属于他们中的一员（ruby亦然）。在这些语言中，Python也属于比较新奇的一派，就函数来说，它没有大括号，用def关键字定义一个函数，定义后用:然后换行tab指定函数函数的范围，当然也不存在什么分号。作为一个函数，那个它肯定是有参数的，Pyth
python自定义函数的参数有多种类型_Python实现自定义函数的5种常见形式分析 weixin_39632728
Python自定义函数是以def开头，空一格之后是这个自定义函数的名称，名称后面是一对括号，括号里放置形参列表，结束括号后面一定要有冒号“：”，函数的执行体程序代码也要有适当的缩排。Python自定义函数的通用语法是：def函数名称(形参列表)：执行体程序代码Python自定义函数的5种常见形式：1、标准自定义函数：形参列表是标准的tuple数据类型>>>defabvedu_add(x,y):pr
深入了解Python的shutil模块上官美丽技术分享 python
在Python编程中，处理文件和目录是一个常见的需求。而shutil模块就像一个得力助手，专门用于文件和目录的操作！这篇文章将带你深入探索shutil模块的各种功能，让你在管理文件时游刃有余。什么是shutil模块？shutil是Python的一个标准库，主要用于高效地处理文件和目录。这个模块提供了很多有用的功能，比如复制、移动、删除文件，甚至可以压缩和解压文件！无论你是要整理文档、备份数据，还是
Django ORM自定义排序的实用示例上官美丽技术分享 django 数据库 sqlite
在使用Django进行开发时，ORM（对象关系映射）是一个非常强大的工具。它让我们可以用Python代码直接操作数据库，而不需要写SQL语句。当我们需要对数据进行排序时，DjangoORM同样提供了丰富的功能。今天，我们就来聊聊如何在Django中实现自定义排序，帮助你更好地管理和展示数据！理解DjangoORM的排序功能DjangoORM提供了order_by()方法，允许我们对查询集进行排序。
Python for循环详解红虾程序员 Python 开发语言 ide python pycharm
目录一、基本语法二、用法示例1、遍历字符串2、遍历列表3、遍历元组4、遍历字典5、使用range()函数6、使用enumerate()函数7、嵌套循环8、break和continue语句9、else子句三、优点四、缺点在Python中，for循环是一种用于迭代可迭代对象（如列表、元组、字典、集合、字符串或任何实现了迭代协议的对象）的语句，它允许按顺序访问可迭代对象中的每个元素，并对每个元素执行一组
Python：区块链 Blockchain 入门的技术指南拾荒的小海螺 Python python 区块链开发语言
1、简述区块链（Blockchain）是一种去中心化、不可篡改的分布式账本技术，最初因比特币而广为人知。如今，区块链已发展成为一种可以应用于金融、供应链管理、智能合约等多个领域的技术。本文将简要介绍区块链的基本概念和原理，并通过Python实现一个简化的区块链原型，帮助您快速上手区块链的实践。2、基本原理区块链是一种链式结构，由多个“区块”串联而成。每个区块中包含若干交易信息，并通过加密哈希指向前
python实现一个通讯录，拥有添加联系人，删除联系人，修改联系人，查询联系人，查找通讯录，退出功能新手懒羊哥 python 开发语言
print('-'*25)#输出25个横杠print('-'*25)print("欢迎使用通讯录")print("1.添加联系人")print("2.查看通讯录")print("3.删除联系人")print("4.修改联系人")print("5.查找联系人")print("6.退出")print('-'*25)list1=[0]*10all_user=[]whileTrue:choose=inpu
基于Python爬虫的商业新闻趋势分析：数据抓取与深度分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言媒体游戏
在信息化和数字化日益发展的今天，商业新闻成为了行业动向、市场变化、竞争格局等多方面信息的重要来源。对于企业和投资者来说，及时了解商业新闻不仅能帮助做出战略决策，还能洞察市场趋势和风险。在此背景下，商业新闻分析的需求日益增长。通过爬虫技术获取和分析商业新闻数据，不仅可以节省时间和成本，还能高效、精准地进行趋势预测与决策支持。本篇博客将详细介绍如何使用Python爬虫技术抓取商业新闻数据，并进行趋势分
基于Python的金融领域AI训练数据抓取实战（完整技术解析）海拥✘ python 金融人工智能
项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据（Twitter、StockTwits）新闻媒体分析（Reuters、Bloomberg）技术挑战地理封锁：部分交易所（如日本TSE）仅允许本国IP访问历史数据动态反爬：
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
用 Python 实现每秒百万级请求 weixin_33719619 python 网络后端
本文讲的是用Python实现每秒百万级请求，用Python可以每秒发出百万个请求吗？这个问题终于有了肯定的回答。许多公司抛弃Python拥抱其他语言就为了提高性能节约服务器成本。但是没必要啊。Python也可以胜任。Python社区近来针对性能做了很多优化。CPython3.6新的字典实现方式提升了解释器的总体性能。得益于更快的调用约定和字典查询缓存，CPython3.7会更快。对于计算密集型工作
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
Argos Translate 开源项目教程经优英
ArgosTranslate开源项目教程argos-translateOpen-sourceofflinetranslationlibrarywritteninPython项目地址:https://gitcode.com/gh_mirrors/ar/argos-translate项目介绍ArgosTranslate是一个开源的离线翻译库，使用Python编写。它利用OpenNMT进行翻译，Sent
pytesseract，一个超强的 Python 库！大模型开发 python 开发语言
大家好，今天为大家分享一个超强的Python库-pytesseract。在当今数字化时代，文字识别技术扮演着越来越重要的角色。Pythonpytesseract库是一个强大的工具，能够帮助开发者轻松实现图像中文字的识别。本文将深入探讨pytesseract库的原理、功能、使用方法以及实际应用场景，并提供丰富的示例代码，让读者更全面地了解这个工具库。什么是Pythonpytesseract库？Pyt
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交