飞Link

PySpark之Spark的内核调度

一、RDD依赖

一、为什么要设计宽窄依赖

窄依赖
- Spakr可以并行计算
- 如果有一个分区数据丢失，主需要从父RDD的对应1个分区重新计算即可，不需要重新计算整个任务，提高容错
宽依赖
- 宽依赖是划分Stage的依据
构建Lineage血缘关系
- RDD只支持粗粒度转换，即只记录单个块上执行的单个操作。将创建RDD的一系列Lineage记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区

二、窄依赖

窄依赖中，父RDD和子RDD间的分区是一对一的。换句话说父RDD中，一个分区内的数据是不能被分割的，只能由RDD中的一个分区整个利用。
上图中P代表RDD中的每个分区，我们看到，RDD中每个分区内的数据在上面的几种转移操作之后被一个分区所使用，即其依赖的父分区只有一个。比如图中的map、union和join操作，都是窄依赖的。注意：join操作比较特殊，可能同时存在宽、窄依赖

三、Shuffle依赖（宽依赖）

Shuffle依赖一会打乱原RDD结构的操作。具体来说，父RDD中的分区可能会被多个子RDD分区使用。因为父RDD中一个分区内的数据会被分割并发送给子RDD的所有分区，因此Shuffle依赖也意味着父RDD与子RDD之间存在着Shuffle过程
上图中P代表RDD中对的多个分区，我么会发现对于Shuffle类操作而言，结果RDD中的每个分区可能会依赖多个父RDD中的分区。需要说明的是，依赖关系是RDD到RDD之间的一种映射关系，是两个RDD之间的依赖，如果在一次操作中设计多个父RDD，也有可能同时包含窄依赖和Shuffle依赖

四、如何区分宽窄依赖

区分RDD之间的依赖为宽依赖还是窄依赖，主要在于父RDD分区数据与子RDD分区数据关系

窄依赖：父RDD的一个分区只会被子RDD的一个分区依赖
宽依赖：父RDD的一个分区会被子RDD的多个分区依赖，设计Shuffle

二、DAG和Stage

一、什么是DAG

在图论中，如果一个有向图无法从任意顶点触发经过若干条边回到该点，则这个图是一个有向无环图(DAG图)。而在Spark中，由于计算过程很多时候会有先后顺序，受制于某些任务必须比另一些任务较早执行的限制，必须对任务进行排队，形成一个队列的任务集合，这个队列的任务集合就是DAG图，每一个定点就是一个任务，每一条边代表一种限制约束（Spark中的依赖关系）

二、DAG如何划分Stage？

Spark中DAG生成过程的重点是对Stage的划分，其划分的依据是RDD的依赖关系，对于不同的依赖关系，高层调度器会进行不同的处理
- 对于窄依赖，RDD之间的数据不需要进行Shuffle，多个数据处理可以在同一台机器的内存中完成，所以窄依赖在Spark中被划分为同一个Stage
- 对于宽依赖，由于Shuffle的存在，必须等到父RDD的Shuffle处理完成后，才能开始接下来的计算，所以会在此处进行Stage的切分
在Spark中，DAG生成的流程关键在于回溯，在程序提交后，高层调度器将所有的RDD看成是一个Stage，然后对此Stage进行从后往前的回溯，遇到Shuffle就断开，遇到窄依赖，则归并到同一个Stage。的能到所有的步骤回溯完成，便生成一个DAG图
为什么要划分Stage？–并行计算
- 一个复杂的业务逻辑如果有shuffle，那么就意味着前面阶段产生结果后，才能执行下一个阶段，即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle进行划分（也就是按照宽依赖进行划分），就可以将一个DAG划分成多个Stage/阶段，在同一个Stage中，会有多个算子操作，可以形成一个pipeline流水线，流水线内的多个平行的分区可以并行执行
- pipeline：HDFS----textRDD----splitRDD----tupleRDD

三、Spark Shuffle

一、Spark的Shuffle简介

Spark在DAG调度阶段会将一个Job划分为多个Stage，上游Stage做map工作，下游Stage做reduce工作，其本质上还是MapReduce计算框架。Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化和反序列化、跨节点网络IO以及磁盘读写IO等
Spark的Shuffle分为Write和Read两个阶段，分属于两个不同的Stage，前者是Parent Stage的最后一步，后者是Child Stage的第一步
执行Shuffle的主体是Stage中的并发任务，这些任务分ShuffleMapTask和ResultTask两种，ShuffleMapTask要进行Shuffle，ResultTask负责返回计算结果，一个Job中只有最后的Stage采用ResultTask，其他的均为ShuffleMapTask。如果要按照map端和reduce端来分析的话，ShuffleMapTask可以即是map端任务，又是reduce端任务，因为Spark中的Shuffle是可以串行的；ResultTask则只能充当reduce端任务的角色。

四、HashShuffle详解

一、Shuffle阶段划分：

shuffle write：mapper阶段，上一个stage得到最后的结果写出
shuffle read ：reduce阶段，下一个stage拉取上一个stage进行合并

二、未经优化的hashShuffleManager：

HashShuffle是根据task的计算结果的key值的hashcode%ReduceTask来决定放入哪一个区分，这样保证相同的数据一定放入一个分区，Hash Shuffle过程如下：

根据下游的task决定生成几个文件，先生成缓冲区文件在写入磁盘文件，再将block文件进行合并。
未经优化的shuffle write操作所产生的磁盘文件的数量是极其惊人的。

三、经过优化的hashShuffleManager：

在shuffle write过程中，task就不是为下游stage的每个task创建一个磁盘文件了。此时会出现shuffleFileGroup的概念，每个shuffleFileGroup会对应一批磁盘文件，每一个Group磁盘文件的数量与下游stage的task数量是相同的。

四、数量对比

未经优化：
- 上游的task数量：m
- 下游的task数量：n
- 上游的executor数量：k (m>=k)
- 总共的磁盘文件：m*n
优化之后的：
- 上游的task数量：m
- 下游的task数量：n
- 上游的executor数量：k (m>=k)
- 总共的磁盘文件：k*n

五、SortShuffleManager详解

SortShuffleManager的运行机制主要分成两种，一种是普通运行机制，另一种是bypass运行机制。当shuffle write task的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时(默认为200)，就会启用bypass机制。

一、SortShuffle的普通机制

该模式下，数据会先写入一个内存数据结构中(默认5M)，此时根据不同的shuffle算子，可能选用不同的数据结构。如果是reduceByKey这种聚合类的shuffle算子，那么会选用Map数据结构，一边通过Map进行聚合，一边写入内存;如果是join这种普通的shuffle算子，那么会选用Array数据结构，直接写入内存。
接着，每写一条数据进入内存数据结构之后，就会判断一下，是否达到了某个临界阈值。如果达到临界阈值的话，那么就会尝试将内存数据结构中的数据溢写到磁盘，然后清空内存数据结构。
排序
- 在溢写到磁盘文件之前，会先根据key对内存数据结构中已有的数据进行排序。
溢写
- 排序过后，会分批将数据写入磁盘文件。默认的batch数量是10000条，也就是说，排序好的数据，会以每批1万条数据的形式分批写入磁盘文件。
merge
- 一个task将所有数据写入内存数据结构的过程中，会发生多次磁盘溢写操作，也就会产生多个临时文件。最后会将之前所有的临时磁盘文件都进行合并成1个磁盘文件，这就是merge过程。
- 由于一个task就只对应一个磁盘文件，也就意味着该task为Reduce端的stage的task准备的数据都在这一个文件中，因此还会单独写一份索引文件，其中标识了下游各个task的数据在文件中的start offset与end offset。

二、Sort shuffle的bypass机制

bypass运行机制的触发条件如下：
- shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold=200参数的值。
- 不是map combine聚合的shuffle算子(比如reduceByKey有map combie)。
此时task会为每个reduce端的task都创建一个临时磁盘文件，并将数据按key进行hash，然后根据key的hash值，将key写入对应的磁盘文件之中。当然，写入磁盘文件时也是先写入内存缓冲，缓冲写满之后再溢写到磁盘文件的。最后，同样会将所有临时磁盘文件都合并成一个磁盘文件，并创建一个单独的索引文件。
该过程的磁盘写机制其实跟未经优化的HashShuffleManager是一模一样的，因为都要创建数量惊人的磁盘文件，只是在最后会做一个磁盘文件的合并而已。因此少量的最终磁盘文件，也让该机制相对未经优化的HashShuffleManager来说，shuffle read的性能会更好。
而该机制与普通SortShuffleManager运行机制的不同在于：
- 第一，磁盘写机制不同;
- 第二，不会进行排序。也就是说，启用该机制的最大好处在于，shuffle write过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销。

三、总结

SortShuffle也分为普通机制和bypass机制
普通机制在内存数据结构(默认为5M)完成排序，会产生2M个磁盘小文件。
而当shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。或者算子不是聚合类的shuffle算子(比如reduceByKey)的时候会触发SortShuffle的bypass机制，SortShuffle的bypass机制不会进行排序，极大的提高了其性能。

六、Spark Shuffle的配置选项（配置调优）

一、spark 的shuffle调优

主要是调整缓冲的大小，拉取次数重试重试次数与等待时间，内存比例分配，是否进行排序操作等等

二、spark.shuffle.file.buffer

参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小（默认是32K）。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。
调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如64k），从而减少shuffle write过程中溢写磁盘文件的次数，也就可以减少磁盘IO次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。

三、spark.reducer.maxSizeInFlight：

参数说明：该参数用于设置shuffle read task的buffer缓冲大小，而这个buffer缓冲决定了每次能够拉取多少数据。(默认48M)
调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如96m），从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。在实践中发现，合理调节该参数，性能会有1%~5%的提升。

四、spark.shuffle.io.maxRetries and spark.shuffle.io.retryWait：

spark.shuffle.io.maxRetries ：shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表了可以重试的最大次数。（默认是3次）
spark.shuffle.io.retryWait：该参数代表了每次重试拉取数据的等待间隔。（默认为5s）
调优建议：一般的调优都是将重试次数调高，不调整时间间隔。

五、spark.shuffle.memoryFraction：

参数说明：该参数代表了Executor内存中，分配给shuffle read task进行聚合操作内存比例。

六、spark.shuffle.manager

参数说明：该参数用于设置shufflemanager的类型（默认为sort）.Spark1.5x以后有三个可选项：
- Hash：spark1.x版本的默认值，HashShuffleManager
- Sort：spark2.x版本的默认值，普通机制，当shuffle read task 的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数，自动开启bypass 机制

七、spark.shuffle.sort.bypassMergeThreshold

参数说明：当ShuffleManager为SortShuffleManager时，如果shuffle read task的数量小于这个阈值（默认是200），则shuffle write过程中不会进行排序操作。
调优建议：当你使用SortShuffleManager时，如果的确不需要排序操作，那么建议将这个参数调大一些

七、job调度流程

Spark RDD通过其Transactions操作，形成了RDD血缘关系图，即DAG，最后通过Action的调用，触发Job并调度执行
- DAGScheduler负责Stage级的调度，主要是将DAG切分成若干Stages，并将每个Stage打包成TaskSet交给TaskScheduler调度
- TaskScheduler负责Task级的调度，将DAGScheduler给过来的TaskSet按照规定的调度策略分发到Executor上执行，调度过程中SchedulerBackend负责提供可用资源，其中SchedulerBackend有多种实现，分别对接不通的资源管理系统
Spark的任务调度总提来说分两路进行，一路是Stage级的调度，一路是Task级的调度
一个Spark应用程序包括Job、Stage及Task：
- 第一：Job是以Action方法为界，遇到一个Action方法则触发一个Job；
- 第二：Stage是Job的子集，以RDD宽依赖(即Shuffle)为界，遇到Shuffle做一次划分；
- 第三：Task是Stage的子集，以并行度(分区数)来衡量，分区数是多少，则有多少个task

八、Spark并行度

一、资源并行度与数据并行度

在Spark Application运行时，并行度可以从两个方面理解：
- 资源的并行度：由节点数(executor)和cpu数(core)决定的
- 数据的并行度：task的数据，partition大小
task又分为map时的task和reduce(shuffle)时的task；
task的数目和很多因素有关，资源的总core数，spark.default.parallelism参数，spark.sql.shuffle.partitions参数，读取数据源的类型,shuffle方法的第二个参数,repartition的数目等等。
如果Task的数量多，能用的资源也多，那么并行度自然就好。如果Task的数据少，资源很多，有一定的浪费，但是也还好。如果Task数目很多，但是资源少，那么会执行完一批，再执行下一批。所以官方给出的建议是，这个Task数目要是core总数的2-3倍为佳。如果core有多少Task就有多少，那么有些比较快的task执行完了，一些资源就会处于等待的状态。

二、设置Task数量

将Task数量设置成与Application总CPU Core 数量相同（理想情况，150个core，分配150 Task）官方推荐，Task数量，设置成Application总CPU Core数量的2~3倍（150个cpu core，设置task数量为300~500）与理想情况不同的是：有些Task会运行快一点，比如50s就完了，有些Task可能会慢一点，要一分半才运行完，所以如果你的Task数量，刚好设置的跟CPU Core数量相同，也可能会导致资源的浪费，比如150 Task，10个先运行完了，剩余140个还在运行，但是这个时候，就有10个CPU Core空闲出来了，导致浪费。如果设置2~3倍，那么一个Task运行完以后，另外一个Task马上补上来，尽量让CPU Core不要空闲。

三、设置Application的并行度

参数spark.defalut.parallelism默认是没有值的，如果设置了值，是在shuffle的过程才会起作用

if __name__ == '__main__':
    print('PySpark First Program')
    # 输入数据
    data = ["hello", "world", "hello", "world"]
    conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
    conf.set("spark.defalut.parallelism", 4)
    conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    # sc = SparkContext.getOrCreate(conf)
    sc = SparkContext(conf=conf)
    # 将collection的data转为spark中的rdd并进行操作
    rdd = sc.parallelize(data)
    # rdd = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt") \
    #    .flatMap(lambda line: line.split(" "))
    print("rdd numpartitions:", rdd.getNumPartitions())
    # 执行map转化操作以及reduceByKey的聚合操作
    res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
    # 并行度决定了可以同时处理多少个分区
    print("shuffle numpartitions:", res_rdd.getNumPartitions())
    print('停止 PySpark SparkSession 对象')
    sc.stop()

九、Spark中的CombineByKey

combineByKey是Spark中一个比较核心的高级且底层函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等

如下解释下3个重要的函数参数：

createCombiner: V => C ，这个函数把当前的值作为参数，此时我们可以对其做些附加操作(类型转换)并把它返回 (这一步类似于初始化操作)
mergeValue: (C, V) => C，该函数把元素V合并到之前的元素C(createCombiner)上 (这个操作在每个分区内进行)
mergeCombiners: (C, C) => C，该函数把2个元素C合并 (这个操作在不同分区间进行)。

案例一：实现将相同Key的Value进行合并，使用groupBy很容易实现

# -*- coding: utf-8 -*-
# Program function：外部集合转为RDD

from pyspark import SparkConf, SparkContext
import re

# 1-准备环境
conf = SparkConf().setAppName("collection").setMaster("local[*]")
sc = SparkContext(conf=conf)
sc.setLogLevel("WARN")

x = sc.parallelize([("a", 1), ("b", 1), ("a", 2)])
def to_list(a):
    return [a]

def append(a, b):
    a.append(b)
    return a

def extend(a, b):
    a.extend(b)
    return a


print(sorted(x.combineByKey(to_list, append, extend).collect()))
#[('a', [1, 2]), ('b', [1])]

作用
- 对数据集按照 Key 进行聚合
调用
- combineByKey(createCombiner, mergeValue, mergeCombiners, [partitioner], [mapSideCombiner], [serializer])
参数
- createCombiner 将 Value 进行初步转换
- mergeValue 在每个分区把上一步转换的结果聚合
- mergeCombiners 在所有分区上把每个分区的聚合结果聚合
- partitioner 可选, 分区函数
- mapSideCombiner 可选, 是否在 Map 端 Combine
- serializer 序列化器
注意点
- combineByKey 的要点就是三个函数的意义要理解
- groupByKey, reduceByKey 的底层都是 combineByKey

案例二：求平均分的案例代码

# -*- coding: utf-8 -*-
# Program function：外部集合转为RDD

from pyspark import SparkConf, SparkContext
import re

# 1-准备环境
conf = SparkConf().setAppName("collection").setMaster("local[*]")
sc = SparkContext(conf=conf)
sc.setLogLevel("WARN")

x = sc.parallelize([("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)])


# (v)=>(v,1)，得到的是（88,1），因为这是combineByKey是按照key处理value操作，
# acc:(Int,Int)代表的是(88,1),其中acc._1代表的是88，acc._2代表1值，v代表是同为Fred名称的95的数值，
# 所以acc._1+v=88+95,即相同Key的Value相加结果，第三个参数是分区间的相同key的value进行累加，
# 得到Fred的88+95+91，Wilma累加和为93+95+98。
def createCombiner(a):
    return [a, 1]
def mergeValue(a, b):
    return [a[0] + b, a[1] + 1]
def mergeCombiners(a, b):
    return [a[0] + b[0], a[1] + b[1]]
resultKey = x.combineByKey(createCombiner, mergeValue, mergeCombiners)
print(sorted(resultKey.collect()))
# [('Fred', [274, 3]), ('Wilma', [286, 3])]
print(resultKey.map(lambda score: (score[0], int(score[1][0]) / int(score[1][1]))).collect())
# [('Fred', 91.33333333333333), ('Wilma', 95.33333333333333)]
#lambda表达式版本
resultKey = x.combineByKey(lambda x:[x,1], lambda x,y:[x[0]+y,x[1]+1], lambda x,y:[x[0]+y[0],x[1]+y[1]])
print(sorted(resultKey.collect()))

软考高级《系统架构设计师》知识点（十三） Ritchie里其系统架构
系统架构设计软件架构的概念一个程序和计算系统软件体系结构是指系统的一个或者多个结构。结构中包括软件的构件，构件的外部可见属性以及它们之间的相互关系。体系结构并非可运行软件。确切地说，它是一种表达，使软件工程师能够：分析设计在满足所规定的需求方面的有效性：在设计变更相对容易的阶段，考虑体系结构可能的选择方案；降低与软件构造相关联的风险。软件构件简单到可以是程序模块或者面向对象的类，也可以扩充到包含数
PCDN 与边缘计算的结合：未来内容分发的新趋势 yczykjyxgs pcdn 智能路由器
在数字化浪潮中，内容分发面临着前所未有的挑战与机遇。PCDN（P2P内容分发网络）与边缘计算的结合，正逐渐崭露头角，成为未来内容分发的新趋势。PCDN通过P2P技术，利用用户节点的闲置资源进行内容分发，有效减轻了中心服务器的压力，降低了传输成本。然而，在面对实时性要求极高的业务场景时，PCDN仍存在一定局限。边缘计算的出现，为解决这一问题提供了新思路。边缘计算将计算和存储能力下沉到网络边缘，靠近用
云计算、边缘计算与雾计算白小白呀笔记大数据
云计算（数据上传到云端进行处理）云计算(CloudComputing)是一种基于互联网的计算方式，通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。通俗的讲，云是网络、互联网的一种比喻说法，即互联网与建立互联网所需要的底层基础设施的抽象体。“计算”指的是一台足够强大的计算机提供的计算服务（包括各种功能，资源，存储）。“云计算”可以理解为：通过互联网可以使用足够强大的计算机为用户提
java Stream API中的聚合操作 27xixi java java18
聚合操作是指对一组数据进行处理，最终生成一个单一的结果。在编程中，聚合操作通常用于对集合（如列表、数组等）中的元素进行统计、计算或汇总。常见的聚合操作包括求和、求平均值、查找最大值/最小值、计数等。在Java的StreamAPI中，聚合操作是通过终端操作（TerminalOperations）来实现的。以下是一些常见的聚合操作及其用法：1.求和（Sum）对集合中的元素进行求和。示例：求整数列表的和
IIS网站用myssl评级为B级 bigsea76 windows ssl
不光是IIS网站，包括.net使用HttpListener开发的web程序，在默认情况下都会被评为B级。提示为：降级原因：1.没有使用AEAD系列加密套件,降级为B2.没有优先使用FS系列加密套件，降级为B。我现在知道AEAD系列加密套件指的是那些支持认证加密和关联数据（AuthenticatedEncryptionwithAssociatedData）的套件，比如AES-GCM和ChaCha20
PCDN边缘计算小白入门指南神鸟云-Hu 边缘计算人工智能
一、PCDN边缘计算简介PCDN是一种基于P2P技术的边缘计算内容分发网络。它通过挖掘和利用边缘网络中的海量碎片化闲置资源，构建出低成本、高品质的内容分发网络服务。通过集成PCDNSDK（软件开发工具包），可以获得与CDN（ContentDeliveryNetwork，内容分发网络）相当或略高的分发质量，同时显著降低分发成本。PCDN适用于视频点播、直播、大文件下载等业务场景，旨在降低客户的分发成
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来. 人工智能
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来在数字化转型加速的今天，企业新质生产力的核心已从传统资源投入转向技术驱动的效率革命。开源应用凭借其灵活性、成本优势和技术创新力，成为企业实现这一目标的关键引擎。作为开源技术与行业场景化落地的领航者，Websoft9通过企业应用平台（EPP）、AI智能引擎与知识库系统三位一体的解决方案，助力企业快速构建新一代生产力工具，实
mysql安装启动报错_mysql安装/启动报错汇总 weixin_29179583 mysql安装启动报错
2016/9/6补充初始化报错：#/usr/local/mysql/scripts/mysql_install_db--user=mysql--basedir=/usr/local/mysql/--datadir=/data/mysqldb/InstallingMySQLsystemtables...2016-09-0617:29:160[Warning]TIMESTAMPwithimplicit
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
从图形处理到通用计算的进化之路绿算技术 GPU架构介绍科技 gpu算力
图形处理单元，作为现代计算机中不可或缺的一部分，已经从最初的图形渲染专用处理器，发展成为强大的并行计算引擎，广泛应用于人工智能、科学计算、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。GPU架构的演变：从固定功能到可编程流水线早期的GPU采用固定功能流水线架构，专为图形渲染任务而设计。这种架构将图形渲染流程划分为一系列固定的阶段，例如顶点处理、光栅化、纹
79.HarmonyOS NEXT 手势操作模型详解：移动、缩放与旋转的实现原理 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT手势操作模型详解：移动、缩放与旋转的实现原理1.模型概述这组模型类主要用于处理手势交互中的各种变换操作，包括：位置控制（PositionModel）偏移计算（OffsetModel）旋转处理（RotateModel）缩放控制（Scale
基于oracle linux的 DBI/DBD 标准化安装文档(二) 文档
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
STM32定时器、PWM周期、频率、占空比的计算你也喜欢吃香菜嘛 stm32 嵌入式硬件单片机
频率和周期：PWM的频率=时钟频率/（自动重装值+1）*（预分频值+1）STM32的最大时钟频率为72MHz=72000000Hz例PWM频率=72000000/（100-1+1）*（720-1+1）=1000Hz周期=1/f=1/1000=1ms占空比：占空比=CCR/(ARR+1)当Compare=50时，改PWM的占空比为50/（100-1+1）=50%
树莓派3B+刷了Pi OS 12(Debian12 bookworm)后软件源更换清华（备忘） RockyCoder windows
每次折腾树莓派重刷系统，都要面临一次更新国内软件源的过程。所以从清华那边贴过来备份以下过程。树莓派软件源的官方帮助网址raspbian|镜像站使用帮助|清华大学开源软件镜像站|TsinghuaOpenSourceMirrorRaspbian简介Raspbian是专门用于ARM卡片式计算机RaspberryPi®“树莓派”的操作系统，其基于Debian开发，针对RaspberryPi硬件优化。Ras
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
计算机系统04 - Unicode 和 UTF-8 是小崔啊 #计算机组成原理计算机组成原理
Unicode和UTF-8文章目录Unicode和UTF-8什么是字符编码什么是字符？什么是字符集认识Unicode字符集为什么要使用Unicode字符集Unicode编码标准Unicode编码格式UTF-8编码UTF的字节序问题总结什么是字符编码什么是字符？字符（Character）是对文字和符号的总称，例如汉字、拉丁字母、emoji都是字符。在计算机中，一个字符由2部分组成：1、字符的编码：字
uni-app移动端应用开发底部安全区域适配向凡而生 uni-app 前端
针对IOS机型，底部安全区域是系统动态计算的，所以我们也需要动态获取底部安全区域来适配在uniapp的manifest.json，打开源码视图，对需要适配的页面添加如下配置"styles":{"safeArea":{"bottom":"auto"}}如果使用CSS。一种常见的方法是使用padding-bottom或margin-bottom属性，并使用vh-unit单位来确保底部安全距离不受屏幕尺
Python——文件读取一颗小松松 python 开发语言
Python可以读取不同格式的文件，下面简单来介绍一下：1、使用read_excel或read_csv读取文件，若在路径前加r，使用“\”importpandasaspd#在路径前加r,使用“\”df=pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')#导入.csv文件，以“，”为分隔符data=pd.read_csv(r'C:\Users\merit
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
带你拿捏哈希表ん贤算法哈希算法算法散列表 c++java 数据结构
向Carl老师学习，用最简单的话，讲述最复杂的知识。(•̀ω•́)✧什么是哈希表？灵魂一问，这是正常人看到后，都会产生的疑问，就好比你是谁。初学者可以将其看成一个数组！大家都知道数组是怎么存数据的！通过下标(0~N，是一串连续的数字)，将对应数据为其赋值。哈希表大致就是这样存储的。既然如此，那为啥它不叫数组，而叫哈希表(⊙_⊙)？因为哈希表计算计算下标的时候，是通过一个名为哈希函数的工具，将key
便捷搞定计算机名、IP 与 Mac 地址修改及网卡问题的软件开开心心就好 tcp/ip macos 网络协议 android pdf 软件工程智能手机
今天要给大家推荐一款超实用的小软件——“IPtool”。别看它体积小巧，还不到1M，而且是绿色单文件版，无需复杂安装，使用起来却相当给力，能帮我们轻松搞定一些日常网络设置中的小麻烦。在修改IP地址这件事上，以往我们得在系统设置里，一步步打开“网络和Internet”相关选项进行操作，过程较为繁琐。但有了“IPtool”就不一样了，操作变得格外便捷。就拿我自己举例，原本我的IP地址是82，打开这款软
vue中如何动态的增减组件的类名（class）上趣工作室 vue2.x vue3.x vue.js 前端 javascript
在Vue.js2中，你可以通过计算属性或直接在模板中使用v-bind:class来动态地改变组件的类名。下面是一个简单的示例，说明如何在某个条件被复核后为组件添加一个selected类（此处为组件添加一个默认的类（例如radio）以及根据某个条件来添加selected类，你可以在绑定类的时候使用数组语法，以便同时添加多个类）示例代码切换条件我是一个可选择的组件exportdefault{data(
Vue2 中使用 UniApp 时，生命周期钩子函数总结上趣工作室 vue2.x uniapp 前端
在Vue2中使用UniApp时，生命周期钩子函数是一个重要的概念。它允许开发者在特定的时间点运行代码，管理组件的生命周期。以下是Vue2中UniApp常用的生命周期钩子函数总结：1.beforeCreate说明:组件实例刚被创建，此时数据观测和事件配置尚未开始。用途:很少直接使用，通常用于初始化一些状态，但在此时无法访问data、computed或methods。2.created4.mounte
列表推导式_Python教程曹操贪慕小乔 python基础 python numpy 算法
内容摘要Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、文章正文Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、集合推导式和字典推导式。我们先着重来介绍最常使用的列
从零开始探索C++游戏开发：性能、控制与无限可能南玖yy C++游戏开发 c
一、为何选择C++开发游戏？在虚幻引擎5渲染的次世代画面背后，在《巫师3》的庞大开放世界中，在《毁灭战士》的丝滑60帧战斗里，C++始终扮演着核心技术角色。这门诞生于1983年的语言，至今仍占据着游戏引擎开发语言使用率榜首（根据2023年GameDev调查数据）。其核心竞争力体现在：硬件级控制：手动内存管理允许精确控制资源分配，这对需要管理数百万多边形和4K纹理的3A游戏至关重要零成本抽象：模板元
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
Hive MR & Spark & Yarn参数优化总结大数据侠客 hive相关问题汇总及解决 hive spark mr yarn 参数优化
一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri
518.零钱兑换II 水代码的程序猿力扣算法
中文题目力扣题目链接(opensnewwindow)给定不同面额的硬币和一个总金额。写出函数来计算可以凑成总金额的硬币组合数。假设每一种面额的硬币有无限个。示例1:输入:amount=5,coins=[1,2,5]输出:4解释:有四种方式可以凑成总金额:5=55=2+2+15=2+1+1+15=1+1+1+1+1示例2:输入:amount=3,coins=[2]输出:0解释:只用面额2的硬币不能凑
AI与SDN结合：智能网络的未来之路不想加班的码小牛人工智能网络 ai
一、引言“网络正在从‘被动响应’走向‘主动思考’。”随着云计算、5G和物联网的爆发式增长，传统网络架构面临灵活性不足、运维成本高等挑战。SDN（软件定义网络）通过控制与转发分离革新了网络管理方式，而AI的引入让SDN从“自动化”迈向“智能化”。二、AI+SDN的技术背景1.1为什么需要AI赋能SDN？传统SDN痛点AI的解决能力流量策略依赖人工规则动态学习流量模式，实时优化策略故障定位耗时（如网络
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri