简之

『pyspark』三：RDD数据处理

1、使用Pyspark

1.1 Linking with Spark

from pyspark import SparkContext, SparkConf

1.2 Initializing Spark

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

2、RDD

2.1 读取数据

2.1.1 parallelize

rdd = sc.parallelize([('Amber', 22), ('Alfred', 23), ('Skye', 4), ('Albert', 12)])
rdd.collect()
# [('Amber', 22), ('Alfred', 23), ('Skye', 4), ('Albert', 12)]

2.1.2 External Datasets

distFile = sc.textFile("./test.txt")
distFile.collect()
# ["'1001','男,25,教师'", "'1002','女,27,医生'", "'1003','男,32,程序员'"]

2.1.3 RDD/DataFrame互相转化

（1）RDD转换为DataFrame

from pyspark.sql.types import *

schema = StructType([StructField('id', StringType()), StructField('sex', StringType()),
                     StructField('age', StringType()), StructField('position', StringType())])
df0 = sqlContext.createDataFrame(rdd)
df0.show()
+----+---+---+------+
|  _1| _2| _3|    _4|
+----+---+---+------+
|1001| 男| 25|  教师|
|1002| 女| 27|  医生|
|1003| 男| 32|程序员|
+----+---+---+------+

df1 = sqlContext.createDataFrame(rdd, schema)
df1.show()
+----+---+---+--------+
|  id|sex|age|position|
+----+---+---+--------+
|1001| 男| 25|    教师|
|1002| 女| 27|    医生|
|1003| 男| 32|  程序员|
+----+---+---+--------+

（2）DataFrame转换为RDD

rdd = df1.rdd
rdd.collect()
# [Row(id='1001', sex='男', age='25', position='教师'),
#  Row(id='1002', sex='女', age='27', position='医生'),
#  Row(id='1003', sex='男', age='32', position='程序员')]
 
rdd.map(lambda x: [x[i] for i in range(4)]).collect()
# [['1001', '男', '25', '教师'],
#  ['1002', '女', '27', '医生'],
#  ['1003', '男', '32', '程序员']]

2.2 RDD操作

2.2.1 Basic

rdd = distFile.map(lambda x:x.replace("'", "")).map(lambda x: x.split(","))
rdd.collect()
# [['1001', '男', '25', '教师'],
#  ['1002', '女', '27', '医生'],
#  ['1003', '男', '32', '程序员']]

2.2.2 Passing Functions to Spark

def myFunc(s):
    x = s.replace("'", "")
    return x.split(",")

rdd = distFile.map(myFunc)
rdd.collect()
# [['1001', '男', '25', '教师'],
#  ['1002', '女', '27', '医生'],
#  ['1003', '男', '32', '程序员']]

2.2.3 Working with Key-Value Pairs

大部分spark操作在RDD上都是work的，但是有少量特征操作只能作用于key-value pairs RDD，最常见的是分布式shuffle操作，例如：按key对元素进行分组（ grouping）或聚合（aggregating）。

这些操作在包含内置Python元组（如(1,2)）的rdd上工作，例如：

lines = sc.textFile("data.txt")
pairs = lines.map(lambda s: (s, 1))
counts = pairs.reduceByKey(lambda a, b: a + b)
pairs.collect()
# [('a', 1), ('b', 1), ('c', 1), ('a', 1), ('c', 1), ('b', 1), ('a', 1)]
counts.collect()
# [('b', 2), ('a', 3), ('c', 2)]

Spark支持两个类型（算子）操作：Transformation和Action。

2.2.4 transformation

主要做的是就是将一个已有的RDD生成另外一个RDD。Transformation具有lazy特性（延迟加载）。Transformation算子的代码不会真正被执行。只有当我们的程序里面遇到一个action算子的时候，代码才会真正的被执行。这种设计让Spark更加有效率地运行。

（1）map

x = sc.parallelize([1,2,3])
y = x.map(lambda x: (x, x**2))
# 从远程集群拉取数据到本地,经网络传输.如果数据量较大时，尽量不要用collect函数，可能导致Driver端内存溢出。
print(x.collect())
# [1, 2, 3]
print(y.collect())
# [(1, 1), (2, 4), (3, 9)]

（2）flatmap

x = sc.parallelize([1,2,3])
y1 = x.flatMap(lambda x : [(x, 100*x)])
y2 = x.flatMap(lambda x : (x, 100*x, x**2))
print(x.collect())
# [1, 2, 3]
print(y1.collect())
# [(1, 100), (2, 200), (3, 300)]
print(y2.collect())
# [1, 100, 1, 2, 200, 4, 3, 300, 9]

（3）mapPartitions

map是对rdd中的每一个元素进行操作，而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。

如果在map过程中需要频繁创建额外的对象（例如将rdd中的数据通过jdbc写入数据库，map需要为每个元素创建一个链接，而mapPartition为每个partition创建一个链接），则mapPartitions效率比map高的多。

如果是普通的map，比如一个partition中有1万条数据，那么你的function要执行和计算1万次。

使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据，只要执行一次就可以了，性能比较高。

x = sc.parallelize([1,2,3], 2) # 2 表示分区的个数
def f(iterator):yield sum(iterator)
y = x.mapPartitions(f)
print(x.collect())
# [1, 2, 3]
print(y.collect())
# [1, 5]

# 将RDD中每一个分区中类型为T的元素转换成Array[T]，这样每一个分区就只有一个数组元素。
print(x.glom().collect())
# [[1], [2, 3]]
print(y.glom().collect())
# [[1], [5]]

如果是普通的map操作，一次function的执行就处理一条数据，那么如果内存不够用的情况下，比如处理了1千条数据，这个时候内存不够了，那么就可以将已经处理完的1千条数据从内存里面垃圾回收掉，或者用其他方法，腾出空间来。

所以说普通的map操作通常不会导致内存的OOM异常。

但是MapPartitions操作，对于大量数据来说，比如一个partition有100万条数据，一次传入一个function以后，那么可能一下内存就不够了，但是又没有办法去腾出内存空间来，可能就OOM，内存溢出。

（4）mapPartitionsWithIndex

mapPartitionsWithIndex相比于mapPartitions多了一个index索引，每次调用时就会把分区的“编号”穿进去。

x = sc.parallelize([1,2,3], 2)
def f(partitionIndex, iterator): yield(partitionIndex, sum(iterator))
y = x.mapPartitionsWithIndex(f)
print(x.glom().collect())
# [[1], [2, 3]]
print(y.glom().collect())
# [[(0, 1)], [(1, 5)]]

（6）filter

x = sc.parallelize([1,2,3])
y = x.filter(lambda x: x % 2 == 1) # 选择奇数
print(x.collect())
# [1, 2, 3]
print(y.collect())
# [1, 3]

（6）getNumPartitions

x = sc.parallelize([1,2,3], 2) # 2 表示分区的个数
y = x.getNumPartitions()
print(x.glom().collect())
# [[1], [2, 3]]
print(y)
# 2

（7）sample

x = sc.parallelize(range(7))
ylist = [x.sample(withReplacement=False, fraction=0.7) for i in range(5)]
print('x = ' + str(x.collect()))
for cnt,y in zip(range(len(ylist)), ylist):
    print('sample:' + str(cnt) + ' y = ' +  str(y.collect()))
# x = [0, 1, 2, 3, 4, 5, 6]
# sample:0 y = [0, 1, 2, 3, 4]
# sample:1 y = [0, 1, 2, 4, 5]
# sample:2 y = [1, 2, 3, 4, 5]
# sample:3 y = [0, 1, 2, 4, 5]
# sample:4 y = [0, 2, 6]

（8）union

x = sc.parallelize(['A', 'B', 'C'])
y = sc.parallelize(['d', 'A', 'T'])
z = x.union(y)
print(x.collect())
print(y.collect())
print(z.collect())
# ['A', 'B', 'C']
# ['d', 'A', 'T']
# ['A', 'B', 'C', 'd', 'A', 'T']

（9）intersection

x = sc.parallelize(['A','A','B'])
y = sc.parallelize(['A','C','D'])
z = x.intersection(y)
print(x.collect())
print(y.collect())
print(z.collect())
# ['A', 'A', 'B']
# ['A', 'C', 'D']
# ['A']

（9）subtract

x = sc.parallelize(['A','A','B','G'])
y = sc.parallelize(['A','C','D'])
z = x.subtract(y) # 返回在x中出现，但未在y中出现的元素
print(x.collect())
print(y.collect())
print(z.collect())
# ['A', 'A', 'B', 'G']
# ['A', 'C', 'D']
# ['B', 'G']

（10）distinct

去掉重复数据

x = sc.parallelize(['A', 'B', 'C', 'A', 'A'])
y = x.distinct()
print(x.collect())
print(y.collect())
# ['A', 'B', 'C', 'A', 'A']
# ['C', 'A', 'B']

（10）glom

将RDD中每一个分区中类型为T的元素转换成Array[T]，这样每一个分区就只有一个数组元素。

x = sc.parallelize(['C', 'B', 'A'], 2)
y = x.glom()
print(x.collect())
print(y.collect())
# ['C', 'B', 'A']
# [['C'], ['B', 'A']]

（11）sortByKey

函数能够完成对(key,value)格式的数据进行排序，它是根据key进行排序。

x = sc.parallelize([('B',1),('A',2),('C',3)])
y = x.sortByKey()
print(x.collect())
print(y.collect())
# [('B', 1), ('A', 2), ('C', 3)]
# [('A', 2), ('B', 1), ('C', 3)]

（11）sortBy

根据value进行排序。

x = sc.parallelize([('B',4),('A',2),('C',3)])
y = x.sortBy(lambda x : x[1], False) # False 降序排列
print(x.collect())
print(y.collect())
# [('B', 4), ('A', 2), ('C', 3)]
# [('B', 4), ('C', 3), ('A', 2)]

x = sc.parallelize(['Cat','Apple','Bat'])
def keyGen(val): return val[0] # 按照首字母排序
y = x.sortBy(keyGen)
print(y.collect())
# ['Apple', 'Bat', 'Cat']

（14）groupBy

groupBy算子接收一个函数，这个函数返回的值作为key，然后通过这个key来对里面的元素进行分组。

x = sc.parallelize([1,2,3])
y = x.groupBy(lambda x: 'A' if (x % 2 == 1) else 'B')
print(x.collect())
print([(j[0],[i for i in j[1]]) for j in y.collect()]) 
# [1, 2, 3]
# [('A', [1, 3]), ('B', [2])]

（14）groupByKey

该函数用于将RDD[K,V]中每个K对应的V值，合并到一个集合Iterable[V]中，

参数numPartitions用于指定分区数；

参数partitioner用于指定分区函数；

x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])
print(sorted(x.groupByKey().mapValues(len).collect()))
print(sorted(x.groupByKey().mapValues(list).collect()))
# [('A', 3), ('B', 2)]
# [('A', [3, 4, 5]), ('B', [1, 2])]

（12）reduceByKey

用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义。

x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])
y = x.reduceByKey(lambda x, y : x + y)
print(x.collect())
print(y.collect())
# [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)]
# [('B', 3), ('A', 12)]

（12）reduceByKeyLocally

该函数将RDD[K,V]中每个K对应的V值根据映射函数来运算，运算结果映射到一个Map[K,V]中，而不是RDD[K,V]。

x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])
y = x.reduceByKeyLocally(lambda x, y : x + y)
print(x.collect())
print(y)
# [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)]
# {'B': 3, 'A': 12}

注意： reduceByKey与reduceByKeyLocally的返回值不同，一个是RDD，一个是 map。

（13）aggregateByKey

rdd.aggregateByKey(zerovalue, seqFunc, combFunc) 其中第一个函数是初始值; seqFunc代表combine的聚合逻辑,每一个mapTask的结果的聚合成为combine; combFunc reduce端大聚合的逻辑

aggregateByKey函数对PairRDD中相同Key的值进行聚合操作，在聚合过程中同样使用了一个中立的初始值。

和aggregate函数类似，aggregateByKey返回值的类型不需要和RDD中value的类型一致。因为aggregateByKey是对相同Key中的值进行聚合操作，所以aggregateByKey函数最终返回的类型还是Pair RDD，对应的结果是Key和聚合好的值；

aggregate函数直接是返回非RDD的结果，这点需要注意。

x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])
zeroValue = []
mergeVal = (lambda aggregated, el : aggregated + [(el, el**2)])
mergeComb = (lambda agg1, agg2 : agg1 + agg2)
y = x.aggregateByKey(zeroValue, mergeVal, mergeComb)
print(x.collect())
print(y.collect())
# [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)]
# [('B', [(1, 1), (2, 4)]), ('A', [(3, 9), (4, 16), (5, 25)])]

（16）partitionBy

partitionBy根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区。

repartition默认采用HashPartitioner分区，自己设计合理的分区方法(比如数量比较大的key 加个随机数，随机分到更多的分区，这样处理数据倾斜更彻底一些)

x = sc.parallelize([(0, 1), (1, 2), (1, 3), (0, 2), (3, 5), (5, 6)], 2)
y1 = x.partitionBy(numPartitions=6, partitionFunc=lambda x : x)
print(x.glom().collect())
print(y1.glom().collect())
# [[(0, 1), (1, 2), (1, 3)], [(0, 2), (3, 5), (5, 6)]]
# [[(0, 1), (0, 2)], [(1, 2), (1, 3)], [], [(3, 5)], [], [(5, 6)]]

（16）combineByKey

combineByKey()是最为常用的基于键进行聚合的函数。大多数基于键聚合的函数都是用它实现的。和aggregate()一样，combineByKey()可以让用户返回与输入数据的类型不同的返回值。

# 合并
x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])
createCombiner = (lambda el : [(el, el ** 2)])
mergeVal = (lambda aggregated, el : aggregated + [(el, el ** 2)])
mergeComb = (lambda agg1, agg2 : agg1 + agg2)
y = x.combineByKey(createCombiner, mergeVal, mergeComb)
print(x.collect())
print(y.collect())
# [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)]
# [('B', [(1, 1), (2, 4)]), ('A', [(3, 9), (4, 16), (5, 25)])]

（15）join

内连接，两个表具有相同的 key 时进行连接。

x = sc.parallelize([('C',4),('B',3),('A',2),('A',1)])
y = sc.parallelize([('A',8),('B',7),('A',6),('D',5)])
z = x.join(y)
print(x.collect())
print(y.collect())
print(z.collect())
# [('C', 4), ('B', 3), ('A', 2), ('A', 1)]
# [('A', 8), ('B', 7), ('A', 6), ('D', 5)]
# [('B', (3, 7)), ('A', (2, 8)), ('A', (2, 6)), ('A', (1, 8)), ('A', (1, 6))]

（16）leftOuterJoin

左连接

x = sc.parallelize([('C',4),('B',3),('A',2),('A',1)])
y = sc.parallelize([('A',8),('B',7),('A',6),('D',5)])
z = x.leftOuterJoin(y)
print(x.collect())
print(y.collect())
print(z.collect())
# [('C', 4), ('B', 3), ('A', 2), ('A', 1)]
# [('A', 8), ('B', 7), ('A', 6), ('D', 5)]
# [('B', (3, 7)), ('A', (2, 8)), ('A', (2, 6)), ('A', (1, 8)), ('A', (1, 6)), ('C', (4, None))]

（16）rightOuterJoin

右连接

x = sc.parallelize([('C',4),('B',3),('A',2),('A',1)])
y = sc.parallelize([('A',8),('B',7),('A',6),('D',5)])
z = x.rightOuterJoin(y)
print(x.collect())
print(y.collect())
print(z.collect())
# [('C', 4), ('B', 3), ('A', 2), ('A', 1)]
# [('A', 8), ('B', 7), ('A', 6), ('D', 5)]
# [('B', (3, 7)), ('A', (2, 8)), ('A', (2, 6)), ('A', (1, 8)), ('A', (1, 6)), ('D', (None, 5))]

（16）fullOuterJoin

全连接

x = sc.parallelize([('C',4),('B',3),('A',2),('A',1)])
y = sc.parallelize([('A',8),('B',7),('A',6),('D',5)])
z = x.fullOuterJoin(y)
print(x.collect())
print(y.collect())
print(z.collect())
# [('C', 4), ('B', 3), ('A', 2), ('A', 1)]
# [('A', 8), ('B', 7), ('A', 6), ('D', 5)]
# [('B', (3, 7)), ('A', (2, 8)), ('A', (2, 6)), ('A', (1, 8)), ('A', (1, 6)), ('C', (4, None)), ('D', (None, 5))]

（16）cogroup

将多个RDD中同一个Key对应的Value组合到一起。

x = sc.parallelize([('C',4),('B',(3,3)),('A',2),('A',(1,1))])
y = sc.parallelize([('A',8),('B',7),('A',6),('D',(5,5))])
z = x.cogroup(y)
print(x.collect())
print(y.collect())
for key,val in list(z.collect()):
    print(key, [list(i) for i in val])
# [('C', 4), ('B', (3, 3)), ('A', 2), ('A', (1, 1))]
# [('A', 8), ('B', 7), ('A', 6), ('D', (5, 5))]
# B [[(3, 3)], [7]]
# A [[2, (1, 1)], [8, 6]]
# C [[4], []]
# D [[], [(5, 5)]]

（17）cartesian

返回两个RDD的笛卡尔集.如果两个RDD中某一个RDD的结果集为空集时,这个结果集也是一个空集。

x = sc.parallelize(['A', 'B'])
y = sc.parallelize(['C', 'D'])
z = x.cartesian(y)
print(x.collect())
print(y.collect())
print(z.collect())
# ['A', 'B']
# ['C', 'D']
# [('A', 'C'), ('A', 'D'), ('B', 'C'), ('B', 'D')]

（18）pipe

将由管道元素创建的RDD返回到分叉的外部进程。

sc.parallelize(['1', '2', '', '3']).pipe('cat').collect()
# ['1', '2', '', '3']

x = sc.parallelize(['A', 'Ba', 'C', 'AD'])
y = x.pipe('grep -i "A"') # 忽略字符大小写的差别。
print(x.collect())
print(y.collect())
# ['A', 'Ba', 'C', 'AD']
# ['A', 'Ba', 'AD']
x = sc.parallelize(['A', 'Ba', 'Cb', 'AD', 'ac'])
y = x.pipe('grep -i "b"') # 忽略字符大小写的差别。
print(x.collect())
print(y.collect())
# ['A', 'Ba', 'Cb', 'AD', 'ac']
# ['Ba', 'Cb']

（19）coalesce

def coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T]

该函数用于将RDD进行重分区，使用HashPartitioner。

第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false。

当spark程序中，存在过多的小任务的时候，可以通过 RDD.coalesce方法，收缩合并分区，减少分区的个数，减小任务调度成本。

# shuffle=False，新的分区数小于原来的分区数，分区
x = sc.parallelize([1,2,3,4,5],2)
y = x.coalesce(numPartitions=1, shuffle=False)
print(x.glom().collect())
print(y.glom().collect())
# [[1, 2], [3, 4, 5]]
# [[1, 2, 3, 4, 5]]

# shuffle=False，新的分区数大于原来的分区数，不分区
x = sc.parallelize([1,2,3,4,5],2)
y = x.coalesce(numPartitions=3, shuffle=False)
print(x.glom().collect())
print(y.glom().collect())
# [[1, 2], [3, 4, 5]]
# [[1, 2], [3, 4, 5]]

# shuffle=True，新的分区数小于原来的分区数，分区
x = sc.parallelize([1,2,3,4,5],2)
y = x.coalesce(numPartitions=1, shuffle=True)
print(x.glom().collect())
print(y.glom().collect())
# [[1, 2], [3, 4, 5]]
# [[1, 2, 3, 4, 5]]

# shuffle=True，新的分区数大于原来的分区数，分区
x = sc.parallelize([1,2,3,4,5],2)
y = x.coalesce(numPartitions=3, shuffle=True)
print(x.glom().collect())
print(y.glom().collect())
# [[1, 2], [3, 4, 5]]
# [[], [1, 2, 3, 4, 5], []]

如果shuff为false时，如果传入的参数大于现有的分区数目，RDD的分区数不变，也就是说不经过shuffle，是无法将RDDde分区数变多的。

我们常认为coalesce不产生shuffle会比repartition 产生shuffle效率高，而实际情况往往要根据具体问题具体分析，coalesce效率不一定高，有时还有大坑，大家要慎用。

coalesce 与 repartition 他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的实现（假设源RDD有N个分区，需要重新划分成M个分区）

如果N
如果N>M并且N和M相差不多，(假如N是1000，M是100)那么就可以将N个分区中的若干个分区合并成一个新的分区，最终合并为M个分区，这时可以将shuff设置为false（coalesce实现），如果M>N时，coalesce是无效的，不进行shuffle过程，父RDD和子RDD之间是窄依赖关系，无法使文件数(partiton)变多。
总之如果shuffle为false时，如果传入的参数大于现有的分区数目，RDD的分区数不变，也就是说不经过shuffle，是无法将RDD的分区数变多的
如果N>M并且两者相差悬殊，这时你要看executor数与要生成的partition关系，如果executor数 <= 要生成partition数，coalesce效率高，反之如果用coalesce会导致(executor数-要生成partiton数)个excutor空跑从而降低效率。如果在M为1的时候，为了使coalesce之前的操作有更好的并行度，可以将shuffle设置为true。

（20）repartition

def repartition(numPartitions: Int): RDD[T]

该函数其实就是coalesce函数第二个参数为true的实现。

x = sc.parallelize([1,2,3,4,5],2)
y = x.repartition(numPartitions=3)
print(x.glom().collect())
print(y.glom().collect())
# [[1, 2], [3, 4, 5]]
# [[], [1, 2, 3, 4, 5], []]

（20）zip

def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]

zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。

x = sc.parallelize(['B','A','A'])
y = sc.parallelize(range(0,3)) 
z = x.zip(y)
print(x.collect())
print(y.collect())
print(z.collect())
# ['B', 'A', 'A']
# [0, 1, 2]
# [('B', 0), ('A', 1), ('A', 2)]

2.2.5 action

触发代码的运行，我们一段spark代码里面至少需要有一个action操作。

（1）reduce

reduce先在各分区中做操作，随后进行整合。

reduce返回值类型和参加计算类型一样。

map的主要作用就是替换，reduce的主要作用就是计算。

x = sc.parallelize([1,2,3])
y = x.reduce(lambda obj, accumulated: obj + accumulated) # 求和
print(x.collect())
print(y)
# [1, 2, 3]
# 6

（2）collect

数据量比较大的时候，尽量不要使用collect函数，因为这可能导致Driver端内存溢出问题。

x = sc.parallelize([1,2,3])
y = x.collect()
print(x)  # distributed
print(y)  # not distributed
# ParallelCollectionRDD[110] at parallelize at PythonRDD.scala:540
# [1, 2, 3]

collect操作的特点是从远程集群是拉取数据到本地，经过网络传输，如果数据量大的话，会给网络造成很大的压力，和foreach的区别是，foreach是在远程集群上遍历rdd中的元素，如果是在本地的话，差别不大。建议使用foreach，不要用collect。

（3）max/min/sum/count/mean/variance/stdev/sampleStdev/sampleVariance

x = sc.parallelize([2,3,4])
y1 = x.max()
y2 = x.min()
y3 = x.sum()
y4 = x.count()
y5 = x.mean()
print(y1,y2,y3,y4,y5)
# 4 2 9 3 3.0

（4）first

返回RDD中的第一个元素，不排序

x = sc.parallelize([1, 3, 1, 2, 3])
y = x.first()
print(x.collect())
print(y)
# [1, 3, 1, 2, 3]
# 1

（5）take

take用于获取RDD中从0到num-1下标的元素，不排序。

x = sc.parallelize([1, 3, 1, 2, 3])
y = x.take(num=3)
print(x.collect())
print(y)
# [1, 3, 1, 2, 3]
# [1, 3, 1]

（6）foreach

foreach用于遍历RDD,将函数f应用于每一个元素。

但要注意，如果对RDD执行foreach，只会在Executor端有效，而并不是Driver端。

x = sc.parallelize([1,2,3])
def f(x): print(x)
x.foreach(f)
# 打印到CLI，不是Jupyter Notebook

（7）countByKey

countByKey用于统计RDD[K,V]中每个K的数量。返回一个map，map的 key 是RDD的K，value是K出现的次数。

x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)])
y = x.countByKey()
print(x.collect())
print(y)
# [('B', 1), ('B', 2), ('A', 3), ('A', 4), ('A', 5)]
# defaultdict(, {'B': 2, 'A': 3})

（8）countByValue

统计一个RDD中各个value的出现次数。返回一个map，map的key是元素的值，value是出现的次数。

x = sc.parallelize([1, 3, 1, 2, 3])
y = x.countByValue()
print(x.collect())
print(y)
# [1, 3, 1, 2, 3]
# defaultdict(, {1: 2, 3: 2, 2: 1})

常用的 68 个函数

2.3 WordCount

2.3.1 实例

# 读取文件，生成RDD
file = sc.textFile('./hello.txt')
# RDD转化，单词计数
wordCount = file.flatMap(lambda x: x.split()).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)
wordCount.collect()
# [('jump', 4), ('i', 2), ('you', 2)]

# 按照单词出现的次数 降序排序
sortedRDD = wordCount.sortBy(lambda x: x[1], True)
sortedRDD.collect()
# [('i', 2), ('you', 2), ('jump', 4)]

# 保存最终结果
sortedRDD.saveAsTextFile('./wordCount.txt')

默认保存为两个文件：

分别存储如下：

# part-00000
('i', 2)
('you', 2)
# part-00001
('jump', 4)

2.3.2 WordCount执行过程图

2.4 RDD的宽依赖和窄依赖

2.4.1 RDD依赖关系的本质内幕

由于RDD是粗粒度的操作数据集，每个Transformation操作都会生成一个新的RDD，所以RDD之间就会形成类似流水线的前后依赖关系；RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。如图所示显示了RDD之间的依赖关系。

从图中可知：

窄依赖：是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用，例如map、filter、union等操作都会产生窄依赖；（独生子女）
宽依赖：是指一个父RDD的Partition会被多个子RDD的Partition所使用，例如groupByKey、reduceByKey、sortByKey等操作都会产生宽依赖；（超生）

需要特别说明的是对join操作有两种情况：

（1）图中左半部分join：如果两个RDD在进行join操作时，一个RDD的partition仅仅和另一个RDD中已知个数的Partition进行join，那么这种类型的join操作就是窄依赖，例如图1中左半部分的join操作(join with inputs co-partitioned)；

（2）图中右半部分join：其它情况的join操作就是宽依赖,例如图1中右半部分的join操作(join with inputs not co-partitioned)，由于是需要父RDD的所有partition进行join的转换，这就涉及到了shuffle，因此这种类型的join操作也是宽依赖。

总结：

在这里我们是从父RDD的partition被使用的个数来定义窄依赖和宽依赖，因此可以用一句话概括下：如果父RDD的一个Partition被子RDD的一个Partition所使用就是窄依赖，否则的话就是宽依赖。因为是确定的partition数量的依赖关系，所以RDD之间的依赖关系就是窄依赖；由此我们可以得出一个推论：即窄依赖不仅包含一对一的窄依赖，还包含一对固定个数的窄依赖。

一对固定个数的窄依赖的理解：即子RDD的partition对父RDD依赖的Partition的数量不会随着RDD数据规模的改变而改变；换句话说，无论是有100T的数据量还是1P的数据量，在窄依赖中，子RDD所依赖的父RDD的partition的个数是确定的，而宽依赖是shuffle级别的，数据量越大，那么子RDD所依赖的父RDD的个数就越多，从而子RDD所依赖的父RDD的partition的个数也会变得越来越多。

2.4.2 依赖关系下的数据流视图

在spark中，会根据RDD之间的依赖关系将DAG图（有向无环图）划分为不同的阶段，对于窄依赖，由于partition依赖关系的确定性，partition的转换处理就可以在同一个线程里完成，窄依赖就被spark划分到同一个stage中，而对于宽依赖，只能等父RDD shuffle处理完成后，下一个stage才能开始接下来的计算。

因此spark划分stage的整体思路是：从后往前推，遇到宽依赖就断开，划分为一个stage；遇到窄依赖就将这个RDD加入该stage中。因此在图2中RDD C,RDD D,RDD E,RDDF被构建在一个stage中,RDD A被构建在一个单独的Stage中,而RDD B和RDD G又被构建在同一个stage中。

在spark中，Task的类型分为2种：ShuffleMapTask和ResultTask；

简单来说，DAG的最后一个阶段会为每个结果的partition生成一个ResultTask，即每个Stage里面的Task的数量是由该Stage中最后一个RDD的Partition的数量所决定的！而其余所有阶段都会生成ShuffleMapTask；之所以称之为ShuffleMapTask是因为它需要将自己的计算结果通过shuffle到下一个stage中；也就是说上图中的stage1和stage2相当于mapreduce中的Mapper,而ResultTask所代表的stage3就相当于mapreduce中的reducer。

在之前动手操作了一个wordcount程序，因此可知，Hadoop中MapReduce操作中的Mapper和Reducer在spark中的基本等量算子是map和reduceByKey;不过区别在于：Hadoop中的MapReduce天生就是排序的；而reduceByKey只是根据Key进行reduce，但spark除了这两个算子还有其他的算子；因此从这个意义上来说，Spark比Hadoop的计算算子更为丰富。

3、共享变量

在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是，Spark还是为两种常见的使用模式提供了两种有限的共享变量：广播变量（broadcast variable）和累加器（accumulator）。

3.1 广播变量

3.1.1　为什么要将变量定义成广播变量？

如果我们要在分布式计算里面分发大对象，例如：字典，集合，黑白名单等，这个都会由Driver端进行分发，一般来讲，如果这个变量不是广播变量，那么每个task就会分发一份，这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈，而且会大量消耗task服务器上的资源，如果将这个变量声明为广播变量，那么知识每个executor拥有一份，这个executor启动的task会共享这个变量，节省了通信的成本和服务器的资源。

3.1.2　广播变量图解

错误的，不使用广播变量

正确的，使用广播变量的情况

3.1.3 如何定义一个广播变量？

a = 3
brd_a = sc.broadcast(a)
brd_a
#

3.1.4 如何还原一个广播变量？

b = brd_a.value
b
# 3

3.1.5 定义广播变量需要的注意点？

变量一旦被定义为一个广播变量，那么这个变量只能读，不能修改

3.1.6 注意事项

1、能不能将一个RDD使用广播变量广播出去？

不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。

2、广播变量只能在Driver端定义，不能在Executor端定义。

3、在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。

4、如果executor端用到了Driver的变量，如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本。

5、如果Executor端用到了Driver的变量，如果使用广播变量在每个Executor中只有一份Driver端的变量副本。

3.2 累加器

3.2.1 为什么要将一个变量定义为一个累加器？

在spark应用程序中，我们经常会有这样的需求，如异常监控，调试，记录符合某特性的数据的数目，这种需求都需要用到计数器，如果一个变量不被声明为一个累加器，那么它将在被改变时不会再driver端进行全局汇总，即在分布式运行时每个task运行的只是原始变量的一个副本，并不能改变原始变量的值，但是当这个变量被声明为累加器后，该变量就会有分布式计数的功能。

3.2.2 图解累加器

错误的图解

正确的图解

3.2.3 如何定义一个累加器？

a = sc.accumulator(0)
a
# Accumulator

3.2.4 如何还原一个累加器？

b = a.value
b
# 0

3.2.5 注意事项

1、 累加器在Driver端定义赋初始值，累加器只能在Driver端读取最后的值，在Excutor端更新。

2、累加器不是一个调优的操作，因为如果不这样做，结果是错的

参考：

[1] RDD Programming Guide

[2] 常用的 68 个函数

[3] Spark学习之路（三）Spark之RDD

[4] Spark学习之路（四）Spark的广播变量和累加器

你可能感兴趣的:(大数据,spark,大数据,python)

Python的线程、进程与协程 Thomas_Cai Python专题 python 进程线程协程
文章目录一、进程和线程的比较1.定义2.内存空间3.创建和销毁4.并发性5.稳定性6.通信7.Python中的实现8.示例代码进程示例线程示例小结二、协程1.协程的关键特性2.协程的工作原理3.协程与生成器的关系4.协程的适用场景5.Python中的协程示例结果6.示例：并发执行多个协程执行一返回一执行二返回二7.协程(asyncio)的应用场景(agent)**7.1.高并发I/O密集型场景**
Python 3.7 安装包及详细安装指南：助你轻松搭建开发环境金琴莺
Python3.7安装包及详细安装指南：助你轻松搭建开发环境python3.7安装包附安装教程.zip项目地址:https://gitcode.com/open-source-toolkit/a278c项目介绍在编程的世界里，Python以其简洁易读的语法和强大的功能，成为了众多开发者的首选语言。然而，对于初学者或需要在Windows系统上搭建Python开发环境的用户来说，安装Python可能是
编程新手小白入门最佳攻略闲暇部落编程 java 新手入门开发语言
编程小白想要成为大神，并为大学新生的学习制定一份最佳入门攻略，可以遵循以下步骤：一、选择编程语言Python：被誉为最适合初学者的编程语言，语法简洁清晰，学习曲线平缓，广泛应用于数据分析、机器学习、Web开发、自动化脚本编写等领域。JavaScript：前端开发的核心语言，实现网页的动态效果，还能通过Node.js实现服务器端的编程，用于开发桌面应用和移动应用。Java：企业级开发中使用最广泛的语
编程新手之环境搭建：node python PyAIGCMaster React python 开发语言
好的，没问题！为你新装的机器打造一套稳定、高效、专业的开发环境是一件非常有成就感的事情。我们将遵循“稳定优先，专业实践”的原则，不追求最新版本，而是选择社区广泛认可的长期支持版（LTS）和最佳实践工具。整个过程将分为几个部分：基础环境：终端、包管理器和Git，这是所有开发的基石。Node.js环境：使用版本管理器nvm，专业地管理Node.js。Python环境：使用版本管理器pyenv+venv
从0到1掌握OpenCV！Python图像处理实战全解析（附代码+案例）小张在编程 Python学习 opencv python 图像处理
引言你有没有想过，手机里的美颜滤镜如何精准识别五官？监控摄像头如何在人流中锁定可疑目标？医学影像软件如何从CT片中快速标注病灶？这些“神奇操作”的背后，往往藏着一个低调的“图像处理神器”——OpenCV。作为Python生态中最受欢迎的计算机视觉库，它用一行行代码将抽象的像素点变成可操作的“数字画布”。今天，我们就从最基础的图像读写开始，手把手带你解锁OpenCV的“十八般武艺”，从图像处理小白变
NLTK库全解析：用Python打开自然语言处理的第一把钥匙
引言你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（NaturalLanguageToolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然
【31天蓝桥杯冲刺！】蓝桥杯相关的 Python 细节（1）字典中 get 函数的用法和注意事项王十二er 蓝桥杯蓝桥杯 python 开发语言
文章目录1.描述1.1为什么要使用get()函数？2.语法3.用法3.1访问字典3.2统计列表中元素出现次数例题：力扣454.四数相加2码字不易，希望大家点赞支持一下1.描述Python字典(Dictionary)get()函数返回指定键的值。1.1为什么要使用get()函数？常规访问字典的方法是：dict[key]，但是在key（键）不在字典中时，会触发KeyError异常。get(key)方法
Python——函数版用户管理系统 TWAS@py python pycharm
今天学习了Python的函数模块，就把上次发的字典版用户管理系统用函数的框架升级一下，话不多说，进入正题。1.变量的定义#创建一个列表存放所有用户信息user_list=[]#创建元组提供选择user_input_number=("1","2","3","4","5")user_input_chance=("姓名","年龄","性别","地址")2.菜单函数menu()#创建菜单defmenu()
Python 借助 Matplotlib 绘制分形图形的诀窍 Python编程之道 python matplotlib 信息可视化 ai
Python借助Matplotlib绘制分形图形的诀窍关键词：Python,Matplotlib,分形图形,递归算法,数据可视化,数学艺术,计算机图形学摘要：本文深入探讨了使用Python和Matplotlib库绘制分形图形的核心技术。从分形数学原理入手，详细解析了多种经典分形图形的生成算法，包括曼德勃罗集、朱利亚集、科赫雪花、谢尔宾斯基三角形等。文章提供了完整的Python实现代码，结合Matp
Python Pandas 数据的体育数据处理和分析 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 开发语言 ai
PythonPandas数据的体育数据处理和分析关键词：PythonPandas,体育数据分析,数据清洗,数据可视化,特征工程,机器学习,体育统计摘要：本文将深入探讨如何使用PythonPandas库进行体育数据的处理和分析。我们将从基础的数据导入和清洗开始，逐步深入到复杂的统计分析、可视化展示以及机器学习建模。文章将涵盖数据处理的全流程，包括数据获取、清洗、转换、分析和可视化，并结合实际体育数据
python-函数模块包 2501_92004703 Python python 开发语言
python-函数模块包前言一、函数1.函数的定义2.函数的参数2.1形参分类（定义）2.2实参分类（调用）3.函数参数传递4.变量作用域5.匿名函数6.高阶函数1.map2.filter3.sorted二、模块1.定义模块2.导入模块3.导入指定函数4.模块的执行机制三、包1.包的结构2.导入包总结练习1.编写函数实现提取身份证号码中的年月日信息2.打印商品信息3.sorted排序前言函数模块包
paddleOCR模型的安装和使用九日卯贝 paddle ocr
paddleOCR仓库：https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file文档：https://paddlepaddle.github.io/PaddleOCR/main/quick_start.html#2-paddleocr环境安装python-mpipinstallpaddlepaddle-gpu==3.0.0b1-iht
文心4.5开源模型部署实践 skywalk8163 人工智能文心人工智能文心大模型开源大模型文心开源
文心4.5开源模型部署实践使用fastdeploy本地部署执行命令：python-mfastdeploy.entrypoints.openai.api_server\ --modelbaidu/ERNIE-4.5-21B-A3B-Paddle\ --port8180\ --metrics-port8181\ --engine-worker-queue-port8182\ --max-model-l
【LeetCode 热题 100】5. 最长回文子串（Python中心扩展法详解）未名编程 LeetCode热题100详解 leetcode python 算法
原题链接：LeetCode5.最长回文子串✨一、题目描述给你一个字符串s，请你找出其中最长的回文子串。回文串是指正着读和反着读都一样的字符串。示例1：输入：s="babad"输出："bab"解释："aba"也是一个有效答案。示例2：输入：s="cbbd"输出："bb"提示：1<=s.length<=1000s仅由数字和英文字母组成
全网最详细的华为OD知识，值不值得去看这篇就够了（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 华为OD机试 2025B卷 java
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
华为OD机试 - 计算某个字符出现次数 - 线性扫描（Python/JS/C/C++ 2025 B卷 100分）哪吒华为od python javascript 2025B卷华为OD机试
一、题目描述写出一个程序，接受一个由字母、数字和空格组成的字符串，和一个字符，然后输出"输入字符串"中该字符的出现次数。（不区分大小写字母）。二、输入描述第一行输入一个由字母、数字和空格组成的字符串，第二行输入一个字符(保证该字符不为空格)。三、输出描述输出输入字符串中含有该字符的个数,(不区分大小写字母)。四、测试用例测试用例1：1、输入HelloWorldo2、输出2测试用例2：1、输入abc
11、Python如何对字符串进行左、右、居中对齐
在Python中，我们经常会遇到需要对字符串进行对齐的情况，比如左对齐、右对齐或者居中对齐。这在处理文本输出、日志格式化等场景中非常有用。方案一：使用str.ljust()、str.rjust()、str.center()方法进行对齐三个方法用法类似，基本格式如下:string.ljust(width[,fillchar])string：表示要进行填充的字符串；width：表示包括S本身长度在内，
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
Python 自动化日志采集与分析方法
```htmlPython自动化日志采集与分析方法Python自动化日志采集与分析方法在现代软件开发和运维过程中，日志是排查问题、监控系统运行状态的重要工具。然而，随着系统的复杂度增加，手动处理日志变得越来越困难。本文将介绍如何使用Python实现自动化日志采集与分析的方法。一、日志采集的必要性日志记录了系统运行中的各种事件和错误信息，对于开发者和运维人员来说，它们是诊断问题、优化性能的关键数据源
基于 Python Flask 的 B/S 架构项目的软件设计思路
文章目录基于PythonFlask的B/S架构项目的软件设计思路1.引言2.B/S架构概述2.1什么是B/S架构2.2B/S架构的组成层次2.3B/SvsC/S架构对比2.4现代B/S架构的发展趋势3.Flask在B/S架构中的定位3.1Flask作为B/S架构的后端框架3.2Flask的架构优势3.3Flask在不同B/S架构模式中的应用传统B/S架构（服务器端渲染）现代B/S架构（前后端分离）
《深度学习》—— PyTorch的介绍及PyTorch的CPU版本安装张小生180 人工智能深度学习 pytorch
文章目录一、PyTorch的简单介绍二、pytorch的CPU版本安装三、torch、torchvision、torchaudio三个库的介绍一、PyTorch的简单介绍PyTorch是一个由FacebookAI实验室开发的深度学习框架，它基于Python，并提供了高效的GPU加速和灵活的模型定义能力。1.PyTorch的基本特点动态计算图：PyTorch采用动态计算图的方式，这意味着计算图是在运
「日拱一码」005 Python字符串操作
目录字符串的创建单引号和双引号三引号字符串的索引和切片索引切片字符串的拼接使用加号拼接使用join()方法拼接字符串的格式化使用%格式化使用str.format()方法格式化使用f-string格式化（Python3.6+）字符串的常用方法大小写转换查找和替换分割和连接使用字符串常量去除空白字符判断字符串字符串的编码和解码编码解码字符串的创建在Python中，字符串是用单引号（'）、双引号（"）或
前端领域 npm 与跨平台开发适配大厂前端小白菜前端开发实战前端 npm arcgis ai
前端领域npm与跨平台开发适配关键词：前端开发、npm、跨平台开发、依赖管理、适配策略摘要：本文围绕前端领域中npm与跨平台开发适配展开深入探讨。首先介绍了npm在前端开发中的重要性以及跨平台开发的背景和挑战。接着详细阐述了npm的核心概念、工作原理，以及在跨平台开发中可能遇到的适配问题。通过具体的算法原理和Python示例代码，解释了如何利用npm进行依赖管理和跨平台开发的相关操作。还给出了数学
Python 爬虫实战：微博话题讨论数趋势爬取与分析全流程西攻城狮北 python 爬虫开发语言
1.项目背景与目标微博话题（#话题#）是社交媒体舆情监测、品牌营销、热点追踪的重要数据源。本实战要完成以下目标：爬取指定话题在7天内的讨论数、阅读量、热搜排名等关键指标。将数据存入MySQL，并每日增量更新。用Pandas+Matplotlib绘制趋势图，直观呈现热度变化。基于SnowNLP做情感倾向分析，输出正面/负面占比。生成一份可分享的HTML可视化报告。2.环境搭建与依赖2.1安装核心库p
什么是神经网络架构搜索（NAS, Neural Architecture Search），如何写对应的python程序代码呢小桥流水---人工智能算法深度学习 Python程序代码神经网络架构 python
一、什么是神经网络架构搜索（NAS,NeuralArchitectureSearch）神经网络架构搜索（NAS,NeuralArchitectureSearch）是一种用于自动化设计神经网络架构的技术。传统的神经网络模型架构设计通常依赖于专家经验和大量试错，而NAS通过算法自动搜索网络架构，以发现最适合特定任务的神经网络设计。NAS可以极大地减少人工调参的时间和精力，并且在某些情况下能够找到比手工
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
python cache_python自带缓存lru_cache用法及扩展(详细) 柳溪笙 python cache
本篇博客将结合python官方文档和源码详细讲述lru_cache缓存方法是怎么实现，它与redis缓存的区别是什么，在使用时碰上functiontools.wrap装饰器时会发生怎样的变化，以及了解它给我们提供了哪些功能然后在其基础上实现我们自制的缓存方法my_cache。1.lru_cache的使用1.1参数详解以下是lru_cache方法的实现，我们看出可供我们传入的参数有2个maxsize
华为OD 机试 2025 B卷 - 跳格子2 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
跳格子2华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述小明和朋友玩跳格子游戏，有n个连续格子组成的圆圈，每个格子有不同的分数，小朋友可以选择以任意格子起跳，但是不能跳连续的格子，不能回头跳，也不能超过一圈;给定一个代表每个格子得分的非负整数数组，计算能够得到的最高分数。输入描述给定一个数例，第一个格子和最后一个
华为OD 机试 2025 B卷 - 投篮大赛 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考2025B卷
投篮大赛华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述你现在是一场采用特殊赛制投篮大赛的记录员。这场比赛由若干回合组成，过去几回合的得分可能会影响以后几回合的得分。比赛开始时，记录是空白的。你会得到一个记录操作的字符串列表ops，其中ops[i]是你需要记录的第i项操作，ops遵循下述规则：整数x-表示本回合新
Python functools 模块的 @lru_cache 装饰器介绍 qq_27390023 python 开发语言
functools.lru_cache是Python标准库functools模块中的一个装饰器，用于实现简单的缓存机制。它通过缓存函数的返回值来提高函数的执行效率，特别是对于那些被多次调用且参数相同的函数。LRU缓存机制LRU代表LeastRecentlyUsed，即最近最少使用。LRU缓存机制会保存最近使用的缓存项，并在缓存满时丢弃最久未使用的项。lru_cache装饰器的参数maxsize：指
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。