白莲居仙

PySpark-RDD编程入门

文章目录

2.PySpark——RDD编程入门
- 2.1 程序执行入口SparkContext对象
- 2.2 RDD的创建
- - 2.2.1 并行化创建
  - 2.2.2 获取RDD分区数
  - 2.2.3 读取文件创建
- 2.3 RDD算子
- 2.4 常用Transformation算子
- - 2.4.1 map算子
  - 2.4.2 flatMap算子
  - 2.4.3 reduceByKey算子
  - 2.4.4 WordCount回顾
  - 2.4.5 groupBy算子
  - 2.4.6 Filter算子
  - 2.4.7 distinct算子
  - 2.4.8 union算子
  - 2.4.9 join算子
  - 2.4.10 intersection 算子
  - 2.4.11 glom算子
  - 2.4.12 groupByKey算子
  - 2.4.13 sortBy算子
  - 2.4.14 sortByKey
  - 2.4.15 综合案例
  - 2.4.16 将案例提交到yarn运行
- 2.5 常用Action算子
- - 2.5.1 countByKey算子
  - 2.5.2 collect算子
  - 2.5.3 reduce算子
  - 2.5.4 fold算子
  - 2.5.5 first算子
  - 2.5.6 take算子
  - 2.5.7 top算子
  - 2.5.8 count算子
  - 2.5.9 takeSample算子
  - 2.5.10 takeOrdered
  - 2.5.11 foreach算子
  - 2.5.12 saveAsTextFile
  - 2.5.13 注意点
- 2.6 分区操作算子
- - 2.6.1 mapPartitions算子
  - 2.6.2 foreachPartition算子
  - 2.6.3 partitionBy算子
  - 2.6.4 repartition算子
  - 2.6.5 coalesce算子
  - 2.6.6 mapValues算子
  - 2.6.7 join算子
- 2.7 面试题
- 2.8 总结
3.RDD的持久化
- 3.1 RDD的数据是过程数据
- 3.2 RDD的缓存
- - 3.2.1 缓存
  - 3.2.2 缓存特点
  - 3.2.3 缓存是如何保存的
- 3.3 RDD的CheckPoint
- - 3.3.1 RDD CheckPoint
  - 3.3.2 CheckPoint是如何保存数据的
  - 3.3.3 缓存和CheckPoint的对比
  - 3.3.4 代码
  - 3.3.5 注意
  - 3.3.6 总结
4.Spark案例练习
- 4.1 搜索引擎日志分析案例
- 4.2 提交到集群运行
- 4.3 作业

2.PySpark——RDD编程入门

2.1 程序执行入口SparkContext对象

Spark RDD 编程的程序入口对象是SparkContext对象(不论何种编程语言)

只有构建出SparkContext, 基于它才能执行后续的API调用和计算

本质上, SparkContext对编程来说, 主要功能就是创建第一个RDD出来

代码演示：

# coding:utf8

# 导入Spark相关包
from pyspark import SparkConf, SparkContext
if __name__ == '__main__':
    # 构建SparkConf对象
    conf = SparkConf().setAppName ("helloSpark").setMaster("local[*]")
    # 构建SparkContext执行环境入口对象
    sc = SparkContext(conf=conf)

master的种类：

local：local[N]:表示以N核CPU执行，local[*]:给予local进程所有CPU核心的使用权

standlone：spark：//node1:7077

yarn 模式

2.2 RDD的创建

RDD的创建主要有2种方式:

• 通过并行化集合创建 ( 本地对象转分布式RDD )

• 读取外部数据源 ( 读取文件 )

2.2.1 并行化创建

概念：并行化创建，是指将本地集合转向分布式RDD，这一步就是分布式的开端：本地转分布式

API：

rdd = spakcontext.parallelize(参数1，参数2)

参数1 集合对象即可，比如list

参数2 分区数

完整代码：

# coding:utf8
from pyspark import SparkConf,SparkContext

if __name__ == '__main__':
    # 0. 构建Spark执行环境
    conf = SparkConf().setAppName("create rdd").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # sc 对象的parallelize方法，可以将本地集合转换成RDD返回给你
    data = [1,2,3,4,5,6,7,8,9]
    rdd = sc.parallelize(data,numSlices=3)

    print(rdd.collect())

执行结果：

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
[1, 2, 3, 4, 5, 6, 7, 8, 9]

Process finished with exit code 0

2.2.2 获取RDD分区数

getNumPartitions API :获取RDD分区数量，返回值是Int数字

用法：rdd.getNumPartitions()

例如，基于上述代码设置了3为分区数，调用以下代码

print(rdd.getNumPartitions())

则会输出结果：3

完整案例代码：01_create_parallelize.py

# coding:utf8

# 导入Spark相关包
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    # 0. 初始化执行环境 构建SparkContext对象,本地集合--> 分布式对象（RDD）
    conf = SparkConf().setAppName ("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 演示通过并行化集合的方式去创建RDD
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9])
    # parallelize方法，没有给定分区数，默认分区数是多少？ 根据CPU核心来定
    print("默认分区数：", rdd.getNumPartitions())

    rdd = sc.parallelize([1, 2, 3], 3)
    print("分区数：", rdd.getNumPartitions())

    # collect方法，是将RDD（分布式对象）中每个分区的数据，都发送到Driver中，形成一个Python List对象
    # collect：分布式 转--> 本地集合

    print("rdd的内容是：", rdd.collect())
    print(type(rdd.collect()))

输出结果：

默认分区数： 8
分区数： 3
rdd的内容是： [1, 2, 3]

2.2.3 读取文件创建

textFileAPI

这个API可以读取本地数据，也可以读取hdfs数据

使用方法 ：

sparkcontext.textFile(参数1,参数2)

参数1，必填，文件路径支持本地文件支持HDFS 也支持一些比如S3协议

参数2 可选，表示最小分区数量

注意：参数2 话语权不足，spark有自己的判断，在它允许的范围内，参数2有效果，超出spark允许的范围，参数2失效

案例代码：02_create_textFile.py

# coding : utf8
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("02_create_textFile").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 通过textFile API 读取数据

    # 读取本地文件数据
    file_rdd1 = sc.textFile("../data/input/words.txt")

    print("默认读取分区数：", file_rdd1.getNumPartitions())
    print("file_rdd1 内容：", file_rdd1.collect())
    #
    # # 加最小分区数的测试
    file_rdd2 = sc.textFile("../data/input/words.txt",3)
    file_rdd3 = sc.textFile("../data/input/words.txt",100)

    print("file_rdd2 分区数：", file_rdd2.getNumPartitions())
    print("file_rdd3 分区数：", file_rdd3.getNumPartitions())

    # 读取hdfs文件数据测试
    hdfs_rdd = sc.textFile("hdfs://Tnode1:8020/input/words.txt")
    print("hdfs_rdd 分区数：", hdfs_rdd.getNumPartitions())
    print("hdfs_rdd 内容：", hdfs_rdd.collect())

输出结果：

默认读取分区数： 2
file_rdd1 内容： ['hello spark', 'hello hadoop', 'hello flink']
file_rdd2 内容： 4
file_rdd3 内容： 38
hdfs_rdd 分区： 2
hdfs_rdd 内容： ['hello spark', 'hello hadoop', 'hello flink']

wholeTextFile 读取文件的API，有个适用场景：适合读取一堆小文件

这个API是小文件读取专用

用法：

sparkcontext.textFile(参数1,参数2)

# 参数1，必填，文件路径 支持本地文件 支持HDFS 也支持一些比如S3协议

# 参数2 可选，表示最小分区数量

# 注意：参数2 话语权不足，spark有自己的判断，在它允许的范围内，参数2有效果，超出spark允许的范围，参数2失效

这个API偏向于少量分区读取数据

因为，这个API表明了自己是小文件读取专用，那么文件的数据很小、分区很多，

导致shuffle的几率更高，所以尽量少分区读取数据

案例代码：03_create_wholeTextFile.py

# coding:utf8
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 读取小文件文件夹
    rdd = sc.wholeTextFiles("../data/input/tiny_files")
    print(rdd.collect())
    print(rdd.map(lambda x: x[1]).collect())

输出结果：

[('file:/tmp/pycharm_project_937/PySpark01/data/input/tiny_files/1.txt', 'hello spark\r\nhello hadoop\r\nhello flink'), ('file:/tmp/pycharm_project_937/PySpark01/data/input/tiny_files/2.txt', 'hello spark\r\nhello hadoop\r\nhello flink'), ('file:/tmp/pycharm_project_937/PySpark01/data/input/tiny_files/3.txt', 'hello spark\r\nhello hadoop\r\nhello flink'), ('file:/tmp/pycharm_project_937/PySpark01/data/input/tiny_files/4.txt', 'hello spark\r\nhello hadoop\r\nhello flink'), ('file:/tmp/pycharm_project_937/PySpark01/data/input/tiny_files/5.txt', 'hello spark\r\nhello hadoop\r\nhello flink')]
['hello spark\r\nhello hadoop\r\nhello flink', 'hello spark\r\nhello hadoop\r\nhello flink', 'hello spark\r\nhello hadoop\r\nhello flink', 'hello spark\r\nhello hadoop\r\nhello flink', 'hello spark\r\nhello hadoop\r\nhello flink']

2.3 RDD算子

算子是什么？

算子：分布式集合对象上的API称之为算子

方法、函数：本地对象的API，叫做方法、函数

算子：分布式对象的API，叫做算子

算子分类

RDD的算子分成2类

Transformation：转换算子
Action：动作（行动）算子

Transformation 算子：

定义：RDD的算子，返回值任然是一个RDD的，称之为转换算子

特性：这类算子lazy 懒加载的，如果没有action算子，Transformation算子是不工作的

Action算子

定义：返回值不是rdd的就是action算子

对于这两类算子来说，Transformation算子，相当于在构建执行计划，action是一个指令让这个执行计划开始工作。

如果没有action，Transformation算子之间的迭代关系，就是一个没有通电的流水线，

只有action到来，这个数据处理的流水线才开始工作

2.4 常用Transformation算子

2.4.1 map算子

演示代码：04_operators_map.py

# coding:utf8
from pyspark import SparkConf, SparkContext


def addNum(data):
    return data * 10


if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 4)

    rdd2 = rdd1.map(lambda x: x * 10)
    rdd3 = rdd1.map(addNum)

    result = rdd2.collect()

    print(result)
    print(rdd3.collect())

输出结果：

[10, 20, 30, 40, 50, 60, 70, 80, 90]
[10, 20, 30, 40, 50, 60, 70, 80, 90]

对于传入参数的lambda表达式

传入方法作为传参的时候，可以选择

定义方法，传入其方法名

使用lambda 匿名方法的方式

一般，如果方法体可以一行写完，用lambda方便。

如果方法体复杂，就直接定义方法更方便

2.4.2 flatMap算子

功能：对rdd执行map操作，然后进行解除嵌套操作

解除嵌套：

演示代码：05_operators_flatMap.py

# coding:utf8
from pyspark import SparkConf, SparkContext


def addNum(data):
    return data * 10


if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize(["hadoop spark hadoop", "spark hadoop hadoop", "hadoop flink spark"])

    # 得到所有的单词，组成rdd,flatMap的传入参数和map一致，就是给map逻辑用的，解除嵌套无需逻辑（传参）
    rdd2 = rdd1.flatMap(lambda line: line.split(" "))
    print(rdd2.collect())

输出结果：

['hadoop', 'spark', 'hadoop', 'spark', 'hadoop', 'hadoop', 'hadoop', 'flink', 'spark']

注意：flatMap只适合用于有“嵌套”的rdd，直接用于没有嵌套的rdd会报错

2.4.3 reduceByKey算子

功能：针对KV型的RDD，自动按照key分组，然后根据你提供的聚合逻辑，完成组内数据（value）的聚合操作。

用法：

rdd.reduceByKey(func)
# func:(V,V) ——>V
# 接收2个传入参数（类型要一致），返回一个返回值，类型和传入要求一致。

reduceByKey的聚合逻辑是：

比如，有[1,2,3,4,5],然后聚合函数是：lambda a,b: a+ b

注意：reduceByKey中接收的函数，只负责聚合，不理会分组

分组是自动 byKey来分组的。

代码演示：06_operators_reduceByKey.py

# coding:utf8
from pyspark import SparkConf, SparkContext


def addNum(data):
    return data * 10


if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('a', 1), ('b', 1), ('b', 1), ('a', 1)])
    rdd2 = sc.parallelize([('a', 1), ('a', 11), ('b', 3), ('b', 1), ('a', 5)])
    rdd3 = sc.parallelize([('a', 1), ('a', 11), ('b', 3), ('b', 1), ('a', 5)])

    rdd = rdd.reduceByKey(lambda a, b: a + b)

    rdd2 = rdd2.map(lambda x: (x[0], x[1] * 10))
    # 只操作value的算子
    rdd3 = rdd3.mapValues(lambda value: value * 10)

    # recudeByKey 对相同key的数据执行聚合相加
    print(rdd.collect())
    print(rdd2.collect())
    print(rdd3.collect())

输出结果：

[('a', 3), ('b', 2)]
[('a', 10), ('a', 110), ('b', 30), ('b', 10), ('a', 50)]
[('a', 10), ('a', 110), ('b', 30), ('b', 10), ('a', 50)]

2.4.4 WordCount回顾

代码演示：07_wordcount_example.py

# coding:utf8

from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
	# 构建SparkConf对象
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    # 构建SparkContext执行环境入口对象
    sc = SparkContext(conf=conf)

    # 1.读取文件获取数据 构建RDD
    file_rdd = sc.textFile(r"../data/input/words.txt")

    # 2. 通过flatMap API取出所有的单词
    word_rdd = file_rdd.flatMap(lambda x: x.split(" "))

    # 3.将单词转换成元组，key是单词，value是1
    word_with_one_rdd = word_rdd.map(lambda word:(word,1))

    # 4. 用reduceByKey 对单词进行分组并进行value的聚合
    result_rdd = word_with_one_rdd.reduceByKey(lambda a,b:a+b)

    # 5. 通过collect算子，将rdd的数据收集到Driver中，打印输出
    print(result_rdd.collect())

输出结果：

[('hadoop', 1), ('hello', 3), ('spark', 1), ('flink', 1)]

2.4.5 groupBy算子

功能：将rdd的数据进行分组

语法：

rdd.groupBy(func)
# func 函数
# func:(T)——>k
# 函数要求传入一个参数，返回一个返回值，类型无所谓
# 这个函数是 拿到你返回值后，将所有相同返回值的放入一个组中
# 分组完成后，每一个组是一个二元元组，key就是返回值，所有同组的数据放入一个迭代器对象中作为value

代码演示：08_oprators_groupBy.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('a', 1), ('b', 1), ('b', 1), ('b', 1)])

    # 通过groupBy对数据进行分组
    # groupBy传入的函数的意思是：通过这个函数，确定按照谁来分组(返回谁即可)
    # 分组规则和SQL是一致的，也就是相同的在一个组（Hash分组）
    result = rdd.groupBy(lambda t: t[0])
    print(result.collect())
    print("hello")
    print(result.map(lambda t: (t[0], list(t[1]))).collect())

输出结果：

[('a', ), ('b', )]
hello
[('a', [('a', 1), ('a', 1)]), ('b', [('b', 1), ('b', 1), ('b', 1)])]

2.4.6 Filter算子

功能：过滤，把想要的数据进行保留

语法：

rdd.filter(func)
# func:(T)——>bool 传入1个随意类型参数进来，返回值必须是True or False

返回值是True的数据被保留，False的数据被丢弃

代码演示：09_operators_filter.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6])

    # 通过Filter算子，过滤奇数,filter 只返回true的值
    result = rdd.filter(lambda x: x % 2 == 1)

    print(result.collect())

输出结果：

[1, 3, 5]

2.4.7 distinct算子

功能：对RDD数据进行去重，返回新的RDD

语法：

rdd.distinct(参数1)
# 参数1，去重分区数量，一般不用传

演示代码：10_operators_distinct.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 1, 1, 2, 2, 2, 3, 3, 3])

    # distinct 进行RDD数据去重操作
    print(rdd.distinct().collect())

    rdd2 = sc.parallelize([('a', 1), ('a', 1), ('a', 3)])
    print(rdd2.distinct().collect())

输出结果：

[1, 2, 3]
[('a', 3), ('a', 1)]

2.4.8 union算子

功能：2个rdd合并成1个rdd返回

用法：rdd.union(other_rdd)

注意：只合并，不会去重

代码演示：11_operators_union.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([1, 1, 3, 3])
    rdd2 = sc.parallelize(["a","b","a"])

    rdd3 = rdd1.union(rdd2)

    print(rdd3.collect())
    print(rdd3.distinct().collect())

"""
1. 可以看到union算子是不会去重的
2. RDD的类型不同也是可以合并的
"""

输出结果：

[1, 1, 3, 3, 'a', 'b', 'a']
[1, 3, 'b', 'a']

2.4.9 join算子

功能：对两个RDD执行JOIN操作（可实现SQL的内、外连接）

注意：join算子只能用于二元元组

语法：

rdd.join(other_rdd) #内连接
rdd.leftOuterJoin(other_rdd) # 左外
rdd.rightOuterJoin(other_rdd) # 右外

代码演示：12_operators_join.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([(1001, "张三"), (1002, '李四'), (1003, '王五'), (1004, '赵六')])
    rdd2 = sc.parallelize([(1001, "销售部"), (1002, '科技部')])

    # 通过join算子来进行rdd之间的关联
    # 对于join算子来说 关联条件 按照二元元组的key来进行关联

    # 内连接
    print(rdd1.join(rdd2).collect())

    # 左外连接
    print(rdd1.leftOuterJoin(rdd2).collect())

    # 右外连接
    print(rdd1.rightOuterJoin(rdd2).collect())

输出结果：

[(1001, ('张三', '销售部')), (1002, ('李四', '科技部'))]
[(1001, ('张三', '销售部')), (1002, ('李四', '科技部')), (1003, ('王五', None)), (1004, ('赵六', None))]
[(1001, ('张三', '销售部')), (1002, ('李四', '科技部'))]

2.4.10 intersection 算子

功能：求2个rdd的交集，返回一个新rdd

用法：rdd.intersection(other_rdd)

代码演示：13_operators_intersection.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([('a',1),('a',3)])
    rdd2 = sc.parallelize([('a',1),('b',3)])

    # 通过intersection算子求RDD之间的交集，将交集取出，返回新RDD
    rdd3 = rdd1.intersection(rdd2)

    print(rdd3.collect())

输出结果：

[('a', 1)]

2.4.11 glom算子

功能：将RDD的数据，加上嵌套，这个嵌套按照分区来进行

比如RDD数据[1,2,3,4,5]有两个分区

那么，被glom后，数据变成：[[1,2,3],[4,5]]

使用方法：rdd.glom()

代码演示：14_operators_glom.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1,2,3,4,5,6,7,8,9,10],2)
    rdd2 = sc.parallelize([1,2,3,4,5,6,7,8,9,10])

    print(rdd.glom().collect())
    print(rdd.glom().flatMap(lambda x:x).collect()) # 用flatMap解嵌套
    print(rdd2.glom().collect())

输出结果：

[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[[1], [2], [3], [4, 5], [6], [7], [8], [9, 10]]

2.4.12 groupByKey算子

功能：针对KV型RDD，自动按照key分组

用法：rdd.groupByKey() 自动按照key分组

代码演示：15_operators_groupByKey.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('a', 1), ('a', 1,), ('b', 1), ('b', 1)])

    rdd2 = rdd.groupByKey()

    print(rdd2.map(lambda x:(x[0],list(x[1]))).collect())

输出结果：

[('a', [1, 1, 1]), ('b', [1, 1])]

2.4.13 sortBy算子

功能：对RDD数据进行排序，基于你指定的排序依据

语法：

rdd.sortBy(func,ascending=False,numPartitions=1)
# func:(T)——>U:告知按照rdd中的哪个数据进行排序，比如lambda x:x[1] 表示按照rdd中的第二列元素进行排序
# ascending = True升序；False 降序
# numPartition：用多少分区来排序

注意：如果要全局有序，排序分区数请设置为1，因为生产环境下，分区数大于1，很可能只得到局部有序的结果

代码演示：16_operators_sortBy.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('g', 3), ('c', 1), ('b', 2,), ('a', 9), ('h', 10), ('i', 4), ('l', 26,), ('o', 1), ('d', 7)])

    # 使用sortBy对rdd进行排序
    # 参数1 函数，表示的是，告诉spark按照数据的哪个列进行排序
    # 参数2 bool，True表示升序，False表示降序
    # 参数3 分区数设置

    """注意：如果要全局有序，排序分区数请设置为1，因为生产环境下，分区数大于1，很可能只得到局部有序的结果"""
    rdd2 = rdd.sortBy(lambda x:x[1],ascending=True,numPartitions=3)
    rdd3 = rdd.sortBy(lambda x:x[0],ascending=True,numPartitions=8)


    print(rdd2.collect())
    print(rdd3.collect())

输出结果：

[('c', 1), ('o', 1), ('b', 2), ('g', 3), ('i', 4), ('d', 7), ('a', 9), ('h', 10), ('l', 26)]
[('a', 9), ('b', 2), ('c', 1), ('d', 7), ('g', 3), ('h', 10), ('i', 4), ('l', 26), ('o', 1)]

2.4.14 sortByKey

功能：针对KV型RDD，按照key进行排序

语法：

sortByKey(ascending=True,numPartitions=None,keyfunc=>)

ascending:升序或降序，True升序，False降序，默认是升序
numPartitions：按照几个分区进行排序，如果全局有序，设置为1
keyfunc：在排序前对key进行处理，语法是：(k)——>U,一个参数传入，返回一个值

代码演示：17_operators_sortByKey.py

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('g', 3), ('A', 1), ('B', 2,), ('A', 9), ('h', 10), ('i', 4), ('l', 26,), ('o', 1), ('d', 7)])
	# 调用了忽略大小写的函数
    print(rdd.sortByKey(ascending=True, numPartitions=1, keyfunc=lambda key: str(key).lower()).collect())

输出结果：

[('A', 1), ('A', 9), ('B', 2), ('d', 7), ('g', 3), ('h', 10), ('i', 4), ('l', 26), ('o', 1)]

2.4.15 综合案例

代码演示：18_operators_demo.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 读取数据文件
    file_rdd = sc.textFile("../data/input/order.text")

    # 进行rdd数据的split 按照|符号进行，得到一个json数据
    jsons_rdd = file_rdd.flatMap(lambda line: line.split("|"))

    # 通过python内置的json库，完成json字符串到字典对象的转换
    dict_rdd = jsons_rdd.map(lambda json_str: json.loads(json_str))

    # 过滤数据，只保留北京的数据
    beijing_rdd = dict_rdd.filter(lambda d: d['areaName'] == '北京')

    # 组合北京和商品类型形成的字符串
    category_rdd = beijing_rdd.map(lambda x: x['areaName'] + '_' + x['category'])

    # 对结果集进行去重操作
    result_rdd = category_rdd.distinct()

    # 输出
    print(result_rdd.collect())

输出结果：

['北京_平板电脑', '北京_家具', '北京_书籍', '北京_食品', '北京_服饰', '北京_手机', '北京_家电', '北京_电脑']

2.4.16 将案例提交到yarn运行

改动1：加入环境变量，让pycharm运行yarn的时候，知道hadoop的配置在哪，可以去读取yarn的信息

import os
from defs_19 import city_with_category
# 导入自己写的函数时，把文件夹设置为SourceRoot就不会报错了
os.environ['HADOOP_CONF_DIR']= "/export/server/hadoop/etc/hadoop"

改动2：在集群上运行，本地文件就不可以用了，需要用hdfs文件

    # 在集群中运行，我们需要用HDFS路径，不能用本地路径
    file_rdd = sc.textFile("hdfs://Tnode1:8020/input/order.text")

改动3：

    """
     如果提交到集群运行，除了主代码以外，还依赖了其它的代码文件
     需要设置一个参数，来告知spark，还有依赖文件要同步上传到集群中
     参数叫做：spark.submit.pyFiles
     参数的值可以是单个.py文件，也可以是.zip压缩包（有多个依赖文件的时候可以用zip压缩后上传）
    """
    conf.set("spark.submit.pyFiles","defs_19.py")

完整代码：19_operators_runOnYarn.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext
import os
from defs_19 import city_with_category
# 导入自己写的函数时，把文件夹设置为SourceRoot就不会报错了
os.environ['HADOOP_CONF_DIR']= "/export/server/hadoop/etc/hadoop"
if __name__ == '__main__':
    # 提交到yarn集群，master设置为yarn
    conf = SparkConf().setAppName("SparkDemo01").setMaster("yarn")

    """
     如果提交到集群运行，除了主代码以外，还依赖了其它的代码文件
     需要设置一个参数，来告知spark，还有依赖文件要同步上传到集群中
     参数叫做：spark.submit.pyFiles
     参数的值可以是单个.py文件，也可以是.zip压缩包（有多个依赖文件的时候可以用zip压缩后上传）
    """
    conf.set("spark.submit.pyFiles","defs_19.py")

    sc = SparkContext(conf=conf)

    # 在集群中运行，我们需要用HDFS路径，不能用本地路径
    file_rdd = sc.textFile("hdfs://Tnode1:8020/input/order.text")

    # 进行rdd数据的split 按照|符号进行，得到一个json数据
    jsons_rdd = file_rdd.flatMap(lambda line: line.split("|"))

    # 通过python内置的json库，完成json字符串到字典对象的转换
    dict_rdd = jsons_rdd.map(lambda json_str: json.loads(json_str))

    # 过滤数据，只保留北京的数据
    beijing_rdd = dict_rdd.filter(lambda d: d['areaName'] == '北京')

    # 组合北京和商品类型形成的字符串
    category_rdd = beijing_rdd.map(city_with_category)

    # 对结果集进行去重操作
    result_rdd = category_rdd.distinct()

    # 输出
    print(result_rdd.collect())

依赖代码：defs_19.py

# coding:utf8

def city_with_category(data):
    return data['areaName'] + '_' +data['category']

输出结果：

['北京_书籍', '北京_食品', '北京_服饰', '北京_平板电脑', '北京_家具', '北京_手机', '北京_家电', '北京_电脑']

在服务器上通过spark-submit 提交到集群运行

# --py-files 可以帮你指定你依赖的其它python代码，支持.zip(一堆)，也可以单个.py文件都行。
/export/server/spark/bin/spark-submit --master yarn --py-files ./defs.py ./main.py

服务器上程序运行结果：

注意，在服务器上跑时，需要把conf中的setMaster去掉

即conf = SparkConf().setAppName(“SparkDemo01”).setMaster(“yarn”)改为：

conf = SparkConf().setAppName(“SparkDemo01”)

2.5 常用Action算子

2.5.1 countByKey算子

功能：统计key出现的次数（一般适用于KV型的RDD）

代码演示：20_operators_countByKey.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.textFile("../data/input/words.txt")
    rdd2 = rdd.flatMap(lambda x:x.split(" ")).map(lambda x: (x, 1))

    # 通过countByKey来对key进行计数，这是一个Action算子
    result = rdd2.countByKey()

    print(result)
    print(list(result))
    print(result["hello"])
    print(type(result))

输出结果：

defaultdict(, {'hello': 3, 'spark': 1, 'hadoop': 1, 'flink': 1})
['hello', 'spark', 'hadoop', 'flink']
3

2.5.2 collect算子

功能：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象

用法：rdd.collect()

这个算子，是将RDD各个分区数据都拉取到Driver

注意的是，RDD是分布式对象，其数据量可以很大，

所以用这个算子之前要心知肚明地了解结果数据集不会太大。

不然，会把Driver内存撑爆

2.5.3 reduce算子

功能：对RDD数据集按照你传入的逻辑进行聚合

语法：

rdd.reduce(func)
# func:(T,T)——>T
# 2参数传入1个返回值，返回值要和参数要求类型一致

代码演示：21_operators_reduce.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1,2,3,4,5])

    print(rdd.reduce(lambda a, b: a + b))

输出结果：

2.5.4 fold算子

功能：和reduce一样，接收传入逻辑进行聚合，聚合是带有初始值的，

这个初始值聚合会作用在：

分区内聚合
分区间聚合

比如：[[1,2,3],[4,5,6],[7,8,9]]

数据量分布在3个分区

分区1： 1、2、3 聚合的时候带上10作为初始值得到16

分区3： 4、5、6 聚合的时候带上10作为初始值得到25

分区4： 7、8、9 聚合的时候带上10作为初始值得到34

3个分区的结果做聚合也带上初始值10，所以结果是10+16+25+34 = 85

代码演示：22_operators_fold.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1,2,3,4,5,6,7,8,9],3)

    print(rdd.glom().collect())

    print(rdd.fold(10, lambda a, b: a + b))

输出结果：

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
85

2.5.5 first算子

功能：取出RDD的第一个元素

用法

sc.parallelize([3,2,1]).first()
输出：3

2.5.6 take算子

功能：取RDD的前N个元素。组合成list返回给你

用法：

>>> sc.parallelize([3,2,1,4,5,6]).take(5)
[3, 2, 1, 4, 5]

2.5.7 top算子

功能：对RDD数据集进行降序排序，取前N个

用法：

>>> sc.parallelize([3,2,1,4,5,6]).top(3) # 表示取降序前3个
[6, 5, 4]

2.5.8 count算子

功能：计算RDD有多少条数据，返回值是一个数字

用法：

>>> sc.parallelize([3,2,1,4,5,6]).count()
6

2.5.9 takeSample算子

功能：随机抽样RDD的数据

用法：

takeSample(参数1：True or False，参数2：采样数，参数3：随机数种子)
- 参数1：True表示允许取同一个数据，False表示不允许取同一个数据，和数据内容无关，是否重复表示的是同一个位置的数据（有、无放回抽样）
- 参数2：抽样要几个
- 参数3：随机数种子，这个参数传入一个数字即可，随意给

随机数种子数字可以随便传，如果传同一个数字那么取出的结果是一致的。

一般参数3 我们不传，Spark会自动给与随机的种子。

代码演示：23_operators_takeSample.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 3, 5, 3, 1, 3, 2, 6, 7, 8, 6],1)
    result = rdd.takeSample(False,5,1)
    # 随机抽样可以抽出相同的数据，只是位置不同而已
    # 随机数种子能让随机数不再继续发生变化
    print(result)

输出结果：

[2, 7, 6, 6, 3]

注意：

随机抽样可以抽出相同的数据，只是位置不同而已

随机数种子能让随机数不再继续发生变化

2.5.10 takeOrdered

功能：对RDD进行排序取前N个

用法：

rdd.takeOrdered(参数1，参数2)
- 参数1 要几个数据
- 参数2 对排序的数据进行更改（不会更改数据本身，只是在排序的时候换个样子）
这个方法按照元素自然顺序升序排序，如果你想玩倒叙，需要参数2 来对排序的数据进行处理

代码演示：24_operators_takeOrdered.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 3, 2, 4, 7, 9, 6], 1)

    print(rdd.takeOrdered(3))

    print(rdd.takeOrdered(3,lambda x:-x))

输出结果：

[1, 2, 3]
[9, 7, 6]

2.5.11 foreach算子

功能：对RDD的每一个元素，执行你提供的逻辑的操作（和map一个思想），但是这个方法没有返回值

用法：

rdd.foreach(func)
# func:(T) ——> None

代码演示：25_operators_foreach.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 3, 2, 4, 7, 9, 6], 1)

    rdd.foreach(lambda x: print(x * 10))

输出结果：

2.5.12 saveAsTextFile

功能：将RDD的数据写入文本文件中

支持本地写出，hdfs等文件系统

代码演示：

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1,3,2,4,7,9,6],3)

    rdd.saveAsTextFile("hdfs://Tnode1:8020/test/output/out1")

运行结果：

注意：保存文件API，是分布式执行的

这个API的执行数据是不经过driver的

如图，写出的时候，每个分区所在的Executor直接控制数据写出到目标文件系统中

所有才会一个分区产生一个结果文件

2.5.13 注意点

我们学习的action中：

foreach
saveAsTextFile

这两个算子是分区（Executor）直接执行的，跳过Driver，由分区所在的Executor直接执行

反之：其余的Action算子都会将结果发送至Driver

2.6 分区操作算子

2.6.1 mapPartitions算子

transformation算子

图解：

如图，mapPartition一次被传递的是一整个分区的数据

作为一个迭代器（一次性list）对象传入过来。

代码演示：27_operators_mapPartitions.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

import time

if __name__ == '__main__':
    start_time = time.time()

    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 效果和map一样，但是性能比map好，cpu计算没有省，但是网络IO少很多
    rdd = sc.parallelize([1,3,2,4,7,9,6],3)

    def process(iter):
        result = []
        for it in iter:
            result.append(it*10)
        return result


    print(rdd.mapPartitions(process).collect())

   # print(rdd.map(lambda x:x*10).collect())

    end_time = time.time()
    gap_time = (end_time - start_time)
    gap_time = round(gap_time, 4)  # 保留四位小数
    print("执行本程序共耗时：" + str(gap_time) + "s")

输出结果：

[10, 30, 20, 40, 70, 90, 60]
执行本程序共耗时：8.0515s

注意：效果和map一样，但是性能比map好，cpu计算没有省，但是网络IO少很多

2.6.2 foreachPartition算子

Action算子

功能：和普通foreach一致，一次处理的是一整个分区数据

代码演示：28_operators_foreachPartitions.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1,3,2,4,7,9,6],3)

    def process(iter):
        result = []
        for it in iter:
            result.append(it*10)
        print(result)


    rdd.foreachPartition(process)

输出结果：

[70, 90, 60]
[10, 30]
[20, 40]

foreachPartition 就是一个没有返回值的mapPartitions

2.6.3 partitionBy算子

transformation算子

功能：对RDD进行自定义分区操作

用法：

rdd.partitionBy(参数1，参数2)
- 参数1 重新分区后有几个分区
- 参数2 自定义分区规则，函数传入

参数2：(K)——>int
一个传入参数进来，类型无所谓，但是返回值一定是int类型，
将key传给这个函数，你自己写逻辑，决定返回一个分区编号

分区编号从0开始，不要超出分区数-1

代码演示：29_operators_partitionBy.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('hadoop', 1), ('spark', 1), ("hello", 1), ("flink", 1), ("hadoop", 1), ("spark", 1)])


    # 使用partitionBy 自定义 分区
    def process(k):
        if 'hadoop' == k or 'hello' == k: return 0
        if 'spark' == k: return 1
        return 2


    print(rdd.partitionBy(3, process).glom().collect())

输出结果：分区依次为0、1、2

[[('hadoop', 1), ('hello', 1), ('hadoop', 1)], [('spark', 1), ('spark', 1)], [('flink', 1)]]

分区号不要超标，你设置3个分区，分区号只能是0 1 2

设置5个分区分区号只能是0 1 2 3 4

2.6.4 repartition算子

transformation算子

功能：对RDD的分区执行重新分区（仅数量）

用法：

rdd.repartition(N)
传入N 决定新的分区数

代码演示：30_operators_repartition_and_coalesce.py

# coding:utf8

import json

from pyspark import SparkConf, SparkContext


if __name__ == '__main__':


    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5], 3)

    # repartition 修改分区
    print(rdd.repartition(1).getNumPartitions())

    print(rdd.repartition(5).getNumPartitions())

    # coalesce 修改分区
    print(rdd.coalesce(1).getNumPartitions())
    print(rdd.coalesce(5,shuffle=True).getNumPartitions())

输出结果：

注意：对分区的数量进行操作，一定要慎重

一般情况下，我们写spark代码除了要求全局排序设置为1个分区外，

多数时候，所有API中关于分区相关的代码我们都不太理会

因为，如果你改分区了

会影响并行计算（内存迭代的并行管道数量）后面学

分区如果增加，极大可能导致shuffle

2.6.5 coalesce算子

transformation算子

功能：对分区进行数量增减

用法：

rdd.coalesce(参数1，参数2)
- 参数1，分区数
- 参数2，True or False
True表示允许shuffle，也就是可以加分区
False表示不允许shuffle，也就是不能加分区，False是默认

代码见2.6.4

对比repartition，一般使用coalesce较多，因为加分区要写参数2

这样避免写repartition的时候手抖了加分区了

2.6.6 mapValues算子

Transformation算子

功能：针对二元元组RDD，对其内部的二元元组的Value执行map操作

语法：

rdd.mapValues(func)
# func: (V)——> U
# 注意，传入的参数，是二元元组的 value值
# 我们这个传入的方法，只对value进行处理

代码演示：

# coding:utf8
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("create rdd").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('a', 11), ('a', 6), ('b', 3), ('b', 5)])
    # rdd.map(lambda x:(x[0],x[1]*10))
    # 将二元元组的所有value都乘以10进行处理
    print(rdd.mapValues(lambda x: x * 10).collect())

输出结果：

[('a', 10), ('a', 110), ('a', 60), ('b', 30), ('b', 50)]

2.6.7 join算子

Transformation算子

功能：对两个RDD执行join操作（可以实现SQL的内、外连接）

注意：join算子只能用于二元元组

代码见 2.4.9

2.7 面试题

groupByKey和reduceByKey的区别

在功能上的区别：

groupByKey仅仅只有分组功能而已
reduceByKey除了有ByKey的分组功能外，还有reduce聚合功能，所以是一个分组+聚合一体化的算子

如果对数据执行分组+聚合，那么使用这2个算子的性能差别是很大的

reduceByKey的性能是远大于：groupByKey+聚合逻辑的

因为：

如图，这是groupByKey+聚合逻辑的执行流程。

因为，groupByKey只能分组，所以，执行上是先分组（shuffle）后聚合

再来看reduceByKey：

如图，reduceByKey由于自带聚合逻辑，所以可以完成：

先在分区内做预聚合
然后再走分组流程（shuffle）
分组后再做最终聚合

对于groupByKey，reduceByKey最大的提升在于，分组前进行了预聚合，那么在shuffle分组节点，被shuffle的数据可以极大地减少

这就极大地提升了性能

分组+聚合，首选reduceByKey，数据越大，对groupByKey的优势就越高

2.8 总结

RDD创建方式有哪几种方法？

通过并行化集合的方式（本地集合转分布式集合）

或者读取数据的方式创建（TextFile、WholeTextFile）

RDD分区数如何查看？

通过getNumPartitions API查看，返回值Int

Transformation和Action的区别？
转换算子的返回值100%是RDD，而Action算子的返回值100%不是RDD

转换算子是懒加载的，只有遇到Action才会执行，Action就是转换算子处理链条的开关。
哪两个Action算子的结果不经过Driver，直接输出？

foreach和saveAsTextFile 直接由Executor执行后输出，不会将结果发送到Driver上去

reduceByKey和groupByKey的区别？

reduceByKey自带聚合逻辑，groupByKey不带

如果做数据聚合reduceByKey的效率更好，因为可以先聚合后shuffle在最终聚合，传输的IO小
mapPartitions和foreachPartition的区别？

mapPartitions带有返回值 foreachPartition不带
对于分区操作有什么要注意的地方？

尽量不要增加分区，可能破坏内存迭代的计算管道

3.RDD的持久化

3.1 RDD的数据是过程数据

RDD之间进行相互迭代计算（Transformation的转换），当执行开启后，新的RDD生成，代表老RDD的消失。

RDD的数据是过程数据，只在处理的过程中存在，一旦处理完成，就不见了。

这个特性可以最大化地利用资源，老旧RDD没用了就从内存中清理，给后续的计算腾出内存空间。

如上图，rdd3被2次使用，第一次使用之后，其实RDD3就不存在了。

第二次使用的时候，只能基于RDD的血缘关系，从RDD1重新执行，构建出来RDD3，供RDD5使用。

3.2 RDD的缓存

3.2.1 缓存

对于上述的场景，肯定要执行优化，优化就是：

RDD3如果不消失，那么RDD1——>RDD2——>RDD3这个链条就不会执行2次，或者更多次

RDD的缓存技术：Spark提供了缓存API，可以让我们通过调用APi，将指定的RDD数据保留在内存或者硬盘上

缓存的APi

# RDD3 被2次使用，可以加入缓存进行优化
rdd3.cache() # 缓存到内存中
rdd3.persist(StorageLevel.MEMORY_ONLY) # 仅内存缓存
rdd3.persist(StorageLevel.MEMORY_ONLY_2) # 仅内存缓存,2个副本
rdd3.persist(StorageLevel.DISK_ONLY) # 仅缓存硬盘上
rdd3.persist(StorageLevel.DISK_ONLY_2) # 仅缓存硬盘上,2个副本
rdd3.persist(StorageLevel.DISK_ONLY_3) # 仅缓存硬盘上,3个副本
rdd3.persist(StorageLevel.MEMORY_AND_DISK) # 先放内存，不够放硬盘
rdd3.persist(StorageLevel.MEMORY_AND_DISK_2) # 先放内存，不够放硬盘，2个副本
rdd3.persist(StorageLevel.OFF_HEAP) # 堆外内存（系统内存）

# 如上API，自行选择使用即可
# 一般建议使用rdd3.persist(StorageLevel.MEMORY_AND_DISK)
# 如果内存比较小的集群，建议使用rdd3.persist(StorageLevel.DISK_ONLY)或者就别用缓存了 用CheckPoint

# 主动清理缓存的API
rdd.unpersist()

3.2.2 缓存特点

缓存技术可以将过程RDD数据，持久化保存到内存或者硬盘上
但是，这个保存在设定上是认为不安全的。

缓存的数据在设计上是认为有丢失风险的。

所以，缓存有一个特点就是：其保留RDD之间的血缘（依赖）关系

一旦缓存丢失，可以基于血缘关系的记录，重新计算这个RDD的数据

缓存如何丢失：

在内存中的缓存是不安全的，比如断电、计算任务内存不足，把缓存清理给计算让路

硬盘中因为硬盘损坏也是可能丢失的。

代码演示：31_cache.py

# coding:utf8

from pyspark.storagelevel import StorageLevel

from pyspark import SparkConf, SparkContext

import time

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.textFile("../data/input/words.txt")
    rdd2 = rdd1.flatMap(lambda x: x.split(" "))
    rdd3 = rdd2.map(lambda x: (x, 1))

    # 给rdd3加缓存
    # rdd3.cache()
    rdd3.persist(StorageLevel.MEMORY_AND_DISK_2) # 设置缓存级别

    rdd4 = rdd3.reduceByKey(lambda a, b: a + b)
    result = rdd4.collect()
    print(result)

    rdd5 = rdd3.groupByKey()
    rdd6 = rdd5.mapValues(lambda x:sum(x))
    print(rdd6.collect())

    # 取消缓存
    rdd3.unpersist()
    time.sleep(10000000)

输出结果：

[('hadoop', 1), ('hello', 3), ('spark', 1), ('flink', 1)]
[('hadoop', 1), ('hello', 3), ('spark', 1), ('flink', 1)]

3.2.3 缓存是如何保存的

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U3Jp3aGK-1690941563363)(https://cdn.jsdelivr.net/gh/Sql88/BlogImg@main/img/%E7%BC%93%E5%AD%98%E6%98%AF%E5%A6%82%E4%BD%95%E4%BF%9D%E5%AD%98%E7%9A%842.png)]

如图，RDD是将自己分区的数据，每个分区自行将其数据保存在其所在的Executor内存和硬盘上。

这是分散存储

3.3 RDD的CheckPoint

3.3.1 RDD CheckPoint

CheckPoint技术，也是将RDD的数据，保存起来。

但是它仅支持硬盘存储

并且：

它被设计认为是安全的
不保留血缘关系

3.3.2 CheckPoint是如何保存数据的

如图：CheckPoint存储RDD数据，是集中收集各个分区数据进行存储。而缓存是分散存储

3.3.3 缓存和CheckPoint的对比

CheckPoint不管分区数量多少，风险是一样的，缓存分区越多，风险越高
CheckPoint支持写入HDFS，缓存不行，HDFS是高可靠存储，CheckPoint被认为是安全的
CheckPoint不支持内存，缓存可以，缓存如果写内存，性能比CheckPoint要好一些
CheckPoint因为设计是安全的，所以不保留血缘关系，而缓存因为设计上认为不安全，所以保留

3.3.4 代码

# 设置CheckPoint第一件事情，选择CP的保存路径
# 如果是Local模式，可以支持本地文件系统，如果在集群运行，千万要用HDFS
sc.setCheckpointDir("hdfs://node1:8020/output/bj52ckp")
# 用的时候，直接调用checkPoint算子即可。
rdd.checkpoint()

完整代码演示：32_checkPoint.py

# coding:utf8

import json

from pyspark.storagelevel import StorageLevel

from pyspark import SparkConf, SparkContext

import time

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 1.告知spark，开启checkPoint功能
    sc.setCheckpointDir("hdfs://Tnode1:8020/output/ckp")

    rdd1 = sc.textFile("../data/input/words.txt")
    rdd2 = rdd1.flatMap(lambda x: x.split(" "))
    rdd3 = rdd2.map(lambda x: (x, 1))

    # 调用checkPoint API 保存数据即可
    rdd3.checkpoint()

    rdd4 = rdd3.reduceByKey(lambda a, b: a + b)
    result = rdd4.collect()
    print(result)

    rdd5 = rdd3.groupByKey()
    rdd6 = rdd5.mapValues(lambda x:sum(x))
    print(rdd6.collect())

    # 取消缓存
    rdd3.unpersist()
    time.sleep(10000000)

输出结果：

[('hadoop', 1), ('hello', 3), ('spark', 1), ('flink', 1)]
[('hadoop', 1), ('hello', 3), ('spark', 1), ('flink', 1)]

3.3.5 注意

CheckPoint是一种重量级的使用，也就是RDD的重新计算成本很高的时候，我们采用CheckPoint比较合适。

或者数据量很大，用CheckPoint比较合适。

如果数据量小，或者RDD重新计算是非常快的，用CheckPoint没啥必要

Cache和CheckPoint两个API都不是Action类型

所以，想要它俩工作，必须在后面接上Action

接上Action的目的，是让RDD有数据，而不是为了CheckPoint和Cache工作。

3.3.6 总结

1.Cache和CheckPoint的区别

Cache是轻量化保存RDD数据，可存储在内存和硬盘，是分散存储，设计上数据是不安全的（保留RDD血缘关系）
CheckPoint是重量级保存RDD数据，是集中存储，只能存储在硬盘（HDFS）上，设计上是安全的（不保留RDD血缘关系）

2.Cache和CheckPoint的性能对比？

Cache性能更好，因为是分散存储，各个Executor并行执行，效率高，可以保存到内存中（占内存），更快
CheckPoint比较慢，因为是集中存储，涉及到网络IO，但是存储到HDFS上更加安全（多副本）

4.Spark案例练习

4.1 搜索引擎日志分析案例

数据格式：

需求：

用户搜索的关键词分析
用户和关键词组合分析
热门搜索时间段分析

案例实现代码：

# coding:utf8


from pyspark import SparkConf, SparkContext
from pyspark.storagelevel import StorageLevel
import jieba

from operator import add


def context_jieba(data):
    """通过jieba分词工具 进行分词操作"""
    seg = jieba.cut_for_search(data)
    l = []
    for word in seg:
        l.append(word)
    return l


def filter_words(data):
    """过滤不要的 谷、帮、客 湖"""
    return data not in ['谷', '帮', '客', '湖']


def append_words(data):
    """修订某些关键词的内容"""
    if data == '传智播': data = '传智播客'
    if data == '院校': data = '院校帮'
    if data == '博学': data = '博学谷'
    if data == '数据': data = '数据湖'
    return (data, 1)


def extract_user_and_word(data):
    """传入数据是 元组(1,我喜欢传智播客)"""
    user_id = data[0]
    content = data[1]
    # 对content进行分词
    words = context_jieba(content)

    return_list = []

    for word in words:
        # 不要忘记过滤 \谷\帮\客\湖
        if filter_words(word):
            return_list.append((user_id + '_' + append_words(word)[0], 1))

    return return_list


if __name__ == '__main__':
    conf = SparkConf().setAppName("SparkDemo2")
    sc = SparkContext(conf=conf)

    # 1.读取文件
    file_rdd = sc.textFile("hdfs://Tnode1/input/SogouQ.txt")

    # 2. 对数据进行切分 \t
    split_rdd = file_rdd.map(lambda x: x.split("\t"))

    # 3. 因为要做多个需求，split_rdd 作为基础的rdd 会被多次使用
    split_rdd.persist(StorageLevel.DISK_ONLY)

    # TODO:需求1：用户搜索的关键‘词’分析
    # 主要分析热点词
    # 将所有的搜索内容取出
    # print(split_rdd.takeSample(True, 3))

    context_rdd = split_rdd.map(lambda x: x[2])

    # 对搜索的内容进行分词分析
    words_rdd = context_rdd.flatMap(context_jieba)

    # print(words_rdd.collect())

    # 异常的数据：
    # 数据 湖 ——> 数据湖
    # 院校 帮 ——> 院校帮
    # 博学 谷 ——> 博学谷
    # 传智播 客——> 传智播客

    filtered_rdd = words_rdd.filter(filter_words)

    # 将关键词转换：传智播 --> 传智播客
    final_words_rdd = filtered_rdd.map(append_words)

    # 对单词进行分组、聚合、排序 求出前五名
    result1 = final_words_rdd.reduceByKey(lambda a, b: a + b). \
        sortBy(lambda x: x[1], ascending=False, numPartitions=1). \
        take(5)
    print("需求1结果：", result1)

    # TODO：需求2：用户和关键词组合分析
    # 1，我喜欢传智播客
    # 1 + 我 1+喜欢 1+传智播客
    user_content_rdd = split_rdd.map(lambda x: (x[1], x[2]))

    # 对用户的搜索内容进行分词，分词后和用户ID再次组合
    user_word_with_one_rdd = user_content_rdd.flatMap(extract_user_and_word)

    # 对内容进行分组、聚合、排序、求前5
    result2 = user_word_with_one_rdd.reduceByKey(lambda a, b: a + b). \
        sortBy(lambda x: x[1], ascending=False, numPartitions=1). \
        take(5)
    print("需求2结果：", result2)

    # TODO:需求3：热门搜索时间段分析
    # 取出来所有的时间
    time_rdd = split_rdd.map(lambda x: x[0])
    # 对时间进行处理，只保留小时精度即可
    hour_with_one_rdd = time_rdd.map(lambda x: (x.split(":")[0], 1))
    # 分组、聚合、排序
    result3 = hour_with_one_rdd.reduceByKey(add). \
        sortBy(lambda x: x[1], ascending=False, numPartitions=1). \
        collect()
    print("需求3结果：", result3)

输出结果：

需求1结果： [('scala', 2310), ('hadoop', 2268), ('博学谷', 2002), ('传智汇', 1918), ('itheima', 1680)]
需求2结果： [('6185822016522959_scala', 2016), ('41641664258866384_博学谷', 1372), ('44801909258572364_hadoop', 1260), ('7044693659960919_仓库', 1120), ('15984948747597305_传智汇', 1120)]
需求3结果： [('20', 3479), ('23', 3087), ('21', 2989), ('22', 2499), ('01', 1365)

4.2 提交到集群运行

# 普通提交
/export/server/spark/bin/spark-submit --master yarn SparkDemo2.py

# 压榨集群式提交
# 每个executor吃14g内存，8核cpu，总共3个executor
/export/server/spark/bin/spark-submit --master yarn --executor-memory 14g --executor-cores 8 --num-executors 3 ./SparkDemo2.py

输出结果：

要注意代码中：

master部分删除

读取的文件路径改为hdfs才可以

4.3 作业

代码演示：

# coding:utf8

from pyspark import SparkContext, StorageLevel
from pyspark import SparkConf

if __name__ == '__main__':
    conf = SparkConf().setAppName("sparkHomeWork01").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    file_rdd = sc.textFile("../../data/input/apache.log")

    file_rdd.persist(StorageLevel.MEMORY_AND_DISK_2)

    # 需求1：TODO：计算当前网站访问的PV（被访问次数）
    visit_Num = file_rdd.count()
    print("当前网站的被访问次数：", visit_Num)  # 14

    # 需求2：TODO：当前网站访问的用户数
    userNum = file_rdd.distinct().count()
    print("当前网站的访问用户数：", userNum)  #

    # 需求3：TODO：有哪些IP访问了本网站？
    Ip_rdd1 = file_rdd.map(lambda x: x.split(" "))

    Ip_rdd1.cache()

    Ip_rdd2 = Ip_rdd1.map(lambda x: x[0]).distinct()
    # print(IP_rdd2.collect())
    print("有哪些IP访问了本网站：", Ip_rdd2.collect())

    # 需求4 TODO：哪个页面访问量最高
    page_rdd1 = Ip_rdd1.map(lambda x:x[-1])
    page_rdd2 = page_rdd1.map(lambda x:(x,1))
    page_rdd3 = page_rdd2.reduceByKey(lambda a,b:a+b)
    # page = page_rdd3.sortBy(lambda x:x[1],ascending=False,numPartitions=1).take(1)
    page = page_rdd3.takeOrdered(1,lambda x:-x[1])
    page = page[0]
    print(page)
    print("访问量最高的页面是：",page[0],"共被访问：",page[1],"次")

输出结果：sparkHomeWork01.py

当前网站的被访问次数： 14
当前网站的访问用户数： 9
有哪些IP访问了本网站： ['83.149.9.216', '10.0.0.1', '86.149.9.216']
('/presentations/logstash-monitorama-2013/css/print/paper.css', 13)
访问量最高的页面是： /presentations/logstash-monitorama-2013/css/print/paper.css 共被访问： 13 次

你可能感兴趣的:(spark,python,大数据)

Linux安装Python3 培根芝士 Python Linux python linux
1.下载python3编译的依赖包yuminstall-ygccpatchlibffi-develpython-develzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devel2.安装openssl1.1.xyu
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
linux下编译安装python3.10亲测可行！致命扼腕环境安装服务器使用 linux python 运维
方法简单两部步就可以啦apt-getupdate&&apt-getupgrade-yapt-getinstall-y--no-install-recommendsgccg++makepython3python3-devpython3-pippython3-venvpython3-wheelespeak-nglibsndfile1-dev测试命令行输入python3即可看到安装成功安装python包
十五、CentOS 7 下安装python3.10 使用最新openssl 默金…… centos linux 运维
要在CentOS7上安装Python3.10并使用最新的OpenSSL，可以按照以下步骤进行操作：更新系统软件包：使用yum命令更新系统软件包到最新版本：sudoyumupdate安装编译工具和依赖项：安装构建Python和OpenSSL所需的编译工具和依赖项：sudoyumgroupinstall"DevelopmentTools"sudoyuminstallzlib-develbzip2-de
linux 安装python3.7.10 多财多亿,凭亿近人 python随手笔记 Python 安装编译依赖 Linux
apt-getupdateapt-getupgradeaptinstallbuild-essential-yaptinstalllibncurses5-devlibgdbm-devlibnss3-devlibssl-devlibreadline-devlibffi-dev-yaptinstallzlib1g-devaptinstallwgetaptinstallopensslaptinstallc
继续分享实用工具的Python源码，欢迎二开 mosquito_lover1 信息可视化 python 开源
Excel数据处理工具一个功能强大的Excel数据处理工具，支持数据清洗、转换和分析等功能资源-CSDN文库邮件自动化工具一个功能强大的邮件自动化工具，支持批量发送邮件和自定义模板资源-CSDN文库网页爬虫工具一个功能强大的网页爬虫工具，支持自定义规则和批量数据提取资源-CSDN文库日志分析工具一个功能强大的日志分析工具，支持多种格式的日志文件分析和可视化资源-CSDN文库文件重命名工具一个功能强
Linux下安装python3.10.12环境爱思考的李MAX linux 运维服务器 python
安装python3编程环境检查是否安装python3python3-V安装python3依赖sudoyum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-devel下载pyt
猫眼大数据开发面试题及参考答案大模型大数据攻城狮数据仓库大数据数据开发窗口函数 hive外部表维度建模数仓分层
Java基本数据类型有哪些？包装类型又是什么？Java的基本数据类型是Java语言中最基础的数据类型，它们用于存储简单的值。Java的基本数据类型主要分为以下几类：整型byte：占1个字节，取值范围是-128到127，通常用于节省内存的场景，比如处理文件或网络数据时，存储一些小的整数值。short：占2个字节，取值范围是-32768到32767，使用场景相对较少，但在某些需要节省内存且数值范围不大
编译安装 Python 3.10.15：你必须掌握的 CentOS 实战指南20241031 Narutolxy Python笔记技术干货分享 python centos 开发语言
编译安装Python3.10.15：你必须掌握的CentOS实战指南**在CentOS系统上编译安装Python是一项技术活。**轻微的疏忽可能就让你陷入依赖困境，或甚至让Python与系统组件发生冲突。今天，让我们从实践角度出发，掌握一套高效、安全的安装流程！一、为什么要手动编译安装Python？包管理器的Python版本可能无法满足你的开发需求，尤其是在追求新特性或想要启用特定优化时。从源码编
linux 安装python 3.10 处女座_三月 python linux 运维服务器
1下载对应的安装包下载地址：https://download.csdn.net/download/weixin_43401380/885196692上传服务器1步骤1:解压文件tar-xzfPython-3.10.13.tgz2步骤2:创建安装目录mkdirlocal3开始安装1安装gcc：你需要安装gcc，这是GNU编译器集合的一部分，用于编译C程序。执行以下命令来安装gcc：sudoaptup
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
用python绘制kde模型若木胡 python 开发语言
以下是使用Python绘制核密度估计（KernelDensityEstimation,KDE）模型的完整示例代码和说明：方法1:使用Seaborn快速绘制importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#生成示例数据（混合高斯分布）data=np.concatenate([np.random.normal(0,1,500),
基于Python的图书馆借阅记录管理系统设计与实现 IT实战课堂@白老师 Python项目 python 开发语言毕设指导推荐毕设选题推荐智能家居爬虫
基于Python的图书馆借阅记录管理系统设计与实现|计算机毕业设计|毕设选题|选题推荐|答辩指导|课程设计|毕设答疑l论文降重该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！技术路线：软件开发环境及开发工具：开发语言：python使用框架：Django前端技术：JavaScript、VUE.js（2.
python修改nginx配置文件_一个修改nginx.conf配置文件的开源工具潜水小透明
发现一个修改nginx.conf配置文件的python开源工具，挺好用的，分享一下：这个工具可以读取，修改以及删除nginx的配置项，然后重新生成配置文件。这其中保留了大部分原始配置文件格式，有一些会改变；所以不保证新生成的文件格式完全一致，还需要用肉眼比较一下哦。基本用法：frompynginxconfigimportNginxConfignc=NginxConfig()nc.loadf('/e
安装OpenCV时遇到pip install指令无效的问题 Chan的菜鸟成长之路 opencv pip 人工智能计算机视觉图像处理
解决方法：将pipinstallopencv-python改为pip3installopencv-python，即可成功安装。pip和pip3的区别概念方面pip是Python的包管理工具，用于安装和管理Python软件包。它默认是关联到Python2.x版本（如果系统中同时安装了Python2和Python3）。pip3专门用于管理Python3.x版本的软件包。在安装Python3时，pip3
基于Java的智能家居设计：探讨Java在智能家居大数据处理中的角色杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
基于Java的智能家居设计：探讨Java在智能家居大数据处理中的角色关键词：智能家居,Java,大数据处理,机器学习,物联网1.背景介绍1.1问题由来随着物联网技术的发展，智能家居已经从一个概念转变为现实。通过连接各种家庭设备，智能家居系统能够实现自动化控制、远程监控、个性化服务等功能。然而，这些功能背后隐藏着一个庞大的数据处理和管理系统，即大数据处理系统。这些系统需要高效、可靠的计算平台，而Ja
OpenCV在Python 3.6中的安装与应用教程北海有座岛
本文还有配套的精品资源，点击获取简介：OpenCV是一个功能丰富的计算机视觉库，适用于图像处理和分析。本文将介绍如何在Python3.6环境下安装和使用OpenCV，包括处理网络安装困难时的替代方案。同时，本文也涵盖了如何通过预编译的二进制文件（.whl）简化安装过程，并介绍了OpenCV的扩展模块和基础使用方法。1.OpenCV简介和应用领域OpenCV简介OpenCV（OpenSourceCo
Python+Django框架图书馆图书借阅管理系统网站设计与实现作品截图和开题报告参考黄菊华老师计算机系统成品图书馆图书借阅管理系统
博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育、辅导。所有项目都配有从入门到精通的基础知识视频课程，学习后应对毕业设计答辩，提供核心代码讲解，答辩指导。项目配有对应开发文档、开题报告、任务书、PPT等，提供毕业设计论文辅导。项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包
python之异常处理_Python 简明教程 --- 23，Python 异常处理 weixin_39853968 python之异常处理
要么做第一个，要么做最好的一个。目录我们在编写程序时，总会不自觉的出现一些错误，比如逻辑错误，语法错误和一些其它的运行时错误等。逻辑错误：这种错误不会导致程序崩溃，它不容易被发现，只有在执行结果不是我们预期的时候，才会被发现。语法错误：这种错误是不符合语法规定的错误，说白了，就是编译器或者解释器无法理解的代码。出现这种错误时，程序是不能运行的。其它运行时错误：这种错误是程序在运行的过程中出现的，一
python第六次课----异常处理心之所向，随风依旧 python
1.异常简介异常即非正常状态，在Python中使用异常对象来表示异常。若程序在编译或运行过程中发生错误，程序的执行过程就会发生改变，抛出异常对象，程序流进入异常处理。如果异常对象没有被处理或捕捉，程序就会执行回溯(Traceback)来终止程序。异常信息：异常类型：异常类型异常消息NameError: name'num'isnotdefined.Didyoumean:'sum'?FileN
python 抽象类学python的土豆 python 开发语言
1.基本概念抽象类，顾名思义，是包含抽象方法（即没有具体实现的方法）的类。这些抽象方法必须在子类中得以具体实现。Python通过abc（AbstractBaseClasses）模块提供了对抽象类的支持。在Python3中，我们通常会从abc.ABC类继承来创建一个抽象类，并使用@abc.abstractmethod装饰器来标记抽象方法。2.定义抽象类fromabcimportABC,abstrac
python中的时间模块--datetime模块、time模块学python的土豆 python 开发语言
python中的时间模块一.datetime模块二.time模块一.datetime模块引入时间模块fromdatetimeimportdatetime获取当前时间print(datetime.today())#前的日期和时间print(datetime.now())#当前的日期和时间print(datetime.now().year)#当前的年份print(datetime.now().mont
python 函数基础学python的土豆 python 开发语言
python函数基础1.函数的目的2.函数的定义3.函数的声明与调用4.函数的形参与实参5.函数的返回值6.函数的参数类型6.1位置参数：6.2关键字参数：6.3默认参数：6.4可变参数：7.匿名函数8.函数的进阶应用在编程的世界里，函数是构建程序大厦的基石。Python作为一种高级编程语言，提供了强大且灵活的函数定义和调用机制。本文将对python函数基础的相关知识进行讲解。1.函数的目的函
python 函数进阶（迭代器和生成器）学python的土豆 python 开发语言
python函数进阶（迭代器和生成器）1.迭代器1.1迭代器的定义1.2迭代器的使用2.生成器2.1生成器的定义2.2生成器的优势2.3生成器的应用总结在Python的编程世界里，迭代器与生成器是两个很重要的概念，它们不仅简化了数据遍历与处理的过程，还极大地提升了代码的可读性与执行效率。这篇文章就来深入了解一下Python中的迭代器与生成器1.迭代器迭代器是Python中处理序列数据的一种重要方式
python的异常处理--异常引入，异常处理，常见异常，断言，自定义异常学python的土豆 python
python的异常处理一.异常引入二.异常处理三.常见异常四.断言五.自定义异常一.异常引入异常概念:程序在运行过程中发生不可预知的错误，程序员很难堵住所有的漏洞，就需要异常处理二.异常处理异常处理:捕获异常:try-except-else-finally将可能发生异常的代码，放入try-except中else：当代码没有异常就会执行else,如果代码块中有return，else将不执行final
Python+Selenium环境搭建程序媛_ Selenium Python python selenium pycharm
文章目录1安装Python1.1下载1.2安装注意事项1.3验证环境2安装PyCharm2.1下载PyCharm社区版2.2安装注意事项3安装浏览器及驱动3.1下载Chrome浏览器3.2下载Chromedriver3.3关闭浏览器自动更新关闭3.4配置Chromdriver4安装Selenium5调试6异常解决7自动化Edge浏览器1安装Python1.1下载下载网址:https://www.p
【unstructured】针对unstructured的pdf提取的hi_res策略不能够连接huggingface.co下载模型的问题而选择本地化模型推理部署的方法 phillihp llm python 深度学习 pdf llama langchain
目录unstructuredpdfhi_res策略本地推理部署说明python3.9虚拟环境准备安装miniconda创建一个conda-env环境安装unstructured背景知识安装步骤安装detectron2背景知识安装detectron2及其依赖torch，torchvision和torchaudio部署模型背景知识hi_res策略三种模型本地推理部署layoutmodel(detect
Python-处理非结构化数据 cunzai1985 python 大数据 linux 人工智能 java
Python-处理非结构化数据(Python-ProcessingUnstructuredData)Thedatathatisalreadypresentinarowandcolumnformatorwhichcanbeeasilyconvertedtorowsandcolumnssothatlateritcanfitnicelyintoadatabaseisknownasstructuredda
[利用Python加载和处理网址内容：从Unstructured到Selenium和Playwright] bhawfgrcbtwny python selenium 开发语言
引言在现代网页数据分析中，加载和处理来自多种网址的内容是一个常见需求。无论是数据挖掘还是网页内容分析，我们常常需要从多个网页中提取HTML文档。本篇文章将介绍如何利用Python中的Unstructured、Selenium和Playwright库来加载这些网页内容，并将其转换为适合后续处理的文档格式。主要内容UnstructuredURLLoaderUnstructuredURLLoader可以
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）小Tomkk 大数据大数据数据治理数据库管理员数据资产管理师数据质量专员
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）文章目录大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）数据治理工程师/专家（DataGovernanceEngineer/Expert）1.元数据管理师（MetadataManager）2.主数据管理师（MasterDataManager）数据库管理员（DBA-DatabaseAdmini
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s