Sisi525693

PySpark之RDD的持久化

RDD的持久化

RDD的缓存

当RDD被重复使用，或者计算该RDD比较容易出错，而且需要消耗比较多的资源和时间的时候，我们就可以将该RDD缓存起来。

主要作用: 提升Spark程序的计算效率
注意事项: RDD的缓存可以存储在内存或者是磁盘上，甚至可以存储在Executor进程的堆外内存中。主要是放在内存中，因此缓存的数据是不太稳定可靠。

由于是临时存储，可能会存在丢失，所以缓存操作，并不会将RDD之间的依赖关系给截断掉(丢失掉)，因为当缓存
失效后，可以全部重新计算
缓存的API都是Lazy惰性的，如果需要触发缓存操作，推荐调用count算子，因为运行效率高

设置缓存的相关API:
            rdd.cache():将RDD的数据缓存在内存中
            rdd.persist(缓存的级别/位置):将RDD的数据存储在指定位置
手动清理缓存:rdd.unpersits()
默认情况下,当整个Spark应用程序执行完成后,缓存数据会自动失效,会自动删除

缓存的级别/位置:

        DISK_ONLY: 只存储在磁盘
    DISK_ONLY_2: 只存储在磁盘，并且有2个副本
    DISK_ONLY_3: 只存储在磁盘，并且有3个副本
    MEMORY_ONLY: 只存储在内存中
    MEMORY_ONLY_2: 只存储在内存中，并且有2个副本
    MEMORY_AND_DISK: 存储在内存和磁盘中，先放在内存，再放在磁盘
    MEMORY_AND_DISK_2: 存储在内存和磁盘中，先放在内存，再放在磁盘，并且有2个副本
    OFF_HEAP: Executor进程的堆外内存

工作中最常用的是: MEMORY_AND_DISK和MEMORY_AND_DISK_2。优先推荐使用MEMORY_AND_DISK

import time

from pyspark import SparkConf, SparkContext, StorageLevel
import os
import jieba

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

# 需要过滤的关键词黑名单
keyword_black_list = ['+','.','的','com']

# ctrl+alt+M将代码封装成函数/方法
# 3.2- 需求一：统计每个关键词出现了多少次。先提取需要操作的字段并且分词，这一步类似WordCount中的对每行进行切分处理，再仿照WordCount实现。
def top10_keyword():
    keyword_rdd = etl_rdd.flatMap(lambda line_tup: list(jieba.cut(line_tup[2])))
    # print(keyword_rdd.take(10))

    # 数据结构转变。将单词变成元组
    # keyword_map_rdd = keyword_rdd.filter(lambda word:word!='+' or word!='.').map(lambda word:(word,1))
    keyword_map_rdd = keyword_rdd.filter(lambda word: word not in keyword_black_list).map(lambda word: (word, 1))

    # 分组聚合操作
    keyword_result_rdd = keyword_map_rdd.reduceByKey(lambda agg, curr: agg + curr)
    # print(keyword_result_rdd.take(100))

    # 对结果中关键词的次数降序排序，取TOP10
    keyword_result = keyword_result_rdd.top(10, key=lambda tup: tup[1])
    print(keyword_result)


# 3.3- 需求二：统计每个用户每个搜索内容点击的次数
def content():
    """
        hive sql：
            select
                用户,搜索内容,count(1) as cnt
            from table
            group by 用户,搜索内容
    """
    # 从原始的6个字段中，提取出2个字段，得到 (用户,搜索内容)
    new_tup_tmp_rdd = etl_rdd.map(lambda tup: (tup[1], tup[2]))

    # 数据格式转换
    """
            输入：(张三,鸡你太美) -> hello
            输出：((张三,鸡你太美),1) -> (hello,1)
        """
    new_tup_rdd = new_tup_tmp_rdd.map(lambda tup: (tup, 1))
    # new_tup_rdd = new_tup_tmp_rdd.map(lambda tup:(tup[0],tup[1],1))

    # 分组聚合
    content_result = new_tup_rdd.reduceByKey(lambda agg, curr: agg + curr)
    print(content_result.take(10))


if __name__ == '__main__':

    # 1- 创建SparkContext
    conf = SparkConf().setAppName('sogou_demo').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    # 2- 数据输入
    init_rdd = sc.textFile('file:///export/data/gz16_pyspark/01_spark_core/data/SogouQ.sample')

    print("ETL处理前数据条数：",init_rdd.count())

    # 3- 数据处理
    # 3.1- ETL：数据的清洗、转换、加载
    """
        split()：默认按照空白字符进行切分。例如：空格、制表符、回车换行符等
        
        map和flatMap的主要区别：flatMap对每一个元素处理以后，会将结果打平/压扁到一个更大的容器当中。
    """
    map_rdd = init_rdd.map(lambda line:line.split())
    # print("调用map算子后的内容：",map_rdd.take(10))

    # flatmap_rdd = init_rdd.flatMap(lambda line: line.split())
    # print("调用flatMap算子后的内容：",flatmap_rdd.take(10))

    # 过滤掉每行中没有6个字段的数据
    filter_rdd = map_rdd.filter(lambda line_list: len(line_list)==6)


    # 数据结构转换（为了演示而演示）
    etl_rdd = filter_rdd.map(lambda line_list:(
        line_list[0],
        line_list[1],
        line_list[2][1:-1], # 省略前后的中括号
        line_list[3],
        line_list[4],
        line_list[5]
    ))

    # 设置缓存。并且调用count算子触发操作
    # etl_rdd.cache().count()
    etl_rdd.persist(storageLevel=StorageLevel.MEMORY_AND_DISK).count()

    print("ETL处理后数据条数：", etl_rdd.count())

    # 3.2- 需求一：统计每个关键词出现了多少次
    # top10_keyword()

    # 3.3- 需求二：统计每个用户每个搜索内容点击的次数
    content()


    time.sleep(20)

    # 手动清理缓存。你对哪个RDD设置了缓存，那么你就对那个RDD清理缓存。也需要调用count算子触发。
    etl_rdd.unpersist().count()

    time.sleep(100)

    # 5- 释放资源
    sc.stop()

无缓存的DAG流程图显示：

有缓存的DAG流程图显示：

RDD的checkpoint检查点

RDD缓存主要是将数据存储在内存中，是临时存储，不太稳定，它主要是用来提升程序运行效率的。RDD的checkpoint(检查点)主要是将数据存储在HDFS上，是持久化存储。而HDFS存储数据有3副本的机制，让数据更加安全可靠。

checkpoint认为使用磁盘或者HDFS存储数据之后，数据非常的安全可靠，因此checkpoint会将RDD间的依赖关系给删除/丢弃掉。因此如果checkpoint的数据真的出现了问题，是无法在从头开始计算。

checkpoint主要作用: 提高程序的容错性
注意事项: checkpoint可以将数据存储在磁盘或者HDFS上，主要是将数据存储在HDFS上。

相关API:
   sc.setCheckpointDir(存储路径): 设置checkpoint数据存放路径
   rdd.checkpoint(): 对指定RDD启用checkpoint
   rdd.count(): 触发checkpoint

import time

from pyspark import SparkConf, SparkContext, StorageLevel
import os
import jieba

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

# 需要过滤的关键词黑名单
keyword_black_list = ['+','.','的','com']

# ctrl+alt+M将代码封装成函数/方法
# 3.2- 需求一：统计每个关键词出现了多少次。先提取需要操作的字段并且分词，这一步类似WordCount中的对每行进行切分处理，再仿照WordCount实现。
def top10_keyword():
    keyword_rdd = etl_rdd.flatMap(lambda line_tup: list(jieba.cut(line_tup[2])))
    # print(keyword_rdd.take(10))

    # 数据结构转变。将单词变成元组
    # keyword_map_rdd = keyword_rdd.filter(lambda word:word!='+' or word!='.').map(lambda word:(word,1))
    keyword_map_rdd = keyword_rdd.filter(lambda word: word not in keyword_black_list).map(lambda word: (word, 1))

    # 分组聚合操作
    keyword_result_rdd = keyword_map_rdd.reduceByKey(lambda agg, curr: agg + curr)
    # print(keyword_result_rdd.take(100))

    # 对结果中关键词的次数降序排序，取TOP10
    keyword_result = keyword_result_rdd.top(10, key=lambda tup: tup[1])
    print(keyword_result)


# 3.3- 需求二：统计每个用户每个搜索内容点击的次数
def content():
    """
        hive sql：
            select
                用户,搜索内容,count(1) as cnt
            from table
            group by 用户,搜索内容
    """
    # 从原始的6个字段中，提取出2个字段，得到 (用户,搜索内容)
    new_tup_tmp_rdd = etl_rdd.map(lambda tup: (tup[1], tup[2]))

    # 数据格式转换
    """
            输入：(张三,鸡你太美) -> hello
            输出：((张三,鸡你太美),1) -> (hello,1)
        """
    new_tup_rdd = new_tup_tmp_rdd.map(lambda tup: (tup, 1))
    # new_tup_rdd = new_tup_tmp_rdd.map(lambda tup:(tup[0],tup[1],1))

    # 分组聚合
    content_result = new_tup_rdd.reduceByKey(lambda agg, curr: agg + curr)
    print(content_result.take(10))


if __name__ == '__main__':

    # 1- 创建SparkContext
    conf = SparkConf().setAppName('sogou_demo').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    # 设置checkpoint路径
    sc.setCheckpointDir("hdfs://node1:8020/day04/chk")

    # 2- 数据输入
    init_rdd = sc.textFile('file:///export/data/gz16_pyspark/01_spark_core/data/SogouQ.sample')

    print("ETL处理前数据条数：",init_rdd.count())

    # 3- 数据处理
    # 3.1- ETL：数据的清洗、转换、加载
    """
        split()：默认按照空白字符进行切分。例如：空格、制表符、回车换行符等
        
        map和flatMap的主要区别：flatMap对每一个元素处理以后，会将结果打平/压扁到一个更大的容器当中。
    """
    map_rdd = init_rdd.map(lambda line:line.split())
    # print("调用map算子后的内容：",map_rdd.take(10))

    # flatmap_rdd = init_rdd.flatMap(lambda line: line.split())
    # print("调用flatMap算子后的内容：",flatmap_rdd.take(10))

    # 过滤掉每行中没有6个字段的数据
    filter_rdd = map_rdd.filter(lambda line_list: len(line_list)==6)


    # 数据结构转换（为了演示而演示）
    etl_rdd = filter_rdd.map(lambda line_list:(
        line_list[0],
        line_list[1],
        line_list[2][1:-1], # 省略前后的中括号
        line_list[3],
        line_list[4],
        line_list[5]
    ))

    # 对指定RDD启用checkpoint
    etl_rdd.checkpoint()
    # 调用count算子，触发checkpoint操作
    etl_rdd.count()


    print("ETL处理后数据条数：", etl_rdd.count())

    # 3.2- 需求一：统计每个关键词出现了多少次
    # top10_keyword()

    # 3.3- 需求二：统计每个用户每个搜索内容点击的次数
    content()

    time.sleep(1000)

    # 5- 释放资源
    sc.stop()

持久化方案对比

Spark的两种持久化方案缓存操作,checkpoint检查点的不同点

1.数据存储位置不同
缓存:rdd存储在内存,磁盘,或者是堆外内存中
checkpoint检查点:rdd存储在磁盘或者HDFS中,集群模式下仅能存储在HDFS中
2.生命周期不同
缓存:可以使用unpersist手动删除,或者程序运行结束后会自动销毁,自动删除
checkpoint检查点:程序运行结束后被保留,需要手动删除
3.血缘关系不同
缓存:RDD之间会保留血缘关系,缓存数据可能会失效,失效后可以重新回溯计算
checkpoint检查点:会丢掉依赖关系,因为checkpoint可以将数据保存到更加安全可靠的位置,当执行失败时也不需要重新回溯执行
4.目的不同
缓存:为了提高Spark程序的运行效率
checkpoint检查点:提高Spark程序的容错性

相同点:缓存的API都是Lazy惰性的，如果需要触发缓存操作，推荐调用count算子，因为运行效率高

实际应用

在同一个项目中，推荐缓存和checkpoint(检查点)同时配合使用。

使用顺序如下: 在代码中先设置缓存，再设置checkpoint检查点，然后再一同使用Action算子触发，推荐使用count算子。因为这个顺序，只会有一次IO写的过程。

实际过程如下: 程序会优先从缓存中读取数据，如果发现缓存中没有数据。再从checkpoint中读取数据，并且接着将读取到的数据重新在内存中放置一份，后续还是优先从缓存中读取

import time

from pyspark import SparkConf, SparkContext, StorageLevel
import os
import jieba

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

# 需要过滤的关键词黑名单
keyword_black_list = ['+','.','的','com']

# ctrl+alt+M将代码封装成函数/方法
# 3.2- 需求一：统计每个关键词出现了多少次。先提取需要操作的字段并且分词，这一步类似WordCount中的对每行进行切分处理，再仿照WordCount实现。
def top10_keyword():
    keyword_rdd = etl_rdd.flatMap(lambda line_tup: list(jieba.cut(line_tup[2])))
    # print(keyword_rdd.take(10))

    # 数据结构转变。将单词变成元组
    # keyword_map_rdd = keyword_rdd.filter(lambda word:word!='+' or word!='.').map(lambda word:(word,1))
    keyword_map_rdd = keyword_rdd.filter(lambda word: word not in keyword_black_list).map(lambda word: (word, 1))

    # 分组聚合操作
    keyword_result_rdd = keyword_map_rdd.reduceByKey(lambda agg, curr: agg + curr)
    # print(keyword_result_rdd.take(100))

    # 对结果中关键词的次数降序排序，取TOP10
    keyword_result = keyword_result_rdd.top(10, key=lambda tup: tup[1])
    print(keyword_result)


# 3.3- 需求二：统计每个用户每个搜索内容点击的次数
def content():
    """
        hive sql：
            select
                用户,搜索内容,count(1) as cnt
            from table
            group by 用户,搜索内容
    """
    # 从原始的6个字段中，提取出2个字段，得到 (用户,搜索内容)
    new_tup_tmp_rdd = etl_rdd.map(lambda tup: (tup[1], tup[2]))

    # 数据格式转换
    """
            输入：(张三,鸡你太美) -> hello
            输出：((张三,鸡你太美),1) -> (hello,1)
        """
    new_tup_rdd = new_tup_tmp_rdd.map(lambda tup: (tup, 1))
    # new_tup_rdd = new_tup_tmp_rdd.map(lambda tup:(tup[0],tup[1],1))

    # 分组聚合
    content_result = new_tup_rdd.reduceByKey(lambda agg, curr: agg + curr)
    print(content_result.take(10))


if __name__ == '__main__':

    # 1- 创建SparkContext
    conf = SparkConf().setAppName('sogou_demo').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    # 设置checkpoint路径
    sc.setCheckpointDir("hdfs://node1:8020/day04/chk")

    # 2- 数据输入
    init_rdd = sc.textFile('file:///export/data/gz16_pyspark/01_spark_core/data/SogouQ.sample')

    print("ETL处理前数据条数：",init_rdd.count())

    # 3- 数据处理
    # 3.1- ETL：数据的清洗、转换、加载
    """
        split()：默认按照空白字符进行切分。例如：空格、制表符、回车换行符等
        
        map和flatMap的主要区别：flatMap对每一个元素处理以后，会将结果打平/压扁到一个更大的容器当中。
    """
    map_rdd = init_rdd.map(lambda line:line.split())
    # print("调用map算子后的内容：",map_rdd.take(10))

    # flatmap_rdd = init_rdd.flatMap(lambda line: line.split())
    # print("调用flatMap算子后的内容：",flatmap_rdd.take(10))

    # 过滤掉每行中没有6个字段的数据
    filter_rdd = map_rdd.filter(lambda line_list: len(line_list)==6)


    # 数据结构转换（为了演示而演示）
    etl_rdd = filter_rdd.map(lambda line_list:(
        line_list[0],
        line_list[1],
        line_list[2][1:-1], # 省略前后的中括号
        line_list[3],
        line_list[4],
        line_list[5]
    ))

    # 先缓存
    etl_rdd.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)

    # 再checkpoint
    etl_rdd.checkpoint()

    # 最后调用count算子，一同触发
    etl_rdd.count()


    print("ETL处理后数据条数：", etl_rdd.count())

    # 3.2- 需求一：统计每个关键词出现了多少次
    # top10_keyword()

    # 3.3- 需求二：统计每个用户每个搜索内容点击的次数
    content()

    time.sleep(1000)

    # 5- 释放资源
    sc.stop()

Python 爬虫实战：DOTA2 比赛数据全量采集（含赛事战报解析与数据库存储西攻城狮北 python 爬虫数据库
一、引言DOTA2作为一款全球知名的多人在线战术竞技游戏，拥有庞大的玩家群体和丰富的比赛数据。这些数据对于电竞分析师、数据研究员、游戏玩家等具有极高的价值。通过爬取DOTA2比赛数据，可以深入了解比赛详情、战队表现、选手数据等信息，为电竞行业提供数据支持。二、开发环境搭建（一）编程语言与工具选择选择Python语言，利用其丰富的库和简洁语法，高效完成爬虫开发任务。搭配PyCharm集成开发环境，享
Python 爬虫实战：淘宝直播间实时数据抓取（弹幕分析 + 流量监控）西攻城狮北 python 爬虫开发语言
一、引言随着电商直播的迅猛发展，淘宝直播已成为品牌推广和商品销售的重要阵地。通过爬取淘宝直播间的实时数据，包括弹幕互动和流量信息，可以帮助商家深入了解用户行为、优化直播策略，同时为市场分析和商业决策提供数据支持。本文将深入探讨如何利用Python爬虫技术实现对淘宝直播间实时数据的抓取，并进行弹幕分析和流量监控。二、项目背景与目标2.1项目背景淘宝直播作为电商领域的重要流量入口，通过实时视频与用户互
Python类的基础与高级用法详解
在Python中，类（Class）是面向对象编程（OOP）的核心概念，用于创建对象的蓝图。它定义了对象的属性和行为，支持代码复用、封装、继承和多态。接下来，从多个维度详细解释类的核心概念：一、类的基本结构classMyClass: #类变量（所有实例共享） class_variable="SharedData" #构造方法（初始化实例属性） def__init__(self,name):
Python训练营-Day41 m0_72314023 python 深度学习神经网络
#原始模型（2层卷积）classOriginalCNN(nn.Module):def__init__(self):super().__init__()self.conv1=nn.Conv2d(1,16,3)self.conv2=nn.Conv2d(16,32,3)self.fc=nn.Linear(32*5*5,10)defforward(self,x):x=torch.relu(self.con
Python训练营-Day40 m0_72314023 python 开发语言
importtorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportMinMaxScalerimporttimeimportmatplotlib.pyplotaspltfromtqdmimporttqd
Python训练营-Day18
importpandasaspdimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportwarningswarnings.filterwarnings("ignore")plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes
Python训练营-Day20
importpandasaspdimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportwarningswarnings.filterwarnings("ignore")plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes
Python训练营-Day11 m0_72314023 Python训练营 python 机器学习深度学习
DAY11常见的调参方式超参数调整专题1知识点回顾1.网格搜索2.随机搜索（简单介绍，非重点实战中很少用到，可以不了解）3.贝叶斯优化（2种实现逻辑，以及如何避开必须用交叉验证的问题）4.time库的计时模块，方便后人查看代码运行时长#LightGBM-网格优化print("\n---3.网格搜索优化LightGBM(训练集->测试集)---")importlightgbmaslgbfromskl
Python训练营-Day3
DAY3列表、循环和判断语句题目1：列表的基础操作题目:1.创建一个包含三个字符串元素的列表tech_list，元素分别为“Python”,“Java”,“Go”。2.获取列表中的第一个元素，并将其存储在变量first_tech中。3.向tech_list的末尾添加一个新的字符串元素“JavaScript”。4.修改tech_list中的第二个元素（索引为1），将其从“Java”更改为“Ruby”
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
python+uniapp基于微信小程序的河湟文化宣传系统nodejs+java
文章目录具体实现截图本项目![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/338cd998d059411aba7287118b685203.png)源码获取详细视频演示：文章底部获取博主联系方式！！！！本系统开发思路进度安排及各阶段主要任务java类核心代码部分展示主要参考文献：源码获取/详细视频演示##项目介绍摘要随着互联网技术的飞速发展和移动互联网的
python之海象运算符 youhebuke225 python python
简介海象运算符是一种语法糖，有一个:和一个=构成，语法格式如下:(variable_name:=expression)一般海象运算符有三种用法，如下ifelseifelse中还是比较常用的#if语句中a=10ifa>5:print("hello")ifa:=10>5:print("hello:=")打印hellohello:=他会先进行赋值，然后再进行比较while一般使用while我们会进行无限
用Python一键生成PNG图片的PowerPoint幻灯片
在当今的商业环境中,PowerPoint演示是展示和传递信息的常用方式。然而,手动将大量图像插入到幻灯片中往往是一项乏味且耗时的工作。但是,通过Python编程,我们可以轻松自动化这个过程,节省时间和精力。C:\pythoncode\new\folderTOppt.py在本文中,我将介绍如何使用Python、wxPython和python-pptx库编写一个脚本,将指定文件夹中的所有PNG图像逐一
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
python 海象运算符_python := 海象运算符伶邪 python 海象运算符
最近在做算法题越来越发现python写法真的挺好用的记下来map(lambdax:sum(x))中lambda代表匿名函数re.findall(r'0+|1+',s)是正则表达式:=海象运算符转if(n:=len(a))>10:print(f"Lististoolong({n}elements,expected10:print(f"Lististolong({len(a)}elements,exp
零基础学python张志强pdf_零基础学Python weixin_39707725
前言第一篇Python语言基础第1章进入Python的世界1.1Python的由来1.2Python的特色1.3第一个Python程序1.4搭建开发环境1.4.1Python的下载和安装1.4.2交互式命令行的使用1.5Python的开发工具1.5.1PyCharm的使用1.5.2EclipseIDE的介绍1.5.3EditPlus编辑器环境的配置1.6不同平台下的Python1.7小结1.8习题
python := 海象运算符 challenge-linge it it
参考视频教程:**体系课-Go+Python双语言混合开发盯紧技术先机抓紧高薪机遇**最近在做算法题越来越发现python写法真的挺好用的记下来map(lambdax:sum(x))中lambda代表匿名函数re.findall(r’0+|1+’,s)是正则表达式:=海象运算符转背景：python3.8正式版最近更新了，其中PEP572中的海象运算符获得正式python版本的支持.我看了官网的文档
Python 海象运算符详细介绍 ys.journey Python python
海象运算符定义：一个变量名跟一个表达式或者一个值，这个是一种新的赋值运算符。下面看看它的三种用法：一、用于ifelse条件表达式基础写法：x=5ifx10]print(num2)运行结果：海象运算符写法：num1=[1,2,3,4,5]count=1deff(x):globalcountprint(f"f(x)函数运行了{count}次")count+=1returnx**2num2=[nforx
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Python, C++开发社会工作人员学习手册APP Geeker-2025 python c++
#社会工作人员学习手册APP设计方案##系统架构设计```移动端（Flutter/ReactNative）|RESTAPI/gRPC|Go核心服务（Gin/Echo）←───PythonAI服务（FastAPI）|（学习路径规划/智能问答）|Rust高性能模块（数据处理/安全）|PostgreSQL（知识库+用户数据）|Redis（缓存+实时协作）|MinIO（学习资源存储）```##技术分工与优
Python 开发法律条文咨询APP Geeker-2025 python
#法律条文咨询APP-Python实现方案我将设计一个基于Python的法律条文咨询应用，提供一个直观的界面让用户轻松查找和浏览法律条文。##设计思路-使用Flask作为后端框架，轻量且高效-SQLite数据库存储法律条文数据-前端使用Bootstrap实现响应式设计-实现关键词搜索和分类浏览功能-提供条文详情展示和书签功能##完整实现代码###文件结构```legal_app/├──app.py
Python,Go 开发税务CRS 解读概况与实操案例APP Geeker-2025 python golang
以下为基于**Python**与**Go**开发“税务CRS（共同申报准则）系统概况与实操案例APP”的技术方案与实施路径，综合数据处理、合规性保障及高并发需求设计：---###⚙️**一、技术架构与模块分工**|**语言**|**核心模块**|**技术选型与优势**|**应用场景**||-----------|----------------------------|--------------
Python,C++开发社会游戏规则透视与个人发展实操APP Geeker-2025 python c++
开发一款**社会游戏规则透视与个人发展实操APP**是一个非常有意义的项目，旨在通过数字化手段帮助用户理解社会规则、提升个人能力，并提供实操指导以促进个人发展。该APP可以包括社会规则解析、个人能力评估、发展路径规划、实操指导、社区互动等功能模块。以下是基于Python和C++开发社会游戏规则透视与个人发展实操APP的详细方案。---##**1.功能模块设计**###**1.1社会规则透视**-*
python : 海象运算符 := 愚戏师 python基础与机器学习 python 前端
海象运算符:=在Python3.8中引入的海象运算符（:=，WalrusOperator）是一个语法特性，允许在表达式内部进行变量赋值。它得名于符号:=形似海象的眼睛和獠牙。这一特性旨在简化代码，减少重复计算，同时提升可读性。核心概念语法：变量:=表达式作用：将表达式的值赋给变量，并返回该值。特点：在条件判断、循环、推导式等场景中直接使用赋值结果。避免重复计算同一表达式，提升代码效率。典型使用场景
python中报错Traceback (most recent call last): File “＜stdin＞“, line 1, in ＜module＞TypeError: ‘str‘ obj bk小兔子乖乖 python java 前端
>>>len='hello'>>>len('hello')如果运行该代码则会报错：Traceback(mostrecentcalllast):File"",line1,inTypeError:'str'objectisnotcallable出现该错误的原因是在python中有len（）该函数，但是由于我们不小心定义了该函数，则会覆盖原来的len函数，此时不论我们怎么使用len函数，都会出现报错，解
Python, Go 开发全国经济开发区政策查询与实操APP
以下是基于Python和Go开发的全国经济开发区政策查询与实操APP设计方案，结合最新政策动态与技术优势，助力企业精准把握政策红利：---###系统架构设计```移动端/Web端（Flutter/React）|RESTAPI/gRPC|Go核心服务（Gin/Echo）←───Python智能引擎（FastAPI）|（政策匹配/实操分析）PostgreSQL（政策库+企业画像）|Redis（实时缓存
Ollama实践之：Python代码生成与执行小村学长毕业设计 python 开发语言
Ollama实践之：Python代码生成与执行在人工智能领域，生成式模型正逐渐展现出其强大的潜力。Ollama，作为一个先进的生成式语言模型，不仅能生成连贯的文本，还能生成代码片段，并在某些情况下，生成可执行的代码。本文将详细探讨如何使用Ollama生成Python代码，以及执行这些代码的实践过程。我们不仅会讨论技术细节，还会探讨其应用场景、潜在风险以及未来的发展趋势。一、Ollama简介Olla
探索未来科技：Ollama Python 库——Python 与 AI 的无缝对接尚绮令Imogen
探索未来科技：OllamaPython库——Python与AI的无缝对接项目地址:https://gitcode.com/gh_mirrors/ol/ollama-python在人工智能领域，Python是无可争议的首选语言。而OllamaPythonLibrary正是为了让开发者更加便捷地将Python3.8及以上版本项目与Ollama平台集成，从而解锁更强大的AI功能。这个库以其直观的API设
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
Ollama-python：调用大模型服务实现代码自动补全，提升编程开发效率！
Ollama是一个优秀的本地部署与管理大模型的框架。通过Ollama，我们可以在本地部署、定制自己的大模型服务。大模型部署在本地后，我们可以有哪些应用呢？本文介绍如何通过Ollama的pythonsdk，调用本地部署的大模型服务，对我们的代码进行自动补全，提升日常的编程开发效率。安装Ollama及其pythonsdk在https://ollama.com/download下载Ollama安装程序并
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

PySpark之RDD的持久化

RDD的持久化

RDD的缓存

RDD的checkpoint检查点

持久化方案对比

你可能感兴趣的:(python,spark)