Ahaxian

PySpark集群完全分布式搭建

本文的目的是使读者对spark的安装流程有一个清晰的认识，并且能根据本文的内容搭建一个属于自己的完全分布式Spark集群，并在此基础上增加pyspark的分布式环境。

阅读本文前，有几个点需要注意：

本文假设读者有Hadoop的搭建基础，并且成功搭建了完全分布式的Hadoop集群，因此本文不会对该方面的知识进行铺垫。

本文假设读者有在Linux上安装anaconda或者minconda的基础，并且成功的在每一个节点上的相同路径下配置好了相应的环境。（该过程可以每个节点一一配置，也在可以配置好某个节点后，把配置好的文件打包发送到所有节点再解压，因为略占篇幅、且不为本文重点是故省略）

寻找合适的Spark安装包

spark的官网为：https://spark.apache.org/

进入官网后可进入下载页面：https://spark.apache.org/downloads.html

下载页面的核心部分如下所示：

下载Spark安装包时需要特别注意发行版的兼容性问题，特别是Spark版本与Hadoop版本的兼容性、以及Spark版本与Scala版本的兼容性。

虽然当前最新的Spark版本已经更新到3.3.0了，最新版的hadoop也更新到3.3.4，不过因为笔者的Hadoop版本为3.2.2，所以使用的Spark安装包为spark-3.1.1-bin-hadoop3.2.tgz，对应的Scala版本为2.12.12。

笔者更鼓励读者使用最新的安装包进行尝试，但是如果已经安装好了某一版本的hadoop，那更建议去官网的历史发行版页找到对应版本的Spark安装包进行下载。

解压Spark安装包与Scala安装包

假设读者已经下载好了Spark和Scala的安装包，并且上传到了主节点的某一文件路径。

笔者使用的主节点为：westgisB052

存放Spark安装包的路径为：~/pkg/spark-3.1.1-bin-hadoop3.2.tgz

存放Scala安装包的路径为：~/pkg/scala-2.12.12.tgz

Spark解压后存放的目标路径为：~/bigdata/

Scala解压后存放的目标路径为：~/program/

所以在配置环境变量时，SPARK_HOME=/home/G22/bigdata/spark，SCALA_HOME=/home/G22/program/scala

注1：配置环境变量时，指定变量的取值必须为绝对路径，~/bigdata/spark指向的绝对路径就是/home/G22/bigdata/spark，/home/G22为笔者的用户根目录，简写为~，~/program/scala同理。

注2：解压后的压缩包会带版本号的后缀，不过笔者觉得不太美观，所以还会进行重命名操作。

接下来，根据上述准备好的路径，我们可以执行：

#1.解压安装包到目标路径
tar -zxvf ~/pkg/spark-3.1.1-bin-hadoop3.2.tgz -C ~/bigdata/
tar -zxvf ~/pkg/scala-2.12.12.tgz -C ~/program/
#2.重命名
mv ~/bigdata/spark* ~/bigdata/spark # *是通配符，表示后面有0或n个任意字符
mv ~/program/scala* ~/program/scala

配置环境变量

配置scala环境下的spark只需要在~/.bashrc文件中添加如下六句：
```
#SCALA_ENV
export SCALA_HOME=/home/G22/program/scala
export PATH=$PATH:$SCALA_HOME/bin
#SPARK_ENV
export SPARK_HOME=/home/G22/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
```
需要注意的是，读者需要根据自己spark的存放路径，更改SPARK_HOME的取值。此外，即使读者只想配置python环境下的Spark集群，也要配置SPARK_HOME，并将其的bin目录添加进$PATH变量，即添加最后3句。
配置pyspark环境时，还需要在~/.bashrc中添加以下配置：
```
#PYSPARK_ENV
export PYSPARK_PYTHON=$MINIC_HOME/bin/python
export PYSPARK_DRIVER_PYTHON=$MINIC_HOME/bin/python
export LD_LIBRARY_PATH=$MINIC_HOME/lib/:$LD_LIBRARY_PATH
export PYTHONPATH=$(ZIPS=("$SPARK_HOME"/python/lib/*.zip); IFS=:; echo "${ZIPS[*]}"):$PYTHONPATH
```
第一行和第二行的意义是指定pyspark启动和执行任务时使用的python解释器；

第三行和第四行的意义是指定pyspark运行时，加载模块库的路径。

注：此处的$MINIC_HOME为笔者minconda的安装路径，具体为~/minconda3，对应的绝对路径为/home/G22/minconda3，读者需要根据自己minconda或者anoconda的安装路径进行修改。
检验环境变量是否配置成功：
```
source ~/.bashrc #更新环境变量
run-example SparkPi #执行spark例子程序：SparkPi
```
如果执行成功，会在屏幕输出Spark的运行日志信息，以及运行结果：Pi is roughly 3.146675733378667，该运行结果夹杂在运行日志信息中间。

修改配置文件

修改$SPARK_HOME/conf/spark-env.sh

解压Spark后，其conf目录下本身并不存在spark-env.sh文件，只有spark-env.sh.template文件，因此我们首先需要基于后者生成前者，命令如下：
```
cd $SPARK_HOME/conf/ #进入配置文件目录
cp ./spark-env.sh.template ./spark-env.sh #生成配置文件
```
之后编辑新生成的文件spark-env.sh，添加如下内容：
```
#PART1
export JAVA_HOME=/home/G22/bigdata/java
export SCALA_HOME=/home/G22/bigdata/scala
export HADOOP_HOME=/home/G22/bigdata/hadoop
export HADOOP_CONF_DIR=/home/G22/bigdata/hadoop/etc/hadoop
export YARN_CONF_DIR==/home/G22/bigdata/hadoop/etc/hadoop

#PART2
export SPARK_MASTER_HOST=westgisB052
export SPARK_MASTER_PORT=7077
export SPARK_PID_DIR=/home/G22/bigdata/spark/data/pid
export SPARK_DIST_CLASSPATH=$(/home/G22/bigdata/hadoop/bin/hadoop classpath)
export SPARK_HISTORY_OPTS=" 
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://westgisB052:9000/directory 
-Dspark.history.retainedApplications=30"

#PART3
export SPARK_WORKER_CORES=4
export SPARK_WORKER_MEMORY=8G
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=2G
export SPARK_DRIVER_MEMORY=1G
```
可以看到添加的内容分为3个部分：第一部分是纵向配置，用于指定Spark的底层依赖，因为Spark依赖编程语言Java和Scala，所以需要设置JAVA_HOME和SCALA_HOME，因为我们选择的Spark发行版是基于兼容版本的Hadoop构造的，所以也要指定Hadoop相关的配置，如HADOOP_HOME、HADOOP_CONF_DIR、YARN_CONF_DIR。

第二部分是Spark的主要配置，用于指定Master节点的IP或者主机名、Master和其它节点进行交互的端口、Spark守护进程pid的存放路径、Spark的依赖包的路径、Spark的历史服务器设置等。（以上5个配置分别按顺序与配置文件中part2部分的内容对应）

第三部分是Spark的资源配置，Spark是主从式架构，组件的角色包括主节点Master，从节点Worker，资源管理器ClusterManager（Spark有多种运行模式，在YARN模式下运行时ClusterManager是YARN；在Standalone模式下运行时，ClusterManager是主节点Master担任），而一个Worker节点又可以包含一个或多个Executor，每个Executor是一个进程，专门用于执行具体的计算任务。因此在进行集群配置时，可以按不同的粒度对Worker和Executor进行资源配置，在笔者上述的配置中：给每个Worker节点分配了4个CPU的核心、8GB的内存、给每个Executor分配了1个核心和2GB内存。（至于Part3的最后一个配置：Spark会在ClusterManager节点上启动一个Drive进程作为Spark应用程序的入口，此外Driver还包含SparkContext实例，负责向集群申请资源、向master注册信息，作业调度，作业解析、生成Stage并调度Task到Executor上等功能的实现，而Driver进程完成这些功能是需要内存的，因此SPARK_DRIVER_MEMORY参数指定的就是Driver进程可使用的内存资源）

上述的配置文件建议读者认真仔细地阅读，理解每一个参数的含义，并根据自己的配置修改每一个环境变量的取值。
修改$SPARK_HOME/conf/workers

和spark-env.sh一样，其在conf目录下本身并不存在，但存在workers.template文件，因此我们首先需要基于后者生成前者，命令如下：
```
cd $SPARK_HOME/conf/ #进入配置文件目录
cp workers.template workers #生成配置文件
```
workers配置文件的配置很简单，只需要把workers里的内容全部替换成从节点的主机名或者IP即可，笔者的内容为：
```
westgisB053
westgisB054
westgisB055
westgisB056
```

修改完上述两个配置文件后，Spark的配置文件就已经全部配置完毕了，此时可以将配置好的Spark文件打包，分发到从节点后解压，更新环境变量，则Spark就配置成功了。

打包分发

该过程同配置hadoop时，将配置好的Hadoop打包分发的过程类似，可以使用for循环来进行批量分发和解压、修改环境变量，执行命令如下：

#1.去到Spark的上级目录
cd $SPARK_HOME
cd ..
#2.打包Spark文件目录
tar -zcf spark.tar.gz ./spark
#3.分发Spark压缩包以及环境变量配置文件
for i in westgisB0{53..57}
do
  scp ./spark.tar.gz $i:~; 
  scp ~/.bashrc $i:~; 
done
#4.解压分发的Spark压缩包，之后删除压缩包，并刷新环境变量
for i in westgisB0{53..57}
do
  ssh $i  "tar -zxvf ~/spark.tar.gz -C ~/bigdata/" #注意替换为自己的路径 
  ssh $i  "rm ~/spark.tar.gz" #删除从节点上分发的压缩包
  ssh $i  "source ~/.bashrc"  #刷新环境变量
done

验证Spark集群是否搭建成功

启动Spark集群

start-dfs.sh       #启动HDFS
start-master.sh    #启动Spark的主节点Master
start-workers.sh   #启动Spark的从节点Worker

查看集群中是否存在Spark的Java守护进程

for i in westgisB0{52..57}
do
  ssh $i  "hostname;jps;echo"
done

如果结果同笔者类似，每个节点都成功的启动了安排的守护进程，则配置成功：

westgisB052
15477 SecondaryNameNode
15210 NameNode
16154 Jps
15899 Master

westgisB053
11907 Worker
11593 DataNode
12079 Jps

westgisB054
1448 Worker
1145 DataNode
1625 Jps

westgisB055
24212 Jps
23720 DataNode
24011 Worker

westgisB056
30112 Jps
29879 Worker
29544 DataNode

westgisB057
10079 Jps

解释：笔者的主节点为westgisB052，应该存在Master进程；客户端为westgisB057，理论上不存在守护进程；从节点为westgisB053~westgisB056，应该存在Worker进程。

查看Spark的web界面
在windows主机的浏览器中输入网址：主节点IP:8080，若跳转页面如下，说明Spark集群配置成功且Web界面可用。

提交一个简单的Spark与HDFS集成的应用程序

上传数据文件到HDFS:

假设我们的应用程序从HDFS的路径/user/G22/data/test下读取数据

#1.在HDFS上创建相应的文件夹
hdfs dfs -mkdir -p /user/G22/data/test
#2.从本地文件系统上传文件到HDFS
cd $SPARK_HOME
hdfs dfs -put ./README.md  /user/G22/data/test
#3.检查数据文件是否成功拷贝到了HDFS
hdfs dfs -ls /user/G22/data/test #若上一步骤成功，应返回"README.md"

以Standolne模式启动spark-shell：

spark支持交互式数据分析以及对大型代码项目进行编译和运行，此处使用的spark-shell是Spark为使用者提供的交互式解释器，每输入一条指令，spark-shell就会翻译和执行。在启动spark-shell时，可以指定使用的集群模式（如local、standolne、yarn等）、还可以指定为spark-shell分配的硬件资源等设置。

以standolne启动spark-shell的命令如下

spark-shell --master spark://westgisB052:7077  #记得替换主机为自己的主节点

执行效果如下：

[G22@westgisB052 ~]$ spark-shell --master spark://westgisB052:7077
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/G22/bigdata/spark/jars/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/G22/bigdata/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
2022-10-06 00:15:24,006 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://westgisB052:4040
Spark context available as 'sc' (master = spark://westgisB052:7077, app id = app-20221006001533-0000).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.1
      /_/
         
Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_251)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

上述内容中的最后一行有scala>的提示符，代表我们当前输入的命令不再由linux上的bash解释器进行翻译和执行，而是由spark-shell的scala解释器进行翻译和执行，此时我们便可输入scala语句进行交换。

输入简单的scala指令进行交互式分析：

//1.指定数据文件的输入路径（即前文在HDFS上创建的目录）
val logFile = "/user/G22/data/test/" 
//2.读取数据文件为RDD对象
val logData = sc.textFile(logFile).cache()
//3.统计数据文件中含有字符a的行数
val numAs = logData.filter(line => line.contains("a")).count()
//4.统计数据文件中含有字符b的行数
val numBs = logData.filter(line => line.contains("b")).count()
//5.打印统计结果
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))

若执行上述语句后，得到的最终结果如下，这说明Spark能够成功地运行scala应用程序：

Lines with a: 64, Lines with b: 32

此时，在spark-shell界面输入:q，敲击回车，则可退出spark-shell。

PySpark分布式应用程序测试

上一个步骤中，我们已经成功的执行了scala版本的Spark应用程序，我们现在将上面的程序修改为python版的，再启动PySpark进行运行。

启动PySpark

pyspark --master spark://westgisB052:7077 #记得替换主机为自己的主节点

执行效果如下，同spark-shell类似，pyspark也启动了一个交互式终端，不过与spark-shell不同的地方是pyspark使用python进行交互。

[G22@westgisB052 ~]$ pyspark --master spark://westgisB052:7077
Python 3.8.13 (default, Mar 28 2022, 11:38:47) 
[GCC 7.5.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/home/G22/bigdata/spark/jars/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/home/G22/bigdata/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
2022-10-06 00:38:58,300 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.1.1
      /_/

Using Python version 3.8.13 (default, Mar 28 2022 11:38:47)
Spark context Web UI available at http://westgisB052:4040
Spark context available as 'sc' (master = spark://westgisB052:7077, app id = app-20221006003900-0001).
SparkSession available as 'spark'.
>>>

输入python指令进行交互

#1.指定数据文件的输入路径（即前文在HDFS上创建的目录）
logFile = "/user/G22/data/test/"
#2.读取数据文件为RDD对象
logData = sc.textFile(logFile).cache()
#3.统计数据文件中含有字符a的行数
numAs = logData.filter(lambda line: 'a' in line).count()
#4.统计数据文件中含有字符b的行数
numBs = logData.filter(lambda line: 'b' in line).count()
#5.打印统计结果
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

若执行上述语句后，得到的最终结果如scala程序运行的结果一致，则说明PySpark完全分布式环境配置成功。

基于PySpark的WordCount实现

在上文中我们使用了如下命令，将Spark的README.md文件上传到了HDFS

#1.在HDFS上创建相应的文件夹
hdfs dfs -mkdir -p /user/G22/data/test
#2.从本地文件系统上传文件到HDFS
cd $SPARK_HOME
hdfs dfs -put ./README.md  /user/G22/data/test
#3.检查数据文件是否成功拷贝到了HDFS
hdfs dfs -ls /user/G22/data/test #若上一步骤成功，应返回"README.md"

但前面的简单程序中我们实现的功能很简单，只是统计了包含a的行数和包含b的行数，而且也仅仅是在pyspark的交互环境中实现的。

在本部分，我们将编写WordCount程序统计每个单词出现的次数，因为程序使用PySpark执行，所以源码文件为python文件，存放路径由读者自定义，当然为了快速找到对应的代码文件，建议使用清晰规范的路径，笔者的存放pyspark源码文件的目录为~/code/pyspark。

在创建对应的源码目录之后，我们在该目录下新建文件wordcount.py，添加如下内容：

#0.导入需要的库类
from pyspark import SparkConf, SparkContext
import os

#1.初始化SparkConf对象conf，读者记得修改对应的master的URL
conf = (SparkConf()
        .setMaster("spark://10.103.105.52:7077") #设置master的URL
        .setAppName("WordCount)                #设置应用程序的名称
        )

#2.使用conf生成SparkContext对象sc
sc = SparkContext(conf = conf)
sc.setLogLevel("WARN")  #设置日志输出级别为"WARN"，可省略

#3.指定输入文件路径，文件路径可为本地文件系统的路径，也可为HDFS文件系统的路径
#3-1.指定local文件系统时，路径型如："file:///home/G22/data/1.txt"
#3-2.指定HDFS文件系统时，路径形如："hdfs://westgisB052:9000/user/G22/data/1.txt"
#    上述路径也可简写为"/user/G22/data/1.txt"
inputFile = "/user/G22/data/test/README.md"  #随便指定一个HDFS上的文件即可

#4.读取输入路径对应的文件转换为RDD对象
dataRDD = sc.textFile(inputFile)

#5.在RDD上使用算子进行wordcount的实现
wc = (dataRDD.flatMap(lambda line:line.split(" "))   #对每行文本进行分割
    .map(lambda x:(x,1))  #将"单词"映射为("单词",1)，目的是构造以"单词"为key的键值对
    .reduceByKey(lambda a,b:a+b)) #根据键值对的键，即"单词"进行聚合，聚合方式为累加

#6.在客户端节点的显示屏输出词频统计的结果，即wc内的数据
wc.foreach(print)

#7.将词频统计的结果保存到HDFS文件系统
#7-1.设置保存路径，该路径最好不存在，否则常规输出模式下回报错
savePath="/user/G22/res/test"                #输出结果保存的路径

#7-2.判断保存路径是否存在，若存在则删除
#7-2-1.指定hdfs命令的存放路径
cmdPath="/home/G22/bigdata/hadoop/bin/hdfs"  #hdfs命令在linux上的路径
#7-2-2.通过os库的popen方法获取`hdfs dfs -test -e savePath`的执行结果
flag=os.popen(cmdPath +" dfs -test -e "+savePath+";echo $?").readlines()
#7-2-3.如果上一条语句执行后返回的结果为['0\n']，则savePath存在，需要删除
if flag == ['0\n']:
    rm=os.popen(cmdPath + " dfs -rm -r " + savePath).readlines() #删除savePath
    print(rm)

#7-3.写入词频统计的结果
wc.saveAsTextFile(savePath)

去掉注释后的代码内容为：

from pyspark import SparkConf, SparkContext
import os

conf = SparkConf().setMaster("spark://10.103.105.52:7077") .setAppName("WordCount")                
sc = SparkContext(conf = conf)
sc.setLogLevel("WARN")  

inputFile = "/user/G22/data/test/README.md"  
dataRDD = sc.textFile(inputFile)
wc = (dataRDD.flatMap(lambda line:line.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda a,b:a+b)) 

wc.foreach(print)

savePath="/user/G22/res/test"                
cmdPath="/home/G22/bigdata/hadoop/bin/hdfs"  
flag=os.popen(cmdPath +" dfs -test -e "+savePath+";echo $?").readlines()
if flag == ['0\n']:
    print(os.popen(cmdPath + " dfs -rm -r " + savePath).readlines())

wc.saveAsTextFile(savePath)

无论是有无注释版本的代码，读者只需要将其中一个版本需要更换配置和路径的修改为自己的东西以后，即可使用spark-submit命令提交源代码文件：

#1.进入存储源代码的文件目录
cd ~/code/pyspark
#2.提交应用程序
spark-submit ./wordcount.py
#3.查看是否成功将统计结果存入了目标路径
hdfs dfs -ls /user/ZSX/res/test/

若执行成功，在执行上述语句后会得到形如下面的结果，特别关注有无_SUCCESS文件：

Found 3 items
-rw-r--r--   3 ZSX supergroup          0 2022-10-13 18:15 /user/ZSX/res/test/_SUCCESS
-rw-r--r--   3 ZSX supergroup       3048 2022-10-13 18:15 /user/ZSX/res/test/part-00000
-rw-r--r--   3 ZSX supergroup       2374 2022-10-13 18:15 /user/ZSX/res/test/part-00001

你可能感兴趣的:(Spark学习之路,分布式,大数据,hadoop,spark,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin