SanFanCSgo

Python Spark MLlib之逻辑回归

数据准备

和决策树分类一样，依然使用StumbleUpon Evergreen数据进行实验。

Local模式启动ipython notebook
cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark
导入并转换数据

## 定义路径
global Path
if sc.master[:5]=="local":
    Path="file:/home/yyf/pythonwork/PythonProject/"
else:
    Path="hdfs://master:9000/user/yyf/"
## 读取train.tsv
print("开始导入数据...")
rawDataWithHeader = sc.textFile(Path+"data/train.tsv")
## 取第一项数据
header = rawDataWithHeader.first()
## 剔除字段名（特征名）行，取数据行
rawData = rawDataWithHeader.filter(lambda x:x!=header)
## 将双引号"替换为空字符（剔除双引号）
rData = rawData.map(lambda x:x.replace("\"",""))
## 以制表符分割每一行
lines = rData.map(lambda x: x.split("\t"))
print("共有："+str(lines.count())+"项数据")

数据预处理

1、处理特征

该数据集tran.tsv和test.tsv的第3个字段是alchemy_category网页分类，是一个离散值特征，要采用OneHotEncode的方式进行编码转换为数值特征，主要过程如下：

(1) 创建categoriesMap字典，key为网页类别名，value为数字（网页类别名的索引值），每个类别名对应一个索引值
(2) 根据categoriesMap字典查询每个alchemy_category特征值对应的索引值，例如business的索引值categoryIdx为2
(3) 根据categoryIdx=2，以OneHotEncodeer的方式转换为一个列表categoryFeatures List，该列表长度为14（统计所有网页类别），categoryIdx=2对应的列表为[0,0,1,0,0,0,0,0,0,0,0,0,0,0]。

建立categoriesMap网页分类字典

categoriesMap = lines.map(lambda fields: fileds[3]).distinct().zipWithIndex().collectAsMap()

其中，lines.map()表示处理之前读取的数据的每一行，.map(lambda fields: fileds[3])表示读取第3个字段，.distinct()保留不重复数据，.zipWithIndex()将第3个字段中不重复的数据进行编号，.collectAsMap()转换为dict字典格式

将每个alchemy_category网页分类特征值转化为列表categoryFeatures List

## 给定一个alchemy_category网页分类特征转化为OneHot 列表
## 查询对应索引值
import numpy as np
categoryIdx = categoriesMap[lines.first()[3]]
OneHot = np.zeros(len(categoriesMap))
OneHot[categoryIdx] = 1
print(OneHot)

对于第4~25字段的数值特征，要转换为数值，用float函数将字符串转换为数值，同时简单处理缺失值”?”为0.

整个处理特征的过程可以封装成一个函数：

import numpy as np

def convert(v):
    """处理数值特征的转换函数"""
    return (0 if v=="?" else float(v))

def process_features(line, categoriesMap, featureEnd):
    """处理特征，line为字段行，categoriesMap为网页分类字典，featureEnd为特征结束位置，此例为25"""
    ## 处理alchemy_category网页分类特征
    categoryIdx = categoriesMap[line[3]]
    OneHot = np.zeros(len(categoriesMap))
    OneHot[categoryIdx] = 1
    ## 处理数值特征
    numericalFeatures = [convert(value) for value in line[4:featureEnd]]
    # 返回拼接的总特征列表
    return np.concatenate((OneHot, numericalFeatures))


## 处理特征生成featureRDD
featureRDD = lines.map(lambda r: process_features(r, categoriesMap, len(r)-1))

2、数据标准化

与决策树不同的是，逻辑回归需要对数值型特征进行数据标准化，主要原因在于逻辑回归算法过程中使用了梯度下降法，不进行标准化会使得部分数值较大的特征对梯度的影响很大，造成难以收敛等不良现象。数据标准化使得每个特征的数值规范到同一水平上（比如都分布在-1~1之间）进而平衡不同特征对梯度的影响。

没有标准化之前的特征值：

上图可以看到，有5424.0的比较大的数值特征，也有最小0.0235的小数值特征，所以有必要对数据进行标准化。

对数值特征进行标准化：

## 数据标准化
from pyspark.mllib.feature import StandardScaler   # 导入数据标准化模块

## 对featureRDD进行标准化
stdScaler = StandardScaler(withMean=True, withStd=True).fit(featureRDD)  # 创建一个标准化实例
ScalerFeatureRDD = stdScaler.transform(featureRDD)
ScalerFeatureRDD.first()

查看标准化之后的数值特征：

3、处理label构成labelpoint数据格式

处理标签数据（test.tsv最后一列），只需把字符串类型转化为float型：

## 处理标签
def process_label(line):
    return float(line[-1])  # 最后一个字段为类别标签

labelRDD = lines.map(lambda r: process_label(r))

构成labelpointRDD，Spark Mllib分类任务支持的数据类型为LabeledPoint格式，LabeledPoint数据由标签label和特征feature组成。构建LabeledPoint数据：

## 构建LabeledPoint数据：
from pyspark.mllib.regression import LabeledPoint

## 拼接标签和特征
labelpoint = labelRDD.zip(ScalerFeatureRDD)
labelpointRDD = labelpoint.map(lambda r: LabeledPoint(r[0],r[1]))
labelpointRDD.first()

4、划分训练集、验证集及测试集

## 划分训练集、验证集和测试集
(trainData, validationData, testData) = labelpointRDD.randomSplit([7,1,2])

# 将数据暂存在内存中，加快后续运算效率
trainData.persist()
validationData.persist()
testData.persist()

训练模型

Spark Mllib封装了LogisticRegressionWithSGD逻辑回归分类器，其.train()方法训练模型，调用形式如下：

LogisticRegressionWithSGD.train(data, iterations=100, step=1.0, miniBatchFraction=1.0,
              initialWeights=None, regParam=0.01, regType="l2", intercept=False,
              validateData=True, convergenceTol=0.001)

主要参数说明如下：

data：输入的训练数据，数据格式为LabeledPoint格式
iterations：使用SGD的迭代次数，默认为100
step：每次执行SGD迭代步长大小，默认为1
miniBatchFraction：小批量随机梯度下降法每次参与计算的样本比例，数值在0~1，默认为1
initialWeights：初始化系数，默认为None
regParam：正则项系数大小
regType：正则化类型”l1”或”l2”或”None”，默认为”l2”,

## 使用逻辑回归模型进行训练
from pyspark.mllib.classification import LogisticRegressionWithSGD
## 使用默认参数训练模型
model = LogisticRegressionWithSGD.train(trainData, iterations=100, step=1.0, miniBatchFraction=1.0, regParam=0.01, regType="l2")

模型评估

使用AUC(Area under the Curve of ROC)来对模型进行评估，接收者操作特征(Receiver Operating Characteristic , ROC)曲线是一种比较分类器模型有用的可视化工具。

ROC曲线显示了给定模型的真正例率(TPR=TP/P)(纵轴)和假正例率(FPR=FP/N)(横轴)之间的权衡。TPR的增加以FPR的增加为代价。ROC曲线下方的面积是模型准确率的度量：AUC

AUC=1：预测准确率100%
0.5 < AUC <1：优于随机猜测，具有预测意义
AUC=0.5: 与随机猜测一样，没有预测意义
AUC<0.5: 比随机预测还差

定义评估函数计算AUC

## 使用BinaryClassificationMetrics计算AUC
from pyspark.mllib.evaluation import BinaryClassificationMetrics

## 定义模型评估函数
def evaluateModel(model, validationData):
    ## 使用模型进行预测（作用于验证集上）
    ## 计算AUC
    predict = model.predict(validationData.map(lambda p:p.features))
    predict = predict.map(lambda p: float(p))
    ## 拼接预测值和实际值
    predict_real = predict.zip(validationData.map(lambda p: p.label))
#     predict_real.take(5)
    metrics = BinaryClassificationMetrics(predict_real)
    metrics.areaUnderROC
    return metrics.areaUnderROC

AUC = evaluateModel(model, validationData)
## 打印AUC
print("AUC="+str(AUC))

返回结果：AUC=0.677684903749

模型参数调优

逻辑回归的参数：迭代次数iterations，SGD步长step，训练批次大小miniBatchFraction, 正则项系数regParam=0.01, 正则化方式regType=”l2”，会影响模型的准确率及训练的时间，下面对不同模型参数取值进行测试评估。

创建trainEvaluateModel函数包含训练与评估功能，并计算训练评估的时间。

## 创建trainEvaluateModel函数包含训练与评估功能，并计算训练评估的时间。
from time import time

def trainEvaluateModel(trainData, validationData, iterations, step, miniBatchFraction, regParam, regType):
    startTime = time()
    ## 创建并训练模型
    Model = LogisticRegressionWithSGD.train(trainData, iterations=iterations, step=step, 
                                            miniBatchFraction=miniBatchFraction, regParam=regParam, regType=regType)
    ## 计算AUC
    AUC = evaluateModel(Model, validationData)
    duration = time() - startTime   # 持续时间
    print("训练评估：参数"+"iterations="+str(iterations) + 
         ",  step="+str(step)+",  miniBatchFraction="+str(miniBatchFraction)+
          ", regParam"+str(regParam)+", regType=" + str(regType) +"\n"+
         "===>消耗时间="+str(duration)+",  结果AUC="+str(AUC))
    return AUC, duration, iterations, step, miniBatchFraction, regParam, regType, model

1、评估iterations参数

分别测试iterations迭代次数为[10, 100, 1000, 10000] 的模型运行时间及在验证集上的AUC

## 评估iterations参数
iterationsList = [10, 100, 1000, 10000] 
stepList = [1]
miniBatchFractionList = [1]
regParamList = [0.01]
regTypeList = ["l2"]

## 返回结果存放至metries中
metrics = [trainEvaluateModel(trainData, validationData,iterations, step, miniBatchFraction, regParam, regType)
          for iterations in iterationsList
          for step in stepList
          for miniBatchFraction in miniBatchFractionList
          for regParam in regParamList
          for regType in regTypeList]

运行结果：

训练评估：参数iterations=10,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=0.74197101593,  结果AUC=0.679249710355
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.56789708138,  结果AUC=0.679825333275
训练评估：参数iterations=1000,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.64229202271,  结果AUC=0.679825333275
训练评估：参数iterations=10000,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.58939695358,  结果AUC=0.679825333275

观察发现，迭代次数小的时候运行时间少，迭代次数大到一定程度，运行时间差不多。AUC也都很接近，由此看来，iterations可能不是关键。

2、评估参数step

分别测试step为[0.1, 1, 10, 100, 500, 1000] 的模型运行时间及在验证集上的AUC

## 评估istep参数
iterationsList = [100] 
stepList = [0.1, 1, 10, 100, 500, 1000]
miniBatchFractionList = [1]
regParamList = [0.01]
regTypeList = ["l2"]

## 返回结果存放至metries中
metrics = [trainEvaluateModel(trainData, validationData,iterations, step, miniBatchFraction, regParam, regType)
          for iterations in iterationsList
          for step in stepList
          for miniBatchFraction in miniBatchFractionList
          for regParam in regParamList
          for regType in regTypeList]

运行结果：

训练评估：参数iterations=100,  step=0.1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.84775495529,  结果AUC=0.689995893645
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.34834504128,  结果AUC=0.679825333275
训练评估：参数iterations=100,  step=10,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=0.813359022141,  结果AUC=0.682534794022
训练评估：参数iterations=100,  step=100,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.75270915031,  结果AUC=0.577324123367
训练评估：参数iterations=100,  step=500,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.66944003105,  结果AUC=0.511446463402
训练评估：参数iterations=100,  step=1000,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=2.39376091957,  结果AUC=0.479116253831

观察发现，步长过小或过大，运行时间都会增加，而步长过大会导致AUC降低。

3、评估参数训练批次大小miniBatchFraction

分别测试miniBatchFraction为[[0.01, 0.1, 0.5, 1]] 的模型运行时间及在验证集上的AUC

## 评估miniBatchFractionList参数
iterationsList = [100] 
stepList = [100]
miniBatchFractionList = [0.01, 0.1, 0.5, 1]
regParamList = [0.01]
regTypeList = ["l2"]

## 返回结果存放至metries中
metrics = [trainEvaluateModel(trainData, validationData,iterations, step, miniBatchFraction, regParam, regType)
          for iterations in iterationsList
          for step in stepList
          for miniBatchFraction in miniBatchFractionList
          for regParam in regParamList
          for regType in regTypeList]

运行结果：

训练评估：参数iterations=100,  step=1,  miniBatchFraction=0.01, regParam0.01, regType=l2
===>消耗时间=1.55241012573,  结果AUC=0.685335914471
训练评估：参数iterations=100,  step=1,  miniBatchFraction=0.1, regParam0.01, regType=l2
===>消耗时间=1.4033370018,  结果AUC=0.681134233798
训练评估：参数iterations=100,  step=1,  miniBatchFraction=0.5, regParam0.01, regType=l2
===>消耗时间=1.38880395889,  结果AUC=0.678516432751
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.30457305908,  结果AUC=0.679825333275

参数miniBatchFractionList影响不显著

4、评估参数正则项系数regParam及正则化方式regType

分别测试regParam为 [0.01, 0.1, 1,10, 100]的模型运行时间及在验证集上的AUC
测试结果：

训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.51532578468,  结果AUC=0.679825333275
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.1, regType=l2
===>消耗时间=0.746392011642,  结果AUC=0.672246909235
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam1, regType=l2
===>消耗时间=0.438490867615,  结果AUC=0.688870312523
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam10, regType=l2
===>消耗时间=1.67466306686,  结果AUC=0.688961972223
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam100, regType=l2
===>消耗时间=1.94846796989,  结果AUC=0.321875870767

值得注意的是，如果正则化系数过大，会使得逻辑回归各个特征相对应的系数变得很小，失去预测效果。

分别测试正则化方式参数regType=[“l2”,”l1”,None]
运行结果：

训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=l2
===>消耗时间=1.64927506447,  结果AUC=0.679825333275
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=l1
===>消耗时间=0.902688026428,  结果AUC=0.688137034919
训练评估：参数iterations=100,  step=1,  miniBatchFraction=1, regParam0.01, regType=None
===>消耗时间=1.48943686485,  结果AUC=0.683843694546

差别不是很大。

选择最佳模型参数组合

以网格搜索的方式进行查找：

def trainEvaluateModel(trainData, validationData, iterations, step, miniBatchFraction, regParam, regType):
    startTime = time()
    ## 创建并训练模型
    Model = LogisticRegressionWithSGD.train(trainData, iterations=iterations, step=step, 
                                            miniBatchFraction=miniBatchFraction, regParam=regParam, regType=regType)
    ## 计算AUC
    AUC = evaluateModel(Model, validationData)
    duration = time() - startTime   # 持续时间
    return AUC, duration, iterations, step, miniBatchFraction, regParam, regType, model

## 定义函数gridSearch网格搜索最佳参数组合

def gridSearch(trainData, validationData, iterationsList, stepList, miniBatchFractionList, regParamList, regTypeList):
    metrics = [trainEvaluateModel(trainData, validationData,iterations, step, miniBatchFraction, regParam, regType)
          for iterations in iterationsList
          for step in stepList
          for miniBatchFraction in miniBatchFractionList
          for regParam in regParamList
          for regType in regTypeList]
    # 按照AUC从大到小排序，返回最大AUC的参数组合
    sorted_metics = sorted(metrics, key=lambda k:k[0], reverse=True)
    best_parameters = sorted_metics[0]
    print("最佳参数组合："+"impurity="+str( best_parameters[2]) + 
         ",  maxDepth="+str( best_parameters[3])+",  maxBins="+str( best_parameters[4])+"\n"+
         ",  结果AUC="+str( best_parameters[0]))
    return  best_parameters
## 参数组合
iterationsList = [10, 100, 1000, 5000] 
stepList = [0.1, 1, 10, 100]
miniBatchFractionList = [0.01, 0.1, 0.5, 1]
regParamList = [0.001, 0.01, 0.1]
regTypeList = ["l2", "l1", None]

## 调用函数返回最佳参数组合
best_parameters = gridSearch(trainData, validationData, iterationsList, stepList, miniBatchFractionList, regParamList, regTypeList)

得出最佳参数组合为：iterations=100, step=10, miniBatchFraction=1, regParam0.001, regType=l2

判断是否发生过拟合及模型预测

1、判断是否过拟合

前面已经得到最佳参数组合iterations=100, step=10, miniBatchFraction=1, regParam0.001, regType=l2及相应的AUC评估。使用该最佳参数组合作用于测试数据，是否会过拟合

## 使用最佳参数组合iterations=100,  step=10,  miniBatchFraction=1, regParam0.001, regType=l2训练模型
best_model = LogisticRegressionWithSGD.train(trainData, iterations=100, step=10, 
                                            miniBatchFraction=1, regParam=0.001, regType="l2")
trainAUC = evaluateModel(best_model, trainData)
testAUC2= = evaluateModel(best_model, testData)
print("training: AUC="+str(AUC1))
print("testing: AUC="+str(AUC2))

返回结果：
training: AUC=0.672151080827 testing: AUC=0.670369502427
二者非常接近，说明模型很好的抑制了过拟合的产生。

2、使用模型进行预测

使用最佳参数组合对test.tsv中的数据进行预测

## 使用模型进行预测
def predictData(sc,model,categoriesMap):
    print("开始导入数据...")
    rawDataWithHeader = sc.textFile(Path+"data/test.tsv")
    ## 取第一项数据
    header = rawDataWithHeader.first()
    ## 剔除字段名（特征名）行，取数据行
    rawData = rawDataWithHeader.filter(lambda x:x!=header)
    ## 将双引号"替换为空字符（剔除双引号）
    rData = rawData.map(lambda x:x.replace("\"",""))
    ## 以制表符分割每一行
    lines = rData.map(lambda x: x.split("\t"))
    ## 预处理测试数据集(都是特征字段)
    testDataRDD=lines.map(lambda r: process_features(r, categoriesMap, len(r)))
    ## 数据标准化

    stdScaler = StandardScaler(withMean=True, withStd=True).fit(testDataRDD)  # 创建一个标准化实例
    ScalertestRDD = stdScaler.transform(testDataRDD)
    DescDict={0:"暂时型(ephemeral)网页",
              1:"长久型(evergreen)网页"}
    ## 预测前5项数据
    for i in range(5):
        predictResult=model.predict(ScalertestRDD.take(5)[i])
        print("网址："+str(lines.collect()[i][0])+"\n"+" ===>预测结果为: "+str(predictResult) + "说明: "+DescDict[predictResult]+"\n")

predictData(sc,best_model,categoriesMap)

返回结果：

开始导入数据...
网址：http://www.lynnskitchenadventures.com/2009/04/homemade-enchilada-sauce.html
 ===>预测结果为: 1说明: 长久型(evergreen)网页

网址：http://lolpics.se/18552-stun-grenade-ar
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

网址：http://www.xcelerationfitness.com/treadmills.html
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

网址：http://www.bloomberg.com/news/2012-02-06/syria-s-assad-deploys-tactics-of-father-to-crush-revolt-threatening-reign.html
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

网址：http://www.wired.com/gadgetlab/2011/12/stem-turns-lemons-and-limes-into-juicy-atomizers/
 ===>预测结果为: 0说明: 暂时型(ephemeral)网页

你可能感兴趣的:(Spark,Python,机器学习与大数据实践)

《python基于时间序列分析的降雨量预测系统》毕业设计项目陈辰学长 python 课程设计开发语言
大家好，我是陈辰学长，一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于时间序列分析的降雨量预测系统》毕业设计项目。项目源码以及部署相关事宜，请联系陈辰学长，文末会附上联系信息哦。作者：陈辰学长个人简介：在Java领域已沉浸十余年，对Java、微信小程序、Python、Android等技术颇为精通。若大家在这些领域有任何问题，欢迎一起交流探讨！各类成品Java毕业设计丰富多
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
dlib库的whl文件下载杭林菲
dlib库的whl文件下载【下载地址】dlib库的whl文件下载dlib库的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/f2aaf资源文件介绍本仓库提供了一个dlib库的whl文件下载，文件名为：dlib-19.7.0-cp36-cp36m-win_amd64.rar。该文件适用于Windows64位系统，Python版本为3.6。文件描
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
[dlib][python]dlib所有whl文件下载地址汇总 Xiao张不会深度学习 python 开发语言深度学习
dlib库的wheel文件3.7-3.12GitHub-z-mahmud22/Dlib_Windows_Python3.x:Dlibcompiledbinary(.whl)forPython3.7-3.12andWindowsx64这里存储了适用于python3.7-3.12的wheel文件下载wheel文件之后，比如：dlib-19.22.99-cp310-cp310-win_amd64.whl
Python剪辑视频小妙招（moivepy库）对不起，我辜负了你 python
起因最近一直在b站上投稿喜羊羊与灰太狼的视频，但是苦于需要手动裁剪视频的片头和片尾，裁剪的多了就发现喜羊羊与灰太狼的视频片头几乎都是1分25秒结束，也就是持续85秒，片尾也差不多是持续1分02秒差不多也就是62秒，于是开始思考有没有什么方法可以替代人类进行自动化批量裁剪？思路发展迭代与确定一开始是想使用Premier里面的预设来做的，结果发现Premier里面高版本的导出变成了各种网站的标准，相比
Python 实战-优化排班表节省成本奔向理想的星辰大海技术研发 python ios objective-c
1.基础概念：理解排班表排班表，顾名思义，就是安排员工工作时间的表格。在餐馆中，它通常需要考虑员工的可用性、工作时间限制、用餐高峰时段等因素。2.使用列表存储员工信息首先，我们需要一个数据结构来存储员工信息。Python中的列表是一个不错的选择。#员工信息列表，包括姓名、可用时间段employees=[{"name":"张三","available":[(9,17),(20,23)]},{"nam
Java并发编程：线程安全的策略与实践喵手零基础学Java java 安全开发语言
哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一个人虽可以走的更快，但一群人可以走的更远。我是一名后端开发爱好者，工作日常接触到最多的就是Java语言啦，所以我都尽量抽业余时间把自己所学到所会的，通过文章的形式进行输出，希望以这种方式
No module named ‘moviepy.editor‘ weixin_66009678 python
python3.7版本后不支持frommoviepy.editor引用方式，由于是moviepy2.0.0版本修改方法：frommoviepy.editorimportVideoFileClip,clips_array改为frommoviepyimport*
安装python3.12.2环境（实验机器银河麒麟高级服务器） Red丶哞桌面运维 Python linux 运维服务器
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
自己动手写CPU - 6 qq85058522 自己动手写CPU fpga开发
自己动手写CPU_qq85058522的博客-CSDN博客CPU不加功能了，但汇编器可以有。下面写一个把汇编（助记符）翻译成机器码的小工具。Python熟些，就用它了。很简单，就是字符串替换。直接上代码。importsysiflen(sys.argv)!=2:print("usage:pythonassemblerxxx.asm")exit(0)code_path=sys.argv[1]print
如何安装python3.7.4_银河麒麟安装Python3.7.4以及升级自带OpenSSL weixin_39873191 如何安装python3.7.4
银河麒麟安装Python3.7.4以及升级自带OpenSSL升级OpenSSL1.下载opensslwgethttps://www.openssl.org/source/openssl-1.1.1a.tar.gztar-zxvfopenssl-1.1.1a.tar.gzcdopenssl-1.1.1a2.编译安装./config--prefix=/usr/local/opensslno-zlib#
python多进程编程_深入理解python多进程编程 weixin_39620001 python多进程编程
1、python多进程编程背景python中的多进程最大的好处就是充分利用多核cpu的资源，不像python中的多线程，受制于GIL的限制，从而只能进行cpu分配，在python的多进程中，适合于所有的场合，基本上能用多线程的，那么基本上就能用多进程。在进行多进程编程的时候，其实和多线程差不多，在多线程的包threading中，存在一个线程类Thread，在其中有三种方法来创建一个线程，启动线程，
python多进程编程实例_Python多进程编程multiprocessing代码实例 weixin_39791386 python多进程编程实例
在多线程与多进程的比较这一篇中记录了多进程编程的一种方式.下面记录一下多进程编程的别一种方式,即使用multiprocessing编程importmultiprocessingimporttimedefget_html(n):time.sleep(n)print('subprocess%s'%n)returnnif__name__=='__main__':#多进程编程process=multipr
python打开一个软件并进行操作_模拟试卷 B weixin_39551611
原标题：模拟试卷B一、单项选择题1.关于算法的描述，以下选项中错误的是算法是指解题方案的准确而完整的描述算法具有可行性、确定性、有穷性的基本特征算法的复杂度主要包括时间复杂度和数据复杂度算法的基本要素包括数据对象的运算和操作及算法的控制结构2.关于数据结构的描述，以下选项中正确的是数据结构指相互有关联的数据元素的集合数据的存储结构是指反映数据元素之间逻辑关系的数据结构数据的逻辑结构有顺序、链接、索
python之openpyxl模块 weixin_34248849 python 数据结构与算法测试
一.Python操作EXCEL库的简介1.1Python官方库操作excelPython官方库一般使用xlrd库来读取Excel文件，使用xlwt库来生成Excel文件，使用xlutils库复制和修改Excel文件，这三个库只支持到Excel2003。1.2第三方库openpyxl介绍第三方库openpyxl（可读写excel表），专门处理Excel2007及以上版本产生的xlsx文件，xls和x
python使用多进程multiprocessing 小蜗笔记 python python
python使用多进程multiprocessing1多进程解释2进程的演示3进程池方法4pool.map()的解析pool.map()的基本用法返回值语法示例注意事项适用场景5pool.join()详解示例注意事项pool.join()的运行逻辑阻塞特性的影响对计算速度的影响示例总结6apply_async(),apply(),和pool.map()`apply_async()`特性：语法：`a
centos下安裝python 白小白的小白 python python centos
更新系统文件yumupdateyuminstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-devellibffi-develgccmake下载安装包并解压wgethttps://www.python.org/ftp/python/3.7.6/Python-3.7.6.tar.xztar-
将python文件(.py)打包为可执行文件(.exe)的多种方法，看这一篇就够了，万字教学，全网最全！！！盲敲代码的阿豪 python实用知识点 python 可执行程序代码打包
文章目录前言1、PyInstaller库的使用（最简单，常用）1.1安装PyInstaller1.2常用参数及使用1.3其它参数（了解）1.4案例演示2、cx_Freeze库的使用2.1安装cx_Freeze2.2创建打包脚本2.3运行打包文件2.4参数说明2.5案例演示3、py2exe库的使用3.1安装py2exe3.2创建打包脚本3.3运行打包文件3.4参数说明3.5案例演示3.6常见问题4、
通过python代码实现向钉钉群内自动推送消息，详细步骤及代码，超实用教学！！！盲敲代码的阿豪 python实用知识点 python 钉钉自动化发消息
文章目录前言一、创建钉钉群机器人二、以文本格式发送信息三、以MarkDown格式发送信息四、以Link格式发送信息前言我们在使用钉钉时，通常会创建或加入多个群聊，身为群聊的管理者，当我们需要及时、并按时的向这些群聊推送一些固定信息，若通过人力来解决肯定非常耗时、耗力，这时我们就可以考虑开发一个自动化脚本来实现这个功能，本篇文章我将教会大家，如何使用python开发程序，实现向钉钉群内自动发送消息。
Python3-excel文档操作（二）：利用openpyxl库处理excel表格：在excel表格中插入图片 liranke Python学习笔记 python openpyxl python处理excel load_workbook
1.简介excel表中可以插入图片，使用openpyxl库可以实现这个功能。2.代码：#-*-coding:utf-8-*-importosimportsysimporttimeimportopenpyxlfromopenpyxlimportload_workbookfromopenpyxl.drawing.imageimportImagedefopenxls_insert_img(fname,i
基于Python的多元医疗知识图谱构建与应用研究（上） Allen_LVyingbo python 医疗高效编程研发 python 知识图谱健康医疗
一、引言1.1研究背景与意义在当今数智化时代，医疗数据呈爆发式增长，如何高效管理和利用这些数据，成为提升医疗服务质量的关键。传统医疗数据管理方式存在数据孤岛、信息整合困难等问题，难以满足现代医疗对精准诊断和个性化治疗的需求。知识图谱作为一种知识表示和管理技术，为医疗领域带来了新的解决方案。它能够将海量的医疗信息以结构化、语义化的方式组织起来，揭示疾病、症状、药物、治疗方法等实体之间的复杂关系，从而
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
MoviePy视频编辑和处理Python库的版本问题解决：No module named ‘moviepy.editor‘ 封步宇AIGC 文字音频视频自动化工具 python 音视频 ffmpeg 人工智能
MoviePy是一个强大的Python库，用于视频编辑和处理。它支持多种基本操作，如视频剪切、拼接、插入标题，以及更高级的视频合成（非线性编辑）、视频处理和自定义特效创建。MoviePy能够读写包括GIF在内的常见音频和视频格式，并且兼容Windows、Mac和Linux操作系统，支持Python2.7和3.x版本MoviePy基于ffmpeg和ImageMagick，提供了易于使用的API，能够
《CPython Internals》阅读笔记：p177-p220 codists 读书笔记 python
《CPythonInternals》学习第11天，p177-p220总结，总计44页。一、技术总结1.memoryallocationinC(1)staticmemeoryallocationMemoryrequirementsarecalculatedatcompiletimeandallocatedbytheexecutablewhenitstarts.(2)automaticmemeorya
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
《CPython Internals》阅读笔记：p250-p284 python
《CPythonInternals》学习第14天，250-p284总结，总计25页。一、技术总结介于我觉得作者写得乱七八糟的，读完我已经不想说话了，所以今日无技术总结。二、英语总结(生词：2)1.spawn(1)spawn:来自于词根expandere。(2)expandere:ex-("out")+pandere("tospread")spawn原来的意思是“spreadingoutoffish
Python使用moviepy模块编辑视频时，有可能会出现“TypeError: ‘module‘ object is not callable”的错误提示 CodeWG python 开发语言
Python使用moviepy模块编辑视频时，有可能会出现“TypeError:‘module‘objectisnotcallable”的错误提示。这个错误提示表明在调用函数或方法时，试图调用一个不可被调用的对象。这个问题通常是由于导入moviepy模块时，模块本身并不是可以被调用的对象而导致的。要解决这个问题，我们需要检查代码中导入moviepy模块的语句是否有误。moviepy模块中最常用的类
使用PyCharm运行Python程序代码艺术巧匠 python pycharm java Python
使用PyCharm运行Python程序PyCharm是一种功能强大的Python集成开发环境（IDE），它提供了许多方便的功能来开发、调试和运行Python程序。在本文中，我将向您展示如何使用PyCharm来运行Python程序，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要从JetBrains官方网站下载并安装PyCharm。根据您的操作系统，选择适合您的版本。安装过程非常简单，
API接口在电商的应用及收益前端后端运维数据挖掘api
一、API接口在电商的核心应用场景（一）商品数据管理与展示在电商平台，商品信息的准确与实时更新极为关键。借助API接口，能轻松实现商品数据从供应商系统到电商平台的同步。例如，使用Python结合Requests库编写代码，从外部API获取商品数据：importrequestsurl="https://example.com/api/products"response=requests.get(ur
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name