SanFanCSgo

Python Spark MLlib 决策树分类

准备数据

StumbleUpon Evergreen数据，来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。

StumbleUpon 是一个个性化推荐引擎，根据用户的兴趣行为给用户推荐网页，而有些网页内容是即时性（ephemeral）的，比如新闻股票网页（用户短暂感兴趣），有些网页是长久性的（evergreen）如体育，理财等（用户持续感兴趣）。现要分辨网页是ephemeral的还是evergreen的，以便向用户推荐更加准确的网页。

这是一个二分类问题。

查看StumbleUpon数据的详细信息：https:www.kaggle.com/c/stumbleupon/data

下载StumbleUpon数据，train.tsv和test.tsv。

分析train.tsv的字段：

0~2列忽略，url，urlid对网站是否evergreen关系不大
第3列，categorical features分类特征，网页分类如：business，health, sports……
第4~25列，numerical features数值特征，有关此网页的数值特征，例如链接的数目，图片的比例等
第26列，label分类标签，1表示evergreen（用户长久感兴趣的网页），0表示non-evergreen（用户短暂感兴趣的网页）

test.tsv没有第26列的label分类标签，其余和test.tsv相同

复制文件train.tsv和test.tsv到工作目录下，切换至工作目录下的data文件夹，复制文件至HDFS目录下：
cd ~/pythonwork/PythonProject/data hadoop fs -copyFromLocal *.tsv /user/yyf/data hadoop fs -ls /user/yyf/data/*.tsv

数据预处理

Local模式启动ipython notebook
cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark

在IPython/Jupyter中输入命令：

1、导入并转换数据

## 定义路径
global Path
if sc.master[:5]=="local":
    Path="file:/home/yyf/pythonwork/PythonProject/"
else:
    Path="hdfs://master:9000/user/yyf/"

## 读取train.tsv
print("开始导入数据...")
rawDataWithHeader = sc.textFile(Path+"data/train.tsv")
## 取出前2项数据
rawDataWithHeader.take(2)

从上图运行结果看出：第一项是字段名(特征名称)不是数据（要进行删除）；每一项数据以制表符”\t”分隔；每个字段前后都有双引号“””分隔。除此之外，在train.tsv表中有些字段有缺失值用”?”表示。

针对以上问题对train.tsv进行处理

## 读取train.tsv
print("开始导入数据...")
rawDataWithHeader = sc.textFile(Path+"data/train.tsv")
## 取第一项数据
header = rawDataWithHeader.first()
## 剔除字段名（特征名）行，取数据行
rawData = rawDataWithHeader.filter(lambda x:x!=header)
## 将双引号"替换为空字符（剔除双引号）
rData = rawData.map(lambda x:x.replace("\"",""))
## 以制表符分割每一行
lines = rData.map(lambda x: x.split("\t"))
print("共有："+str(lines.count())+"项数据")

2、处理特征

该数据集的第3个字段是alchemy_category网页分类，是一个离散值特征，要采用OneHotEncode的方式进行编码转换为数值特征，主要过程如下：

(1) 创建categoriesMap字典，key为网页类别名，value为数字（网页类别名的索引值），每个类别名对应一个索引值
(2) 根据categoriesMap字典查询每个alchemy_category特征值对应的索引值，例如business的索引值categoryIdx为2
(3) 根据categoryIdx=2，以OneHotEncodeer的方式转换为一个列表categoryFeatures List，该列表长度为14（统计所有网页类别），categoryIdx=2对应的列表为[0,0,1,0,0,0,0,0,0,0,0,0,0,0]。

建立categoriesMap网页分类字典

categoriesMap = lines.map(lambda fields: fileds[3]).distinct().zipWithIndex().collectAsMap()

其中，lines.map()表示处理之前读取的数据的每一行，.map(lambda fields: fileds[3])表示读取第3个字段，.distinct()保留不重复数据，.zipWithIndex()将第3个字段中不重复的数据进行编号，.collectAsMap()转换为dict字典格式

将每个alchemy_category网页分类特征值转化为列表categoryFeatures List

对于第4~25字段的数值特征，要转换为数值，用float函数将字符串转换为数值，同时简单处理缺失值”?”为0.

整个处理特征的过程可以封装成一个函数：

import numpy as np

def convert(v):
    """处理数值特征的转换函数"""
    return (0 if v=="?" else float(v))

def process_features(line, categoriesMap, featureEnd):
    """处理特征，line为字段行，categoriesMap为网页分类字典，featureEnd为特征结束位置，此例为25"""
    ## 处理alchemy_category网页分类特征
    categoryIdx = categoriesMap[line[3]]
    OneHot = np.zeros(len(categoriesMap))
    OneHot[categoryIdx] = 1
    ## 处理数值特征
    numericalFeatures = [convert(value) for value in line[4:featureEnd]]
    # 返回拼接的总特征列表
    return np.concatenate((OneHot, numericalFeatures))

3、处理label分类标签

定义一个函数：

def process_label(line):
    return float(line[-1])  # 最后一个字段为类别标签

4、构建模型所需数据格式

Spark Mllib分类任务支持的数据类型为LabeledPoint格式，LabeledPoint数据由标签label和特征feature组成。构建LabeledPoint数据：

from pyspark.mllib.regression import LabeledPoint
labelpointRDD = lines.map(lambda r: LabeledPoint(process_label(r), \ 
                process_features(r,categoriesMap, len(r)-1)))

5、划分训练集、验证集以及测试集

按照7:1:2的比例划分训练集、验证集以及测试集

## 划分训练集、验证集和测试集
(trainData, validationData, testData) = labelpointRDD.randomSplit([7,1,2])
print("训练集样本个数："+str(trainData.count()) + "验证集样本个数："+str(validationData.count())+ "测试集样本个数："+str(testData.count()))

训练模型

选择Spark MLlib中的决策树DecisionTree模块中的trainClassifier方法进行训练并建立模型：

DecisionTree.trainClassifier(input, numClasses, categoricalFeaturesInfo, impurity,maxDepth,maxBins)

参数说明如下：

(1) input：输入的训练数据，数据格式为LabeledPoint数据
(2) numClasses：指定分类数目
(3) categoricalFeaturesInfo：设置分类特征字段信息，本例采用OneHot编码处理分类特征字段，故这里设置为空字典dict()
(4) impurity：决策树的impurity评估方法（划分的度量选择）：gini基尼系数，entropy熵
(5) maxDepth：决策树最大深度
(6) maxBins：决策树每个节点的最大分支数

from pyspark.mllib.tree import DecisionTree
model = DecisionTree.trainClassifier(trainData, numClasses=2,categoricalFeaturesInfo={}, impurity="entropy", maxDepth=5,maxBins=5)

评估模型

使用AUC(Area under the Curve of ROC)来对模型进行评估，接收者操作特征(Receiver Operating Characteristic , ROC)曲线是一种比较分类器模型有用的可视化工具。

ROC曲线显示了给定模型的真正例率(TPR=TP/P)(纵轴)和假正例率(FPR=FP/N)(横轴)之间的权衡。TPR的增加以FPR的增加为代价。ROC曲线下方的面积是模型准确率的度量：AUC

AUC=1：预测准确率100%
0.5 < AUC <1：优于随机猜测，具有预测意义
AUC=0.5: 与随机猜测一样，没有预测意义
AUC<0.5: 比随机预测还差

Spark Mllib提供了BinaryClassificationMetrics计算AUC的方法。

首先创建predict_real列表，列表的每个元素为一个元组(predict,real)，其中predict为预测结果，real为实际标签

## 创建predict_real列表
predict = model.predict(validationData.map(lambda p:p.features))
predict_real = predict.zip(validationData.map(lambda p: p.label))
predict_real.take(5)

返回[(1.0, 0.0), (0.0, 0.0), (0.0, 0.0), (1.0, 1.0), (0.0, 1.0)]

接着使用BinaryClassificationMetrics计算AUC

## 使用BinaryClassificationMetrics计算AUC
from pyspark.mllib.evaluation import BinaryClassificationMetrics
metrics = BinaryClassificationMetrics(predict_real)
print("AUC="+str(metrics.areaUnderROC))

返回结果：AUC=0.653788113695

模型参数选择

DecisionTree的参数impurity,maxDepth,maxBins会影响模型的准确率及训练的时间，下面对不同模型参数取值进行测试评估。

创建trainEvaluateModel函数包含训练与评估功能，并计算训练评估的时间。

## 创建trainEvaluateModel函数包含训练与评估功能，并计算训练评估的时间。
from time import time

def trainEvaluateModel(trainData, validationData, impurityParm, maxDepthParm, maxBinsParm):
    startTime = time()
    ## 创建并训练模型
    model = DecisionTree.trainClassifier(trainData, numClasses=2,categoricalFeaturesInfo={}, 
                                         impurity=impurityParm, maxDepth=maxDepthParm,maxBins=maxBinsParm)
    ## 计算AUC
    predict = model.predict(validationData.map(lambda p:p.features))
    predict_real = predict.zip(validationData.map(lambda p: p.label))
    metrics = BinaryClassificationMetrics(predict_real)
    AUC = metrics.areaUnderROC
    duration = time() - startTime   # 持续时间
    print("训练评估：参数"+"impurity="+str(impurityParm) + 
         "maxDepth="+str(maxDepthParm)+"maxBins="+str(maxBinsParm)+"\n"+
         "===>消耗时间="+str(duration)+"结果AUC="+str(AUC))
    return AUC, duration, impurityParm, maxDepthParm, maxBinsParm, model

1、评估impurity参数

## 评估impurity参数
impurityList=["gini","entropy"]
maxDepthList = [10]
maxBinsList = [10]

## 返回结果存放至metries中
metries = [trainEvaluateModel(trainData, validationData, impurity, maxDepth, maxBins)
          for impurity in impurityList
          for maxDepth in maxDepthList
          for maxBins in maxBinsList]

返回结果：

训练评估：参数impurity=gini,  maxDepth=10,  maxBins=10
===>消耗时间=1.44052481651,  结果AUC=0.632919896641
训练评估：参数impurity=entropy,  maxDepth=10,  maxBins=10
===>消耗时间=1.1311519146,  结果AUC=0.635917312661

查看metrics

2、评估maxDepth参数

3、评估maxBins参数

4、网格搜索最佳参数组合

## 定义函数gridSearch网格搜索最佳参数组合

def gridSearch(trainData, validationData, impurityList, maxDepthList, maxBinsList ):
    metrics = [trainEvaluateModel(trainData, validationData, impurity, maxDepth, maxBins)
          for impurity in impurityList
          for maxDepth in maxDepthList
          for maxBins in maxBinsList]
    # 按照AUC从大到小排序，返回最大AUC的参数组合
    sorted_metics = sorted(metrics, key=lambda k:k[0], reverse=True)
    best_parameters = sorted_metics[0]
    print("最佳参数组合："+"impurity="+str( best_parameters[2]) + 
         ",  maxDepth="+str( best_parameters[3])+",  maxBins="+str( best_parameters[4])+"\n"+
         ",  结果AUC="+str( best_parameters[0]))
    return  best_parameters
## 参数组合
impurityList=["gini", "entropy"]
maxDepthList = [3,5,10,15,20,25]
maxBinsList = [3,5,10,15,100,200]

## 调用函数返回最佳参数组合
best_parameters = gridSearch(trainData, validationData, impurityList, maxDepthList, maxBinsList)

输出结果：

最佳参数组合：impurity=entropy,  maxDepth=10,  maxBins=15
,  结果AUC=0.676206718346

判断是否过拟合以及模型预测

1、判断是否过拟合

前面已经得到最佳参数组合impurity=entropy, maxDepth=10, maxBins=15及相应的AUC评估。使用该最佳参数组合作用于测试数据，是否会过拟合：

## 定义模型评估函数
def evaluateModel(model, validationData):
    predict = model.predict(validationData.map(lambda p:p.features))
    predict_real = predict.zip(validationData.map(lambda p: p.label))
    metrics = BinaryClassificationMetrics(predict_real)
    return metrics.areaUnderROC

## 使用最佳参数组合impurity=entropy,  maxDepth=10,  maxBins=15训练模型
best_model = DecisionTree.trainClassifier(trainData, numClasses=2,categoricalFeaturesInfo={}, 
                                         impurity="entropy", maxDepth=10,maxBins=15)
AUC1 = evaluateModel(best_model, trainData)
AUC2 = evaluateModel(best_model, testData)
print("training: AUC="+str(AUC1))
print("testing: AUC="+str(AUC2))

返回结果：
training: AUC=0.780396314245 testing: AUC=0.641873112882该模型在测试集上的准确率比训练集上的准确率差别较大，可以判定发生了过拟合。

2、使用模型进行预测

如果不考虑过拟合，依然使用上面最佳参数组合的模型对test.tsv进行预测，返回预测结果

## 使用模型进行预测
def predictData(sc,model,categoriesMap):
    print("开始导入数据...")
    rawDataWithHeader = sc.textFile(Path+"data/test.tsv")
    ## 取第一项数据
    header = rawDataWithHeader.first()
    ## 剔除字段名（特征名）行，取数据行
    rawData = rawDataWithHeader.filter(lambda x:x!=header)
    ## 将双引号"替换为空字符（剔除双引号）
    rData = rawData.map(lambda x:x.replace("\"",""))
    ## 以制表符分割每一行
    lines = rData.map(lambda x: x.split("\t"))
    ## 预处理测试数据集
    testDataRDD=lines.map(lambda r: (r[0], process_features(r, categoriesMap, len(r))))
    DescDict={0:"暂时型(ephemeral)网页",
              1:"长久型(evergreen)网页"}
    ## 预测前5项数据
    for testData in testDataRDD.take(5):
        predictResult=model.predict(testData[1])
        print("网址："+str(testData[0])+"\n"+" ===>预测结果为: "+str(predictResult) + "说明: "+DescDict[predictResult]+"\n")

predictData(sc,best_model,categoriesMap)

运行结果：

开始导入数据…
网址：http://www.lynnskitchenadventures.com/2009/04/homemade-enchilada-sauce.html
===>预测结果为: 1.0说明: 长久型(evergreen)网页

网址：http://lolpics.se/18552-stun-grenade-ar
===>预测结果为: 0.0说明: 暂时型(ephemeral)网页

网址：http://www.xcelerationfitness.com/treadmills.html
===>预测结果为: 0.0说明: 暂时型(ephemeral)网页

网址：http://www.bloomberg.com/news/2012-02-06/syria-s-assad-deploys-tactics-of-father-to-crush-revolt-threatening-reign.html
===>预测结果为: 0.0说明: 暂时型(ephemeral)网页

网址：http://www.wired.com/gadgetlab/2011/12/stem-turns-lemons-and-limes-into-juicy-atomizers/
===>预测结果为: 0.0说明: 暂时型(ephemeral)网页
`

查看决策树分类规则

## 查看决策树分类规则
best_model.toDebugString()

A800架构设计与实战智能计算研究中心其他
内容概要《A800架构设计与实战》围绕新一代计算架构的技术演进与工程落地展开系统性论述。全书以分布式运算优化原理为切入点，通过对核心模块的层级化拆解，深入剖析多节点协同计算中的资源分配、任务调度及通信瓶颈突破方法。为强化理论与实践的结合，书中引入智能制造与云渲染两大典型场景的完整案例，覆盖从需求分析、架构设计到性能调优的全生命周期。技术维度实现路径应用价值架构设计核心模块拆分与重组降低系统耦合度分
生成对抗网络优化医疗影像分析方法智能计算研究中心其他
内容概要生成对抗网络（GAN）在医疗影像分析中的应用正经历从理论验证到临床落地的关键转型。本研究通过整合联邦学习算法与动态数据增强技术，构建了跨机构医疗影像协同分析框架，在保证患者隐私的前提下实现了数据资源的有效扩展。值得注意的是，算法优化过程中采用的三阶段特征工程策略——包括基于注意力机制的特征选择、多尺度特征融合以及可解释性特征映射——使模型决策透明度提升约37.6%。临床实践表明，将联邦学习
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
C++ STL 详解 ——vector 的深度解析与实践指南矛取矛求 C++c++开发语言
一、vector的核心概念与底层机制1.1动态数组的本质连续内存存储：与普通数组相同，vector使用连续的内存空间，支持O(1)时间复杂度的随机访问。动态扩容特性：通过push_back等操作自动调整容量，无需手动管理内存。与数组的区别：特性普通数组vector内存分配静态分配动态分配大小可变否是越界检查无无（需手动检查）内存管理手动释放自动管理1.2扩容策略的深度解析常见扩容方式：指数增长：每
基于PySide6与PyCatia的CATIA几何体智能重命名工具开发实践 Python×CATIA工业智造 python 开发语言 CATIA二次开发
一、工具概述本工具基于CATIAV5/V6的二次开发接口，结合PySide6图形界面框架与PyCatia自动化库，实现了三大核心功能模块：几何体前缀批量添加、后缀动态追加、智能文本替换。该工具显著提升了工程师在大型零件体设计中的几何体命名管理效率，解决了传统手动操作易出错、耗时长的问题。二、技术架构解析1.分层架构设计classStats(QMainWindow):def__init__(self
Git 钩子自动化部署完全指南：掌握 post-receive 触发机制与生产实践窝窝和牛牛 git 自动化
文章目录Git钩子自动化部署完全指南：掌握post-receive触发机制与生产实践一、核心机制剖析1.1触发三要素1.2触发时序图二、配置全流程详解2.1目录结构规范2.2权限控制矩阵2.3标准脚本模板三、高阶调试技巧3.1手动触发测试3.2智能日志追踪四、生产级部署方案4.1多环境分流策略4.2安全回滚机制五、故障应急手册5.1常见问题速查5.2监控指标配置六、性能优化建议Git钩子自动化部署
python webdriver-manager 实现selenium 免下载安装webdriver 小马MT python selenium 爬虫
pythonwebdriver-manager实现selenium免下载安装webdriverselenium在自动化测试中，通常需要使用浏览器驱动来与浏览器进行交互。然而，手动下载、安装、以及管理这些驱动非常麻烦，尤其是当驱动版本频繁更新时。为此，webdriver-manager库提供了一个极简的方案，自动帮我们下载、更新和管理驱动，使Selenium代码更简洁优雅。webdriver-man
python tkinter控件位置_python tkinter组件摆放方式详解 weixin_39895995 python tkinter控件位置
1.最小界面组成#导入tkinter模块importtkinter#创建主窗口对象root=tkinter.Tk()#设置窗口大小(最小值：像素)root.minsize(300,300)#创建一个按钮组件btn=tkinter.Button(root,text='屠龙宝刀，点击送')btn.pack()#加入消息循环root.mainloop()设置初始化界面大小#设置初始化界面大小root.g
python表格控件_Python使用tkinter的Treeview组件实现表格功能 weixin_39619481 python表格控件
fromtkinterimportTk,Scrollbar,Framefromtkinter.ttkimportTreeview#创建tkinter应用程序窗口root=Tk()#设置窗口大小和位置root.geometry('500x300400300')#不允许改变窗口大小root.resizable(False,False)#设置窗口标题root.title('通信录管理系统')#使用Tre
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
深入探究 Ryu REST API 漫谈网络网络技术进阶通途网络
Ryu4.34RESTAPI详细接口说明与示例Ryu4.34的RESTAPI提供了对SDN网络的核心管理功能，涵盖交换机、流表、端口、拓扑和QoS等操作。以下是详细的接口分类、功能说明及Python示例代码。1.交换机管理1.1获取所有交换机DPID端点:GET/stats/switches功能:返回当前连接到控制器的所有交换机的DPID（数据路径标识符）列表。示例:importrequestsR
python web开发pyramid库安装与使用范哥来了 python
为了在Python中使用Pyramid进行Web开发，你需要先安装Pyramid库。接着我会指导你如何安装它，并给出一个简单的示例来展示如何创建一个基本的Pyramid应用。安装Pyramid确保你的环境中已经安装了pip工具，然后可以通过以下命令安装Pyramid：pipinstallpyramid如果你想要开始一个新的Pyramid项目，推荐同时安装pyramid_starter模板，这可以帮
Python激活码 qq_36357944 Python
EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ
tksheet：强大的Python Tkinter表格组件江连日Silver
tksheet：强大的PythonTkinter表格组件tksheetPython3.6+tkintertablewidgetfordisplayingtabulardata项目地址:https://gitcode.com/gh_mirrors/tk/tksheet项目基础介绍与编程语言tksheet是一个基于Python的Tkinter库开发的高性能表格控件，专为展示和编辑大量的tabular数
tksheet: 强大的Python Tkinter表格控件柏珂卿
tksheet:强大的PythonTkinter表格控件项目地址:https://gitcode.com/gh_mirrors/tk/tksheet在探索Python的GUI库时，你会发现tksheet是一个引人注目的名字。它不仅仅是一款简单的表格插件；实际上，这是一个功能丰富且优化得当的数据管理工具，尤其适合那些依赖于Tkinter构建界面的应用开发者。项目介绍tksheet是基于Tkinter
【Python安装】2024年最新下载安装教程！详细步骤，有这一篇就够了！！！「已注销」 python 开发语言
（点击领取Python安装包+学习资料）Python安装说明1.访问Python官网首先，访问Python的官方网站：WelcometoPython.org。2.下载Python安装程序在官网首页，找到“Downloads”部分。根据你的操作系统（Windows,macOS,Linux等）选择合适的版本下载。对于大多数用户，推荐下载最新版本的Python3.x（例如Python3.9或更高版本）。
Python+Selenium 使用webdriver-manager解决浏览器与驱动不匹配所带来自动化无法执行的问题_web自动化最新版本浏览器驱动,驱动连接不了浏览器 2401_84140040 程序员 python 学习面试
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
python常用内置函数 Tan程序员 python 开发语言
函数作用print()打印输出help()用于查看函数或模块用途的详细说明list()将一个可迭代对象转换成列表tuple()将一个可迭代对象转换成元组set()将一个可迭代对象转化成集合dict()用于创建一个新字典sorted()将一个序列排序，返回排序后的序列reversed()将一个序列反转，返回翻转序列后的迭代器range()用于生成可迭代对象的数值列表的表示eval()执行字符串类型的
解决python tkinter库：_tkinter.TclError: bad window path name “.!button“类似错误 Tan程序员 python 开发语言
本文目录报错信息问题分析问题解决本文将介绍怎么解决pythontkinter库_tkinter.TclError:badwindowpathname".!toplevel.!button3"错误（以及类似错误）报错信息我们在使用tkinter库时可能会遇到类似这样的问题：_tkinter.TclError:badpathname".!button"_tkinter.TclError:badwind
2024 年java 和Python 开发工具系列激活码（持续更新） hhhaadei java ide
7EX1SHUD24-eyJsaWNlbnNlSWQiOiI3RVgxU0hVRDI0IiwibGljZW5zZWVOYW1lIjoibWFvIHplZG9uZyIsImxpY2Vuc2VlVHlwZSI6IlBFUlNPTkFMIiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IiIsI
工程化与框架系列（31）--前端依赖管理实践一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端
前端依赖管理实践引言前端依赖管理是现代Web开发中的重要环节。本文将深入探讨前端依赖管理的最佳实践，包括包管理工具、版本控制、依赖分析和优化等方面，帮助开发者更好地管理项目依赖。依赖管理概述前端依赖管理主要包括以下方面：包管理工具：npm、yarn、pnpm等版本控制：语义化版本、锁文件等依赖分析：依赖树、循环依赖等依赖优化：体积优化、重复依赖等安全管理：漏洞检测、更新维护等依赖管理工具实现依赖分
自动化游戏测试揭秘：如何解放双手，高效提升游戏质量？软件测试自动化游戏
引言随着游戏行业的快速发展，游戏测试的重要性日益凸显。从传统的手动测试到如今的自动化测试，测试方法不断演进，以适应日益复杂的游戏场景。面对多平台、多设备的兼容性挑战，以及大量的游戏逻辑、UI、网络、多玩家交互等测试需求，如何通过自动化手段高效保证游戏质量？本文将深入探讨自动化游戏测试的关键技术、工具及实践策略。一、为什么需要自动化游戏测试？相比传统的手动测试，自动化游戏测试能在以下方面带来巨大优势
「QT」布局类之 QHBoxLayout 水平布局类何曾参静谧「QT」QT5程序设计 qt 开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）文章专栏「QT」QT5程序设计全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Ma
python+flask实现360全景图和stl等多种格式模型浏览 mosquito_lover1 python
1.安装依赖pipinstallflask2.创建Flask应用创建一个基本的Flask应用，并设置路由来处理不同的文件类型。fromflaskimportFlask,render_template,send_from_directoryapp=Flask(__name__)#设置静态文件路径app.static_folder='static'@app.route('/')defindex():r
深入解析：构建高效单页应用（SPA）的最佳实践与示例布兰妮甜 #Vue 单页应用 SPA Vue.js 前端
文章目录前言一、单页应用（SPA）的介绍二、单页应用（SPA）的优势三、构建单页应用（SPA）的基本步骤四、使用Vue.js构建一个简易的单页应用（SPA）：任务管理器结语前言随着互联网技术的发展，用户对于网页应用的交互性和响应速度提出了更高的要求。传统的多页面应用（MPA）在每次用户交互时需要重新加载整个页面，这不仅增加了服务器的负担，也降低了用户体验。而单页应用（SinglePageAppli
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
python vuejs聊天室_ws模块指南+Vue在线聊天室无1234 python vuejs聊天室
简介ws模块是Node端的一个WebSocket协议的实现,该协议允许客户端(一般是浏览器)持久化和服务端的连接.这种可以持续连接的特性使得WebScoket特别适合用于适合用于游戏或者聊天室等使用场景.ws模块相较于其他基于WebSocket协议的模块来说非常的纯粹.他只关注基于WebSocket协议的实现,其他例如Socket.io提供了回退手段,当WebSocket无法使用的时候会利用轮询来
Python的struct模块 smilelance Python python struct alignment string buffer exception
struct模块提供将二进制数据转换为结构化数据或相反的功能，它定义了以下函数和异常：exceptionstruct.errorstruct.pack(fmt,v1,v2,…)返回一个string，string由v1,v2…经过给出的格式fmt组成，参数的个数有和类型要和给出的格式一一对应struct.pack_into(fmt,buffer,offset,v1,v2,…)按照格式fmt将v1,v
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement