白木木木木

机器学习|R语言|利用随机森林对二手车交易价格进行评估

利用随机森林对二手车交易价格进行评估

随机森林原理

前情提要

数据来源

数据预处理

数据补全与变量删除

数据异常值处理

随机森林模型建立与优化

树的棵树选取

自变量的选取

mtry参数的调整

maxdepth调参

扩展篇

GridSearch方法

交叉验证

利用随机森林对二手车交易价格进行评估

随机森林原理

随机森林算法作为一种取代神经网络等传统机器学习方法的分类回归算法，具有高准确率、不易过度拟合、对噪声及异常值容忍度高等特点。相比于传统的多元线性回归模型，随机森林算法能够克服协变量之间复杂的交互作用。[1]随机森林算法通过构建多棵决策树形成森林，使用bootstrap重采样方法。实际操作为从原始样本中抽取一定数量样本，允许重复抽样；根据抽出的样本计算给定的统计量；重复上述步骤多次，得到多个计算的统计量结果；由统计量结果得到统计量方差。

随机森林算法流程为：

1、假设原始样本含量为N，应用bootstrap有放回随机抽取b个自助样本集(一般样本集中样本量越大回归效果越好)，并由此构建b颗回归树，同时未抽取到的数据即袋外数据（OOB）作为随机森林的测试样本；

2、设原始数据变量个数为p，在每一个回归树的每个节点处随机抽取个变量（）作为备选分枝变量，一般取=p/3，然后再其中根据分枝优度准则选取最优分枝(同回归树模型建立)；其中分枝优度准则是基于离均差平方和。

假设有p个自变量和连续型因变量Y。为预测二手车价格，将附件一数据处理后的各变量作为自变量X，将二手车交易价格作为连续型因变量Y。

对于树的某一节点t的样本为{..xn,yn},改节点样本量为N(t),由此可知该节点的的离均差平方和。假定该阶段t内所有可能的分枝集合（含变量和相应的切点）为A，分枝s将节点t分裂为两个子节点与，其中最佳分枝既为使得t节点的离均差平方和与分裂后的两个子节点对应的离均差平方和之和差距最大的分枝，即分裂后效果优于分裂前，使得各子节点内的变异最小。

3、每棵树开始自顶向下递归分枝，设定叶节点最小尺寸为5，并以此作为回归树生长的终止条件，即当叶节点数目小于5时，停止分枝；

4、将生成的b颗回归树组成随机森林回归模型。回归的效果评价采用带袋外数据（OOB）均方误差MSE，平均绝对误差MAE及拟合优度。其中

在本模型中，选择划分训练集和测试级的比例为7:3。

前情提要

伴随我国经济的发展，汽车市场日渐繁荣，在新车保有量逐年攀升的同时，也有更多的消费者从观念上接受了二手车。2021年国内的二手车交易量为1758.51万辆，同比2020年1434.14万辆增长了22.6%。二手车交易量的增加带来了更大的二手车交易市场，同时也对二手车价值评估提出了更高的要求。
如今大数据、机器学习、深度学习等概念与技术已日渐普及，且逐渐开始落地，帮助企业降低实际的运作与生产中的成本。在一些汽车行业发达的国家（美、日、德等），利用大数据技术进行二手车交易价格的评估已在大企业中得到了广泛应用，而在中国大数据技术还未普及。本篇文章便基于随机森林建立预测模型对二手车交易价格进行评估。

数据来源

本文所采用数据来自《2021年MathorCup高校数学建模挑战赛——大数据竞赛》中赛道A所附带数据集，共两个附件（附件1：估价训练集与附件2：估价验证集）。训练集共有36列30000行，其中包含了车系、厂商类型、展销时间、新车价等20列车辆本身信息与市场信息。除此之外还包含了15列匿名数据，匿名数据即未给出数据具体含义。最后一列为二手车的准确交易价格。验证集与训练集数据类型相同，共10000行数据。我们此篇文章仅采用附件1：训练集中的数据。

导入包及数据读取：

###导入所需包
library(datasets)
library(plyr)
library(randomForest)
library(xlsx)
require(caret)
library(ggplot2)
library(vioplot)
library(dplyr)
library(tidyverse)
###数据的读取
set.seed(987654321)	#设置随机种子
data <- read.csv('F:/R/处理数据.csv')
data <- data[,c(-1,-2)]	#由于数据集的前两列为数据表自带序号与车辆id，属于无用信息，故删除

数据预处理

数据补全与变量删除

首先，对附件1和附件2中训练集和验证集进行数据预处理。附件一和附件二的数据处理方法相同。分析各数据中存在的缺失值数量。统计出的缺失数量如下：

缺失变量名称	附件1：估价训练数据
country	3757
maketype	3641
modelyear	312
carCode	9
gearbox	1
anonymousFeature1	1582
anonymousFeature4	12108
anonymousFeature7	18044
anonymousFeature8	3775
anonymousFeature9	3744
anonymousFeature10	6241
anonymousFeature11	461
anonymousFeature12	0
anonymousFeature13	1619
anonymousFeature15	27580

针对变量缺失个数结合分析，有下表中处理方法：

变量	处理方式
country	众数补全
maketype
modelyear
carcode
anonymousFeature8
anonymousFeature9
anonymousFeature10
anonymousFeature1	删除变量
anonymousFeature4
anonymousFeature7
anonymousFeature15
anonymousFeature13
tradeTime	计算差值构造新变量
licenseDate	计算差值构造新变量
anonymousFeature12	拆分成三变量后对缺失值进行众数补全
anonymousFeature11	特殊值代替

其中country为国别，maketype为厂商类型，modelyear为年款，carcode为国标码，gearbox为变速箱，均可看做分类型数据，使用其对应数据的众数补全。需要注意，由于附件2中数据量远远小于附件1，因此附件2验证集的缺失数据均用附件1对应数据的众数进行补全，从而确保更加合理。

匿名变量8，匿名变量9，匿名变量10只存在几种可能的数值，同样可看做分类型数据，采用众数补全。分析原数据发现，匿名变量1的数据值全为1，方差为0，无信息量，因此剔除。匿名变量4，匿名变量7，匿名变量15包含大量缺失值，仅有少部分有效值，因此剔除。匿名13和上牌日期与注册日期相近，为避免数据重复使用，增加工作量，因此剔除匿名13和上牌日期。

考虑二手车的使用时间对二手车价格影响较大，因此用展销日期减去上牌日期构造新变量：二手车使用天数。由于展销日期年份相同，方差为0，因此剔除。此外，保留注册日期的年份，而将影响较小的月份，日期数据剔除。

匿名变量11有1, 1+2，3+2，(1+2,4+2)，等多种类型，亦可看做分类型数据，分别用数值1,2,3,4代表这四种类型，并取众数进行补全。匿名变量12为三个乘数相乘的形式，猜测为长宽高，相乘以表示车的体积等物理量，因此将三个乘数分为三列数据，形成三个新变量，以增强数据的完整性，最终形成项目所采用的数据集。

数据预处理脚本代码(python)：

import pandas as pd
from pandas import read_csv

# 列名
names = ['carid', 'tradeTime', 'brand', 'serial', 'model', 'mileage', 'color', 'cityId', 'carCode', 'transferCount',
         'seatings',
         'registerDate', 'licenseDate', 'country', 'maketype', 'modelyear', 'displacement', 'gearbox', 'oiltype',
         'newprice']

# 填补众数列名
modenames = ['country', 'maketype', 'modelyear', 'carCode', 'gearbox', 'anonymousFeature1'
    , 'anonymousFeature8', 'anonymousFeature9', 'anonymousFeature10']

# 删除列名
delete_name = ['anonymousFeature4', 'anonymousFeature7', 'anonymousFeature15', 'tradeTime'
    , 'registerDate', 'licenseDate', 'anonymousFeature12', 'anonymousFeature13', 'anonymousFeature1']

# 记录对应众数
modedict = {}

# 填充众数
def fillmode(train, name):
    mod = train[name].mode()
    mod = mod.tolist()[0]
    train[name].fillna(mod, inplace=True)
    x = {name: mod}
    modedict.update(x)

# 分割数据处理
def sepdata(train):
    # # 时间处理
    train['tradeTime'] = pd.to_datetime(train['tradeTime'])
    train['registerDate'] = pd.to_datetime(train['registerDate'])
    train['licenseDate'] = pd.to_datetime(train['licenseDate'])

    train['registerDate_year'] = train['registerDate'].dt.year
    train['used_time'] = train['tradeTime'] - train['licenseDate']
    train['used_time'] = train['used_time'].dt.days

    # 分割处理
    res = train['anonymousFeature12'].str.split('*', expand=True)
    train['length'] = res[0]
    train['width'] = res[1]
    train['high'] = res[2]

    # 分割处理
    train['anonymousFeature11'] = train['anonymousFeature11'].map(func)

# 匿名变量映射
def func(x):
    if x == '1':
        x = 1
    elif x == '1+2':
        x = 2
    elif x == '3+2':
        x = 3
    else:
        x = 4
    return x

# 处理过程
def process(train, filename):
    sepdata(train)
    for name in names:
        if name in modenames:
            fillmode(train, name)
        if name in delete_name:
            train = train.drop(name, 1)
    print(train)
    # 加入长宽高众数
    modedict.update({'length': train['length'].mode().tolist()[0]})
    modedict.update({'width': train['width'].mode().tolist()[0]})
    modedict.update({'high': train['high'].mode().tolist()[0]})
    train.to_csv(filename)

# 处理验证数据
def process_eval(eval, filename):
    sepdata(eval)
    for name in names:
        # 填补附件一众数
        if name in modedict.keys():
            eval[name].fillna(modedict[name], inplace=True)
        if name in delete_name or name == 'price':
            eval = eval.drop(name, 1)

    eval['width'].fillna(modedict['width'], inplace=True)
    eval['high'].fillna(modedict['width'], inplace=True)
    eval['length'].fillna(modedict['width'], inplace=True)
    print(eval)
    eval.to_csv(filename)

if __name__ == "__main__":
    for i in range(15):
        names.append('anonymousFeature' + str(i + 1))
    names.append('price')

    train = read_csv('附件/附件1：估价训练数据.csv', sep='\t', names=names)
    process(train, './附件/处理数据1.csv')

    eval = read_csv('附件/附件2：估价验证数据.csv', sep='\t', names=names)
    process_eval(eval, './附件/验证数据.csv')

数据异常值处理

在对数据进行初步处理之后，需要对给出的数据中存在明显错误的点进行异常处理。在本文中主要采用箱型图法对异常数据进行处理。箱型图是用来表示数据分散情况的统计图，主要反映了数据的分布特征。
在箱型图中主要具有五个点，分别称位上限，下限,Q3（上四分位数，即位置的数），Q2（中位数），Q1（下四分位数,即位置的数）。上限等于Q3+1.5IQR，下限等于Q1-1.5IQR,有IQR=Q3-Q1。当数据的超过其对应的箱型图的上限以及下限时，可以判断其为异常值。示意图如下：

去除异常值：

OutVals = boxplot(data[,'price'], plot=FALSE)$out
data <- data[-(which(data[,'price'] %in% OutVals)),]	#去除price值异常的数据行
data <- data[-(which(data[,'country']==0)),]	#有些country值为0，属于异常值范畴

我们将异常值去除，并在去除异常值前后分别建立随机森林模型比较性能。（除异常值所在行外其它数据均相同，随机森林所有参数采用默认参数）得到结果如下表：

	异常值去除前	异常值去除后
R方	0.000266	0.934676

由此可见去除异常点后模型性能有极大提升，所以这一步相当关键。

随机森林模型建立与优化

树的棵树选取

此次项目我们对随机森林的ntree,mtry,maxdepth等三个重要参数进行调节，我们首先对ntree即随机森林中决策树的数量进行调节。
我们采用预处理后的数据，随机森林的参数设为默认：

train_sub <- sample(datasize,round(0.7*datasize))	#将数据集打乱
train_data <- data[train_sub,]
test_data <- data[-train_sub,]	#按照7：3的比例将原始数据集随机划分为训练集与验证集

fit.rf1 <- randomForest(price~. ,data=train_data,importance=T)	#生成随机森林预测模型
plot(fit.rf1)	#采用plot()函数将随机森林的预测误差随着决策树棵数变化的曲线画出来

得到图：

由图可以看出当随机森林中决策树的棵树超过500后，随机森林的误差基本不变，为了使模型更高效，训练模型时间更短，我们将决策树的棵树确定为500。

自变量的选取

在建立初步的随机森林模型之后（采用默认参数），还需要对自变量个数进行相应的调整，从而获得最佳的R2值，使得模型的精度达到最佳。

train_sub <- sample(datasize,round(0.7*datasize))
train_data <- data[train_sub,]
test_data <- data[-train_sub,]	#获得训练集与验证集

fit.rf <- randomForest(price~. ,data=train_data,importance=T)	#importance设为T，可以采用随机森林自己计算各个变量的重要性
im <- importance(fit.rf,type=2)	#将结果保存
pred <- predict(fit.rf,test_data)
obs <- test_data[,'price']
result <- data.frame(obs,pred)
obs <- as.numeric(as.character(result[,'obs']))
pred <- as.numeric(as.character(result[,'pred']))
r <- r2fun(pred,obs)	#计算出模型的R2，以此为标准判断模型的性能
print(im)	#输出自变量重要性的排名

起初未删除变量时各变量的重要程度排名：

接下来我们便从重要性最低的变量开始，将与其它变量重要性相差较多的变量删除。每删除完一次变量后重新计算各个变量的重要性排名，并重复上述操作。共进行三次变量的删除，四次实验，进行横向比较：

调整方式	R2
不删除	0.932
删除四个变量 anonymousFeature14 anonymousFeature10 anonymousFeature9 anonymousFeature3	0.935
删除九个变量 anonymousFeature14,anonymousFeature10,anonymousFeature9,anonymousFeature3,color,transferCount,oiltype,cityId,seatings	0.942
删除十一个变量 anonymousFeature14,anonymousFeature10,anonymousFeature9,anonymousFeature3,color,transferCount,oiltype,cityId,seatings anonymousFeature8,carCode	0.929

可以得知，在删除了十一个变量之后，MSE开始减小，因此不宜删除过多变量，本模型最后选择brand（品牌id）,serial(车系id),model(车型id),mileage(里程),cityId（城市id）,carCode（国标码） ,country（国别）,maketype（厂商类型）,modelyear（年款）,displacement（排量）,gearbox（减速箱）,oiltype（燃油类型）,newprice（新车价）,anonymousFeature2（匿名变量2）, anonymousFeature5（匿名变量5）,anonymousFeature6（匿名变量6）,anonymousFeature8（匿名变量8）, anonymousFeature11（匿名变量11），registerDate_year（注册年份）,used_time（使用时间）,length（长）,width（宽）,height（高）这23个变量构建对应的随机森林模型。

mtry参数的调整

mtry代表的是从所有自变量中随机抽取了多少个自变量用于每棵决策树的建立。例如：当mtry值为5时，若此时我们共采取13个自变量建立随机森林，那么每棵决策树建立时便从这13个自变量中随机抽取5个自变量作为分类标准。
对于mtry的调参，我们采用遍历方法，将合理范围内的所有mtry参数遍历一遍，取模型结果最优时的mtry参数值。
我们共有21个自变量，于是将mtry的范围设为（2:20），因为mtry的取值不能小于2，也不能大于等于自变量的总数。
mtry参数调整代码：

###mtry调参
r2list <- c()	#利用r2list记录每个不同mtry取值所确定的模型的R2值，以此评判模型的性能
r2best <- 0	#用于存储最大的R2值，即最好的模型性能值
mtrybest <- 0	#记录当模型性能达到最好时mtry所对应的值
r_m <- 0	
for(i in 2:20)
{
  fit.rf1 <- randomForest(price~. ,data=train_data1,importance=T,proximity=TRUE,ntree=500,mtry=i)
  pred1 <- predict(fit.rf1,test_data1)
  obs1 <- test_data1[,'price']
  result1 <- data.frame(obs1,pred1)
  obs1 <- as.numeric(as.character(result1[,'obs1']))
  pred1 <- as.numeric(as.character(result1[,'pred1']))
  
  r_m <- r2fun(pred1,obs1)
  r2list <- c(r2list,r_m)
  if( r_m > r2best)	#若当前模型的R2值r_m比r2best所存储的值大，则将r2best的值替换为r_m
  {
    r2best <- r_m
    mtrybest <- i
  }
  
}

若想画出R2随mtry参数变化的曲线图，只需加上下面的代码：

plot(x=c(2:20),y=r2list,xlab='mtry',ylab='R2',main='R2随mtry取值变化图')

在此我们便不一一作展示。
最终所得最佳R2值与所对应mtry值如下表：

评价指标	R方	MSE	MAE
测试集	0.9541	1.8406	0.8649

maxdepth调参

maxdepth参数的调整过程与mtry基本相同，将范围设为seq（10,100,10)即介于10到100之间，以10为跨度取值。
maxdepth调参代码：

###maxdepth调参
r2list <- c()	#记录不同的maxdepth取值所对应的R2
r2best <- 0	#记录R2最大值为多少
maxdepthbest <- 0	#记录R2最大时所对应的maxdepth值
r_d <- 0
for(j in seq(10,100,10))
{
  fit.rfd <- randomForest(price~. ,data=train_data,importance=T,proximity=TRUE,ntree=500,mtry=20,max_depth=j)
  pred <- predict(fit.rfd,test_data)
  obs <- test_data[,'price']
  result <- data.frame(obs,pred)
  obs <- as.numeric(as.character(result[,'obs']))
  pred <- as.numeric(as.character(result[,'pred']))
  
  
  r_d <- r2fun(pred,obs)
  depthlist <- c(depthlist,r_d)
  if( r_d > r2best)
  {
    r2best <- r_d
    maxdepthbest <- j
  }
}

原理同mtry的调参过程相同，由于时间关系，我们最终并未计算出最终结果。因为数据量较大，模型的构建时间较长，而我们做这个项目的时间有限。感兴趣的小伙伴可以试试噢。

扩展篇

GridSearch方法

上面我们对于mtry与maxdepth的调参运用的方法是先找到mtry的最佳取值，而后将其固定，再进行maxdepth的调参。此种方法虽然比之GridSearch更快，但很容易陷入局部最优。

如同这张图，我们有可能到达了某个小山峰的峰顶，但却不是整个曲面中最高的顶点，这种情况下我们仅达到了局部最优，并不是全局最优。想要达到全局最优我们可以采用GridSearch方法。
那么GridSearch是什么呢？GridSearch的中文直译是网格搜索。这听起来很高大上，但其实原理非常简单，就是将不同参数的遍历循环嵌套，得到最优的参数组合。话不多说，先上代码：

###GridSearch方法
r2list <- c()	#记录不同的maxdepth与mtry的参数组合所对应的R2
r2best <- 0	#记录R2最大值为多少
mtrybest <- 0    #记录R2最大时mtry所对应值
depthbest <- 0    #记录R2最大时depth所对应值
r_g <- 0    
for(i in 2:20)
{
  for(j in seq(10,100,10))
  {
    fit.rf1 <- randomForest(price~. ,data=train_data1,importance=T,proximity=TRUE,ntree=500,mtry=i,maxdepth=j)
    pred1 <- predict(fit.rf1,test_data1)
    obs1 <- test_data1[,'price']
    result1 <- data.frame(obs1,pred1)
    obs1 <- as.numeric(as.character(result1[,'obs1']))
    pred1 <- as.numeric(as.character(result1[,'pred1']))
    
    r_g <- r2fun(pred1,obs1)
    r2list <- c(r2list,r_m)
    
    if( r_g > r2best)    
    {
      r2best <- r_g
      mtrybest <- i
      depthbest <- j
    }
  }
}

可以看到此方法并没有本质上的变化，同样是进行遍历，找出最优的参数。只不过不再是单个参数的遍历，而是两个参数组合的遍历。如这个项目中mtry有19种情况，maxdepth有10种情况，那么他们的参数组合便有190种情情况。这190种情况就像一张大网上的许多小网格。网格搜索便是在这190个小网格中找到让R2最大的小网格，即是mtry与maxdepth的最佳参数组合。这样一来自然能达到全局最优，但同时计算量也大大增加。由于我们设备计算能力的有限，我们并未采取GridSearch方法，有兴趣的小伙伴可以试试噢。

交叉验证

交叉验证是指将数据集分成k份，这k份数据子集轮流作为验证集，其余(k-1)份数据集作为训练集。最终得到k个模型，在做回归分析时将这k个模型的结果平均，这样会使预测值更稳定，也更准确。
附上交叉验证代码：

###交叉验证
CVgroup <- function(k,datasize,seed){
  cvlist <- list()
  set.seed(seed)
  n <- rep(1:k,ceiling(datasize/k))[1:datasize]    #将数据分成K份，并生成数据集n
  temp <- sample(n,datasize)   #把n打乱
  x <- 1:k
  dataseq <- 1:datasize
  cvlist <- lapply(x,function(x) dataseq[temp==x])  #dataseq中随机生成k个随机有序数据列
  return(cvlist)
}

k即子集的划分个数，datasize为数据集的大小，seed是自己设置的随机种子。分成k份便是k折交叉验证。
这个项目也可以采用k折交叉验证。但同样因为设备计算能力的有限以及时间的有限，我们并未采用交叉验证的方法。感兴趣的小伙伴可以自己尝试噢。

你可能感兴趣的:(r语言,python,随机森林)

Jerry和您聊聊Chrome开发者工具
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
蓝桥杯算法训练——礼物（二分法）Python lican3 蓝桥杯蓝桥杯算法二分法石子问题前缀和
这个博客是摆烂小白冲刺蓝桥杯国赛的算法笔记，呜呜因为太过摆烂现在六级、期末和国赛全在一起是真的会栓Q的好吗。。。我每次学习懂一题都会很开心，吃饭都香那种开心（因为太过小白），今天是六一祝大家六一快乐啊！！！代码放在上面记录，欢迎各位指正和讨论！礼物问题描述JiaoShou在爱琳大陆的旅行完毕，即将回家，为了纪念这次旅行，他决定带回一些礼物给好朋友。在走出了怪物森林以后，JiaoShou看到了排成一
蓝桥杯python组——真题每日一练 KO！python 蓝桥杯算法 python 数据结构
题目：我们要求找出具有下列性质数的个数(包含输入的自然数n):先输入一个自然数n(n<1000),然后对此自然数按照如下方法进行处理1.不作任何处理2.在它的左边加上一个自然数,但该自然数不能超过原数的一半;3.加上数后,继续按此规则进行处理,直到不能再加自然数为止。输入描述：输入一个正整数n。输出描述：输出一个整数，表示具有该性质数的个数。解题思路：解题思路如下：1.首先，我们定义一个递归函数`
Python 传入多个参数 helloworld987456 Python python
单星号传入函数使用示例：deftest_a(*param):printparamtest_a(7,8,9)运行结果：(7,8,9)总结：将多个元素以元祖形式传入多星号传入函数使用示例：deftest_a(**params):printparamstest_a(a=7,b=8,c=9)运行结果：{'a':7,'c':9,'b':8}总结：以字典的形式传入。注意二者使用时的区别，对于多星号传入，调用格
《CPython Internals》阅读笔记：p177-p220 python
《CPythonInternals》学习第11天，p177-p220总结，总计44页。一、技术总结1.memoryallocationinC(1)staticmemeoryallocationMemoryrequirementsarecalculatedatcompiletimeandallocatedbytheexecutablewhenitstarts.(2)automaticmemeorya
Godot引擎开发：角色移动与物理碰撞_Godot引擎基础概述 chenlz2007 游戏开发2 godot 游戏引擎 java 服务器关卡设计
Godot引擎基础概述在这一节中，我们将对Godot引擎的基础概念进行详细介绍，帮助你快速上手并理解其核心工作原理。Godot引擎是一个开源的、跨平台的游戏开发引擎，以其轻量级和灵活性而著称。它使用GDScript，一种类似于Python的脚本语言，来编写游戏逻辑，同时提供了丰富的编辑器功能和强大的可视化工具。1.Godot引擎简介Godot引擎由两个主要部分组成：编辑器和运行时。编辑器是游戏开发
如何在众多券商中挑选出能提供最佳开户佣金优惠的券商？有哪些关键因素要考虑股票程序化交易接口量化交易股票API接口 Python股票量化交易券商开户佣金关键因素佣金率股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>佣金率的比较券商的佣金率是投资者交易成本的重要组成部分。不同券商的佣金率存在较大差异。一些大型券商可能由于品牌知名度和广泛的服务网络，在佣金率上相对较高。而一些小型券商为了吸引客户，可能会推出较低的佣金率。有的大型券商的股票交易佣金率
华为OD机试E卷 - 生成哈夫曼树（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od c++java c语言 javascript python 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定长度为nnn的无序的数字数组，每个数字代表二叉树的叶子节点的权值，数字数组的值均大于等于111。请完成一个函数，根据输入的数字数组，生成哈夫曼树，并将哈夫曼树按照中序遍历输出。为了保证输出的二叉树中序遍历结果统一，增加以下限制:又树节点中，左节点权值小于等于右节点权值，根节点权值为左右节点权值之和。当左右节点权值相
华为OD机试E卷 - 跳房子I（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 javascript c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述跳房子，也叫跳飞机，是一种世界性的儿童游戏。游戏参与者需要分多个回合按顺序跳到第1格直到房子的最后一格。跳房子的过程中，可以向前跳，也可以向后跳。假设房子的总格数是count，小红每回合可能连续跳的步教都放在数组steps中，请问数组中是否有一种步数的组合，可以让小红两个回合跳到量后一格?如果有，请输出索引和最小的步数
PyQt5串口测试工具 Yuule 工具笔记 python pyqt
笔者经常会遇到使用上位机进行相关测试的场景，但现成的上位机并不能完全满足自己的需求，或是上位机缺乏使用说明。所以，自己写？环境说明pycharm2023.2.25python3.10anaconda环境配置condacreate-nenvsram##新建虚拟环境，不用anaconda也行自己使用python新建都行condaenvlist##查看虚拟环境及路径，方便修改python解释器路径con
SQLite3 使用Python快速操作单体文件的sqlite数据库 XLY23333 SQL Python 数据库 sqlite python
PY-SQLite3Note:XLY23333RAWVideo:checkPythonVersion:3.11SQL基础操作可参考文章：[CSDN]SQLBasicVERSION1[CSDN]SQLBasicVERSION2DataBase基础概念关系型数据库常见操作即SQL(StructuredQueryLanguage)语法创建/删除/修改表CREATE/DROP/ALTERTABLE新增/删
复习打卡python篇——python面向对象与高级编程01 筒栗子 python 开发语言
目录1.面向对象基本概念2.魔术方法2.1初始化方法、构造方法：__init__（）2.2__str__()方法2.3__del__()方法3.面向对象三大特性3.1封装3.2继承3.2多态4.面向对象其他特性4.1类属性4.2类方法4.3静态方法1.面向对象基本概念传统的面向过程的编程思想——自顶向下，逐步细化。所谓的面向对象就是模拟现实世界，定义一个一个的实体，比如学生小明、班级3班、小狗TO
短期气候Python绘图——EOF（经验正交函数分解）大气环流基本状况安载寿 python 开发语言
一、要求掌握大气环流分型的基本方法－－EOF（经验正交函数分解）大气环流基本状况；熟悉EOF方法和程序的应用，气象绘图；二、资料说明NCEP/NCAR1948－2008年（61年）的500百帕月平均高度场资料，资料范围为（900S-900N,00-3600E)，网格距为2.50×2.50,纬向格点数为144，经向格点数为73，资料为GRD格式，资料从南到北、自西向东排列，每月为一个记录，按年逐月排
短期气候Python绘图——欧亚遥相关指数以及站点数据绘图安载寿 python 开发语言
一、要求计算EU（欧亚）遥相关指数，输出1月份该指数年际变化的时间序列；计算EU遥相关指数与同期环流场（500hPa高度场或海平面气压场）的相关系数；计算EU遥相关指数与同期我国气温的相关系数。二、资料说明（1）格点资料NCEP/NCAR1948－2012年（65年）的500百帕月平均高度场资料资料范围为（900S-900N,00-3600E)网格距为2.50×2.50,纬向格点数为144，经向格
中等难度——python实现电子宠物和截图工具 myzzb python 图像处理前端宠物
importio#文件处理importnt#windowsnt库直接获取对应的磁盘空间importtime#时间importzlib#加解密importctypes#调用importstruct#处理字节二进制importbase64#编解码importthreading#线程importtkinterastk#tkfromdatetimeimportdatetime#时间fromtkinteri
python爬虫根据需要查找某个链接并保存快乐小运维 python 爬虫开发语言
importreimportosfromurllib.parseimporturlparse,quoteimportasyncioimportaiohttpfrombs4importBeautifulSoup#所有下载文件file_name=“1.txt”asyncdeffetch_url(session,url):try:#首先尝试HTTPSasyncwithsession.get(url,ti
华为OD机试E卷 --跳房子I--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述跳房子，也叫跳飞机，是一种世界性的儿童游戏。游戏参与者需要分多个回合按顺序跳到第1格直到房子的最后一格。跳房子的过程中，可以向前跳，也可以向后跳。假设房子的总格数是count，小红每回合可能连续跳的步教都放在数组steps中，请问数组中是否有一种步数的组合，可以让小红两个回合跳到量后—格?
Python 写的《桌面时钟》屏保 PieroPc Python python 开发语言
原代码：#日历式时钟#导入所需的库#作者：Hoye#日期：2024年12月16日#功能：显示当前日期、星期、时间，并显示模拟时钟importtkinterastkfromtkinterimportttkimporttimeimportmathimportsysdefexit_screensaver(event=None):root.quit()defdraw_clock_face():#清除画布c
Python爬虫：从入门到实践来恩1003 Python爬虫 python 爬虫开发语言
Python爬虫学习资料Python爬虫学习资料Python爬虫学习资料在当今数字化信息爆炸的时代，数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具，正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究，还是数据分析，Python爬虫都能发挥巨大作用。本文将带你从基础概念出发，逐步深入到爬虫的实战应用，助你掌握这一强大的数据获取技能。一、爬虫基础：开启数据获取
22.C语言Unicode编码与多字节字符处理详解余识- C语言基础 c语言数据库
目录1.Unicode简介2.字符的表示方法3.多字节字符的表示4.宽字符5.多字节字符处理函数5.1mblen5.2wctomb5.3mbtowc()5.4wcstombs5.5mbstowcs本篇原文为：C语言Unicode编码与多字节字符处理详解。更多C++进阶、rust、python、逆向等等教程，可点击此链接查看：酷程网1.Unicode简介C语言诞生时，只考虑了英语字符，使用7位的AS
python中print输出格式汇总_Python格式化字符串（格式化输出）白字不白
我们在《第一个Python程序——在屏幕上输出文本》中讲到过print()函数的用法，这只是最简单最初级的形式，print()还有很多高级的玩法，比如格式化输出，这就是本节要讲解的内容。熟悉C语言printf()函数的读者能够轻而易举学会Pythonprint()函数，它们是非常类似的。print()函数使用以%开头的转换说明符对各种类型的数据进行格式化输出，具体请看下表。表1Python转换说明
【Python Tips】多线程池加速独立运行程序——ThreadPoolExecutor 机器白学 Python python
在处理数量庞大的数据集或者大批量的循环操作时，程序如果单一运行往往会十分缓慢。假如硬件设备内存足够，CPU性能够好，同时每次循环内的任务都独立（如访问一个文件夹内大量文件）。这种时间复杂度的问题可以尝试使用多线程来处理加速。下面记录使用Python标准库中的高级接口——concurrent.futures.ThreadPoolExecutor来实现多线程加速。以一个写入txt文件的操作为例，假如有
Python wxPython 库实现文本框与按钮交互示例燕鹏01 Python python
引言在Python的图形用户界面（GUI）开发中，wxPython是一个功能强大的库。今天，我们将通过一个简单的示例，详细讲解如何使用wxPython创建一个带有按钮和文本框的窗口，并实现按钮点击事件来向文本框中添加文本。代码解析导入wxPython库importwx这行代码导入了wxPython库，它是我们创建GUI应用程序的基础。创建MyFrame类classMyFrame(wx.Frame)
《Python实现简易DDoS压力测试脚本：原理、代码与使用警示》乐茵安全 python_study chrome 前端 python 网络安全
DDoS测试脚本声明：本文所涉及代码仅供学习使用，任何人利用此造成的一切后果与本人无关源码import requestsimport threading# 目标URLtarget_url = "http://47.121.xxx.xxx/"# 发送请求的函数def send_request(): while True: try: response = re
《还在为数据表难看而烦恼？Python绘制数据表能否成为你的救星？》乐茵安全 python_study java 前端 python
利用python绘制各种数据图表绘制柱形图-源码from openpyxl import Workbookfrom openpyxl.chart import BarChart, Reference# 创建工作薄wb = Workbook(write_only=True)# 创建工作表ws = wb.create_sheet('月收入')# 准备数据rows = [ ('月份', '销售额'
python3安装教程 @小左 python 开发语言
1.下载python百度网盘下载python-3.12.3-amd64.exe链接：https://pan.baidu.com/s/1MV3kvVdjCdS_G-_KgefwLw?pwd=pgzu提取码：pgzu官网下载：WelcometoPython.org有很多版本，选择需要的版本下载2.安装python双击python-3.12.3-amd64.exeNext安装成功3.检查pythonwi
【2024华为OD-E卷-100分-字符串分割】（题目+思路+Java&C++&Python解析) 执着的小火车 2024华为OD-E卷华为od java c++华为算法数据结构
题目字符串分割给定一个字符串s和一个整数k，你需要将字符串s分割成恰好k个非空子字符串，使得这些子字符串中字典序最大的子字符串尽可能小。输入：第一行输入一个字符串s（只包含小写字母）。第二行输入一个整数k。
华为OD机试E卷 - 空栈压数（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 python 华为od java javascript c语言 c++华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述向一个空栈压入正整数，每当压入一个整数时，执行以下规则（设:栈顶至栈底整数依次编号为n1,n2,…,nx，其中n1为最新压入的整数)如果n1=n2，则n1、n2全部出栈，压入新数据m(m=2*n1)如果n1=n2+…+ny(y的范围为[3,x])，则n1,n2,…,ny全部出栈，压入新数据m(m=2*n1)。如果上述规
Python的条件判断、循环和函数（超详细教学）小星袁 Python入门级超详细教学 python 服务器开发语言 Python 循环条件函数
目录一、条件判断1.1if语句1.2ifelse语句1.3ifelifelse语句二、循环2.1累加2.1.1for循环2.1.2while循环2.2break跳出循环2.3列表表达式2.3.1定义2.3.2举例三、函数3.1求和函数3.2匿名函数一、条件判断1.1if语句A=10ifA>0:print("A是正数！")1.2ifelse语句A=-10ifA>0:print("A是正数！")els
Python进阶-在Ubuntu上部署Flask应用
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Python作为一种简单易用的编程语言，适用于开发各种应用程序。本文将详细介绍如何在Ubuntu服务器上部署Python应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$