阡之尘埃

Python数据分析案例18——化学分子数据模型(机器学习分类问题全流程)

1. 引言

1.1设计背景

对分子进行分类，对于筛选特定疾病的候选药物是至关重要的。传统的机器学习算法可以对分子进行分类，但是分子不能直接作为机器学习模型的输入，需要进行大量的实验从分子中得到一系列的分子特性。将分子特征使用数字化进行处理，挖掘出数据中的特征信息，从而对分子不同类别进行一个很好的区分。

1.2设计目的和意义

本设计利用大量的分子的不同特征变量数据，进行有监督的机器学习模型构建，结合训练集上有类别标签的数据进行模型的迭代拟合，训练出可以智能识别分类别的机器学习模型。本设计主要的三点意义如下：

1.对分子特征数据进行探索，需要大量的分子的特征分布特点。

2.利用K折交叉验证、超参数搜索寻找最优的适合分子类别预测的机器学习和其超参数。

3.训练构建最优的分子类别预测的机器学习模型，并在验证集上进行预测。

2. 设计思路与流程

一般机器学习的数据科学项目流程主要分为数据的预处理，初步分析探索和可视化，特征工程的构建，异常值处理，之后进行模型选择和超参数调整。本设计的整体思路流程如下：

后续代码实现和论文撰写都按照这个思路来。

3. 数据探索与分析

3.1数据读取和预处理

导入数据分析常用的包

#导入数据分析常用包
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号

读取数据

data=pd.read_excel('分子类型预测 for students.xlsx',sheet_name=0)
data2=pd.read_excel('分子类型预测 for students.xlsx',sheet_name=1)

查看数据前五行

data.head()

查看训练集和验证集数据基础信息

data=data.infer_objects()
data2=data2.infer_objects()
data.info() ,data2.info()

上述图左边是训练集信息，可以看到数据总共有17999条样本，变量一共20个，其中Type是响应变量，其余19个为特征变量。变量类型有整数型和浮点数，也有分类的文本型。由于模型不能直接计算文本数据，所有对于文本分类变量需要进一步处理。整体数据所有变量都没有缺失值，不用进行填充处理。

上述图右边是需要预测的验证集信息，可以看到数据总共有3735条样本，变量一共也是20个，其中Type是响应变量是全部空值，因为这是需要我们进行预测的。验证集的数据也没有缺失值，并且特征变量和训练集是一一对应的。

整体的所有变量信息总结如下表：

变量名称	含义	变量类型
formula	分子化学式	文本变量(唯一取值)
C	碳元素个数	数值变量
H	氢元素个数	数值变量
O：	氧元素个数	数值变量
N	氮元素个数	数值变量
S	硫元素个数	数值变量
Group	分子所在的组别	分类变量
AImod	修正后的芳香指数	数值变量
DBE	不饱和双键当量	数值变量
MZ	质荷比	数值变量
OC	氧碳比	数值变量
HC	氢碳比	数值变量
SC	硫碳比	数值变量
NC	氮碳比	数值变量
NOSC	氧化态指数	数值变量
DBEC	不饱和双键当量与碳的差值	数值变量
DBEO	不饱和双键当量与氧的差值	数值变量
Location	位置	分类变量
Sample	所样品名称	分类变量
Type	分子类型	分类变量

根据上面变量信息可以了解每个变量的特点。其中formula是分子表达式，对于预测没有帮助，要删除。验证集的formula要保留，用于提交。

变量group，location，sample是分类型变量，需要做独立热编码处理。其余变量是数值型变量，可以直接使用。

Type是响应变量，需要作为y单独取出。由于y是分类变量，所以这是一个分类问题。

#验证集ID留着后面提交
formula=data2['formula']
y=data['Type']
data.drop(['formula','Type'],axis=1,inplace=True)
data2.drop(['formula','Type'],axis=1,inplace=True)

分类变量进行独立热编码

#生成虚拟变量
data=pd.get_dummies(data)
data2=pd.get_dummies(data2)

将上述特征变量处理完后，下面分别对特征向量X和响应变量y进行数据的初步探索和可视化分析。

3.2数据探索和可视化

3.2.1特征变量的描述性统计

利用descirbe方法能很快的计算所有特征变量的基础统计量，均值，方差，最小值，分位数等。

round(data.describe().T,1)

我们可以从上图看出每个特征变量的取值范围，均值和方差的大小。其中观察分类变量，看到group独立热编码出来了4个哑变量，location和sample独热出来了2个哑变量。哑变量的取值只有0和1两个数值。验证集的描述性统计也和上图相似。

由于数据不是很直观，进一步对特征变量数据可视化，采用箱线图进行分析：

#查看特征变量的箱线图分布
columns = data.columns.tolist() # 列表头
dis_cols = 6                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows),dpi=256)
 
for i in range(len(columns)):
    plt.subplot(dis_rows,dis_cols,i+1)
    sns.boxplot(data=data[columns[i]], orient="v",width=0.5)
    plt.xlabel(columns[i],fontsize = 20)
plt.tight_layout()
#plt.savefig('特征变量箱线图.jpg',dpi=512)
plt.show()

从上图可以看到大多数变量分布都还是服从正态分布的，比如C,H,O,DBE,MZ这几个变量分布的箱线图没有异常值，箱体均值都在中央。少数变量如S，SC，NC，DBE.O具有较多的异常值，S和SC最为严重，箱体变成了一条线，说明少数分子里面的硫分子和硫碳比很高。分类变量里面group变量里面类型为CHONS和CHOS的分子较少，所以基本看不到箱体。

进一步，为了对比训练集和验证集的特征变量分布是否相同，我们画出两者的核密度图进行对比：

#画密度图，训练集和测试集对比
dis_cols = 6                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows),dpi=256)
 
for i in range(len(columns)):
    ax = plt.subplot(dis_rows, dis_cols, i+1)
    ax = sns.kdeplot(data[columns[i]], color="Red" ,shade=True)
    ax = sns.kdeplot(data2[columns[i]], color="Blue",warn_singular=False,shade=True)
    ax.set_xlabel(columns[i],fontsize = 20)
    ax.set_ylabel("Frequency",fontsize = 18)
    ax = ax.legend(["train", "test"])
plt.tight_layout()
#plt.savefig('训练测试特征变量核密度图.jpg',dpi=500)
plt.show()

可以看到训练集和验证集的数据的分布基本都是一致的，不需要进行处理。

其中C,H,O,DBE,MZ,OC,HC,NOSC,DBE.C这几个变量和前面的结论一致，从分布形状上来看服从正态分布。S，SC，NC，DBE.O是具有明显的右偏分布，说明数据存在较多的异常值。下面呈现两峰分布的变量都是分类的哑变量。

3.2.2响应变量的描述性统计

首先计算响应变量y的每个类别在训练集的占比数量：

y.value_counts(normalize=True)

类别	占比
resistant	0.456248
labile	0.312628
product	0.231124

画出其柱状图，饼图和核密度图：

# 查看y的分布
#分类问题
plt.figure(figsize=(8,3),dpi=128)
plt.subplot(1,3,1)
y.value_counts().plot.bar(title='响应变量柱状图图')
plt.subplot(1,3,2)
y.value_counts().plot.pie(title='响应变量饼图')
plt.subplot(1,3,3)
y.value_counts().plot.kde(title='响应变量核密度图')
#plt.savefig('响应变量.png')
plt.tight_layout()
plt.show()

可以看到在训练集17999条样本中，类别为resistant的分子占比最多，占比达到45%，总共有八千条左右，labile将近六千条，product最少将近四千条。类别比例较为平衡。

从上述分析中我们得知特征向量里面存在着异常值，训练数据中的异常值会影响模型的学习表示和泛化能力。所以下面我们对异常值要进行处理。

3.2.3相关性分析

画出所有特征变量的皮尔逊相关系数的热力图如上图所示，我们可以清楚的看到每个变量之间的相关性大小。C和H两个变量的性关系将近0.8，说明分子里面的碳氢构成的结构较多，MZ质荷比和C,H,O三种原子的相关性很高，说明分子里面的C,H,O分子较多，则质荷比也会很高。NC和N相关性高达0.95，SC和S的相关性也高达0.96。DBE.C和HC的相关性是负数，为-0.97，呈现严格的负相关关系。HC和AImod——修正后的芳香指数也是高度的负相关。其他存在-1相关系数的是一个分类变量的不同的哑变量。验证集的特征变量相关性和训练集也差不多，不展示了。

可以看到相关性高的还是C,H,O这些变量，数据的分布和相关性是一样的，模型能很好的具有泛化能力。

下面加入y来研究特征向量的区别，即在响应变量不同的时候的X分布的差异。我们对不同类别的分子画出他们的所有特征变量的小提琴图如下：

#查看特征变量的箱线图分布
columns = data.columns.tolist() # 列表头
dis_cols = 5                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows),dpi=256)
for i in range(len(columns)):
    plt.subplot(dis_rows,dis_cols,i+1)
    sns.violinplot(x='Y',y=columns[i],width=0.8,saturation=0.9,lw=0.8,palette="Set2",orient="v",inner="box",data=data.assign(Y=y))
    #plt.xlabel((y.unique().tolist()),fontsize=12)
    plt.ylabel(columns[i], fontsize=18)
plt.tight_layout()
plt.show()

绿色的小提琴图代表resistant类别的分子，红色的代表product类别分子， labile为蓝色的小提琴图。从上图可以看到，不同的分子的C,H,O,N,S的数量分布具有明显的不同。例如product类别分子的C含量明显要低于其他两中分子。resistant分子的S和N含量会较低，labile的Almod的分布较为分散，而product类别的分子的Almod的数值主要是0。labile的DBE明显高于其他两中分子，OC含量低于其他两种分子。并且labile的DBE.C和DBE.O两个特征比起其他两种分子都较为分散，而且均值数值要略微大一点。

综上所述，这些特征变量对于不同类别的分子还是具有一定的区分度的，模型一个能从不同的特征里面学到不同的分子的特点，从而进行较好的分类效果。

3.3异常值处理

X=data.copy()
X2=data2.copy()

由于数据的每一个特征变量单位不一样，为了方便对比，将所有的数据进行标准化，减去均值除以标准差，转化为标准正态分布，然后画图展示如下:

#X异常值处理，先标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_s = scaler.fit_transform(X)
X2_s = scaler.fit_transform(X2)

#然后画图查看
plt.figure(figsize=(20,8))
plt.boxplot(x=X_s,labels=data.columns)
plt.hlines([-6,6],0,len(columns))
plt.xticks(rotation=40)
#plt.savefig('特征变量标准化箱线图.png',dpi=256)
plt.show()

可以看到较多特征变量的离散值较多，需要对这些有异常值的样本进行筛选，最好进行删除。

本设计根据三西格玛原则，选择那些值在三倍标准差之外的样本进行删除处理。

#异常值多的列进行处理
def deal_outline(data,col,n):   #数据，要处理的列名，几倍的方差
    for c in col:
        mean=data[c].mean()
        std=data[c].std()
        data=data[(data[c]>mean-n*std)&(data[c]

 
  #超过3倍方差进行删除
X=deal_outline(X,X.columns,3)
y=y[X.index]
X.shape,y.shape 
    
  然后将筛选出来的样本的索引赋值给y，最终留下的样本量为17996条。 
  最后由于y是文本变量，模型不能直接进行运算，需要进行映射处理，我们将响应变量的三类['resistant', 'product', 'labile']对应因子化，映射为[0,1,2]。 
  #最后为了让模型进行运算，将y变为数值型的分类变量，进行映射
codes,uniques=pd.factorize(y)
print(uniques)
y=codes 
    
   到这里所有的数据预处理，特征工程都构建完毕，可以进行下面的建模实现过程。 
   
   
  4. 模型实现过程 
  4.1模型或方法介绍 
  4.1.1模型介绍 
  由于需要筛选出最优的机器学习模型，所以首先我们要初步探索不同模型在这个数据集上的表现能力。选择随机将训练数据化为训练集和测试集数据，训练集数据对模型进行训练，测试集数据来验证模型的准确率。 
  本设计共选择了10种机器学习常见的分类模型，如下表： 
   
    
     
      模型种类
  
     
     
      '逻辑回归'
  
      '线性判别'
  
      'K近邻'
  
      '决策树'
  
      '随机森林'
  
     
     
      '梯度提升'
  
      '极端梯度提升'
  
      '轻量梯度提升'
  
      '支持向量机'
  
      '神经网络'
  
     
    
   
  4.1.2评价指标介绍 
  本文是一个分类问题，采用四个分类问题常用而且可靠的评价指标，准确率、精确度、召回率和F1值对模型进行全面的评价。四个指标的计算公式如下： 
   
  其中：TP（True Positives)：真正例，预测为正例而且实际上也是正例；FP（False Positives)：假正例，预测为正例然而实际上却是负例；FN（false Negatives)：假负例，预测为负例然而实际上却是正例；TN（True Negatives)：真负例，预测为负例而且实际上也是负例。 
   
  4.2具体实现步骤 
  我们在80%数据上进行训练，在20%的数据上进行测试，并采用准确率、精确度、召回率和F1值四个分类问题常用而且可靠的评价指标对模型进行全方位的评价，然后在此基础上进行模型的选择。 
  选择模型后进一步对模型进行K折交叉验证，使用全部数据的信息，更加可靠的选择最终的预测模型。这一过程可以会有些费时。 
  最后使用随机搜索和网格化超参数搜索寻找最优模型的最优参数数，在所有数据上进行训练，对验证集进行预测。 
  #划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,stratify=y,test_size=0.2,random_state=0) 
  #数据标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train_s = scaler.transform(X_train)
X_test_s = scaler.transform(X_test)
X2_s=scaler.transform(data2)
print('训练数据形状：')
print(X_train_s.shape,y_train.shape)
print('测试和验证数据形状：')
print(X_test_s.shape,y_test.shape,X2_s.shape) 
  上述代码是先划分训练集和测试集，测试集的比例为20%，随机数种子为0。然后进行数据的标准化，打印查看训练集数据，测试集数据的形状。可以看到我们有14396条训练集，测试集3600条，特征变量有23个。需要预测的有3735条数据。 
  #采用十种模型，对比验证集精度
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier 
  #逻辑回归
model1 =  LogisticRegression(C=1e10,max_iter=10000)

#线性判别分析
model2 = LinearDiscriminantAnalysis()

#K近邻
model3 = KNeighborsClassifier(n_neighbors=10)

#决策树
model4 = DecisionTreeClassifier(random_state=77)

#随机森林
model5= RandomForestClassifier(n_estimators=1000,  max_features='sqrt',random_state=10)

#梯度提升
model6 = GradientBoostingClassifier(random_state=123)

#极端梯度提升
model7 =  XGBClassifier(use_label_encoder=False,eval_metric=['logloss','auc','error'],
                        objective='multi:softmax',random_state=0)
#轻量梯度提升
model8 = LGBMClassifier(objective='multiclass',num_class=3,random_state=1)

#支持向量机
model9 = SVC(kernel="rbf", random_state=77)

#神经网络
model10 = MLPClassifier(hidden_layer_sizes=(16,8), random_state=77, max_iter=10000)

model_list=[model1,model2,model3,model4,model5,model6,model7,model8,model9,model10]
model_name=['逻辑回归','线性判别','K近邻','决策树','随机森林','梯度提升','极端梯度提升','轻量梯度提升','支持向量机','神经网络'] 
  计算所有评价指标，定义评估函数 
  from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import cohen_kappa_score
from sklearn.model_selection import KFold 
  def evaluation(y_test, y_predict):
    accuracy=classification_report(y_test, y_predict,output_dict=True)['accuracy']
    s=classification_report(y_test, y_predict,output_dict=True)['weighted avg']
    precision=s['precision']
    recall=s['recall']
    f1_score=s['f1-score']
    #kappa=cohen_kappa_score(y_test, y_predict)
    return accuracy,precision,recall,f1_score #, kappa
def evaluation2(lis):
    array=np.array(lis)
    return array.mean() , array.std() 
  训练拟合模型，计算评价指标 
  df_eval=pd.DataFrame(columns=['Accuracy','Precision','Recall','F1_score'])
for i in range(10):
    model_C=model_list[i]
    name=model_name[i]
    model_C.fit(X_train_s, y_train)
    pred=model_C.predict(X_test_s)
    s=classification_report(y_test, pred)
    s=evaluation(y_test,pred)
    df_eval.loc[name,:]=list(s) 
  查看： 
  df_eval 
   
   进一步，对上面的数据可视化，画出柱状图分布对比： 
  bar_width = 0.4
colors=['c', 'b', 'g', 'tomato', 'm', 'y', 'lime', 'k','orange','pink','grey','tan']
fig, ax = plt.subplots(2,2,figsize=(10,8),dpi=128)
for i,col in enumerate(df_eval.columns):
    n=int(str('22')+str(i+1))
    plt.subplot(n)
    df_col=df_eval[col]
    m =np.arange(len(df_col))
    plt.bar(x=m,height=df_col.to_numpy(),width=bar_width,color=colors)
    
    #plt.xlabel('Methods',fontsize=12)
    names=df_col.index
    plt.xticks(range(len(df_col)),names,fontsize=10)
    plt.xticks(rotation=40)
    plt.ylabel(col,fontsize=14)
    
plt.tight_layout()
#plt.savefig('柱状图.jpg',dpi=512)
plt.show() 
   
  对于这种表格数据，一般经验来说，集成方法都最好。本设计的实验结果来看，在验证集上的表现最好的是随机森林，极端梯度提升，轻量梯度提升三个集成模型。其准确率、精确度、召回率和F1值综合来看最高。后面只选三个模型，随机森林，极端梯度提升，轻量梯度提升进行交叉验证，来进一步选择最优模型。 
  4.4.1 重复K折交叉验证 
  我们定义了一个重复K折交叉验证的函数，将三个模型分别都进行6次5折交叉验证，并且计算每一次的准确率、精确度、召回率和F1值，画出混淆矩阵和其评价指标。 
  def cross_val(model=None,X=None,Y=None,K=5,repeated=1,show_confusion_matrix=True):
    df_mean=pd.DataFrame(columns=['Accuracy','Precision','Recall','F1_score']) 
    df_std=pd.DataFrame(columns=['Accuracy','Precision','Recall','F1_score'])
    for n in range(repeated):
        print(f'正在进行第{n+1}次重复K折.....随机数种子为{n}\n')
        kf = KFold(n_splits=K, shuffle=True, random_state=n)
        Accuracy=[]
        Precision=[]
        Recall=[]
        F1_score=[]
        print(f"    开始本次在{K}折数据上的交叉验证.......\n")
        i=1
        for train_index, test_index in kf.split(X):
            print(f'        正在进行第{i}折的计算')
            X_train=X.to_numpy()[train_index]
            y_train=np.array(y)[train_index]
            X_test=X.to_numpy()[test_index]
            y_test=np.array(y)[test_index]
            model.fit(X_train,y_train)
            pred=model.predict(X_test)
            score=list(evaluation(y_test,pred))
            Accuracy.append(score[0])
            Precision.append(score[1])
            Recall.append(score[2])
            F1_score.append(score[3])
            
            if show_confusion_matrix:
                #数据透视表，混淆矩阵
                print("混淆矩阵：")
                table = pd.crosstab(y_test, pred, rownames=['Actual'], colnames=['Predicted'])
                #print(table)
                plt.figure(figsize=(4,3))
                sns.heatmap(table,cmap='Blues',fmt='.20g', annot=True)
                plt.tight_layout()
                plt.show()
                #计算混淆矩阵的各项指标
                print('混淆矩阵的各项指标为：')
                print(classification_report(y_test, pred))
                
            print(f'        第{i}折的准确率为：{round(score[0],4)}，Precision为{round(score[1],4)}，Recall为{round(score[2],4)}，F1_score为{round(score[3],4)}')
            i+=1
        print(f'    ———————————————完成本次的{K}折交叉验证———————————————————\n')
        Accuracy_mean,Accuracy_std=evaluation2(Accuracy)
        Precision_mean,Precision_std=evaluation2(Precision)
        Recall_mean,Recall_std=evaluation2(Recall)
        F1_score_mean,F1_score_std=evaluation2(F1_score)
        print(f'第{n+1}次重复K折，本次{K}折交叉验证的总体准确率均值为{Accuracy_mean}，方差为{Accuracy_std}')
        print(f'                               总体Precision均值为{Precision_mean}，方差为{Precision_std}')
        print(f'                               总体Recall均值为{Recall_mean}，方差为{Recall_std}')
        print(f'                               总体F1_score均值为{F1_score_mean}，方差为{F1_score_std}')
        print("\n====================================================================================================================\n")
        df1=pd.DataFrame(dict(zip(['Accuracy','Precision','Recall','F1_score'],[Accuracy_mean,Precision_mean,Recall_mean,F1_score_mean])),index=[n])
        df_mean=pd.concat([df_mean,df1])
        df2=pd.DataFrame(dict(zip(['Accuracy','Precision','Recall','F1_score'],[Accuracy_std,Precision_std,Recall_std,F1_score_std])),index=[n])
        df_std=pd.concat([df_std,df2])
    return df_mean,df_std 
  运行一次的截图如下： 
  model = LGBMClassifier(objective='multiclass',num_class=3,random_state=1)
lgb_crosseval,lgb_crosseval2=cross_val(model=model,X=X,Y=y,K=5,repeated=6) 
    
    上图只展示了一次重复K折交叉验证的过程，更多的混淆矩阵和评价指标的计算结果太长，受于篇幅就不展示，可以在代码文件里面查看。 
  查看每次K折交叉验证的评价指标的运行结果 
  lgb_crosseval 
    
  计算XGoost的K折交叉验证 
  model = XGBClassifier(use_label_encoder=False,eval_metric=['logloss','auc','error'],
                        objective='multi:softmax',random_state=0)
xgb_crosseval,xgb_crosseval2=cross_val(model=model,X=X,Y=y,K=5,repeated=6,show_confusion_matrix=False) 
  随机森林的K折交叉验证 
  model = RandomForestClassifier(n_estimators=500,  max_features='sqrt',random_state=0)
rf_crosseval,rf_crosseval2=cross_val(model=model,X=X,Y=y,K=5,repeated=6,show_confusion_matrix=False) 
  最后对三个模型的每一次K折交叉验证的四个指标计算其均值和方差，来全方面地对比他们的预测性能。  
  plt.subplots(1,4,figsize=(16,3),dpi=128)
for i,col in enumerate(lgb_crosseval.columns):
    n=int(str('14')+str(i+1))
    plt.subplot(n)
    plt.plot(lgb_crosseval[col], 'k', label='LGB')
    plt.plot(xgb_crosseval[col], 'b-.', label='XGB')
    plt.plot(rf_crosseval[col], 'r-^', label='RF')
    plt.title(f'不同模型的{col}对比')
    plt.xlabel('重复交叉验证次数')
    plt.ylabel(col,fontsize=16)
    plt.legend()
plt.tight_layout()
plt.show() 
   
   黑色的实线是LGBM模型，蓝色的虚线是XGB模型，红色的点线是RF模型。从上图可以看到从准确率、精确度、召回率和F1值四个指标上来看，LGBM在每一次的K折交叉验证中都全面比其他两个模型高。说明LGBM模型在这个数据集上的表现能力由于其他模型。 
  再来看他们的方差图对比： 
  plt.subplots(1,4,figsize=(16,3),dpi=128)
for i,col in enumerate(lgb_crosseval2.columns):
    n=int(str('14')+str(i+1))
    plt.subplot(n)
    plt.plot(lgb_crosseval2[col], 'k', label='LGB')
    plt.plot(xgb_crosseval2[col], 'b-.', label='XGB')
    plt.plot(rf_crosseval2[col], 'r-^', label='RF')
    plt.title(f'不同模型的{col}方差对比')
    plt.xlabel('重复交叉验证次数')
    plt.ylabel(col,fontsize=16)
    plt.legend()
plt.tight_layout()
plt.show() 
   
  方差代表稳定性，可以看到三个模型的方差大小都差不多，说明他们的稳定性差不多。 
  而且在实际运行过程中，LGBM运行时间最短，综合他们的表现效果、稳定性、运行时间来看——LGBM优于XGB优于RF。 下面对LGBM进行超参数搜索。 
   
  4.4.2 超参数搜索 
  LGBM也属于决策树的基础算法，所以超参数搜索思路是先对决策树的超参数进行搜索，先对下面四个超参数进行随机搜索。Subsample，num_leaves，max_depth，colsample_bytree。 
  #利用K折交叉验证搜索最优超参数
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.model_selection import GridSearchCV,RandomizedSearchCV 
  # Choose best hyperparameters by RandomizedSearchCV
#随机搜索决策树的参数
param_distributions = {'max_depth': range(3, 10), 'subsample':np.linspace(0.5,1,5 ),'num_leaves': [15, 31, 63, 127],
                       'colsample_bytree': [0.6, 0.7, 0.8, 0.9,1.0]}
                        # 'min_child_weight':np.linspace(0,0.1,2 ),
kfold = KFold(n_splits=3, shuffle=True, random_state=1)
model =RandomizedSearchCV(estimator= LGBMClassifier(objective='multiclass',num_class=3,random_state=1),
                          param_distributions=param_distributions, n_iter=200)
model.fit(X_train_s, y_train) 
  搜索200次得到 
   
  最优参数  
  model.best_params_ 
   
  测试集上评估 
  model = model.best_estimator_
pred=model.predict(X_test_s)
evaluation(y_test,pred) 
    
   准确率为85.86%。得到的最优参数为'subsample': 0.875, 'num_leaves': 63, 'max_depth': 9, 'colsample_bytree': 0.6。下面再对学习率和基础学习器的的个数进行网格化搜索。 
  param_grid={'learning_rate': np.linspace(0.05,0.3,6 ), 'n_estimators':[100,200,300,500,1000]}
model =GridSearchCV(estimator= LGBMClassifier(objective='multiclass',num_class=3,random_state=1), param_grid=param_grid, cv=3)
model.fit(X_train_s, y_train) 
  model.best_params_ 
    
   得到的最优参数为learning_rate': 0.1, 'n_estimators': 100。 
  然后将寻找到的最优参数传入模型，再次进行拟合评价，轻微修改调试。 
  #利用找出来的最优超参数在所有的训练集上训练，然后预测
model=LGBMClassifier(objective='multiclass',num_class=3,subsample=0.875,learning_rate= 0.1,n_estimators= 190,
                     num_leaves= 63,max_depth= 9,colsample_bytree=0.6,random_state=0)
model.fit(X_train_s, y_train)
pred=model.predict(X_test_s)
evaluation(y_test,pred) 
   
   可以看到测试集的拟合优度上升了一点。 
  上面的模型参数确定为最优的模型参数，使用该模型在全部数据上进行训练，然后对验证集预测，结果保存。 
  model=LGBMClassifier(objective='multiclass',num_class=3,subsample=0.875,learning_rate= 0.1,n_estimators= 190,
                     num_leaves= 63,max_depth= 9,colsample_bytree=0.6,random_state=0)
model.fit(np.r_[X_train_s,X_test_s],np.r_[y_train,y_test])  #使用所有数据训练
pred=model.predict(np.r_[X_train_s,X_test_s])
evaluation(np.r_[y_train,y_test],pred) 
    
  将y的预测出来的0,1,2映射回分子类别的文本形式。  
  y_dict={}
for i,v in enumerate(uniques):
    y_dict[i]=v
y_dict 
   预测储存 
  pred = model.predict(X2_s)
df=pd.DataFrame(formula)
df['predicted type']=pred
df['predicted type']=df['predicted type'].map(y_dict)
df.to_csv('全部数据预测结果.csv',index=False) 
   这样就预测完成了，储存完毕： 
   
   查看预测出来的三种分子类别的数量柱状图： 
  df['predicted type'].value_counts().plot.bar() 
   
   和训练集的y差不多，比较合理。 
   
  4.5变量重要性 
  基础模型还可以根据不同特征变量分裂让损失函数下降的程度来对特征变量的重要性进行排序，利用上述最优模型在全部数据上训练后，得到的变量重要性排序如下： 
  model=LGBMClassifier(objective='multiclass',num_class=3,subsample=0.875,learning_rate= 0.1,n_estimators= 190,
                     num_leaves= 63,max_depth= 9,colsample_bytree=0.6,random_state=0)
model.fit(np.r_[X_train_s,X_test_s],np.r_[y_train,y_test])  #使用所有数据训练
pred=model.predict(np.r_[X_train_s,X_test_s])
evaluation(np.r_[y_train,y_test],pred) 
  sorted_index = model.feature_importances_.argsort()[::-1]
mfs=model.feature_importances_[sorted_index]
plt.figure(figsize=(4,4),dpi=128)
sns.barplot(y=np.array(range(len(mfs))),x=mfs,orient='h')
plt.yticks(np.arange(X.shape[1]), X.columns[sorted_index])
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.title('LGBM')
plt.show() 
    
   可以看到对分子种类影响最大的是MZ,NOSC,OC,DBE.O,Almod等变量。 
   
   
  总结与反思 
  整体实验得到结论如下： 
   
   在分子中C,H,O这些变量相关性很高，说明他们总是一起构成化学键出现的。 
   不同分子中的N和S的含量差异较大，有一些分子的N和S含量高会和别的分子具有不同差异。 
   在这个分子数据上表现最好的模型是轻量梯度提升集成模型——LGBM，我们最终选择它作为预测模型。 
   LGBM超参数搜索得到最优的超参数为：'subsample': 0.875, 'num_leaves': 63, 'max_depth': 9, 'colsample_bytree': 0.6 ,’learning_rate': 0.1, 'n_estimators': 190。这些参数用于最后的预测模型。 
   从LGBM模型来看，对于分子类别影响最大的变量是MZ,NOSC,OC等变量。 
   
  本设计研究目的是从分子的特征信息中挖掘出对分子类别预测的影响。17999条样本数据。从数据的读取，预处理，再到数据的探索，可视化描述性统计，相关性分析，异常值处理模型的选择，评价指标的计算，交叉验证，超参数搜索到最终的预测构建，完整的完成了一个机器学习模型构建的项目。并对验证集的3735条数据进行了预测。 
  实验过程中，我们发现集成模型对于这种表格数据的分类效果最好，并且轻量梯度提升模型运算时间短，这对于做K折交叉验证和超参数搜索是一个不错的优点。虽然最在测试集上的数据精度可能只能维持到86%左右，但是这应该是这个数据特征变量所能发挥的全部性能，模型应该是充分的挖掘了特征变量中的隐藏信息。如果还需要再进一步提高准确率，可能需要从数据本身入手，可以尝试构建更多的特征变量和做更优的特征工程。

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

模型种类
'逻辑回归'	'线性判别'	'K近邻'	'决策树'	'随机森林'
'梯度提升'	'极端梯度提升'	'轻量梯度提升'	'支持向量机'	'神经网络'

Python数据分析案例18——化学分子数据模型(机器学习分类问题全流程)

1. 引言

1.1设计背景

1.2设计目的和意义

2. 设计思路与流程

3. 数据探索与分析

3.1数据读取和预处理

3.2数据探索和可视化

3.2.1特征变量的描述性统计

3.2.2响应变量的描述性统计

3.2.3相关性分析

3.3异常值处理

4. 模型实现过程

4.1模型或方法介绍

4.1.1模型介绍

4.1.2评价指标介绍

4.2具体实现步骤

4.4.1 重复K折交叉验证

4.4.2 超参数搜索

4.5变量重要性

总结与反思

你可能感兴趣的:(Python数据分析案例,python,数据分析,pandas,分类)