ArriettyYun

（十五）集成学习（下）——蒸汽量预测

参考：DataWhale教程链接

集成学习（上）所有Task：

（一）集成学习上——机器学习三大任务

（二）集成学习上——回归模型

（三）集成学习上——偏差与方差

（四）集成学习上——回归模型评估与超参数调优

（五）集成学习上——分类模型

（六）集成学习上——分类模型评估与超参数调优

（七）集成学习中——投票法

（八）集成学习中——bagging

（九）集成学习中——Boosting简介&AdaBoost

（十）集成学习中——GBDT

（十一）集成学习中——XgBoost、LightGBM

（十二）集成学习（下）——Blending

（十三）集成学习（下）——Stacking

（十四）集成学习（下）——幸福感预测

（十五）集成学习（下）——蒸汽量预测

集成学习案例二（蒸汽量预测）

背景介绍

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份力量呢？

所以，该案例是使用以上工业指标的特征，进行蒸汽量的预测问题。由于信息安全等原因，我们使用的是经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别）。

数据信息

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。我们需要利用训练数据训练出模型，预测测试数据的目标变量。

步骤

加载数据
数据处理

2.1 探索数据分布

画出各个特征在训练集和测试集中的分布差异，对训练集数据分布和测试集数据分布不均的特征进行删除

2.2 查看特征之间的相关性

进行降维操作，将相关性的绝对值小于阈值的特征进行删除。Q:不应该是剔除相关性高的特征之一吗？

2.3 特征归一化
特征工程

3.1 Box-Cox变换
模型构建

4.1 构造训练集和测试集

删除离群点

4.2 模型训练

尝试各种模型及集成学习方法

交叉验证、网格搜索

4.3 模型评估

最终的评价指标为均方误差MSE，即： $\frac{1}{n} \sum_1 ^n (y_i - y ^*)^2$

导入package

import warnings
warnings.filterwarnings("ignore")
import matplotlib.pyplot as plt
import seaborn as sns

# 模型
import pandas as pd
import numpy as np
from scipy import stats
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV, RepeatedKFold, cross_val_score,cross_val_predict,KFold
from sklearn.metrics import make_scorer,mean_squared_error
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.svm import LinearSVR, SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor,AdaBoostRegressor
from xgboost import XGBRegressor
from sklearn.preprocessing import PolynomialFeatures,MinMaxScaler,StandardScaler

加载数据

data_train = pd.read_csv('train.txt',sep = '\t')
data_test = pd.read_csv('test.txt',sep = '\t')

#合并训练数据和测试数据
data_train["oringin"]="train"
data_test["oringin"]="test"
data_all=pd.concat([data_train,data_test],axis=0,ignore_index=True)
#显示前5条数据
data_all.head()
data_all[data_all['oringin']=="test"].head()

	V0	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V30	V31	V32	V33	V34	V35	V36	V37	target	oringin
2888	0.368	0.380	-0.225	-0.049	0.379	0.092	0.550	0.551	0.244	0.904	...	0.057	-0.042	0.847	0.534	-0.009	-0.190	-0.567	0.388	NaN	test
2889	0.148	0.489	-0.247	-0.049	0.122	-0.201	0.487	0.493	-0.127	0.904	...	0.560	0.176	0.551	0.046	-0.220	0.008	-0.294	0.104	NaN	test
2890	-0.166	-0.062	-0.311	0.046	-0.055	0.063	0.485	0.493	-0.227	0.904	...	0.101	0.199	0.634	0.017	-0.234	0.008	0.373	0.569	NaN	test
2891	0.102	0.294	-0.259	0.051	-0.183	0.148	0.474	0.504	0.010	0.904	...	1.007	0.137	1.042	-0.040	-0.290	0.008	-0.666	0.391	NaN	test
2892	0.300	0.428	0.208	0.051	-0.033	0.116	0.408	0.497	0.155	0.904	...	0.291	0.370	0.181	-0.040	-0.290	0.008	-0.140	-0.497	NaN	test

5 rows × 40 columns

探索数据分布

这里因为是传感器的数据，即连续变量，所以使用 kdeplot(核密度估计图) 进行数据的初步分析，即EDA。

data_all["V1"][(data_all["oringin"] == "train")].head()

0    0.016
1    0.437
2    0.568
3    0.368
4    0.638
Name: V1, dtype: float64

 for column in data_all.columns[0:-2]:
     #核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。
     g = sns.kdeplot(data_all[column][(data_all["oringin"] == "train")], color="Red", shade = True)
     g = sns.kdeplot(data_all[column][(data_all["oringin"] == "test")], ax =g, color="Blue", shade= True)
     g.set_xlabel(column)
     g.set_ylabel("Frequency")
     g = g.legend(["train","test"])
     plt.show()

由上可见，特征"V5",“V9”,“V11”,“V17”,“V22”,"V28"中训练集数据分布和测试集数据分布不均，所以我们删除这些特征数据

data_all.drop(["V5","V9","V11","V17","V22","V28"],axis=1,inplace=True)
data_all.head()

	V0	V1	V2	V3	V4	V6	V7	V8	V10	V12	...	V30	V31	V32	V33	V34	V35	V36	V37	target	oringin
0	0.566	0.016	-0.143	0.407	0.452	-1.812	-2.360	-0.436	-0.940	-0.073	...	0.109	-0.615	0.327	-4.627	-4.789	-5.101	-2.608	-3.508	0.175	train
1	0.968	0.437	0.066	0.566	0.194	-1.566	-2.360	0.332	0.188	-0.134	...	0.124	0.032	0.600	-0.843	0.160	0.364	-0.335	-0.730	0.676	train
2	1.013	0.568	0.235	0.370	0.112	-1.367	-2.360	0.396	0.874	-0.072	...	0.361	0.277	-0.116	-0.843	0.160	0.364	0.765	-0.589	0.633	train
3	0.733	0.368	0.283	0.165	0.599	-1.200	-2.086	0.403	0.011	-0.014	...	0.417	0.279	0.603	-0.843	-0.065	0.364	0.333	-0.112	0.206	train
4	0.684	0.638	0.260	0.209	0.337	-1.073	-2.086	0.314	-0.251	0.199	...	1.078	0.328	0.418	-0.843	-0.215	0.364	-0.280	-0.028	0.384	train

5 rows × 34 columns

查看特征之间的相关性（相关程度）

data_train1=data_all[data_all["oringin"]=="train"].drop("oringin",axis=1)
plt.figure(figsize=(20, 16))  # 指定绘图对象宽度和高度
colnm = data_train1.columns.tolist()  # 列表头
mcorr = data_train1[colnm].corr(method="spearman")  # 相关系数矩阵，即给出了任意两个变量之间的相关系数
mask = np.zeros_like(mcorr, dtype=np.bool)  # 构造与mcorr同维数矩阵 为bool型
mask[np.triu_indices_from(mask)] = True  # 角分线右侧为True
cmap = sns.diverging_palette(220, 10, as_cmap=True)  # 返回matplotlib colormap对象，调色板
g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')  # 热力图（看两两相似度）
plt.show()

进行降维操作，即将相关性的绝对值小于阈值的特征进行删除.不应该是剔除相关性高的特征之一吗？

threshold = 0.1
corr_matrix = data_train1.corr().abs()
drop_col=corr_matrix[corr_matrix["target"]<threshold].index
data_all.drop(drop_col,axis=1,inplace=True)
data_all.head()

	V0	V1	V2	V3	V4	V6	V7	V8	V10	V12	...	V24	V27	V29	V30	V31	V35	V36	V37	target	oringin
0	0.566	0.016	-0.143	0.407	0.452	-1.812	-2.360	-0.436	-0.940	-0.073	...	0.800	0.168	0.136	0.109	-0.615	-5.101	-2.608	-3.508	0.175	train
1	0.968	0.437	0.066	0.566	0.194	-1.566	-2.360	0.332	0.188	-0.134	...	0.801	0.338	-0.128	0.124	0.032	0.364	-0.335	-0.730	0.676	train
2	1.013	0.568	0.235	0.370	0.112	-1.367	-2.360	0.396	0.874	-0.072	...	0.961	0.326	-0.009	0.361	0.277	0.364	0.765	-0.589	0.633	train
3	0.733	0.368	0.283	0.165	0.599	-1.200	-2.086	0.403	0.011	-0.014	...	1.435	0.277	0.015	0.417	0.279	0.364	0.333	-0.112	0.206	train
4	0.684	0.638	0.260	0.209	0.337	-1.073	-2.086	0.314	-0.251	0.199	...	0.881	0.332	0.183	1.078	0.328	0.364	-0.280	-0.028	0.384	train

5 rows × 27 columns

进行归一化操作

cols_numeric=list(data_all.columns)
cols_numeric.remove("oringin")
def scale_minmax(col):
    return (col-col.min())/(col.max()-col.min())
scale_cols = [col for col in cols_numeric if col!='target']
data_all[scale_cols] = data_all[scale_cols].apply(scale_minmax,axis=0)
data_all[scale_cols].describe()

	V0	V1	V2	V3	V4	V6	V7	V8	V10	V12	...	V20	V23	V24	V27	V29	V30	V31	V35	V36	V37
count	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	...	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000	4813.000000
mean	0.694172	0.721357	0.602300	0.603139	0.523743	0.748823	0.745740	0.715607	0.348518	0.578507	...	0.456147	0.744438	0.356712	0.881401	0.388683	0.589459	0.792709	0.762873	0.332385	0.545795
std	0.144198	0.131443	0.140628	0.152462	0.106430	0.132560	0.132577	0.118105	0.134882	0.105088	...	0.134083	0.134085	0.265512	0.128221	0.133475	0.130786	0.102976	0.102037	0.127456	0.150356
min	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	...	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000
25%	0.626676	0.679416	0.514414	0.503888	0.478182	0.683324	0.696938	0.664934	0.284327	0.532892	...	0.370475	0.719362	0.040616	0.888575	0.292445	0.550092	0.761816	0.727273	0.270584	0.445647
50%	0.729488	0.752497	0.617072	0.614270	0.535866	0.774125	0.771974	0.742884	0.366469	0.591635	...	0.447305	0.788817	0.381736	0.916015	0.375734	0.594428	0.815055	0.800020	0.347056	0.539317
75%	0.790195	0.799553	0.700464	0.710474	0.585036	0.842259	0.836405	0.790835	0.432965	0.641971	...	0.522660	0.792706	0.574728	0.932555	0.471837	0.650798	0.852229	0.800020	0.414861	0.643061
max	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	...	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000	1.000000

8 rows × 25 columns

特征工程

绘图显示Box-Cox变换对数据分布影响，Box-Cox用于连续的响应变量不满足正态分布的情况。在进行Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。

对于quantitle-quantile(q-q)图，可参考： https://blog.csdn.net/u012193416/article/details/83210790

fcols = 6
frows = len(cols_numeric)-1
plt.figure(figsize=(4*fcols,4*frows))
i=0

for var in cols_numeric:
    if var!='target':
        dat = data_all[[var, 'target']].dropna()
        
        i+=1
        plt.subplot(frows,fcols,i)
        sns.distplot(dat[var] , fit=stats.norm);
        plt.title(var+' Original')
        plt.xlabel('')
        
        i+=1
        plt.subplot(frows,fcols,i)
        _=stats.probplot(dat[var], plot=plt)
        plt.title('skew='+'{:.4f}'.format(stats.skew(dat[var])))
        plt.xlabel('')
        plt.ylabel('')
        
        i+=1
        plt.subplot(frows,fcols,i)
        plt.plot(dat[var], dat['target'],'.',alpha=0.5)
        plt.title('corr='+'{:.2f}'.format(np.corrcoef(dat[var], dat['target'])[0][1]))
 
        i+=1
        plt.subplot(frows,fcols,i)
        trans_var, lambda_var = stats.boxcox(dat[var].dropna()+1)
        trans_var = scale_minmax(trans_var)      
        sns.distplot(trans_var , fit=stats.norm);
        plt.title(var+' Tramsformed')
        plt.xlabel('')
        
        i+=1
        plt.subplot(frows,fcols,i)
        _=stats.probplot(trans_var, plot=plt)
        plt.title('skew='+'{:.4f}'.format(stats.skew(trans_var)))
        plt.xlabel('')
        plt.ylabel('')
        
        i+=1
        plt.subplot(frows,fcols,i)
        plt.plot(trans_var, dat['target'],'.',alpha=0.5)
        plt.title('corr='+'{:.2f}'.format(np.corrcoef(trans_var,dat['target'])[0][1]))

# 进行Box-Cox变换
cols_transform=data_all.columns[0:-2]
for col in cols_transform:   
    # transform column
    data_all.loc[:,col], _ = stats.boxcox(data_all.loc[:,col]+1)
print(data_all.target.describe())
plt.figure(figsize=(12,4))
plt.subplot(1,2,1)
sns.distplot(data_all.target.dropna() , fit=stats.norm);
plt.subplot(1,2,2)
_=stats.probplot(data_all.target.dropna(), plot=plt)

count    2888.000000
mean        0.126353
std         0.983966
min        -3.044000
25%        -0.350250
50%         0.313000
75%         0.793250
max         2.538000
Name: target, dtype: float64

使用对数变换target目标值提升特征数据的正态性
可参考：https://www.zhihu.com/question/22012482

sp = data_train.target
data_train.target1 =np.power(1.5,sp)
print(data_train.target1.describe())

plt.figure(figsize=(12,4))
plt.subplot(1,2,1)
sns.distplot(data_train.target1.dropna(),fit=stats.norm);
plt.subplot(1,2,2)
_=stats.probplot(data_train.target1.dropna(), plot=plt)

count    2888.000000
mean        1.129957
std         0.394110
min         0.291057
25%         0.867609
50%         1.135315
75%         1.379382
max         2.798463
Name: target, dtype: float64

模型构建以及集成学习

构建训练集和测试集

# function to get training samples
def get_training_data():
    # extract training samples
    from sklearn.model_selection import train_test_split
    df_train = data_all[data_all["oringin"]=="train"]
    df_train["label"]=data_train.target1
    # split SalePrice and features
    y = df_train.target
    X = df_train.drop(["oringin","target","label"],axis=1)
    X_train,X_valid,y_train,y_valid=train_test_split(X,y,test_size=0.3,random_state=100)
    return X_train,X_valid,y_train,y_valid

# extract test data (without SalePrice)
def get_test_data():
    df_test = data_all[data_all["oringin"]=="test"].reset_index(drop=True)
    return df_test.drop(["oringin","target"],axis=1)

rmse、mse的评价函数

from sklearn.metrics import make_scorer
# metric for evaluation
def rmse(y_true, y_pred):
    diff = y_pred - y_true
    sum_sq = sum(diff**2)    
    n = len(y_pred)   
    return np.sqrt(sum_sq/n)

def mse(y_ture,y_pred):
    return mean_squared_error(y_ture,y_pred)

# scorer to be used in sklearn model fitting
rmse_scorer = make_scorer(rmse, greater_is_better=False) 

#输入的score_func为记分函数时，该值为True（默认值）；输入函数为损失函数时，该值为False
mse_scorer = make_scorer(mse, greater_is_better=False)

寻找离群值，并删除

# function to detect outliers based on the predictions of a model
def find_outliers(model, X, y, sigma=3):

    # predict y values using model
    model.fit(X,y)
    y_pred = pd.Series(model.predict(X), index=y.index)
        
    # calculate residuals between the model prediction and true y values
    resid = y - y_pred
    mean_resid = resid.mean()
    std_resid = resid.std()

    # calculate z statistic, define outliers to be where |z|>sigma
    z = (resid - mean_resid)/std_resid    
    outliers = z[abs(z)>sigma].index
    
    # print and plot the results
    print('R2=',model.score(X,y))
    print('rmse=',rmse(y, y_pred))
    print("mse=",mean_squared_error(y,y_pred))
    print('---------------------------------------')

    print('mean of residuals:',mean_resid)
    print('std of residuals:',std_resid)
    print('---------------------------------------')

    print(len(outliers),'outliers:')
    print(outliers.tolist())

    plt.figure(figsize=(15,5))
    ax_131 = plt.subplot(1,3,1)
    plt.plot(y,y_pred,'.')
    plt.plot(y.loc[outliers],y_pred.loc[outliers],'ro')
    plt.legend(['Accepted','Outlier'])
    plt.xlabel('y')
    plt.ylabel('y_pred');

    ax_132=plt.subplot(1,3,2)
    plt.plot(y,y-y_pred,'.')
    plt.plot(y.loc[outliers],y.loc[outliers]-y_pred.loc[outliers],'ro')
    plt.legend(['Accepted','Outlier'])
    plt.xlabel('y')
    plt.ylabel('y - y_pred');

    ax_133=plt.subplot(1,3,3)
    z.plot.hist(bins=50,ax=ax_133)
    z.loc[outliers].plot.hist(color='r',bins=50,ax=ax_133)
    plt.legend(['Accepted','Outlier'])
    plt.xlabel('z')
    
    return outliers

# get training data
X_train, X_valid,y_train,y_valid = get_training_data()
test=get_test_data()

# find and remove outliers using a Ridge model
outliers = find_outliers(Ridge(), X_train, y_train)
X_outliers=X_train.loc[outliers]
y_outliers=y_train.loc[outliers]
X_t=X_train.drop(outliers)
y_t=y_train.drop(outliers)

R2= 0.8766692300804431
rmse= 0.3490086770250736
mse= 0.12180705663879209
---------------------------------------
mean of residuals: -7.62159042238962e-16
std of residuals: 0.3490950546224921
---------------------------------------
22 outliers:
[2655, 2159, 1164, 2863, 1145, 2697, 2528, 2645, 691, 1085, 1874, 2647, 884, 2696, 2668, 1310, 1901, 1458, 2769, 2002, 2669, 1972]

进行模型的训练

def get_trainning_data_omitoutliers():
    #获取训练数据省略异常值
    y=y_t.copy()
    X=X_t.copy()
    return X,y

def train_model(model, param_grid=[], X=[], y=[], 
                splits=5, repeats=5):

    # 获取数据
    if len(y)==0:
        X,y = get_trainning_data_omitoutliers()
        
    # 交叉验证
    rkfold = RepeatedKFold(n_splits=splits, n_repeats=repeats)
    
    # 网格搜索最佳参数
    if len(param_grid)>0:
        gsearch = GridSearchCV(model, param_grid, cv=rkfold,
                               scoring="neg_mean_squared_error",
                               verbose=1, return_train_score=True)

        # 训练
        gsearch.fit(X,y)

        # 最好的模型
        model = gsearch.best_estimator_        
        best_idx = gsearch.best_index_

        # 获取交叉验证评价指标
        grid_results = pd.DataFrame(gsearch.cv_results_)
        cv_mean = abs(grid_results.loc[best_idx,'mean_test_score'])
        cv_std = grid_results.loc[best_idx,'std_test_score']

    # 没有网格搜索  
    else:
        grid_results = []
        cv_results = cross_val_score(model, X, y, scoring="neg_mean_squared_error", cv=rkfold)
        cv_mean = abs(np.mean(cv_results))
        cv_std = np.std(cv_results)
    
    # 合并数据
    cv_score = pd.Series({
     'mean':cv_mean,'std':cv_std})

    # 预测
    y_pred = model.predict(X)
    
    # 模型性能的统计数据        
    print('----------------------')
    print(model)
    print('----------------------')
    print('score=',model.score(X,y))
    print('rmse=',rmse(y, y_pred))
    print('mse=',mse(y, y_pred))
    print('cross_val: mean=',cv_mean,', std=',cv_std)
    
    # 残差分析与可视化
    y_pred = pd.Series(y_pred,index=y.index)
    resid = y - y_pred
    mean_resid = resid.mean()
    std_resid = resid.std()
    z = (resid - mean_resid)/std_resid    
    n_outliers = sum(abs(z)>3)
    outliers = z[abs(z)>3].index
    
    return model, cv_score, grid_results

# 定义训练变量存储数据
opt_models = dict()
score_models = pd.DataFrame(columns=['mean','std'])
splits=5
repeats=5

model = 'Ridge'  #可替换，见案例分析一的各种模型
opt_models[model] = Ridge() #可替换，见案例分析一的各种模型
alph_range = np.arange(0.25,6,0.25)
param_grid = {
     'alpha': alph_range}

opt_models[model],cv_score,grid_results = train_model(opt_models[model], param_grid=param_grid, 
                                              splits=splits, repeats=repeats)

cv_score.name = model
score_models = score_models.append(cv_score)

plt.figure()
plt.errorbar(alph_range, abs(grid_results['mean_test_score']),
             abs(grid_results['std_test_score'])/np.sqrt(splits*repeats))
plt.xlabel('alpha')
plt.ylabel('score')

Fitting 25 folds for each of 23 candidates, totalling 575 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


----------------------
Ridge(alpha=0.25)
----------------------
score= 0.8926884448685161
rmse= 0.3246640780822851
mse= 0.10540676359702023
cross_val: mean= 0.10920043268990581 , std= 0.010370910914759765
[Parallel(n_jobs=1)]: Done 575 out of 575 | elapsed:    1.9s finished
Text(0, 0.5, 'score')

# 预测函数
def model_predict(test_data,test_y=[]):
    i=0
    y_predict_total=np.zeros((test_data.shape[0],))
    for model in opt_models.keys():
        if model!="LinearSVR" and model!="KNeighbors":
            y_predict=opt_models[model].predict(test_data)
            y_predict_total+=y_predict
            i+=1
        if len(test_y)>0:
            print("{}_mse:".format(model),mean_squared_error(y_predict,test_y))
    y_predict_mean=np.round(y_predict_total/i,6)
    if len(test_y)>0:
        print("mean_mse:",mean_squared_error(y_predict_mean,test_y))
    else:
        y_predict_mean=pd.Series(y_predict_mean)
        return y_predict_mean

进行模型的预测以及结果的保存

y_ = model_predict(test)
y_.to_csv('predict.txt',header = None,index = False)

集成学习（Ensemble Learning）基础知识1 代码骑士 #机器学习集成学习机器学习人工智能
文章目录一、集成学习1、基本概念2、回顾:误差的偏差-方差分解3、为什么集成学习有效？4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？二、自助法（Bagging）1、Bagging2、BootstrapBootstrap采样的数学性质3、Bagging:集成学习的两个基本问题（1）如何训练
kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记 supernova121 学习笔记
问题描述：通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述：图像+临床文本信息评价指标：pAUC，用于保证敏感性高于指定阈值下的AUC主流方法分析（文本）基于CatBoost、LGBM和XGBoost三者的组合，为每个算法创建了XX个变体，总共XX个模型，进行集成学习。CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类
基于异构特征融合与轻量级集成学习的软件漏洞挖掘方案设计与Python实现 rockmelodies 信息安全网络安全机器学习集成学习 python 机器学习人工智能
标题：基于异构特征融合与轻量级集成学习的软件漏洞挖掘方案设计与Python实现一、方案设计原理异构特征工程静态特征：基于AST的代码属性图（CPG）解析（使用Joern+NetworkX）动态特征：内存访问模式分析（通过QEMU模拟执行）上下文特征：CWE漏洞模式匹配（集成Semgrep规则引擎）轻量级模型架构
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
【人工智能】随机森林的智慧：集成学习的理论与实践蒙娜丽宁人工智能人工智能随机森林集成学习
随机森林（RandomForest）是一种强大的集成学习算法，通过构建多棵决策树并结合投票或平均预测提升模型性能。本文深入探讨了随机森林的理论基础，包括决策树的构建、Bagging方法和特征随机选择机制，并通过LaTeX公式推导其偏差-方差分解和误差分析。接着，我们详细描述了随机森林的算法流程，分析其在分类和回归任务中的适用性。文章还通过实验对比随机森林与单一决策树及其他算法（如SVM）的性能，探
AdaBoost算法 Mr终游机器学习算法决策树
目录一、核心原理：二、算法步骤三、关键优势：四.局限与解决五、代码示例（鸢尾花数据集）AdaBoost（AdaptiveBoosting）是一种经典的集成学习算法，通过组合多个弱分类器（如决策树）来构建强分类器。其核心思想是通过迭代优化残差（错误）和动态调整样本权重，逐步提升模型性能。以下是对AdaBoost的简明总结和关键要点：一、核心原理：提升法：通过顺序训练多个弱分类器，每轮专注修正前一个模
深入浅出地理解-随机森林与XGBoost模型 HP-Succinum 机器学习随机森林集成学习机器学习
目录一、决策树的不足与集成学习的优势1.1决策树的缺点1.2集成学习：通过集成多个模型提升稳定性二、随机森林：通过多棵决策树减少方差2.1随机森林的基本原理2.2随机森林的优势2.3随机森林的参数调整三、XGBoost：高效且强大的Boosting方法3.1Boosting的基本原理3.2XGBoost的优化3.3XGBoost的优点四、随机森林与XGBoost的对比五、总结在机器学习的实战中，决
【大模型学习】第八章深入理解机器学习技术细节好多渔鱼好多 AI大模型机器学习 AI 大模型人工智能
目录引言一、监督学习（SupervisedLearning）1.定义与工作原理2.常见任务3.应用场景示例：房价预测二、无监督学习（UnsupervisedLearning）1.定义与工作原理2.常见任务3.应用场景示例：客户细分三、强化学习（ReinforcementLearning）1.定义与工作原理2.常见应用场景3.应用场景示例：游戏AI四、集成学习（EnsembleLearning）1.
机器学习之学习笔记孤城laugh 机器学习学习笔记人工智能 python
机器学习-学习笔记1.简介2.算法3.特征工程3.1数据集3.2特征提取3.3特征预处理3.4特征降维4.分类算法4.1`sklearn`转换器和估计器4.2K-近邻算法（KNN）4.3模型选择与调优4.4朴素贝叶斯算法4.5决策树4.6集成学习方法之随机森林5.回归算法5.1线性回归5.2过拟合与欠拟合5.3岭回归5.4逻辑回归（实际上是分类算法，用于解决二分类问题）6.聚类算法1.无监督学习2
机器学习_Scikit-Learn随机森林回归(RandomForestRegressor)实例 Mostcow Python 数据分析机器学习 scikit-learn 随机森林回归算法
机器学习_Scikit-Learn随机森林回归(RandomForestRegressor)实例随机森林回归(RandomForestRegression):随机森林是一种集成学习方法,它通过构建多个决策树来进行预测。它对于处理大量特征、非线性关系和避免过拟合都有一定的优势。在Python中,你可以使用Scikit-learn库中的RandomForestRegressor来实现。随机森林回归作为
GrandientBoostingClassifier函数介绍浊酒南街 #机器学习算法 GBDT
目录前言用法示例前言GradientBoostingClassifier是Scikit-learn库中的一个分类器，用于实现梯度提升决策树（GradientBoostingDecisionTrees，GBDT）算法。GBDT是一种强大的集成学习方法，能够通过逐步构建一系列简单的决策树（通常是浅树）来提高模型的预测性能。它在多个机器学习竞赛中表现出色，是用于分类和回归任务的流行选择。用法fromsk
终于明白了！人工智能、机器学习、深度学习、集成学习及大模型的定义与联系大模型玩家人工智能机器学习深度学习产品经理算法学习方法集成学习
在当今快速发展的科技领域，人工智能（ArtificialIntelligence,AI）、机器学习（MachineLearning,ML）、深度学习（DeepLearning,DL）、集成学习（EnsembleLearning）以及大模型（LargeModels）等概念频繁出现在人们的视野中。它们不仅推动了科技的进步，也深刻影响了社会生活的方方面面。本文将对这些概念进行全面解析，并探讨它们之间的联
DeepSeek技术演进史：从MoE到当前架构 FinkGO小码深度学习 python 神经网络笔记经验分享学习方法程序人生
引言DeepSeek作为一款先进的智能助手，其技术演进历程充满了创新与突破。本文将结合清华大学104页的《DeepSeek：从入门到精通》，详细探讨DeepSeek从最初的MixtureofExperts（MoE）模型到当前架构的技术演进过程。1.初代架构：MixtureofExperts（MoE）DeepSeek的初代架构采用了MixtureofExperts（MoE）模型。MoE是一种集成学习
机器学习_19 集成学习知识点总结数据媛机器学习集成学习人工智能 python scikit-learn numpy scipy
集成学习（EnsembleLearning）是一种强大的机器学习范式，通过组合多个模型的预测结果来提高整体性能和泛化能力。它在分类、回归和特征选择等任务中表现出色，广泛应用于各种实际问题。今天，我们就来深入探讨集成学习的原理、实现和应用。一、集成学习的基本概念1.1集成学习的定义集成学习通过组合多个学习器（通常称为“弱学习器”）的预测结果，构建一个更强的模型（“强学习器”）。其核心思想是利用多个模
集成学习算法简述終不似少年遊* 人工智能学习进阶集成学习算法机器学习人工智能提高效率
目录1.必要的导入2.Bagging集成3.基于matplotlib写一个函数对决策边界做可视化4.总结图中结论5.扩展说明1.必要的导入#Tosupportbothpython2andpython3from__future__importdivision,print_function,unicode_literals#Commonimportsimportnumpyasnpimportos#to
基于机器学习中集成学习的stacking方式进行的金线莲质量鉴别研究（python进行数据处理并完成建模，对品种进行预测） Life is a joke PYTHON 人工智能机器学习机器学习集成学习人工智能
1.前言金线莲为兰科开唇兰属植物，别名金丝兰、金丝线、金耳环、乌人参、金钱草等，是一种名贵中药材，国内主要产地为较低纬度地区如：福建、台湾、广东、广西、浙江、江西、海南、云南、四川、贵州以及西藏南部[1]，被当地人民誉为“药中之王”，福建品种和台湾品种更是其中的上等品种，在治疗肺部炎症、糖尿病、癌症、肾炎、膀胱炎、重症肌无力、风湿性及类风湿性关节炎、高血脂、毒蛇咬伤有着很大的作用[2-3]。由于野
随机森林（Random Forest）预测模型及其特征分析（Python和MATLAB实现）追蜻蜓追累了深度学习机器学习 python 随机森林大数据回归算法算法
##一、背景在大数据和机器学习的快速发展时代，数据的处理和分析变得尤为重要。随着多个领域积累了海量数据，传统的统计分析方法常常无法满足复杂问题的需求。在这种背景下，机器学习方法开始广泛应用。随机森林（RandomForest）作为一种强大的集成学习方法，因其高效性和较强的泛化能力而备受关注。随机森林最初由LeoBreiman在2001年提出，基于决策树这一基本分类模型。其基本思想是通过构建多个决策
深入解析：Python中的决策树与随机森林小鹿( ﹡ˆoˆ﹡ ) Python python 决策树随机森林 Python
在这个数据驱动的时代，机器学习技术已经成为许多企业和研究机构不可或缺的一部分。其中，决策树和随机森林作为两种强大的算法，在分类和回归任务中表现尤为出色。本文将带领大家深入了解这两种算法在Python中的实现，从基础到实战，逐步揭开它们的神秘面纱。引言决策树是一种非常直观的预测模型，它通过一系列规则对数据进行分割，最终形成树状结构。而随机森林则是基于决策树的一种集成学习方法，通过构建多个决策树并取其
理解随机森林算法菌菌的快乐生活算法随机森林机器学习
基本概念随机森林（RandomForest）是一种集成学习算法，它属于机器学习中的监督学习算法。简单来说，它就像是一群“专家”（决策树）在一起讨论并做出决策。想象你要判断一个水果是苹果还是橙子，你可以通过观察水果的颜色、形状、大小等特征。随机森林算法就是利用很多棵决策树来对这个水果进行判断。每一棵决策树就像一个小专家，它们根据自己对这些特征的判断来给出一个答案（是苹果还是橙子），最后综合这些小专家
2025年美赛数学建模 Problem C: Models for Olympic Medal Tables 问题 C：奥运奖牌榜模型详细解析和代码（持续更新中，2025美赛） 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模开发语言 2025年数学建模美赛 2025美赛 C题奥运奖牌榜模型
目录Python代码MATLAB代码2.模型框架2.1回归分析模型2.2集成学习方法2.3时间序列预测2.4模型不确定性估计3.数据处理与模型训练4.预测2028年奥运奖牌5.预测区间和不确定性6.哪些国家可能提高或下降？7.尚未获得奖牌的国家的预测8.奥运项目与奖牌数的关系2.教练与国家奖牌数的关联2.1定义“伟大教练”效应2.2数据分析方法2.3分析结果3.选择三个国家并确定应投资的运动项目3
L8打卡学习笔记无涯学徒1998 学习笔记支持向量机
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊SVM与集成学习SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结SVM超平面：SVM在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的
【机器学习：二十七、决策树集合】 KeyPan 机器学习机器学习决策树人工智能数据挖掘深度学习算法分类
1.决策树集合的概述决策树集合是一种基于多个决策树模型集成的机器学习方法，通过组合多个弱学习器（决策树）形成一个强学习器，显著提升预测性能和泛化能力。核心思想集成学习的核心是通过结合多个模型的优点，降低单个模型的偏差与方差，提高整体的准确性和鲁棒性。决策树集合利用多棵树的组合，减少了单棵树可能出现的过拟合或对噪声的敏感性。主要优势性能提升：在分类和回归任务中通常表现优于单独的决策树。稳定性更强：对
随机森林分类算法原理与实验分析 ningaiiii 机器学习与深度学习随机森林分类算法
随机森林分类算法原理与实验分析1.引言随机森林（RandomForest）是一种集成学习方法，它通过构建多个决策树并结合它们的预测结果来进行分类。你可以把它想象成一个“团队决策”的过程：团队中的每个成员（决策树）都独立发表意见，最后通过投票决定最终结果。这种方法不仅提高了模型的准确性，还增强了模型的稳定性和鲁棒性。随机森林的主要特点是通过随机选择样本和特征来构建多个决策树，从而避免单棵决策树可能产
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
2024 数学建模国赛 C 题模型及算法（无废话版）不染53 数学建模数学建模算法 python
目录写在开始需要掌握的数学模型/算法评价体系/评价类问题时间序列处理数据降维聚类问题（无监督）分类问题（有监督）集成学习（Bagging/Boosting）回归问题关联分析统计学方法/统计模型智能优化算法需要掌握的Python专业库需要掌握的软件/工具写在开始本人获2023年数学建模国赛C题国家级一等奖，备赛期间专攻C题。本文总结了在备赛期间总结的模型和算法，足以应对90%国赛C题中涉及到的问题。
Spark MLlib模型训练—回归算法 Random forest regression 不二人生 Spark ML 实战 spark-ml 回归随机森林
SparkMLlib模型训练—回归算法Randomforestregression随机森林回归(RandomForestRegression)是一种集成学习方法，通过结合多个决策树的预测结果来提升模型的准确性和稳健性。相较于单一的决策树模型，随机森林通过随机采样和多棵树的集成，减少了模型的方差，从而在处理复杂数据集时展现出更好的性能。本文将详细介绍随机森林回归的原理、实现方法、应用场景，并通过Sc
基于Python的机器学习系列（18）：梯度提升分类（Gradient Boosting Classification）会飞的Anthony 信息系统机器学习人工智能机器学习 python 分类
简介梯度提升（GradientBoosting）是一种集成学习方法，通过逐步添加新的预测器来改进模型。在回归问题中，我们使用梯度来最小化残差。在分类问题中，我们可以利用梯度提升来进行二分类或多分类任务。与回归不同，分类问题需要使用如softmax这样的概率模型来处理类别标签。梯度提升分类的工作原理梯度提升分类的基本步骤与回归类似，但在分类任务中，我们使用概率模型来处理预测结果：初始化模型：选择一个
基于Python的机器学习系列（17）：梯度提升回归（Gradient Boosting Regression）会飞的Anthony 人工智能信息系统机器学习机器学习 python 回归
简介梯度提升（GradientBoosting）是一种强大的集成学习方法，类似于AdaBoost，但与其不同的是，梯度提升通过在每一步添加新的预测器来减少前一步预测器的残差。这种方法通过逐步改进模型，能够有效提高预测准确性。梯度提升回归的工作原理在梯度提升回归中，我们逐步添加预测器来修正模型的残差。以下是梯度提升的基本步骤：初始化模型：选择一个初始预测器h0(x)，计算该预测器的预测值。计算残差：
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

（十五）集成学习（下）——蒸汽量预测

集成学习案例二 （蒸汽量预测）

背景介绍

数据信息

步骤

导入package

加载数据

探索数据分布

特征工程

模型构建以及集成学习

进行模型的预测以及结果的保存

你可能感兴趣的:(集成学习)

集成学习案例二（蒸汽量预测）