冰淇淋lining

数据挖掘组队学习打卡——Task4：建模调参

文章目录

Task4 建模调参
- 1 学习目标
- 2 内容介绍
- 3 代码示例
- - 3.1 读取数据，定义函数reduce_mem_usage来调整数据类型，帮助我们减少数据在内存中占用的空间
  - 3.2 线性回归&五折交叉验证&模拟真实业务情况
  - - 3.2.1 简单建模
    - 3.2.2 五折交叉验证
    - 3.2.3 模拟真实业务情况
    - 3.2.4 绘制学习率曲线与验证曲线
  - 3.3 多种模型对比
  - - 3.3.1 线性模型&嵌入式特征选择
    - 3.3.2 非线性模型
  - 3.4 模型调参
  - - 3.4.1 贪心调参
    - - 3.4.1.1 贪心算法的基本思路
      - 3.4.1.2 贪心算法存在的问题
      - 3.4.1.3 贪心算法适用的问题
    - 3.4.2 网格调参
    - - 3.4.2.1 网格调参存在的问题及解决方法
    - 3.4.3 贝叶斯调参
- 4 总结

Task4 建模调参

详细代码放在了GitHub上。
赛题：零基础入门数据挖掘-二手车交易价格预测
地址：
https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX

1 学习目标

了解常用的机器学习模型并掌握机器学习模型的建模与调参流程

2 内容介绍

1、线性回归模型

线性回归模型对于特征的要求
处理长尾分布
理解线性回归模型

2、模型性能验证

评价函数与目标函数
交叉验证方法
留一验证方法
针对时间序列问题的验证
绘制学习率曲线
绘制验证曲线

3、嵌入式特征选择

Lasso回归
Ridge回归
决策树

4、模型对比

常用线性模型
常用非线性模型

5、模型调参

贪心调参方法
网格调参方法
贝叶斯调参方法

3 代码示例

3.1 读取数据，定义函数reduce_mem_usage来调整数据类型，帮助我们减少数据在内存中占用的空间

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

定义函数reduce_mem_usage，通过调整数据类型来减少数据在内存中占用的空间

def reduce_mem_usage(df):
    '''iterable through all the columns of a dataframe and modify the data type to reduce memory usage.
    '''
    start_mem = df.memory_usage().sum()
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))

    for col in df.columns:
        col_type = df[col].dtype

        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum()
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    return df

sample_feature = reduce_mem_usage(pd.read_csv('E:/Git-repository/data_mining/二手车价格预测组队学习/Task3 特征工程/data_for_tree.csv'))

输出：

Memory usage of dataframe is 62099672.00 MB
Memory usage after optimization is: 16520303.00 MB
Decreased by 73.4%

continuous_feature_names = [x for x in sample_feature.columns if x not in ['price', 'brand', 'model', 'brand']]

3.2 线性回归&五折交叉验证&模拟真实业务情况

sample_feature = sample_feature.dropna().replace('-', 0).reset_index(drop=True)
sample_feature['notRepairedDamage'] = sample_feature['notRepairedDamage'].astype(np.float32)
train = sample_feature[continuous_feature_names + ['price']]

train_X = train[continuous_feature_names]
train_y = train['price']

3.2.1 简单建模

from sklearn.linear_model import LinearRegression
model = LinearRegression(normalize=True)
model = model.fit(train_X, train_y)

查看模型的截距和斜率

'intercept:' + str(model.intercept_)

输出：

'intercept:-110670.68277253002'

sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)

输出：

[('v_6', 3367064.3416418773),
 ('v_8', 700675.5609398658),
 ('v_9', 170630.27723220887),
 ('v_7', 32322.66193201985),
 ('v_12', 20473.6707969639),
 ('v_3', 17868.079541497777),
 ('v_11', 11474.938996701725),
 ('v_13', 11261.764560015463),
 ('v_10', 2683.9200906023975),
 ('gearbox', 881.8225039247513),
 ('fuelType', 363.9042507215941),
 ('bodyType', 189.60271012070683),
 ('city', 44.94975120523033),
 ('power', 28.553901616752416),
 ('brand_price_median', 0.5103728134078794),
 ('brand_price_std', 0.4503634709263301),
 ('brand_amount', 0.14881120395065628),
 ('brand_price_max', 0.0031910186703119504),
 ('SaleID', 5.355989919853205e-05),
 ('train', 2.7008354663848877e-07),
 ('offerType', -2.230750396847725e-06),
 ('seller', -3.391294740140438e-06),
 ('brand_price_sum', -2.1750068681875342e-05),
 ('name', -0.0002980012713119153),
 ('used_time', -0.002515894332887234),
 ('brand_price_average', -0.4049048451011269),
 ('brand_price_min', -2.2467753486885997),
 ('power_bin', -34.42064411726994),
 ('v_14', -274.78411807763786),
 ('kilometer', -372.89752666071104),
 ('notRepairedDamage', -495.19038446277233),
 ('v_0', -2045.0549573548044),
 ('v_5', -11022.986240560502),
 ('v_4', -15121.731109857172),
 ('v_2', -26098.299920528138),
 ('v_1', -45556.18929726618)]

绘制v_9与标签price的散点图

import matplotlib.pyplot as plt
subsample_index = np.random.randint(low=0, high=len(train_y), size=50)
plt.scatter(train_X['v_9'][subsample_index], train_y[subsample_index], color='black')
plt.scatter(train_X['v_9'][subsample_index], model.predict(train_X.loc[subsample_index]), color='blue')
plt.xlabel('v_9')
plt.ylabel('price')
plt.legend(['True Price', 'Predicted Price'], loc='upper right')
print('The predicted price is obvious different from true price')
plt.show()

从图中可以发现，模型预测结果（蓝色点）与真实标签（黑色点）的分布差异较大，且部分预测值出现了小于0的情况，说明模型存在问题

作图观察数据的标签price的分布

import seaborn as sns
print('It is clear to see the price shows a typical exponential distribution')
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
sns.distplot(train_y)
plt.subplot(1,2,2)
sns.distplot(train_y[train_y < np.quantile(train_y, 0.9)])

由图可知，price呈现长尾分布（右偏）,不符合经典假定，不能直接建模，需要进行处理。对其进行取对数变换 $l o g (x + 1)$ ，使得price接近正态分布。

train_y_ln = np.log(train_y + 1)

import seaborn as sns
print('The transformed price seems like normal distribution')
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
sns.distplot(train_y_ln)
plt.subplot(1,2,2)
sns.distplot(train_y_ln[train_y_ln < np.quantile(train_y_ln, 0.9)])

取对数以后的price近似是正态分布。对对数数据建模并查看模型截距和系数。

model = model.fit(train_X, train_y_ln)

print('intercept:' + str(model.intercept_))
sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)

输出：

intercept:18.750749465570607
[('v_9', 8.052409900567602),
 ('v_5', 5.764236596652759),
 ('v_12', 1.6182081236784163),
 ('v_1', 1.4798310582944711),
 ('v_11', 1.1669016563622117),
 ('v_13', 0.9404711296030676),
 ('v_7', 0.713727308356542),
 ('v_3', 0.6837875771076573),
 ('v_0', 0.008500518010093529),
 ('power_bin', 0.008497969302892117),
 ('gearbox', 0.007922377278335285),
 ('fuelType', 0.006684769706828693),
 ('bodyType', 0.004523520092703198),
 ('power', 0.0007161894205358566),
 ('brand_price_min', 3.334351114743061e-05),
 ('brand_amount', 2.8978797042777754e-06),
 ('brand_price_median', 1.2571172873027632e-06),
 ('brand_price_std', 6.659176363436127e-07),
 ('brand_price_max', 6.194956307517733e-07),
 ('brand_price_average', 5.999345965043507e-07),
 ('SaleID', 2.1194170039647818e-08),
 ('train', 1.8189894035458565e-12),
 ('offerType', -5.3287152468328713e-11),
 ('seller', -1.1784173636897322e-10),
 ('brand_price_sum', -1.5126504215929971e-10),
 ('name', -7.015512588871499e-08),
 ('used_time', -4.12247937235175e-06),
 ('city', -0.0022187824810422333),
 ('v_14', -0.004234223418099023),
 ('kilometer', -0.013835866226884243),
 ('notRepairedDamage', -0.27027942349846473),
 ('v_4', -0.8315701200992444),
 ('v_2', -0.9470842241623264),
 ('v_10', -1.6261466689797768),
 ('v_8', -40.3430074876164),
 ('v_6', -238.7903638550661)]

再次进行可视化，观察预测结果与真实值的接近情况。

plt.scatter(train_X['v_9'][subsample_index], train_y[subsample_index], color='black')
plt.scatter(train_X['v_9'][subsample_index], np.exp(model.predict(train_X.loc[subsample_index])), color='blue')
plt.xlabel('v_9')
plt.ylabel('price')
plt.legend(['True Price', 'Predicted Price'], loc='upper right')
print('The predicted price seems normal after np.log transforming')
plt.show()

由图可知，预测结果与真实值比较接近，且未出现异常状况。

3.2.2 五折交叉验证

from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error, make_scorer

def log_transfer(func):
    def wrapper(y, yhat):
        result = func(np.log(y), np.nan_to_num(np.log(yhat)))
        return result
    return wrapper

(1) 使用线性回归模型，对未处理标签的特征数据进行五折交叉验证

scores = cross_val_score(model, X=train_X, y=train_y, verbose=1, cv=5, scoring=make_scorer(log_transfer(mean_absolute_error)))

输出：

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:    1.9s finished

print('AVG:', np.mean(scores))

输出：

AVG: 1.3658023920314537

(2) 使用线性回归模型，对处理过标签的特征数据进行五折交叉验证

scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=1, cv=5, scoring=make_scorer(mean_absolute_error))

输出：

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:    1.2s finished

print('AVG:', np.mean(scores))

输出：

AVG: 0.1932530183704744

scores = pd.DataFrame(scores.reshape(1,-1))
scores.columns = ['cv' + str(x) for x in range(1,6)]
scores.index = ['MAE']
scores

3.2.3 模拟真实业务情况

五折交叉验证在某些与时间相关的数据集上反而反映了不真实的情况，例如将2018年的数据作为训练集，将2017年的数据作为测试集，这显然是不合理的。因此，还可以采用时间顺序对数据集进行分隔。
在本例中，选择靠前时间的4/5样本作为训练集，靠后时间的1/5当作验证集，最终结果与五折交叉验证差距不大。

import datetime
sample_feature = sample_feature.reset_index(drop=True)
split_point = len(sample_feature) // 5 * 4
train = sample_feature.loc[:split_point].dropna()
val = sample_feature.loc[split_point:].dropna()

train_X = train[continuous_feature_names]
train_y_ln = np.log(train['price'] + 1)
val_X = val[continuous_feature_names]
val_y_ln = np.log(val['price'] + 1)

model = model.fit(train_X, train_y_ln)

mean_absolute_error(val_y_ln, model.predict(val_X))

输出：

0.19577667270301025

3.2.4 绘制学习率曲线与验证曲线

from sklearn.model_selection import learning_curve, validation_curve

? learning_curve

输出：

Signature:
 learning_curve(
    estimator,
    X,
    y,
    groups=None,
    train_sizes=array([0.1  , 0.325, 0.55 , 0.775, 1.   ]),
    cv=None,
    scoring=None,
    exploit_incremental_learning=False,
    n_jobs=None,
    pre_dispatch='all',
    verbose=0,
    shuffle=False,
    random_state=None,
    error_score=nan,
    return_times=False,
)
Docstring:
Learning curve.

Determines cross-validated training and test scores for different training
set sizes.

A cross-validation generator splits the whole dataset k times in training
and test data. Subsets of the training set with varying sizes will be used
to train the estimator and a score for each training subset size and the
test set will be computed. Afterwards, the scores will be averaged over
all k runs for each training subset size.

Read more in the :ref:`User Guide `.

Parameters
----------
estimator : object type that implements the "fit" and "predict" methods
    An object of that type which is cloned for each validation.

X : array-like, shape (n_samples, n_features)
    Training vector, where n_samples is the number of samples and
    n_features is the number of features.

y : array-like, shape (n_samples) or (n_samples, n_features), optional
    Target relative to X for classification or regression;
    None for unsupervised learning.

groups : array-like, with shape (n_samples,), optional
    Group labels for the samples used while splitting the dataset into
    train/test set. Only used in conjunction with a "Group" :term:`cv`
    instance (e.g., :class:`GroupKFold`).

train_sizes : array-like, shape (n_ticks,), dtype float or int
    Relative or absolute numbers of training examples that will be used to
    generate the learning curve. If the dtype is float, it is regarded as a
    fraction of the maximum size of the training set (that is determined
    by the selected validation method), i.e. it has to be within (0, 1].
    Otherwise it is interpreted as absolute sizes of the training sets.
    Note that for classification the number of samples usually have to
    be big enough to contain at least one sample from each class.
    (default: np.linspace(0.1, 1.0, 5))

cv : int, cross-validation generator or an iterable, optional
    Determines the cross-validation splitting strategy.
    Possible inputs for cv are:

    - None, to use the default 5-fold cross validation,
    - integer, to specify the number of folds in a `(Stratified)KFold`,
    - :term:`CV splitter`,
    - An iterable yielding (train, test) splits as arrays of indices.

    For integer/None inputs, if the estimator is a classifier and ``y`` is
    either binary or multiclass, :class:`StratifiedKFold` is used. In all
    other cases, :class:`KFold` is used.

    Refer :ref:`User Guide ` for the various
    cross-validation strategies that can be used here.

    .. versionchanged:: 0.22
        ``cv`` default value if None changed from 3-fold to 5-fold.

scoring : string, callable or None, optional, default: None
    A string (see model evaluation documentation) or
    a scorer callable object / function with signature
    ``scorer(estimator, X, y)``.

exploit_incremental_learning : boolean, optional, default: False
    If the estimator supports incremental learning, this will be
    used to speed up fitting for different training set sizes.

n_jobs : int or None, optional (default=None)
    Number of jobs to run in parallel.
    ``None`` means 1 unless in a :obj:`joblib.parallel_backend` context.
    ``-1`` means using all processors. See :term:`Glossary `
    for more details.

pre_dispatch : integer or string, optional
    Number of predispatched jobs for parallel execution (default is
    all). The option can reduce the allocated memory. The string can
    be an expression like '2*n_jobs'.

verbose : integer, optional
    Controls the verbosity: the higher, the more messages.

shuffle : boolean, optional
    Whether to shuffle training data before taking prefixes of it
    based on``train_sizes``.

random_state : int, RandomState instance or None, optional (default=None)
    If int, random_state is the seed used by the random number generator;
    If RandomState instance, random_state is the random number generator;
    If None, the random number generator is the RandomState instance used
    by `np.random`. Used when ``shuffle`` is True.

error_score : 'raise' or numeric
    Value to assign to the score if an error occurs in estimator fitting.
    If set to 'raise', the error is raised.
    If a numeric value is given, FitFailedWarning is raised. This parameter
    does not affect the refit step, which will always raise the error.

return_times : boolean, optional (default: False)
    Whether to return the fit and score times.

Returns
-------
train_sizes_abs : array, shape (n_unique_ticks,), dtype int
    Numbers of training examples that has been used to generate the
    learning curve. Note that the number of ticks might be less
    than n_ticks because duplicate entries will be removed.

train_scores : array, shape (n_ticks, n_cv_folds)
    Scores on training sets.

test_scores : array, shape (n_ticks, n_cv_folds)
    Scores on test set.

fit_times : array, shape (n_ticks, n_cv_folds)
    Times spent for fitting in seconds. Only present if ``return_times``
    is True.

score_times : array, shape (n_ticks, n_cv_folds)
    Times spent for scoring in seconds. Only present if ``return_times``
    is True.

Notes
-----
See :ref:`examples/model_selection/plot_learning_curve.py
`
File:      d:\python\lib\site-packages\sklearn\model_selection\_validation.py
Type:      function

def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None, n_jobs=1, train_size=np.linspace(.1, 1.0, 5 )):
    plt.figure()
    plt.title(title)
    if ylim is not None:
        plt.ylim(*ylim)
    plt.xlabel('Training example')
    plt.ylabel('score')
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_size, scoring=make_scorer(mean_absolute_error))
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    plt.grid() # 区域
    plt.fill_between(train_sizes, train_scores_mean - train_scores_std, train_scores_mean + train_scores_std, alpha=0.1, color='r')
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std, test_scores_mean + test_scores_std, alpha=0.1, color='g')
    plt.plot(train_sizes, train_scores_mean, 'o-', color='r', label='Training score')
    plt.plot(train_sizes, test_scores_mean, 'o-', color='g', label='Cross-validation score')
    plt.legend(loc='best')
    return plt

plot_learning_curve(LinearRegression(), 'Linear_model', train_X[:1000], train_y_ln[:1000], ylim=(0.0, 0.5), cv=5, n_jobs=1)

3.3 多种模型对比

train = sample_feature[continuous_feature_names + ['price']].dropna()

train_X = train[continuous_feature_names]
train_y = train['price']
train_y_ln = np.log(train_y + 1)

3.3.1 线性模型&嵌入式特征选择

在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别。而嵌入式特征选择在学习器训练过程中自动地进行特征选择。嵌入式选择最常用的是L1正则化与L2正则化。在对线性回归模型加入两种正则化方法后，他们分别变成了岭回归与Lasso回归。

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

models = [LinearRegression(), Ridge(), Lasso()]

result = dict()

for model in models:
    model_name = str(model).split('(')[0]
    scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv=5, scoring=make_scorer(mean_absolute_error))
    result[model_name] = scores
    print(model_name + ' is finished')

输出：

LinearRe
gression is finished
Ridge is finished
Lasso is finished

对三种方法的效果对比

result = pd.DataFrame(result)
result.index = ['cv' + str(x) for x in range(1,6)]
result

model = LinearRegression().fit(train_X, train_y_ln)
print('intercept:' + str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

L2正则化在拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』

model = Ridge().fit(train_X, train_y_ln)
print('intercept:' + str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。如下图，我们发现power
与userd_time特征非常重要。

model = Lasso().fit(train_X, train_y_ln)
print('intercept:' + str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

除此之外，决策树通过信息熵或GINI指数选择分裂节点时，优先选择的分裂特征也更加重要，这同样是一种特征选择的方法。XGBoost与LightGBM模型中的model_importance指标正是基于此计算的

3.3.2 非线性模型

from sklearn.linear_model import LinearRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.neural_network import MLPRegressor
from xgboost.sklearn import XGBRegressor
from lightgbm.sklearn import LGBMRegressor

models = [LinearRegression(), DecisionTreeRegressor(), RandomForestRegressor(), GradientBoostingRegressor(), MLPRegressor(solver='lbfgs', max_iter=100), XGBRegressor(n_estimators=100, objective='reg:squarederror'), LGBMRegressor(n_estimators=100)]

result = dict()
for model in models:
    model_name = str(model).split('(')[0]
    scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv=5, scoring=make_scorer(mean_absolute_error))
    result[model_name] = scores
    print(model_name + ' is finished')

LinearRegression is finished
DecisionTreeRegressor is finished
RandomForestRegressor is finished
GradientBoostingRegressor is finished
MLPRegressor is finished
XGBRegressor is finished
LGBMRegressor is finished

result = pd.DataFrame(result)
result.index = ['cv' + str(x) for x in range(1,6)]
result

3.4 模型调参

## LGB的参数集合：

objective = ['regression', 'regression_l1', 'mape', 'huber', 'fair']

num_leaves = [3,5,10,15,20,40, 55]
max_depth = [3,5,10,15,20,40, 55]
bagging_fraction = []
feature_fraction = []
drop_rate = []

3.4.1 贪心调参

贪心算法是指，在对问题求解时，总是做出在当前看来是最好的选择，即局部最优解。
注意：贪心算法并不是对所有问题都能得到整体最优解，选择的贪心策略必须具备无后效性（即某个状态以后的过程不会影响以前的状态，只与当前状态有关。）

3.4.1.1 贪心算法的基本思路

建立数学模型来描述问题
把求解的问题分成若干个子问题
对每个子问题求解，得到子问题的局部最优解
把子问题的解局部最优解合成原来问题的一个解

3.4.1.2 贪心算法存在的问题

不能保证求得的最后解是最佳的
不能用来求最大值或最小值的问题
只能求满足某些约束条件的可行解的范围

3.4.1.3 贪心算法适用的问题

局部最优策略能导致产生全局最优解。

best_obj = dict()
for obj in objective:
    model = LGBMRegressor(objective=obj)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_obj[obj] = score
    
best_leaves = dict()
for leaves in num_leaves:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0], num_leaves=leaves)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_leaves[leaves] = score
    
best_depth = dict()
for depth in max_depth:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0],
                          num_leaves=min(best_leaves.items(), key=lambda x:x[1])[0],
                          max_depth=depth)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_depth[depth] = score

sns.lineplot(x=['0_initial','1_turning_obj','2_turning_leaves','3_turning_depth'], y=[0.143 ,min(best_obj.values()), min(best_leaves.values()), min(best_depth.values())])

3.4.2 网格调参

通过循环遍历，尝试每一种参数组合，返回最好的得分值的参数组合

3.4.2.1 网格调参存在的问题及解决方法

存在的问题：
原来的数据集分割为训练集和测试集之后，其中测试集起到的作用有两个，一个是用来调整参数，一个是用来评价模型的好坏，这样会导致评分值会比实际效果要好。（因为我们将测试集送到了模型里面去测试模型的好坏，而我们目的是要将训练模型应用在没使用过的数据上。）

解决方法：
把数据集划分三份，一份是训练集（训练数据），一份是验证集（调整参数），一份是测试集（测试模型）。

进一步改进：
交叉验证

from sklearn.model_selection import GridSearchCV

parameters = {
     'objective': objective , 'num_leaves': num_leaves, 'max_depth': max_depth}
model = LGBMRegressor()
clf = GridSearchCV(model, parameters, cv=5)
clf = clf.fit(train_X, train_y)

clf.best_params_

输出：

{'max_depth': 15, 'num_leaves': 55, 'objective': 'regression'}

model = LGBMRegressor(objective='regression', num_leaves=55, max_depth=15)

np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))

输出：

0.13754833106731224

3.4.3 贝叶斯调参

基于目标函数的过去评估结果建立替代函数（概率模型），来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于，它在尝试下一组超参数时，会参考之前的评估结果，因此可以省去很多无用功。

贝叶斯优化问题有四个部分：

目标函数：我们想要最小化的内容，在这里，目标函数是机器学习模型使用该组超参数在验证集上的损失。
域空间：要搜索的超参数的取值范围
优化算法：构造替代函数并选择下一个超参数值进行评估的方法。
结果历史记录：来自目标函数评估的存储结果，包括超参数和验证集上的损失。

参考：https://blog.csdn.net/linxid/article/details/81189154

注意：安装bayes_opt时代码是pip install bayesian-optimization

from bayes_opt import BayesianOptimization
def rf_cv(num_leaves, max_depth, subsample, min_child_samples):
    val = cross_val_score(
        LGBMRegressor(objective = 'regression_l1',
            num_leaves=int(num_leaves),
            max_depth=int(max_depth),
            subsample = subsample,
            min_child_samples = int(min_child_samples)
        ),
        X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)
    ).mean()
    return 1 - val

rf_bo = BayesianOptimization(
    rf_cv,
    {
     
    'num_leaves': (2, 100),
    'max_depth': (2, 100),
    'subsample': (0.1, 1),
    'min_child_samples' : (2, 100)
    }
)

rf_bo.maximize()

输出：

|   iter    |  target   | max_depth | min_ch... | num_le... | subsample |
-------------------------------------------------------------------------
|  1        |  0.8344   |  24.34    |  74.73    |  8.491    |  0.3154   |
|  2        |  0.8611   |  89.8     |  69.78    |  40.74    |  0.1787   |
|  3        |  0.8575   |  27.09    |  68.54    |  31.62    |  0.8848   |
|  4        |  0.8576   |  90.63    |  77.76    |  31.26    |  0.7619   |
|  5        |  0.8671   |  82.08    |  22.69    |  74.48    |  0.2662   |
|  6        |  0.8671   |  85.13    |  20.08    |  75.15    |  0.4367   |
|  7        |  0.8252   |  3.163    |  96.66    |  98.41    |  0.5254   |
|  8        |  0.8119   |  97.99    |  4.623    |  4.422    |  0.4356   |
|  9        |  0.8406   |  4.365    |  3.205    |  94.66    |  0.7153   |
|  10       |  0.869    |  99.44    |  99.87    |  95.25    |  0.6397   |
|  11       |  0.8642   |  63.93    |  99.93    |  54.82    |  0.7661   |
|  12       |  0.8692   |  68.1     |  63.35    |  99.82    |  0.9299   |
|  13       |  0.8691   |  98.39    |  53.18    |  95.09    |  0.9908   |
|  14       |  0.8659   |  51.37    |  38.89    |  64.43    |  0.8853   |
|  15       |  0.869    |  88.02    |  2.4      |  99.21    |  0.8957   |
|  16       |  0.8674   |  84.96    |  81.31    |  77.36    |  0.9548   |
|  17       |  0.8692   |  95.46    |  54.46    |  93.15    |  0.3872   |
|  18       |  0.8693   |  67.01    |  14.53    |  99.91    |  0.4595   |
|  19       |  0.8695   |  94.95    |  29.31    |  99.99    |  0.8439   |
|  20       |  0.8642   |  99.98    |  99.05    |  54.31    |  0.7391   |
|  21       |  0.8672   |  53.27    |  70.22    |  75.66    |  0.1003   |
|  22       |  0.8692   |  78.18    |  44.64    |  98.83    |  0.1092   |
|  23       |  0.8692   |  76.7     |  22.91    |  99.41    |  0.9466   |
|  24       |  0.8692   |  96.01    |  83.84    |  99.89    |  0.8283   |
|  25       |  0.869    |  98.86    |  13.91    |  98.8     |  0.129    |
|  26       |  0.8685   |  69.93    |  40.62    |  90.86    |  0.9824   |
|  27       |  0.869    |  74.62    |  5.823    |  99.72    |  0.1114   |
|  28       |  0.8692   |  98.71    |  79.88    |  99.92    |  0.4378   |
|  29       |  0.869    |  99.52    |  2.095    |  99.26    |  0.9853   |
|  30       |  0.8692   |  97.7     |  44.04    |  99.84    |  0.1654   |
=========================================================================

1 - rf_bo.max['target']

输出：

0.13052894587373443

查看模型的提升度

plt.figure(figsize=(13,5))
sns.lineplot(x=['0_origin', '1_log_transfer', '2_L1_&_L2', '3_change_model', '4_parameter_turning'], y=[1.36, 0.19, 0.19, 0.14, 0.13] )

4 总结

1、在安装xgboost和lightgbm时，cmd里安装成功了，但是import的时候报错，卸载重装依然是这样，我用的是vscode编辑器，试了一下换成anaconda自带的jupyter notebook也不行。在群里问大家，猜想可能是版本的问题，在jupyter里新建文件，发现有两种选项，一个是python3，另一个是python3.7.6，分别试了一下，发现只有在python3文件中import xgboost才不会报错，应该就是版本匹配的问题。在vscode中将解释器由python3.7.6换成3.7.3就解决了。可能是电脑里有多个版本的python，导致出错。
2、这几天事情比较多，距离上一篇特征工程过去了很久，有点忘了前面的内容，数据分析需要对数据比较熟悉，后续分析才不会一头雾水。

你可能感兴趣的:(小白的学习笔记)

华为机试HJ16：购物单系统的动态规划设计思路剖析Java最优解代码 _JC_Chris 华为动态规划 java 算法数据结构
0.写在前面“华为机试HJ16：购物单”是一道“物品间有依赖关系”的【01背包问题】，属于经典dp问题的变形。对于基础薄弱的同学来说，本题的思维难度不低，建议先了解“普通01背包问题”的基本求解思路——bilibili辅助学习视频（预计学习时间15min）1.题目描述王强决定把年终奖用于购物，他把想买的物品分为两类：主件与附件，附件是从属于某个主件的，下表就是一些主件与附件的例子：主件附件电脑打印
阿里、字节：一套高效的iOS面试题（修正版）侃侃而谈。句句是你八卦及经验分享面试 java android python ios
简述笔者最近收集梳理了一些iOS相关的问题，其中大部分都是大厂面试或者面试其他人用到的，能命中大部分的面试和日常工作，更希望你可以用它来检验自己由于问题量太大，本文只是给了问题，希望发挥圈友的动手能力，自己去探索下，也可以在下方进行评论回复你的答案或者提出更高质量的问题！！！runtime相关问题runtime是iOS开发最核心的知识了，如果下面的问题都解决了，那么对runtime的理解已经很深了
机器学习入门——机器学习基本概念四月是你的机器学习
@机器学习什么是机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎简单来说机器学习就是机
搭载热成像的无人机安防救援大有前途 weixin_33958585 人工智能前端 ViewUI
经过几十年的发展，红外热成像技术已经广泛应用于军事、医疗、工业生产、消防等领域，更是在近几年开启了民用化的发展趋势。对于安防而言，热成像技术的出现，为视频监控在光线不足时增加了夜视和透视的功能，在整个安防行业的发展历程中起到至关重要的作用。随着技术的不断革新，现如今，热成像技术也正在不断朝着新应用、新领域发展，今天我们来聊聊热成像技术与无人机和智能化的结合所迸发出的火花。热成像技术与无人机和智能化
红外热成像拥抱无人机迸发安防救援新活力 weixin_34244102 人工智能前端 ViewUI
经过几十年的发展，红外热成像技术已经广泛应用于军事、医疗、工业生产、消防等领域，更是在近几年开启了民用化的发展趋势。对于安防而言，热成像技术的出现，为视频监控在光线不足时增加了夜视和透视的功能，在整个安防行业的发展历程中起到至关重要的作用。随着技术的不断革新，现如今，热成像技术也正在不断朝着新应用、新领域发展，今天我们来聊聊热成像技术与无人机和智能化的结合所迸发出的火花。自然界中一切物体，只要温度
python 应用开发日志工具包—— loguru 添财小哥 python 应用开发 python pip
一、简介Loguru是一个Python库，旨在让日志记录变得愉快。你是否曾因为懒得配置日志记录器而直接使用print()？…我有过，然而日志记录对于每个应用程序都是基本的，它简化了调试过程。使用Loguru，你没有理由不从一开始就使用日志记录，这就像导入fromloguruimportlogger一样简单。此外，这个库旨在通过添加一系列有用的功能来解决标准日志记录器的缺陷，从而减轻Python日志
异常处理/加密/日志 weixin_30527551
try...except...else...finally...try:"""操作"""exceptExceptionase:"""异常的父类,可以捕获所有的异常"""else:"""保护不抛出异常的代码,当try中无异常的时候执行"""finally:"""最后总要执行的"""raise当程序运行到raise.程序会被中断.并实例化后面的异常对象.抛给调用方.如果调用方不处理.则会把错误继续向上
代码随想录day2 独正己身 c语言算法数据结构 c++
209.长度最小的子数组第一种写法，最简单理解时间复杂度O(n^2)，无法通过intminSubArrayLen(inttarget,vector&nums){intresult=0;for(inti=0;i=target){result=1;break;}for(intj=i+1;j=target){if(result==0){result=j-i+1;}else{result=min(resu
在Linux上安装Chrome浏览器时遇到的问题花牧w Linux ubuntu chrome
在Linux上安装Chrome浏览器时遇到的问题一、权限报错二、找不到文件报错三、架构不符报错四、依赖关系报错一、权限报错运行：dpkg-igoogle-chrome-stable_current_amd64-1.deb报错：dpkg：错误：所请求的操作需要超级用户权限处理方式：sudodpkg-igoogle-chrome-stable_current_amd64-1.deb[sudo]user
工程化概述 WJP丶前端工程化实战前端工程化概述
工程化的定义和主要解决的问题前端工程化指遵循一定的规范，通过工具提升效率，降低成本的一种手段。前端日常开发遇到的问题想要使用ES6+新特性，但是兼容性有问题想要使用Less/Sass/PostCss增强css编程性，但是运行环境不能直接支持想要使用模块化的方式提高项目的可维护性，但是运行环境不能直接支持部署上线前需要手动压缩代码及资源文件、部署过程需要手动上传代码到服务器多人协作开发，无法硬性同一
JVM --- 类的生命周期 Wangwq. 八股文 JVM
一、类的生命周期加载-----》校验-----》准备-----》解析-----》初始化-----》使用-----》卸载二、类加载过程1、加载（1）主要工作：通过类的全限定名来获取定义此类的二进制字节流。将这个类字节流代表的静态存储结构转换为方法区的运行时数据结构。在堆中生成了一个代表此类的java.lang.Class对象，作为访问这些方法区的数据入口。（2）支持的两种类加载器：引导类加载器用户（
Python 一个脚本批量安装第三方库漫漫进阶路 Python Pycharm python
importos#引入os库，os是python自带的库definstall_packages():#将要批量安装的第三方库写进一个列表libs=["numpy","matplotlib","pillow","sklearn","scipy","requests","uvicorn","pyspider","beautifulsoup4","wheel","networkx","sympy","p
银河麒麟V10离线安装MongoDB4.0 孙霸天信创记录 #mongodb 银河麒麟 MongoDB Linux 数据库数据仓库
目录银河麒麟V10离线安装MongoDB4.0环境介绍安装准备安装MongoDB编辑mongod.conf配置系统防火墙启动服务停止服务重启服务创建管理员用户开启用户认证配置自启动服务编辑自启动服务文件mongodb服务命令银河麒麟V10离线安装MongoDB4.0环境介绍银河麒麟V10是一款高性能的国产服务器操作系统，适用于各种应用场景。在离线环境下安装MongoDB是一项重要任务，以支持数据存
python 中的 logging 详解 SATAN 先生 python python 开发语言
文章目录1.Abstract2.logging模块结构3.Logger的层次结构和命名规则3.1RootLogger3.2层次结构和命名规则3.2.1层次结构和命名规则3.2.2Logger的工厂机制4.Logger和Handler的过滤机制：Level和Filter5.emit：格式化与输出流6.配置basicConfig，logging.config.fileConfig…；6.1`basic
@Contended qq_31273845 spring java 后端
`@Contended`是Java8引入的一个注解，主要用于减少多线程环境下的伪共享（FalseSharing）问题。伪共享是由于缓存行的争用导致的性能问题，特别是在多核处理器上。###`@Contended`注解的作用-**减少伪共享**：当多个线程访问不同的变量，但这些变量位于同一个缓存行时，可能会引发伪共享问题。`@Contended`注解通过在变量之间插入填充字段，确保它们位于不同的缓存行
前端工程化都有哪些及优化方案光影少年前端前端框架基带工程
一、前端工程化的主要组成部分1.模块化模块化是将复杂的程序分解为若干小的独立模块，每个模块负责一个功能。常用的模块化方案包括：ES6模块（import/export）CommonJS（require/module.exports，Node.js中常用）AMD（define/require，如RequireJS）优化方案：尽量使用ES6模块，因为它是JavaScript的标准，支持更好的静态分析和T
qt 设置鼠标样式的几种方法源之缘-OFD解决方案之道 qt qt 计算机外设开发语言
在Qt中，设置鼠标样式可以通过以下几种方式实现：1.使用内置鼠标样式Qt提供了一系列内置的鼠标样式，可以通过setCursor()函数设置。例如：cpp复制button->setCursor(Qt::PointingHandCursor);//设置为手型光标[^1^][^2^]。其他常用的内置样式包括：Qt::ArrowCursor：普通箭头光标。Qt::WaitCursor：等待光标。Qt::C
为什么雷达系统难以探测到无人机？牧羊君雷达学习笔记无人机无人机探测
大家知道雷达系统很难识别出小型无人机和紧贴地面飞行的无人机。那么，对无人机探测的难点在哪呢？1.小型化和隐蔽性：许多无人机的体积小，那么雷达散射面积也小并且无人机在低空飞行，进一步降低了被雷达探测到的可能性。为了探测到目标，雷达须与无人机保持在视线范围。这在城市环境中尤其成问题，因为无人机可能在传感器视线内只出现几秒钟，然后再次消失。2.机动和悬停：无人机能够进行快速的机动飞行，而且可能随时改变飞
Go语言中的Select Cxzzzzzzzzzz golang 开发语言后端
Select在Go语言中，select是一种用于处理多个通道操作的控制结构。它允许你同时监听多个通道上的通信操作（发送或接收），并根据哪个操作先完成来执行相应的代码块。select是Go并发编程中的一个重要工具，常用于实现超时、非阻塞通信和多通道选择等场景。select的基本语法select的语法类似于switch，但它用于通道操作。基本形式如下：go复制select{case<-ch1://当c
基于R-CNN深度学习的无人机目标检测系统：数据集、模型和UI界面的完整实现 2025年数学建模美赛 R-CNN检测系统深度学习 cnn 无人机计算机视觉目标检测人工智能
摘要随着无人机技术的迅猛发展，无人机在军事、农业、环境监测等多个领域的应用日益广泛。无人机目标检测系统的建设成为提升无人机自主飞行和环境感知能力的重要环节。本文将详细介绍如何构建一个基于深度学习的无人机目标检测系统，采用R-CNN（区域卷积神经网络）算法，通过用户界面设计和数据集处理，实现高效的目标检测功能。通过本项目，旨在为无人机目标检测提供一种可行的解决方案，并提高其在复杂环境下的工作效率。目
基于Multi-Agent的无人机集群体系自主作战系统设计龙腾亚太无人机
源自：系统工程与电子技术作者：张堃,华帅,袁斌林,杜睿怡“人工智能技术与咨询”发布摘要针对无人集群自主作战体系设计中的关键问题,提出基于Multi-Agent的无人集群自主作战系统设计方法。建立无人集群各节点的Agent模型及其推演规则;对于仿真系统模块化和通用化的需求,设计系统互操作式接口和无人集群自主作战的交互关系;开展无人集群系统仿真推演验证。仿真结果表明,所提设计方案不仅能够有效开展并完成
Python编程的最好搭档—VSCode 详细指南程序员朱鹏 vscode python 编辑器
刚学Python的同学可能会觉得每次写Python的时候都得打开Cmd有点烦躁，直接上手Pycharm的同学可能会觉得这软件太笨重了，晦涩难用。那么有没有省去打开CMD的步骤，又能弥补Pycharm笨重的特点的软件呢？——答案是VSCode.诞生于2015年的VSCode编辑器，现在可以说是目前最强的编辑器之一，在微软的背书下，比各位历史悠久的老大哥成长快得多，不到5年的时间里便坐到了市场占有率第
初识C语言(三) 九离十 C语言 c语言开发语言
感兴趣的朋友们可以留个关注，我们共同交流，相互促进学习。文章目录前言八、函数九、数组（1）数组的定义（2）数组的下标和使用十、操作符（1）算数操作符（2）移位操作符（3）位操作符（4）赋值操作符（5）单目操作符（6）关系操作符（7）逻辑操作符（8）条件操作符（9）逗号表达式（10）下标引用、函数调用和结构成员十一、常见关键字总结前言我们在上个文章学习了，常量变量的作用域，生命周期以及等等，我们了解
C#操作GIF图片（下）将一帧一帧的图片合并成gif 我曾经是个程序员常用代码片段 c#开发语言
见过不少人、经过不少事、也吃过不少苦，感悟世事无常、人心多变，靠着回忆将往事串珠成链，聊聊感情、谈谈发展，我慢慢写、你一点一点看......stringnewPath=Application.StartupPath+"\\new.gif";Listimgs=Directory.GetFiles(Application.StartupPath+"\\images\\","*.jpg").ToList
基于YOLOv8+PyQt5的密集人群计数检测系统人工智能教学实践 YOLO qt 目标检测
基于YOLOv8+PyQt5的密集人群计数检测系统是一个结合了目标检测算法与图形用户界面的项目，以下是相关介绍：【毕业设计参考】基于yolov8+pyqt5的密集人群计数检测系统.zip资源-CSDN文库系统概述该系统旨在实时分析某一区域内的人群数量与分布情况，将YOLOv8算法的高效目标检测能力与PyQt5框架的简洁直观界面相结合，能够实时捕获视频流，通过YOLOv8进行人群检测，并在用户界面中
dp题目总结（1）——基础 _So_Far_Away 算法动态规划
例题1数字三角形题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。738810274445265在上面的样例中,从7到3到8到7到5的路径产生了最大输入格式第一个行包含R(1usingnamespacestd;inta[1010][1010],ans=0;intn;//输入数塔层数nvoiddfs(i
无人机低成本集群技术实现详解无人机技术圈无人机技术无人机
在现代科技的迅猛发展中，无人机技术已广泛应用于军事侦察、环境监测、农业植保、物流配送等多个领域。其中，无人机集群技术作为提高任务效率、降低成本的重要手段，正受到越来越多的关注。本项目旨在研发一套低成本无人机集群系统，通过优化关键技术、设计合理的无人机平台、实现高效的集群编队与协同，以及智能化的自主控制，达到提升任务执行效率、降低总体成本的目标。具体目标包括：开发出高性价比的无人机单体、实现灵活的集
光纤FPV无人机技术详解无人机技术圈无人机技术无人机
1.技术基础与原理光纤FPV（FirstPersonView，第一人称视角）无人机技术，是将光纤通信技术与无人机技术相结合的一项创新技术。该技术通过光纤作为高速、低延迟的数据传输媒介，实现了无人机拍摄的高清视频信号实时回传至地面控制站，为飞行员提供身临其境的飞行体验。光纤传输以其超大带宽、超强抗干扰性和极低延迟的特性，极大地提升了FPV无人机的性能和应用范围。1、无人机类型：电动多旋翼；1、最大飞
python学习系列之logging(一、基础教程) Idea King python3
文章目录1.什么是日志？为什么需要日志？2.什么时候使用什么级别的日志？2.1日志的级别3.logging基础教程3.1输出到控制台3.2记录日志到文件3.3从多个模块记录日志3.4记录变量数据3.5修改日志输出的格式参考文献按照官方使用说明进行编写1.什么是日志？为什么需要日志？日志是对软件执行时所发生事件的一种追踪方式。软件开发人员对他们的代码添加日志调用，借此来指示某事件的发生。一个事件通过
【mysql基础语法】 baboozx mysql
sql基础语法一基本语法查询：select字段from表名where条件插入：insertinto表名(column_name)values(values)删除：deletefrom表名where条件更新：update表名set(column_name=value),where条件应用于某列的聚合函数。聚合函数对数据进行数学运算，如计算平均值（AVG）、总和（SUM）、最大值（MAX）、最小值（M
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p