赵晞兮

机器学习（10）-随机森林案例（调参）之公共自行车使用量预测

随机森林案例之公共自行车使用量预测

1. 前言
- 1.1 背景介绍
- 1.2 任务类型
- 1.3 数据文件说明
- 1.4 数据变量说明
- 1.5 评估方法
2. 数据预处理
- 2.1 观察数据有没有缺失值
- 2.2 观察每个变量的基础描述信息
- 2.3 查看相关系数
3. 模型训练及其结果展示
- 3.1 标杆模型：简单线性回归模型
- 3.2 决策树回归模型
- 3.3 随机森林回归模型
- 3.4 随机森林回归模型调参过程说明
- - 3.4.1 RF Bagging框架参数
  - 3.4.2 RF决策树参数
  - 3.4.3 RF调参
- 3.5 随机森林回归模型调参
- - 3.5.1 使用gridsearchcv探索n_estimators的最佳值
  - 3.5.2 对决策树最大深度 max_depth 求最佳值
  - 3.5.3 求内部节点再划分所需要的最小样本数min_samples_split和叶子节点最小样本数min_samples_leaf的最佳参数
  - 3.5.4 求最大特征数max_features的最佳参数
  - 3.5.5 汇总搜索到的最佳参数，然后训练
参考资料

1. 前言

1.1 背景介绍

公共自行车低碳，环保，健康，并且解决了交通中“最后一公里”的痛点，在全国各个城市越来越受欢迎。本次数据取自于两个城市某街道上的几处公共自行车停车桩。希望根据时间，天气等信息，预测出该街区在一小时内的被借取的公共自行车的数量。

1.2 任务类型

回归

1.3 数据文件说明

数据集	作用	说明
train.csv	训练集	文件大小为273KB
test.csv	测试集	文件大小为179KB

1.4 数据变量说明

训练集中共有10000条样本，预测集中有7000条样本

变量名	解释
id	行编号
y	一小时内自行车被借取的数量，在测试集中是需要被预测的数值
city	表示该行记录所发生的城市
hour	当时的时间，精确到小时，24小时计时法
is_workday	1表示工作日，0表示节假日或周末
temp_1	当时的气温，单位为摄氏度
temp_2	当时的体感温度，单位为摄氏度
weather	当时的天气状况，1为晴朗，2为多云、阴天，3为小雨，4为大雨
wind	当时的风速，数值越大风速越大

1.5 评估方法

评价方法为RMSE（Root of Mean Squared Error）

若真实值为 $y=(y_1,y_2,...,y_n)$ ，模型的预测值为 $\hat y=(\hat y_1,\hat y_2,...,\hat y_n)$ ，那么该模型的RMSE的计算公式为：
$RMSE=\sqrt {\frac{\sum_{i=1}^n(y_i-\hat y_i)^2}{n}}$
RMSE越小，说明模型预测得越准。

2. 数据预处理

2.1 观察数据有没有缺失值

print(traindata.info())

输出：

RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
city          10000 non-null int64
hour          10000 non-null int64
is_workday    10000 non-null int64
weather       10000 non-null int64
temp_1        10000 non-null float64
temp_2        10000 non-null float64
wind          10000 non-null int64
dtypes: float64(2), int64(5)
memory usage: 547.0 KB
None

我们可以看到，共有10000个观测值，没有缺失值。

2.2 观察每个变量的基础描述信息

print(traindata.describe())

输出：

                 city          hour    is_workday      weather  \
count    10000.000000  10000.000000  10000.000000  10000.00000   
mean         0.499800     11.527500      0.684000      1.42750   
std          0.500025      6.909777      0.464936      0.63764   
min          0.000000      0.000000      0.000000      1.00000   
25%          0.000000      6.000000      0.000000      1.00000   
50%          0.000000     12.000000      1.000000      1.00000   
75%          1.000000     18.000000      1.000000      2.00000   
max          1.000000     23.000000      1.000000      4.00000 
             temp_1        temp_2          wind             y  
count  10000.000000  10000.000000  10000.000000  10000.000000  
mean      15.268190     15.321230      1.248600     50.537400  
std        9.029152     11.308986      1.095773     47.769645  
min       -7.600000    -15.600000      0.000000      0.000000  
25%        7.800000      5.800000      0.000000     10.000000  
50%       15.600000     16.000000      1.000000     39.000000  
75%       22.600000     24.800000      2.000000     75.000000  
max       38.600000     46.800000      7.000000    249.000000

通过观察可以得出一些猜测，如根据温度得信息可以排除南方城市；整个观测记录时间跨度较长，还可能包含了一个长假期数据等等。

2.3 查看相关系数

为了方便查看，绝对值低于0.2的就用nan替代

corr = traindata.corr()
corr[np.abs(corr) < 0.2] = np.nan
print(corr)

输出：

               city      hour  is_workday  weather    temp_1    temp_2  \
city           1.0       NaN         NaN      NaN       NaN       NaN   
hour           NaN  1.000000         NaN      NaN       NaN       NaN   
is_workday     NaN       NaN         1.0      NaN       NaN       NaN   
weather        NaN       NaN         NaN      1.0       NaN       NaN   
temp_1         NaN       NaN         NaN      NaN  1.000000  0.987357   
temp_2         NaN       NaN         NaN      NaN  0.987357  1.000000   
wind           NaN       NaN         NaN      NaN       NaN       NaN   
y              NaN  0.406489         NaN      NaN  0.417115  0.413942   

            wind         y  
city         NaN       NaN  
hour         NaN  0.406489  
is_workday   NaN       NaN  
weather      NaN       NaN  
temp_1       NaN  0.417115  
temp_2       NaN  0.413942  
wind         1.0       NaN  
y            NaN  1.000000

从相关性角度来看，用车的时间和当时的气温对借取数量y有较强的关系；气温和体感气温显强正相关（共线性），这个和常识一致。

3. 模型训练及其结果展示

3.1 标杆模型：简单线性回归模型

该模型预测结果的RMSE为：39.132

# -*- coding: utf-8 -*-
 
# 引入模块
from sklearn.linear_model import LinearRegression
import pandas as pd
 
# 读取数据
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
submit = pd.read_csv("sample_submit.csv")
 
# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)
 
# 取出训练集的y
y_train = train.pop('y')
 
# 建立线性回归模型
reg = LinearRegression()
reg.fit(train, y_train)
y_pred = reg.predict(test)
 
# 若预测值是负数，则取0
y_pred = map(lambda x: x if x >= 0 else 0, y_pred)
 
# 输出预测结果至my_LR_prediction.csv
submit['y'] = y_pred
submit.to_csv('my_LR_prediction.csv', index=False)

3.2 决策树回归模型

该模型预测结果的RMSE为：28.818

# -*- coding: utf-8 -*-
 
# 引入模块
from sklearn.tree import DecisionTreeRegressor
import pandas as pd
 
# 读取数据
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
submit = pd.read_csv("sample_submit.csv")
 
# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)
 
# 取出训练集的y
y_train = train.pop('y')
 
# 建立最大深度为5的决策树回归模型
reg = DecisionTreeRegressor(max_depth=5)
reg.fit(train, y_train)
y_pred = reg.predict(test)
 
# 输出预测结果至my_DT_prediction.csv
submit['y'] = y_pred
submit.to_csv('my_DT_prediction.csv', index=False)

3.3 随机森林回归模型

该模型预测结果的RMSE为：18.028

#_*_coding:utf-8_*_
import numpy as np
import pandas as pd
 
 
def load_data(trainfile, testfile):
    traindata = pd.read_csv(trainfile)
    testdata = pd.read_csv(testfile)
    feature_data = traindata.iloc[:, 1:-1]
    label_data = traindata.iloc[:, -1]
    test_feature = testdata.iloc[:, 1:]
    return feature_data, label_data, test_feature
 
def random_forest_train(feature_data, label_data):
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
 
    X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
 
    model = RandomForestRegressor()
    model.fit(X_train, y_train)
    # 对测试集进行预测
    y_pred = model.predict(X_test)
    # 计算准确率
    MSE = mean_squared_error(y_test, y_pred)
    RMSE = np.sqrt(MSE)
    print(RMSE)
 
if __name__ == '__main__':
    trainfile = 'data/train.csv'
    testfile = 'data/test.csv'
    submitfile = 'data/sample_submit.csv'
    feature_data, label_data = load_data(trainfile, testfile)
    random_forest_train(feature_data, label_data)

3.4 随机森林回归模型调参过程说明

3.4.1 RF Bagging框架参数

参考博客
RF框架参数比较简单，因为Bagging框架里的各个弱学习器之间是没有依赖关系的，这减小调参的难度。

下面来看看RF重要的Bagging框架的参数，由于RandomForestClassifier和RandomForestRegressor参数绝大部分相同，这里会将它们一起讲，不同点会指出。

n_estimators ：也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。RandomForestClassifier和RandomForestRegressor默认是10。在实际调参的过程中，常常将n_estimators和下面介绍的参数learning_rate一起考虑。
oob_score：即是否采用袋外样本来评估模型的好坏。默认识False。有放回采样中大约36.8%的没有被采样到的数据，常常称之为袋外数据（Out Of Bag 简称OOB），这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。
criterion：即CART树做划分时对特征的评价标准。分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是基尼系数gini,另一个可选择的标准是信息增益。回归RF对应的CART回归树默认是均方差mse，另一个可以选择的标准是绝对值差mae。一般来说选择默认的标准就已经很好。
bootstrap：默认是True，是否有放回的采样。
verbose：日志亢长度，int表示亢长度，o表示输出训练过程，1表示偶尔输出，>1表示对每个子模型都输出

从上面可以看出， RF重要的框架参数比较少，主要需要关注的是 n_estimators，即RF最大的决策树个数。当使用这些方法的时候，最主要的参数是调整n_estimators和max_features。n_estimators指的是森林中树的个数，树数目越大越好，但是会增加计算开销，另外，注意如果超过限定数量后，计算将会停止。

3.4.2 RF决策树参数

RF划分时考虑的最大特征数max_features: 可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑log2(n_features)个特征；如果是"sqrt"或者"auto"意味着划分时最多考虑sqrt(n_features)个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的"None"就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。max_features指的是，当划分一个节点的时候，features的随机子集的size，该值越小，variance会变小，但是bais会变大。（int 表示个数，float表示占所有特征的百分比，auto表示所有特征数的开方，sqrt表示所有特征数的开放，log2表示所有特征数的log2值，None表示等于所有特征数）
决策树最大深度max_depth: 默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。（int表示深度，None表示树会生长到所有叶子都分到一个类，或者某节点所代表的样本已小于min_samples_split）
内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。（int表示样本数，2表示默认值）
叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。
叶子节点最小的样本权重和min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。
最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。
节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。
用于拟合和预测的并行运行的工作数量n_jobs：一般取整数，可选的（默认值为1），如果为-1，那么工作数量被设置为核的数量，机器上所有的核都会被使用（跟CPU核数一致）。如果n_jobs=k，则计算被划分为k个job，并运行在K核上。注意，由于进程间通信的开销，加速效果并不会是线性的（job数K不会提示K倍）通过构建大量的树，比起单颗树所需要的时间，性能也能得到很大的提升，
随机数生成器random_state：随机数生成器使用的种子，如果是RandomState实例，则random_stats就是随机数生成器；如果为None，则随机数生成器是np.random使用的RandomState实例。

根据经验：

对于回归问题：好的缺省值max_features = n_features;

对于分类问题：好的缺省值是max_features=sqrt(n_features)。n_features指的是数据中的feature总数。

当设置max_depth=None，以及min_samples_split=1时，通常会得到好的结果（完全展开的树）。但需要注意，这些值通常不是最优的，并且会浪费RAM内存。最好的参数应通过cross-validation给出。另外需要注意：

在随机森林中，缺省时会使用bootstrap进行样本抽样(bootstrap=True) ；
当使用bootstrap样本时，泛化误差可能在估计时落在out-of-bag样本中。此时，可以通过设置oob_score=True来开启。

3.4.3 RF调参

参数分类的目的在于缩小调参的范围，首先要明确训练的目标，把目标类的参数定下来。接下来，需要根据数据集的大小，考虑是否采用一些提高训练效率的策略，否则一次训练就三天三夜，时间太久了，所以需要调整那些影响整体的模型性能的参数。

1. 调参的目标：偏差和方差的协调

偏差和方差通过准确率来影响着模型的性能。调参的目标就是为了达到整体模型的偏差和方差的大和谐。进一步，这些参数又可以分为两类：过程影响类及子模型影响类。在子模型不变的前提下，某些参数可以通过改变训练的过程，从而影响着模型的性能，诸如：“子模型数”（n_estimators），“学习率”（learning_rate）等，另外，还可以通过改变子模型性能来影响整体模型的性能，诸如：“最大树深度”（max_depth），‘分裂条件’（criterion）等。正由于Bagging的训练过程旨在降低方差，而Boosting的训练过程旨在降低偏差，过程影响类的参数能够引起整体模型性能的大幅度变化。一般来说，在此前提下，继续微调子模型影响类的参数，从而进一步提高模型的性能。

2. 参数对整体模型性能的影响

假设模型是一个多元函数F，其输出值为模型的准确度。可以固定其他参数，从而对某个参数整体模型性能的影响进行分析：是正影响还是负影响，影响的单调性是如何的。

对Random Forest来说，增加“子模型树”（n_estimators）可以明显降低整体模型的方差，且不会对子模型的偏差和方差有任何影响。模型的准确度会随着“子模型数”的增加而提高，由于减少的是整体模型方差公式的第二项，故准确度的提高有一个上线。在不同的场景下，“分裂条件”（criterion）对模型的准确度的影响也不一样，该参数需要在实际运行时灵活调整。调整“最大叶子节点数”（max_leaf_models）以及“最大树深度”（max_depth）之一，可以粗粒度地调整树的结构：叶节点越多或者树越深，意味着子模型的偏差月底，方差越高；同时，调整”分裂所需要最小样本数”（min_samples_split），“叶节点最小样本数”（min_samples_leaf）及“叶节点最小权重总值”（min_weight_fraction_leaf），可以更细粒度地调整树的结构：分裂所需样本数越少或者叶节点所需样本越少，也意味着子模型越复杂。一般来说，我们总采用bootstrap对样本进行子采样来降低子模型之间的关联度，从而降低整体模型的方差。适当地减少“分裂时考虑的最大特征数”（max_features），给子模型注入了另外的随机性，同样也达到了降低子模型之间关联度的效果。但是一味地降低该参数也是不行的，因为分裂时可选特征变少，模型的偏差会越来越大。在下图中，可以看到这些参数对Random Forest整体模型性能的影响：

3. 调参步骤

首先先调既不会增加模型复杂度，又对模型影响最大的参数n_estimators（学习曲线）
找到最佳值后，调max_depth（单个网格搜索，也可以使用学习曲线）
一般根据数据的大小来进行一个探视，当数据集很小的时候，可以采用1_10，或者120这样的试探，但是对于大型数据来说，应该尝试30~50 层深度（或许更深）
接下来依次对各个参数进行调参
　注意：
　- 对大型数据集，max_leaf_nodes可以尝试从1000来构建，先输入1000，每100个叶子一个区间，再逐渐缩小范围
　- 对于min_samples_split 和 min_samples_leaf，一般从他们的最小值开始向上增加10或者20，面对高纬度高样本数据，如果不放心可以直接50+，对于大型数据可能需要200~300的范围，如果调整的时候发现准确率无论如何都上不来，可以放心大胆的调试一个很大的数据，大力限制模型的复杂度

3.5 随机森林回归模型调参

3.5.1 使用gridsearchcv探索n_estimators的最佳值

def random_forest_parameter_tuning1(feature_data, label_data):
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
    from sklearn.model_selection import GridSearchCV
 
    X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
    param_test1 = {
     
        'n_estimators': range(10, 100, 10)
    }
    model = GridSearchCV(estimator=RandomForestRegressor(
        min_samples_split=100, min_samples_leaf=20, max_depth=8, max_features='sqrt',
        random_state=10), param_grid=param_test1, cv=5
    )
    model.fit(X_train, y_train)
    # 对测试集进行预测
    y_pred = model.predict(X_test)
    # 计算准确率
    MSE = mean_squared_error(y_test, y_pred)
    RMSE = np.sqrt(MSE)
    print(RMSE)
    return model.best_score_, model.best_params_

输出：

best n_estimators_RMSE: 19.64849505163415
params: {
     'n_estimators': 70}

这样得到了最佳的弱学习器迭代次数，为70.。

3.5.2 对决策树最大深度 max_depth 求最佳值

得到了最佳弱学习器迭代次数，接着对决策树最大深度max_depth和内部节点再划分所需要最小样本数min_samples_split进行网格搜索。

def random_forest_parameter_tuning2(feature_data, label_data):
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
    from sklearn.model_selection import GridSearchCV
 
    X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
    param_test2 = {
     
        'max_depth': range(3, 20, 1)
    }
    model = GridSearchCV(estimator=RandomForestRegressor(
        n_estimators=70, min_samples_leaf=20, max_features='sqrt', oob_score=True,
        random_state=10), param_grid=param_test2, cv=5
    )
    model.fit(X_train, y_train)
    # 对测试集进行预测
    y_pred = model.predict(X_test)
    # 计算准确率
    MSE = mean_squared_error(y_test, y_pred)
    RMSE = np.sqrt(MSE)
    print("best max_depth：", RMSE)
    print("params:", model.best_params_)
    return model.best_score_, model.best_params_

输出：

best max_depth： 17.076022082821094
params: {
     'max_depth': 14}

这样得到了最佳的决策树最大深度，为14。

3.5.3 求内部节点再划分所需要的最小样本数min_samples_split和叶子节点最小样本数min_samples_leaf的最佳参数

下面对内部节点在划分所需要最小样本数min_samples_split和叶子节点最小样本数min_samples_leaf一起调参。

def random_forest_parameter_tuning3(feature_data, label_data):
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
    from sklearn.model_selection import GridSearchCV
 
    X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
    param_test3 = {
     
        'min_samples_split': range(2, 10, 2),
        'min_samples_leaf': range(2, 10, 2),
    }
    model = GridSearchCV(estimator=RandomForestRegressor(
        n_estimators=70, max_depth=14, max_features='sqrt', oob_score=True,
        random_state=10), param_grid=param_test3, cv=5
    )
    model.fit(X_train, y_train)
    # 对测试集进行预测
    y_pred = model.predict(X_test)
    # 计算准确率
    MSE = mean_squared_error(y_test, y_pred)
    RMSE = np.sqrt(MSE)
    print("best min_sample_leaf and min_sample_split:", RMSE)
    print("params:", model.best_params_)
    return model.best_score_, model.best_params_

输出：

best min_sample_leaf and min_sample_split: 14.524410925030937
params: {
     'min_samples_leaf': 2, 'min_samples_split': 8}

3.5.4 求最大特征数max_features的最佳参数

def random_forest_parameter_tuning4(feature_data, label_data):
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
    from sklearn.model_selection import GridSearchCV
 
    X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
    param_test3 = {
     
        'max_features': range(3, 9, 2),
    }
    model = GridSearchCV(estimator=RandomForestRegressor(
        n_estimators=70, max_depth=13, min_samples_split=10, min_samples_leaf=10, oob_score=True,
        random_state=10), param_grid=param_test3, cv=5
    )
    model.fit(X_train, y_train)
    # 对测试集进行预测
    y_pred = model.predict(X_test)
    # 计算准确率
    MSE = mean_squared_error(y_test, y_pred)
    RMSE = np.sqrt(MSE)
    print("best max_features:", RMSE)
    print("params:", model.best_params_)
    return model.best_score_, model.best_params_

输出：

best max_features: 15.178957907919308
params: {
     'max_features': 7}

3.5.5 汇总搜索到的最佳参数，然后训练

def random_forest_train(feature_data, label_data, test_feature, submitfile):
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.model_selection import train_test_split
    from sklearn.metrics import mean_squared_error
 
    X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
    params = {
     
        'n_estimators': 70,
        'max_depth': 14,
        'min_samples_split': 8,
        'min_samples_leaf': 2,
        'max_features': 7
    }
    model = RandomForestRegressor(**params)
    model.fit(X_train, y_train)
    # 对测试集进行预测
    y_pred = model.predict(X_test)
    # 计算准确率
    MSE = mean_squared_error(y_test, y_pred)
    RMSE = np.sqrt(MSE)
    print(RMSE)

输出：

random_forest_train_RMSE: 14.492368274315185

经过调参，结果由18.028优化到了14.492

参考资料

https://www.cnblogs.com/wj-1314/p/9628303.html
气温预测
100天搞定机器学习

你可能感兴趣的:(统计机器学习,算法,机器学习)

可解释性：走向透明与可信的人工智能一位小说男主人工智能入门深度学习机器学习人工智能神经网络
随着深度学习和机器学习技术的迅速发展，越来越多的行业和领域开始应用这些技术。然而，这些技术的“黑盒”特性也带来了不容忽视的挑战。在许多任务中，尽管这些模型表现出色，取得了相当高的精度，但其决策过程不透明，这对于依赖于机器决策的应用（如金融、医疗、法律等）来说，可能是无法接受的。因此，如何提高模型的可解释性、实现透明和可信的人工智能，成为了当下人工智能领域的重要课题。❤️本文将深入探讨机器学习中的可
MATLAB算法实战应用案例精讲-【优化算法】蘑菇繁殖优化算法(MRO)(附MATLAB代码实现) 林聪木 matlab 开发语言
目录前言算法原理算法思想算法步骤优缺点带模糊需求的开放式选址路径问题的混合离散蘑菇繁殖算法１ＯＬＲＰ⁃ＦＤ模型１.１可信度理论１.２问题描述１.３模型２求解ＯＬＲＰ⁃ＦＤ的混合离散蘑菇繁殖算法２.２初始化２.３改进蘑菇繁殖算法２.４随机模拟程序２.５ＨＤＭＲＯ算法流程基于改进蘑菇繁殖算法的机器人路径规划机器人路径规划方法研究现状路径规划方法传统路径规划方法智能路径规划方法机器人群体系统结构分布式结
DFS+剪枝去重+排序+回溯算法+DFS遍历叶子节点 47. 全排列 II 豌豆射手GCC leetcode DFS
47.全排列II给定一个可包含重复数字的序列，返回所有不重复的全排列。示例:输入:[1,1,2]输出:[[1,1,2],[1,2,1],[2,1,1]]来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/permutations-ii著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。解题难点：数组中有相同元素，但输出的全排列数组不
Linux安全体系学习笔记之二：OpenSSL源代码分析(1) Aegeaner 安全 Linux安全体系学习笔记代码分析 linux ssl session callback extension
OpenSSL的源代码包括三部分：加密算法库、SSL库和应用程序。加密算法库的源代码主要在crypto文件夹里，包括ASN.1编码与解码接口（crypto/asn1/asn1.h），伪随机数产生器（crypto/rand/rand.h），ENGINE机制（crypto/engine），统一密码算法的EVP密码算法接口（crypto/evp/evp.h），大数运算接口（crypto/bn/bn.h）
【算法】经典博弈论问题——斐波那契博弈 + Zeckendorf 定理 python 查理零世算法 python 数据结构
目录斐波那契博弈（FibonacciNim）齐肯多夫（Zeckendorf）定理示例分析实战演练斐波那契博弈（FibonacciNim）先说结论：当初始石子数目n是斐波那契数时，先手必败；否则，先手有策略获胜。证明概要:当n=2时，先手只能取1颗石子，后手直接取剩下的1颗石子获胜，因此先手必败。假设对于所有小于等于某个斐波那契数f[k]的情况，结论都成立。归纳：对于f[k+1]=f[k]+f[k-
单目测距（yolo-目标检测+标定+深度学习目标检测_测距）计算机C9硕士_算法工程师 YOLO 目标检测深度学习
YOLOv5模型介绍YOLOv5是目前最先进的目标检测算法之一，在多个数据集上取得了优秀的表现。相较于YOLOv4，YOLOv5采用了更深的Backbone网络和更高的分辨率输入图像，以提高检测精度和速度。单目测距实现方法在目标检测的基础上，我们可以通过计算物体在图像中的像素大小来估计其距离。具体方法是，首先确定某个物体的实际尺寸，然后根据该物体在图像中的像素大小计算其距离。这个方法可以应用于各种
数据挖掘常用算法模型简介大乔乔布斯数据挖掘线性回归决策树
以下是数据挖掘中常用的算法模型及其简称、英文全称和使用场景的简要介绍：1.决策树（DecisionTree,DT）常用算法：CART:ClassificationandRegressionTreeID3:IterativeDichotomiser3C4.5:基于ID3改进使用场景：分类问题（如信用风险评估、客户分类）回归问题（如预测房价）特点：易解释、适合处理非线性数据。2.随机森林（Random
LeetCode 第78题：子集题解 Gemini技术窝 leetcode 算法数据结构 java
大家好，欢迎来到《LeetCode趣味解题》！今天我们要讨论的是第78题——子集。这道题目要求我们找出一个集合的所有子集。这就像是在一大堆水果中挑选出所有可能的组合，或是在衣柜中挑选出所有可能的穿搭方式。让我们一起来探索多种解法，深入理解这个问题。文章目录题目描述方法一：递归回溯法思路代码实现代码逻辑流程图方法二：迭代法思路代码实现代码逻辑流程图方法三：位运算法思路代码实现代码逻辑流程图例子分析总
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
LeetCode - 698 划分为k个相等的子集程序员阿甘华为OD算法刷题笔记 leetcode 算法 JavaScript Java Python
目录题目来源题目描述示例提示题目解析算法源码题目来源698.划分为k个相等的子集-力扣（LeetCode）题目描述给定一个整数数组nums和一个正整数k，找出是否有可能把这个数组分成k个非空子集，其总和都相等。示例输入nums=[4,3,2,3,5,2,1],k=4输出true
‘Accept-Encoding‘: ‘gzip, deflate, br‘ 的含义暮雨疏桐 http https
Accept-Encoding是HTTP协议中的一个头部字段，其主要作用在于告知服务器客户端能够理解的内容编码方式。这个字段对于网络传输效率的优化非常重要，因为它允许服务器根据客户端的能力来压缩响应数据，从而减少传输的数据量，加快网页加载速度。以下是关于Accept-Encoding的详细解释：作用：告知服务器客户端支持的内容压缩编码方式。允许服务器根据客户端的支持情况选择合适的压缩算法来压缩响应
Depth Anything V2：单目深度估计的更强基线武朵欢Nerissa
DepthAnythingV2：单目深度估计的更强基线项目地址:https://gitcode.com/gh_mirrors/de/Depth-Anything-V2项目介绍DepthAnythingV2是由HKU与TikTok团队合作开发的单目深度估计算法的升级版本。这个框架显著提升了细节处理能力和鲁棒性，相比于基于深度学习的方法，它提供了更快的推理速度、更少的参数量以及更高的深度预测精度。本项
使用scikit-learn实现线性回归对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinear
MarsCode算法题之补给站最优花费问题 xiao--xin 豆包MarsCode算法题算法 java 动态规划 MarsCode
1.问题描述小U计划进行一场从地点A到地点B的徒步旅行，旅行总共需要M天。为了在旅途中确保安全，小U每天都需要消耗一份食物。在路程中，小U会经过一些补给站，这些补给站分布在不同的天数上，且每个补给站的食物价格各不相同。小U需要在这些补给站中购买食物，以确保每天都有足够的食物。现在她想知道，如何规划在不同补给站的购买策略，以使她能够花费最少的钱顺利完成这次旅行。M：总路程所需的天数。N：路上补给站的
python3+TensorFlow 2.x（四）反向传播刀客123 python学习 tensorflow 人工智能 python
目录反向传播算法反向传播算法基本步骤：反向中的参数变化总结反向传播算法反向传播算法（Backpropagation）是训练人工神经网络时使用的一个重要算法，它是通过计算梯度并优化神经网络的权重来最小化误差。反向传播算法的核心是基于链式法则的梯度下降优化方法，通过计算误差对每个权重的偏导数来更新网络中的参数。反向传播算法基本步骤：前向传播：将输入数据传递通过神经网络的各层，计算每一层的输出。计算损失
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
python【数据结构与算法】最长公共子串详解（附代码）理想不闪火算法
文章目录1定义1定义和最长公共子序列一样，使用动态规划的算法。下一步就要找到状态之间的转换方程。和LCS问题唯一不同的地方在于当A[i]!=B[j]时，res[i][j]就直接等于0了，因为子串必须连续，且res[i
算法刷题Day27:BM65 最长公共子序列(二) SchrodingerSDOG 看能坚持多久系列算法
题目链接，点击跳转题目描述：考点：动态规划回溯解题思路：动态规划是解决LCS问题的常用方法。其核心思想是将问题分解为子问题，并通过存储子问题的解来避免重复计算。1.定义dp数组元素含义使用二维dp数组，元素dp[i][j]表示s2的前i个字符和s1的前j个字符的最长公共子序列长度。2.dp数组状态转移方程如果s2[i-1]==s1[j-1]，则dp[i][j]=dp[i-1][j-1]+1。(来自
算法刷题Day1 SchrodingerSDOG 看能坚持多久系列算法 python
BM47寻找第k大第一天就随便记录吧，万事开头难，我好不容易开的头，就别难为自己，去追求高质量了。嘿嘿嘿题目传送门解题思路一：维护一个大小为k的最小堆。最后返回堆顶元素。代码：##代码中的类名、方法名、参数名已经指定，请勿修改，直接返回方法规定的值即可###@paramaint整型一维数组#@paramnint整型#@paramKint整型#@returnint整型#fromheapqimport
求两个字符串的最长公共子串（初学者适用）打不倒的光头强和灰太狼数据结构 c语言
求两个字符串的最长公共子串（初学者适用）何为公共子串？即两个字符串中相等且连续的子串。例如：串“abcde”和串“gabfcde”中公共子串有ab”和“cde”两个。何为最长公共子串呢?即在上述“公共子串”的定义中加上最长二字，上面例子中“cde”便是最长公共子串。基本算法思想大致思路假设有串str1和串str2。挨个找出str1和str2中所有的公共子串，在寻找过程中只记录下长度最长的公共子串。
C/C++ 已排序的链表中删除重复项算法详解及源码猿来如此yyy C/C++算法详解及源码算法 c语言 c++计算机视觉排序算法数据结构链表
已排序的链表中删除重复项的算法可以通过遍历链表的方式实现。具体步骤如下：初始化一个指针cur，指向链表的头节点。遍历链表，如果当前节点的值和下一个节点的值相同，则删除下一个节点，并将当前节点的next指针指向下一个节点的next指针，即将当前节点与下一个节点的重复项跳过。如果当前节点的值和下一个节点的值不同，则将指针cur指向下一个节点。优点：时间复杂度为O(n)，其中n为链表的长度，算法只需要一
终于把前后端sm加解密以及加签验证调通了。清风孤客前端 javascript spring java spring boot
终于把前后端sm加解密以及加签验证调通了！领导要求我对项目的数据传输安全考虑下，因此就想到了对敏感字段做加密和对请求、响应做数字签名验证。网上看了很多文章，可能是因为我对加密这块不了解，感觉都比较乱。所以前前后后花了4天才把前后端调通。特地写一篇文章记录下流程。这里使用的是sm国密算法。不对的地方请读者评论指出。1.简单说明：前端使用sm-crypto库后端加密库使用bc库，架构上使用aop，注解
C++ STL容器 He Des c++开发语言
参考oiwikiSTL的产生是为了简化数据结构和算法的内部实现并对任一数据类型都可实现对应操作将功能封装起来，用时即拿类型序列式容器向量vector顺序表可当作动态数组使用数组arrayC++11特性定长顺序表（静态数组）双端队列deque两端均可对数据元素进行高效操作的队列列表list可沿双向遍历的链表（双向链表）单向列表（forward_list）只能单向遍历关系式容器集合set有序性互异性红
【算法应用】基于A*-蚁群算法求解无人机城市多任务点配送路径问题小O的算法实验室智能算法应用 UAV路径规划多目标点路径规划算法多任务点路径规划无人机路径规划
目录1.A星算法原理2.蚁群算法原理3.结果展示4.代码获取1.A星算法原理A*算法是一种基于图搜索的智能启发式算法，它具有高稳定性和高节点搜索效率。主要原理为：以起点作为初始节点，将其加入开放列表。从开放列表中选择具有最小总代价值f(n)f(n)f(n)的节点作为当前节点，其中f(n)f(n)f(n)由实际路径代价g(n)g(n)g(n)和到目标点估计代价h(n)h(n)h(n)组成。检查当前节
【算法应用】基于麻雀搜索算法SSA求解车间布局优化问题小O的算法实验室智能算法智能算法应用车间布局优化智能算法应用车间布局优化智能算法
目录1.问题背景2.车间布局数学模型3.麻雀搜索算法SSA原理4.结果展示5.参考文献6.代码获取1.问题背景工厂设施布置的规划一直是工业工程领域不断研究和探索的内容，其中最具代表性之一的是系统布置设计(systemlayoutplanning，SLP)方法。作为一种经典且有效的方法，其为设施布置提供了很好的改善思路，但在长期的发展中也存在一些不可避免的缺点，如计算结果不够精确，很难确保计算结果较
【智能算法】哈里斯鹰算法（HHO)原理及实现小O的算法实验室智能算法算法智能算法
目录1.背景2.算法原理2.1算法思想2.2算法过程3.代码实现4.参考文献1.背景2019年，Heidari等人受到哈里斯鹰捕食行为启发，提出了哈里斯鹰算法(HarrisHawkOptimization,HHO)。2.算法原理2.1算法思想根据哈里斯鹰特性，HHO分为探索-过渡-开发三个阶段。2.2算法过程探索：哈里斯鹰以其强大的视力追踪和检测猎物，但有时猎物不易察觉。它们会在沙漠地区等待、观察
Upgini: 智能数据搜索与丰富化引擎 - 提升机器学习和人工智能模型准确性的利器 2401_87189860 人工智能机器学习
Upgini:智能数据搜索与丰富化引擎在当今数据驱动的世界中,机器学习和人工智能模型的准确性至关重要。然而,提高模型准确性往往是一项艰巨的任务,需要大量的特征工程和数据处理工作。幸运的是,Upgini这一创新的Python库为数据科学家和机器学习工程师提供了一个强大的解决方案。Upgini的核心功能Upgini是一个智能数据搜索和丰富化引擎,专为机器学习和AI设计。它的主要功能包括:自动特征发现与
利用 Python 编程随机生成 n 个 1~9 之间的整数，然后统计生成的各个随机整数的个数。 hnjzsyjyj Python程序设计 Python 列表
【题目描述】利用Python编程随机生成n个1~9之间的整数，然后统计生成的各个随机整数的个数。【算法分析】●输入的n必须≥10，这是因为代码中数组cnt[]的下标会到9。若n小于10，将不会有下标9，就会产生IndexError。●利用“桶排序”中“桶”的思想进行统计。【算法代码】fromrandomimport*n=eval(input("Enteranintegerwhich≥10:"))c
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
DeepSeek：突破传统的AI算法与下载排行分析 smart_ljh 行业搜索人工智能 AI
DeepSeek的AI算法突破DeepSeek相较于OpenAI以及其它平台的性能对比DeepSeek的下载排行分析（截止2025/1/28AI人工智能相关DeepSeek甚至一度被推上了搜索）未来发展趋势总结在人工智能技术飞速发展的当下，搜索引擎市场也迎来了新的变革。DeepSeek，作为一款基于深度学习技术和大数据算法的搜索引擎，以其独特的优势在国内外市场上引起了广泛关注。下面介绍一下针对De
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb