kongqing23

机器学习sklearn-随机森林

1 集成学习

2 随机森林分类器

2.1 随机森林分类器函数及其参数

2.2 构建随机森林

2.3 在交叉验证下比较随机森林和决策树

2.4 绘制n_estimators的学习曲线

3 随机森林回归器

3.1 随机森林分类器函数及其参数

3.2 用随机森林回归填补缺失值

4 机器学习调参的基本思想

4.1 相关概念

4.2 实例

1 集成学习

集成学习通过构建并结合多个学习器来完成学习任务，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。它可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。

集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。

多个模型集成成为的模型叫做集成评估器（ensemble estimator），组成集成评估器的每个模型都叫做基评估器（base estimator）。通常来说，有三类集成算法：装袋法（Bagging），提升法（Boosting）和stacking。

装袋法的核心思想是构建多个 相互独立的评估器 ，然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林。

提升法中，基评估器是相关的，是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测，从而构成一个强评估器。提升法的代表模型有 Adaboost 和梯度提升树。

要获得好的集成，个体学习器应该“好而不同”，即个体学习器不仅要有一定的准确性，而且学习器之间应该具有差异。

2 随机森林分类器

2.1 随机森林分类器函数及其参数

随机森林分类器的参数有许多和决策树的参数一致。其中控制基评估器的参数如下。

其他相关参数：

n_estimators：

这是森林中树木的数量，即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的， n_estimators 越 大，模型的效果往往越好 。但是相应的，任何模型都有决策边界， n_estimators 达到一定的程度之后，随机森林的精确性往往不在上升或开始波动，并且，n_estimators 越大，需要的计算量和内存也越大，训练的时间也会越来越长。对于这个参数，我们是渴望在训练难度和模型效果之间取得平衡。

random_state：

随机森林的本质是一种装袋集成算法（ bagging ），装袋集成算法是对基评估器的预测结果进行平均或用多数表决原则来决定集成评估器的结果。在刚才的红酒例子中，我们建立了25 棵树，对任何一个样本而言，平均或多数表决原则下，当且仅当有13 棵以上的树判断错误的时候，随机森林才会判断错误。单独一棵决策树对红酒数据集的分类准确率在0.85 上下浮动，假设一棵树判断错误的可能性为 0.2(ε) ，那 20 棵树以上都判断错误的可能性是：

其中， i 是判断错误的次数，也是判错的树的数量， ε 是一棵树判断错误的概率，（ 1-ε ）是判断正确的概率，共判对25-i次。

所以随机森林判断错误的几率非常小，这让随机森林在红酒数据集上的表现远远好于单棵决策树。

sklearn 中的分类树 DecisionTreeClassififier 自带随机性，所以随机森林中的树天生就都是不一样的，决策树从最重要的特征中随机选择出一个特征来进行分枝，因此每次生成的决策树都不一样，这个功能由参数random_state控制。

随机森林中其实也有 random_state ，用法和分类树中相似，只不过在分类树中，一个 random_state 只控制生成一棵树，而随机森林中的random_state 控制的是生成森林的模式，而非让一个森林中只有一棵树。

当 random_state 固定时，随机森林中生成是一组固定的树，但每棵树依然是不一致的，这是

用 ” 随机挑选特征进行分枝 “ 的方法得到的随机性。并且我们可以证明，当这种随机性越大的时候，袋装法的效果一般会越来越好。用袋装法集成时，基分类器应当是相互独立的，是不相同的 。

但这种做法的局限性是很强的，当我们需要成千上万棵树的时候，数据不一定能够提供成千上万的特征来让我们构筑尽量多尽量不同的树。因此，除了random_state 。我们还需要其他的随机性。

bootstrap & oob_score:

要让基分类器尽量都不一样，一种很容易理解的方法是使用不同的训练集来进行训练，而袋装法正是通过有放回的随机抽样技术来形成不同的训练数据，bootstrap 就是用来控制抽样技术的参数。

在一个含有 n 个样本的原始训练集中，我们进行随机采样，每次采样一个样本，并在抽取下一个样本之前将该样本放回原始训练集，也就是说下次采样时这个样本依然可能被采集到，这样采集n 次，最终得到一个和原始训练集一样大的，n 个样本组成的自助集。由于是随机采样，这样每次的自助集和原始数据集不同，和其他的采样集也是不同的。这样我们就可以自由创造取之不尽用之不竭，并且互不相同的自助集，用这些自助集来训练我们的基分类器，我们的基分类器自然也就各不相同了。

bootstrap 参数默认 True ，代表采用这种有放回的随机抽样技术 。通常，这个参数不会被我们设置为 False。

有放回抽样也会有自己的问题。由于是有放回，一些样本可能在同一个自助集中出现多次，而其他一些却可能被忽略，一般来说，自助集大约平均会包含63% 的原始数据。

因为每一个样本被抽到某个自助集中的概率为（逆向思维，减去某个样本永远不会被抽到概率）：

当 n 足够大时，这个概率收敛于 1-(1/e) ，约等于 0.632 。因此，会有约 37% 的训练数据被浪费掉，没有参与建模，这些数据被称为袋外数据(out of bag data ，简写为 oob) 。除了我们最开始就划分好的测试集之外，这些数据也可以被用来作为集成算法的测试集。也就是说，在使用随机森林时，我们可以不划分测试集和训练集，只需要用袋外 数据来测试我们的模型即可。 当然，这也不是绝对的，当 n 和 n_estimators 都不够大的时候，很可能就没有数据掉落在袋外，自然也就无法使用oob 数据来测试模型了。

如果希望用袋外数据来测试，则需要在实例化时就将 oob_score 这个参数调整为 True ，训练完毕之后，我们可以用随机森林的另一个重要属性：oob_score_ 来查看我们的在袋外数据上测试的结果。

2.2 构建随机森林

随机森林是无法被可视化的。为了更加直观地体会随机森林的效果，我们来进行一个随机森林和单个决策树效益的对比。使用红酒数据集。

在红酒数据集上，随机森林的效果比决策树更好。

from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_wine

wine=load_wine()
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

#实例化
clf=DecisionTreeClassifier()
rfc=RandomForestClassifier()
clf=clf.fit(Xtrain,Ytrain)
rfc.fit(Xtrain,Ytrain)
score_c=clf.score(Xtest,Ytest)
score_r=rfc.score(Xtest,Ytest)
print("Single Tree:{}".format(score_c))
print("Random Forest:{}".format(score_r))

2.3 在交叉验证下比较随机森林和决策树

经过对比，可以发现随机森林的效果确实好于决策树，只有少部分情况下，两者的准确率相同，其他时刻，随机森林都优于决策树。

from matplotlib import colors
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_wine

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

wine=load_wine()
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

#实例化
rfc=RandomForestClassifier(n_estimators=20) #设定基评估器数量
clf=DecisionTreeClassifier()

#进行交叉验证
rfc_s=cross_val_score(rfc,wine.data,wine.target,cv=15)
clf_s=cross_val_score(clf,wine.data,wine.target,cv=15)

#绘图
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(1,16),clf_s,color='blue',label="DecisionTreeClassifier")
plt.plot(range(1,16),rfc_s,color='red',label="RandomForestClassifier")
plt.xlabel('交叉验证次数')
plt.ylabel('准确度')
plt.legend(loc='best')
plt.show()

2.4 绘制n_estimators的学习曲线

from matplotlib import colors
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_wine

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

wine=load_wine()
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

score=[]
for i in range(100):
    rfc=RandomForestClassifier(n_estimators=i+1)
    rfc_s=cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
    score.append(rfc_s)

print("最高准确率{} 对应次数{}".format(max(score),score.index(max(score))))
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(1,101),score)
plt.xlabel('基评估器数量')
plt.ylabel('准确度')
plt.show()

3 随机森林回归器

3.1 随机森林分类器函数及其参数

criterion:

回归树衡量分枝质量的指标，支持的标准有三种：

1 ）输入 "mse" 使用均方误差 mean squared error(MSE) ，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2 损失。

2 ）输入 “friedman_mse” 使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差。

3 ）输入 "mae" 使用绝对平均误差 MAE （ mean absolute error ），这种指标使用叶节点的中值来最小化 L1 损失。

3.2 用随机森林回归填补缺失值

在 sklearn 中，我们可以使用 sklearn.impute.SimpleImputer 来轻松地将均值，中值，或者其他最常用的数值填补到数据中，在这个案例中，我们将使用均值，中指，0 ，和随机森林回归来填补缺失值，并验证四种状况下的拟合状况，找出对使用的数据集来说最佳的缺失值填补方法。

任何回归都是从特征矩阵中学习，然后求解连续型标签y的过程，之所以能够实现这个过程，是因为回归算法认为，特征矩阵和标签之前存在着某种联系。实际上，标签和特征是可以相互转换的，比如说，在一个“用地区，环境，附近学校数量”预测“房价”的问题中，我们既可以用“地区”，“环境”，“附近学校数量”的数据来预测“房价”，也可以反过来，用“环境”，“附近学校数量”和“房价”来预测“地区”。而回归填补缺失值，正是利用了这种思想。

对于一个有n个特征的数据来说，其中特征T有缺失值，我们就把特征T当作标签，其他的n-1个特征和原本的标签组成新的特征矩阵。那对于T来说，它没有缺失的部分，就是我们的Y_test，这部分数据既有标签也有特征，而它缺失的部分，只有特征没有标签，就是我们需要预测的部分。

特征T不缺失的值对应的其他n-1个特征 + 本来的标签：X_train

特征T不缺失的值：Y_train

特征T缺失的值对应的其他n-1个特征 + 本来的标签：X_test

特征T缺失的值：未知，我们需要预测的Y_test

这种做法，对于某一个特征大量缺失，其他特征却很完整的情况，非常适用。

那如果数据中除了特征T之外，其他特征也有缺失值怎么办？

答案是遍历所有的特征，从缺失最少的开始进行填补（因为填补缺失最少的特征所需要的准确信息最少）。

填补一个特征时，先将其他特征的缺失值用0代替，每完成一次回归预测，就将预测值放到原本的特征矩阵中，再继续填补下一个特征。每一次填补完毕，有缺失值的特征会减少一个，所以每次循环后，需要用0来填补的特征就越来越少。当进行到最后一个特征时（这个特征应该是所有特征中缺失值最多的），已经没有任何的其他特征需要用0来进行填补了，而我们已经使用回归为其他特征填补了大量有效信息，可以用来填补缺失最多的特征。遍历所有的特征后，数据就完整，不再有缺失值了。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas.core.frame import DataFrame
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

boston=load_boston()
# print(boston)
# print(boston.data.shape)

#存放完整的数据集，之后会对数据集进行缺失处理再填补，进而和原数据集作比较
x_full,y_full=boston.data,boston.target #存放原始数据及特征
n_samples=x_full.shape[0]#记录完整样本个数
n_features=x_full.shape[1]#记录完整特征个数

#为完整数据放入缺失值
#确定缺失值的比例，这里我们假设为50%
rng=np.random.RandomState(0)#确定一种随机模式
missing_rate=0.5
n_missing_samples=int(np.floor(n_samples*n_features*missing_rate))#向下取整，结果缺失数据总数 
# print(n_missing_samples)

#生成的缺失值要分布在数据的各行各列中
miss_features=rng.randint(0,n_features,n_missing_samples) #3个参数依次为下限 上限 个数
miss_samples=rng.randint(0,n_samples,n_missing_samples)

#如果取出的随机数小于样本量 可以采用choice方法
#missing_samples = rng.choice(n_samples,n_missing_samples,replace=False) #从左到右参数为最大值 所需要随机取数的个数 不会重复 保证数据更加分散

#创造缺失的数据
#拷贝原始完整数据后进行操作
x_missing=x_full.copy()
y_missing=y_full.copy()
#将完整数据中一部分以缺失值替代
x_missing[miss_samples,miss_features]=np.nan
#转换为dataframe方便进行后续操作
x_missing=DataFrame(x_missing)
# print(x_missing)

#使用均值填补缺失值
imp_mean=SimpleImputer(missing_values=np.nan,strategy='mean')#实例化
x_missing_mean = imp_mean.fit_transform(x_missing) #fit_transform 训练+导出predict
#查看填补是否完成
# print(pd.DataFrame(x_missing_mean).isnull().sum())

#使用中值填补缺失值
imp_median=SimpleImputer(missing_values=np.nan,strategy='median')#实例化
x_missing_median = imp_median.fit_transform(x_missing) #fit_transform 训练+导出predict
#查看填补是否完成
# print(pd.DataFrame(x_missing_median).isnull().sum())

#使用0进行填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant",fill_value=0)
x_missing_0 = imp_0.fit_transform(x_missing)
#查看填补是否完成
# print(pd.DataFrame(x_missing_0).isnull().sum())

#使用随机森林填补缺失值
x_missing_reg=x_missing.copy()#复制需要利用回归填补缺失值的矩阵
#找出缺失值从小到大对应特征值排列的顺序 本质是找索引 从缺失最多的开始填充 
sortindex=np.argsort(x_missing_reg.isnull().sum(axis=0)).values #argsort返回索引 利用values把数据取出
#遍历填充缺失值
for i in sortindex:
    #构建新特征矩阵（没有被选中去填充的特征+原始标签）和新标签（被选中去填充的特征）
    df=x_missing_reg
    fillc=df.iloc[:,i] 
    #新的特征矩阵
    df=pd.concat([df.iloc[:,df.columns!=i],pd.DataFrame(y_full)],axis=1) #左右连接
    #在新特征矩阵中，对含有缺失值的列，进行0的填补
    df_0 =SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)
    #找出训练集 测试集
    Ytrain = fillc[fillc.notnull()] #被选中要填充的特征中的非空
    Ytest = fillc[fillc.isnull()]     #被选中要填充的特征中，不存在的那些值  我们需要的不是ytest的值，而是其索引
    Xtrain = df_0[Ytrain.index,:] #在新特征矩阵上，被选出来的非空值所对应的记录
    Xtest = df_0[Ytest.index,:]    #在新特征矩阵上，被选出来的那个特征空值所对应的记录

    #利用随机森林填补缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, Ytrain)
    Ypredict = rfc.predict(Xtest)#得到预测结果

    #将填好的特征填入原始特征矩阵
    x_missing_reg.loc[x_missing_reg.iloc[:,i].isnull(),i]=Ypredict  #先利用iloc找出为nan的行索引

# print(x_missing_reg.isnull().sum())

#对所有数据进行建模，取得MSE结果
X = [x_full,x_missing_0,x_missing_mean,x_missing_median,x_missing_reg]
mse = []
std = []
for x in X:
    estimator = RandomForestRegressor()
    scores = cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error', cv=5).mean()#使用负的均方误差打分
    mse.append(scores * -1)#将结果转正
print(*zip(['x_full','x_missing_0','x_missing_mean','x_missing_median','x_missing_reg'],mse))#越小越好

#绘图
x_labels = ['Full data','Zero Imputation','Mean Imputation','Median Imputation','Regressor Imputation']
colors = ['r', 'g', 'b','black', 'orange']
plt.figure(figsize=(20, 8),dpi=80)
ax = plt.subplot(111) #添加子图 为后续函数化做准备
for i in np.arange(len(mse)):
    ax.barh(i, mse[i],color=colors[i], alpha=0.6, align='center') #将条形图横过来  在中央绘制
ax.set_title('Imputation Techniques with Boston Data')
ax.set_xlim(left=np.min(mse) * 0.9,right=np.max(mse) * 1.1)#限定范围 x轴为mse取值
ax.set_yticks(np.arange(len(mse)))#设置y刻度
ax.set_xlabel('MSE')
ax.set_yticklabels(x_labels)#更改y的刻度
plt.show()

4 机器学习调参的基本思想

4.1 相关概念

模型调参，第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫做泛化误差（Genelization error）。

当模型在未知数据（测试集或者袋外数据）上表现糟糕时，我们说模型的泛化程度不够，泛化误差大，模型的效果不好。泛化误差受到模型的结构（复杂度）影响。看下面这张图，它准确地描绘了泛化误差与模型复杂度的关系，当模型太复杂，模型就会过拟合，泛化能力就不够，所以泛化误差大。当模型太简单，模型就会欠拟合，拟合能力就不够，所以误差也会大。只有当模型的复杂度刚刚好的才能够达到泛化误差最小的目标。

对树模型来说，树越茂盛，深度越深，枝叶越多，模型就越复杂。所

以树模型是天生位于图的右上角的模型，随机森林是以树模型为基础，所以随机森林也是天生复杂度高的模型。随机森林的参数，都是向着一个目标去：减少模型的复杂度，把模型往图像的左边移动，防止过拟合。当然了，调参没有绝对，也有天生处于图像左边的随机森林，所以调参之前，我们要先判断，模型现在究竟处于图像的哪一边。

泛化误差的背后其实是 “ 偏差-方差困境”。偏差：模型的预测值与真实值之间的差异。方差：反映的是模型每一次输出结果与模型预测值的平均水平之间的误差。偏差衡量模型是否预测得准确，偏差越小，模型越 “ 准 ” ；而方差衡量模型每次预测的结果是否接近，即是说方差越小，模型越 “ 稳 ”；

一个好的模 型，要对大多数未知数据都预测得 ” 准 “ 又 ” 稳 “ 。即是说，当偏差和方差都很低的时候，模型的泛化误差就小，在未知数据上的准确率就高。

方差和偏差是此消彼长的，不可能同时达到最小值。

模型复杂度大的时候，方差高，偏差低。偏差低，就是要求模型要预测得 “ 准 ” 。模型就会更努力

去学习更多信息，会具体于训练数据，这会导致，模型在一部分数据上表现很好，在另一部分数据上表现却很糟糕。模型泛化性差，在不同数据上表现不稳定，所以方差就大。而要尽量学习训练集，模型的建立必然更多细节，复杂程度必然上升。所以，复杂度高，方差高，总泛化误差高。

相对的，复杂度低的时候，方差低，偏差高。方差低，要求模型预测得 “ 稳 ” ，泛化性更强，那对于模型来说，它就不需要对数据进行一个太深的学习，只需要建立一个比较简单，判定比较宽泛的模型就可以了。结果就是，模型无法在某一类或者某一组数据上达成很高的准确度，所以偏差就会大。所以，复杂度低，偏差高，总泛化误差高。

我们调参的目标是，达到方差和偏差的完美平衡！ 虽然方差和偏差不能同时达到最小值，但他们组成的泛化误差却可以有一个最低点，而我们就是要寻找这个最低点。对复杂度大的模型，要降低方差，对相对简单的模型，要降低偏差。随机森林的基评估器都拥有较低的偏差和较高的方差，因为决策树本身是预测比较” 准 “ ，比较容易过拟合的模型，装袋法本身也要求基分类器的准确率必须要有50% 以上。 所以以随机森林为代表的装袋法的训练过程旨在降 低方差，即降低模型复杂度，所以随机森林参数的默认设定都是假设模型本身在泛化误差最低点的右边 。

我们在降低复杂度的时候，本质其实是在降低随机森林的方差，随机森林所有的参数，也都是朝着降低方差的目标去。

1 ）模型太复杂或者太简单，都会让泛化误差高，我们追求的是位于中间的平衡点

2 ）模型太复杂就会过拟合，模型太简单就会欠拟合

3 ）对树模型和树的集成模型来说，树的深度越深，枝叶越多，模型越复杂

4 ）树模型和树的集成模型的目标，都是减少模型复杂度，把模型往图像的左边移动

我们一直以来调参，都是在学习曲线上轮流找最优值，盼望能够将准确率修正到一个比较高的水平。然而我们现在了解了随机森林的调参方向：降低复杂度，我们就可以将那些对复杂度影响巨大的参数挑选出来，研究他们的单调性，然后专注调整那些能最大限度让复杂度降低的参数。对

于那些不单调的参数，或者反而会让复杂度升高的参数，我们就视情况使用，大多时候甚至可以退避。

4.2 实例

查看n_estimators的学习曲线。

在确定好的范围，进一步细化学习曲线。

由于每一次训练集测试集划分的情况不同，所以可能出现细化后的表现不如之前，但是总体而言，细化后的曲线可以提供更为精确的参数选择范围。确定了基评估器的数量后，进一步使用网格搜索查找其他合适参数。

我们将使用网格搜索对参数一个个进行调整。为什么我们不同时调整多个参数呢？原因有两个：1 ）同时调整多个参数会运行非常缓慢，2 ）同时调整多个参数，会让我们无法理解参数的组合是怎么得来的，所以即便网格搜索调出来的结果不好，我们也不知道从哪里去改。在这里，为了使用复杂度- 泛化误差方法（方差 - 偏差方法），我们对参数进行一个个地调整。

调整max_depth

在调制了max_depth后，模型精确度上升，所以模型在泛化复杂度右边。

调整 max_features

max_features是唯一一个即能够将模型往左（低方差高偏差）推，也能够将模型往右（高方差低偏差）推的参数。我们需要根据调参前，模型所在的位置（在泛化误差最低点的左边还是右边）来决定我们要将max_features往哪边调。现在模型位于图像右侧，我们需要的是更低的复杂度，因此我们应该把max_features往更小的方向调整，可用的特征越少，模型才会越复杂。max_features的默认最小值是sqrt(n_features)，因此我们使用这个值的两倍作为调参范围的最大值。

调整 min_samples_leaf

对于min_samples_split和min_samples_leaf,一般是从他们的最小值开始向上增加10或20

面对高维度高样本量数据，如果不放心，也可以直接+50，对于大型数据，可能需要200~300的范围

如果调整的时候发现准确率无论如何都上不来，那可以放心大胆调一个很大的数据，大力限制模型的复杂度

此时min_samples_split反而让准确率下降，所以不设置改参数。

调整random_state

对准确率有所提升。

调整完毕，总结出模型的最佳参数

完整代码如下

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

data = load_breast_cancer()

#初步估计

# scorel = []
# for i in range(0,200,10):
#     rfc=RandomForestClassifier(n_estimators=i+1)
#     score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
#     scorel.append(score)

# print(max(scorel),(scorel.index(max(scorel))*10)+1)
# plt.figure(figsize=[20,8],dpi=80)
# plt.plot(range(1,201,10),scorel)
# plt.show()

#细化估计

# scorel = []
# for i in range(25,36):
#     rfc=RandomForestClassifier(n_estimators=i+1)
#     score=cross_val_score(rfc,data.data,data.target,cv=10).mean()
#     scorel.append(score)
# print(max(scorel),([*range(25,36)][scorel.index(max(scorel))])) #在30-39范围内 取最大值对应的索引
# plt.figure(figsize=[20,8],dpi=80)
# plt.plot(range(25,36),scorel)
# plt.show()

#调整max_depth
# param_grid = {'max_depth':np.arange(1, 20, 1)}
# 一般根据数据的大小来进行一个试探，乳腺癌数据很小，所以可以采用1~10，或者1~20这样的试探
# 但对于像digit recognition那样的大型数据来说，我们应该尝试30~50层深度（或许还不足够
#   更应该画出学习曲线，来观察深度对模型的影响

# rfc = RandomForestClassifier(n_estimators=32)
# GS = GridSearchCV(rfc,param_grid,cv=10)
# GS.fit(data.data,data.target)
# print(GS.best_params_,GS.best_score_)

#调整max_features
#现在模型位于图像右侧 我们需要更低的复杂度
#max_features的默认最小值是sqrt(n_features)，因此我们使用这个值的两倍作为调参范围的最大值。
# param_grid = {'max_features':np.arange(1,10,1)}
# rfc = RandomForestClassifier(n_estimators=32,max_depth=11)
# GS = GridSearchCV(rfc,param_grid,cv=10)
# GS.fit(data.data,data.target)
# print(GS.best_params_,GS.best_score_)

#调整min_samples_leaf
#对于min_samples_split和min_samples_leaf,一般是从他们的最小值开始向上增加10或20
#面对高维度高样本量数据，如果不放心，也可以直接+50，对于大型数据，可能需要200~300的范围
#如果调整的时候发现准确率无论如何都上不来，那可以放心大胆调一个很大的数据，大力限制模型的复杂度
# param_grid={'min_samples_leaf':np.arange(1, 1+10, 1)}
# rfc = RandomForestClassifier(n_estimators=32,max_depth=11,max_features=7)
# GS = GridSearchCV(rfc,param_grid,cv=10)
# GS.fit(data.data,data.target)
# print(GS.best_params_,GS.best_score_)

#调整random_state
# param_grid={'random_state':np.arange(20,150)}
# rfc = RandomForestClassifier(n_estimators=32,max_depth=11,max_features=7)
# GS = GridSearchCV(rfc,param_grid,cv=10)
# GS.fit(data.data,data.target)
# print(GS.best_params_,GS.best_score_)


#确定最终参数
rfc = RandomForestClassifier(n_estimators=39,max_depth=11,max_features=7,random_state=66)
score = cross_val_score(rfc,data.data,data.target,cv=10)
print(score)

你可能感兴趣的:(机器学习,sklearn,随机森林)

安全中心建设关键技术之机器学习 sinfoyou 安全机器学习人工智能
1.1.1功能要求针对目前广为流行的网银、掌上银行撞库行为，需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律，并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上，进一步识别出被撞库成功的账号。由于机器学习算法需要从数据中自动分析获得规律，所以必须要有历史数据。在针对撞库攻击行为分析的场景中，首先需要获取手机银行和网上银行
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
无网络entos7报错ImportError: /lib64/libm.so.6: version `GLIBC_2.27‘ not found更新glibc 夏离网络
最近在尝试使用sklearn的升级版cuml，因为是一台没有连接互联网的gpu机器，所以构建cuml环境过程很坎坷，需要各种将各种whl包在线下载后上传到服务器中。当我终于解决完包的互相依赖问题后，在importcuml时候遇到一个错误：ImportError:/lib64/libm.so.6:version`GLIBC_2.27’notfound(requiredby/anaconda3/env
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
金融风控可解释性算法安全优化实践智能计算研究中心其他
内容概要在金融风险控制领域，算法的可解释性与安全性已成为技术落地的核心挑战。本文从实际业务场景出发，系统性梳理可解释性算法与联邦学习、特征工程的协同框架，通过超参数优化与动态模型评估机制，构建透明化决策链路。在技术实现层面，重点解析支持向量机与随机森林的改进方案，结合数据清洗与标注的标准化流程，强化风险预测模型在准确率、F1值等关键指标的表现，同时兼顾合规性与安全边界的设计要求。提示：金融机构在部
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
Python实现机器学习项目教程：房价预测向着开发进攻 python python 机器学习开发语言
Python实现机器学习小项目教程：房价预测案例机器学习（MachineLearning）是数据科学中的一项重要技术，它通过从数据中学习规律，进行预测和决策。对于初学者来说，通过实际的项目来学习机器学习的原理和实现方法，是非常有效的。本篇教程将通过Python实现一个简单的机器学习小项目——房价预测。我们将使用scikit-learn库来构建并训练一个线性回归模型，预测房价。项目背景假设我们拥有一
AI Agent在企业预算管理与成本控制中的应用 SuperAGI2025 DeepSeek 人工智能大数据 ai
AIAgent在企业预算管理与成本控制中的应用关键词：AIAgent、企业预算管理、成本控制、机器学习、预测模型、优化算法摘要：本文深入探讨了AIAgent在企业预算管理与成本控制中的应用。通过详细的背景介绍、核心概念解析、算法原理讲解和实际案例剖析，本文展示了AIAgent如何通过智能预测和优化算法，为企业带来更高的效率和精确度，从而实现成本控制和预算优化的目标。背景介绍核心概念AIAgent:
常见的深度学习优化器青灯剑客算法 python 人工智能机器学习自然语言处理深度学习
一直用优化器解决问题，但是没有对它进行一个系统的总结。。不对，系统的总结进行过，只是时过境迁，早已忘却。一、照进我脑海的几个家伙一开始学习的当然是SGD，只是学着学着就忘记了。后来呢，接触到网上介绍的几种常用的优化器，看着原理挺给力，可是记了好几次都记不住。直到遇到《百面机器学习》，它从最基本的原理出发，给了我一点灵感。（1）几种常用的优化器，详情见这里链接34（2）二、以为自己遇见了大海老师说，
PyTorch 和 Python关系一只积极向上的小咸鱼 python pytorch 人工智能
1PyTorch和Python关系PyTorch和Python是两个不同但相互关联的工具，主要用于机器学习和深度学习领域。以下是它们之间的关系和各自的作用：Python编程语言:Python是一种高级编程语言，以其简洁易读的语法而闻名。广泛使用:Python在数据科学、人工智能、Web开发、自动化等多个领域有着广泛的应用。库和生态系统丰富:Python拥有丰富的第三方库和工具，如NumPy、pan
基于python的手写数字识别knn_用sklearn中的KNN实现Kaggle手写数字识别普和司
importcsvfromsklearnimportneighbors#导入训练数据和测试数据defloadData(filename1,filename2,trainDataSet,trainTargetSet,testDataSet):withopen(filename1,'r')ascsvfile1:lines1=csv.reader(csvfile1)dataSet=list(lines1
Python与人工智能：为何它们是天作之合？纪至训至 python 人工智能开发语言
引言在人工智能（AI）飞速发展的今天，Python已成为这一领域的“明星语言”。从机器学习到深度学习，从自然语言处理到计算机视觉，Python的身影无处不在。那么，Python究竟为何能成为AI开发的首选工具？本文将探讨Python与AI之间的深度关联，并解析其背后的原因。1.Python的简洁性与可读性AI开发的核心在于快速迭代和实验，而Python以其简洁的语法和直观的代码结构著称。开发者无需
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
机器学习算法在司法预测中的应用【附保姆级代码】一键难忘机器学习算法人工智能
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~机器学习算法在司法预测中的应用司法预测作为法律领域的前沿研究
PyTorch深度学习框架60天进阶学习计划 - 第19天：时间序列预测凡人的AI工具箱深度学习 pytorch 学习人工智能 AI编程迁移学习 python
PyTorch深度学习框架60天进阶学习计划-第19天：时间序列预测目录时间序列预测概述滑动窗口数据构造方法归一化策略对比：MinMaxvsZ-ScoreLSTM基础原理Attention机制与LSTM结合LSTM-Attention模型实现TeacherForcing技术与应用Prophet基准模型对比多步预测的滚动验证方法综合实战：股票价格预测1.时间序列预测概述时间序列预测是机器学习中的一个
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》