SamWang_333

随机森林 Iris 特征重要性

http://www.sohu.com/a/297967370_729271

随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法，其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中，与随机森林算法相关的函数都位于集成算法模块ensemble中，相关的算法函数包括随机森林算法（RandomForestClassifier）、袋装算法（BaggingClassifier）、完全随机树算法（ExtraTreesClassifier)、迭代算法（Adaboost）、GBT梯度Boosting树算法（GradientBoostingClassifier）、梯度回归算法（GradientBoostingRegressor）、投票算法（VotingClassifier）。
聚类和回归是机器学习的最基本主题。而随机森林主要是应用于回归和分类这两种场景，又侧重于分类。研究表明，组合分类器比单一分类器的分类效果好，在上述中我们知道，随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。
随机森林的构建大致如下：首先利用bootstrap方法又放回的从原始训练集中随机抽取n个样本，并构建n个决策树；然后假设在训练样本数据中有m个特征，那么每次分裂时选择最好的特征进行分裂每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类；接着让每颗决策树在不做任何修剪的前提下最大限度的生长；最后将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行分类与回归。对于分类问题，按多棵树分类器投票决定最终分类结果；而对于回归问题，则由多棵树预测值的均值决定最终预测结果。
三，随机森林的构建过程

1，从原始训练集中使用Bootstraping方法随机有放回采样取出m个样本，共进行n_tree次采样。生成n_tree个训练集

2，对n_tree个训练集，我们分别训练n_tree个决策树模型

3，对于单个决策树模型，假设训练样本特征的个数为n，那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂

4，每棵树都已知这样分裂下去，知道该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝

5，将生成的多颗决策树组成随机森林。对于分类问题，按照多棵树分类器投票决定最终分类结果；对于回归问题，由多颗树预测值的均值决定最终预测结果

注意：OOB（out-of-bag ）：每棵决策树的生成都需要自助采样，这时就有1/3的数据未被选中，这部分数据就称为袋外数据。

1、n_estimators：它表示建立的树的数量。一般来说，树的数量越多，性能越好，预测也越稳定，但这也会减慢计算速度。一般来说在实践中选择数百棵树是比较好的选择，因此，一般默认是100。

2、n_jobs：超参数表示引擎允许使用处理器的数量。若值为1，则只能使用一个处理器。值为-1则表示没有限制。设置n_jobs可以加快模型计算速度。

3、oob_score :它是一种随机森林交叉验证方法，即是否采用袋外样本来评估模型的好坏。默认是False。推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。

sklearn随机森林
from sklearn import datasets, ensemble
from sklearn.ensemble import RandomForestRegressor
import numpy as np
iris=datasets.load_iris()
iris_data=iris[‘data’]
iris_label=iris[‘target’]
X=np.array(iris_data)
Y=np.array(iris_label)
clf = ensemble.RandomForestClassifier(max_depth=5, n_estimators=1, max_features=1)
clf.fit(X,Y)
print clf.predict([[4.1, 2.2, 2.3, 5.4]])

reg

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_iris
from numpy.core.umath_tests import inner1d
import numpy as np

iris = load_iris()
Forest_reg = RandomForestRegressor()
Forest_model = RandomForestRegressor(n_estimators=100)
Forest_model.fit(iris.data,iris.target)
scores = cross_val_score(Forest_reg, iris.data,iris.target,scoring=“neg_mean_squared_error”)
mse_score = np.sqrt(-scores)
print((mse_score.mean(), mse_score.std()))
importances = Forest_model.feature_importances_

print(importances) #特征重要性

一、优点：

1、对于大部分的数据，它的分类效果比较好。

2、能处理高维特征，不容易产生过拟合，模型训练速度比较快，特别是对于大数据而言。（由于两个随机性的引入，样本随机，特征随机）由于树的组合，使得随机森林可以处理非线性数据，本身属于非线性分类（拟合）模型
它能够处理很高维度（feature很多）的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化
训练速度快，可以运用在大规模数据集上

3、在决定类别时，它可以评估变数的重要性。，能够检测到feature间的互相影响，且可以得出feature的重要性，具有一定参考意义

4、对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。

二、缺点：

1、对少量数据集和低维数据集的分类不一定可以得到很好的效果。

2、随机森林中还有许多不好解释的地方，有点算是黑盒模型

3、当我们需要推断超出范围的独立变量或非独立变量，随机森林做得并不好。

为什么要随机抽样训练集？
如果不进行随机抽样，每棵树的训练集都是一样的，那么最终的训练出的树分类结果也是一样的，这样的话完全没有bagging的必要。

为什么要有放回地抽样？
如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，也就是说每棵树训练出来都是有很大的差异的，而随机森林最后分类结果取决于多棵树的投票表决，这种表决应该是“求同”，因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的，这无异于盲人摸象。

五，特征重要性评估
现实情况下，一个数据集中往往有成百上千个特征，如何在其中选择比结果影响最大的那几个特征，以此来缩减建立模型时特征数是我们比较关心的问题。这样的方法其实很多，比如主成分分析，lasso等等。不过这里我们学习的是用随机森林来进行特征筛选。

用随机森林进行特征重要性评估的思想就是看每个特征在随机森林中的每棵树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。

贡献大小通常使用基尼指数（Gini index）或者袋外数据（OOB）错误率作为评估指标来衡量。这里我们再学习一下基尼指数来评价的方法。

我们将变量重要性评分（variable importance measures）用VIM来表示，将Gini指数用GI来表示，假设m个特征X1，X2，X3，…Xc，现在要计算出每个特征Xj的Gini指数评分VIM j （Gini） ,亦即第j个特征在RF所有决策树中节点分裂不纯度的平均改变量。

Gini指数的计算公式为：

其中，K表示有K个类别。Pmk表示节点m中类列k所占的比例。

直观的说，就是随便从节点m中随机抽取两个样本，其类别标记不一致的概率。

特征Xj在节点m的重要性，即节点m分支前后的Gini指数变化量为：

其中，GI l 和GI r 分别表示分枝后两个新节点的Gini指数。

如果，特征Xj在决策树i中出现的节点在集合M中，那么Xj在第i颗树的重要性为：

假设RF中共有n颗树，那么

最后，把所有求得的重要性评分做一个归一化处理即可。

5.2 示例——利用随机森林进行特征选择，然后使用SVR进行训练 1，利用随机森林进行特征选择

代码：

importnumpy asnp

importpandas aspd

fromsklearn.ensemble importRandomForestClassifier

url = ‘http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data’

url1 = pd.read_csv( r’wine.txt’,header= None)

url1 = pd.DataFrame(url1)

df = pd.read_csv(url1,header=None)

url1.columns = [ ‘Class label’, ‘Alcohol’, ‘Malic acid’, ‘Ash’,

‘Alcalinity of ash’, ‘Magnesium’, ‘Total phenols’,

‘Flavanoids’, ‘Nonflavanoid phenols’, ‘Proanthocyanins’,

‘Color intensity’, ‘Hue’, ‘OD280/OD315 of diluted wines’, ‘Proline’]

print(url1)

查看几个标签

Class_label = np.unique(url1[‘Class label’])

print(Class_label)

查看数据信息

info_url = url1.info()

print(info_url)

除去标签之外，共有13个特征，数据集的大小为178，

下面将数据集分为训练集和测试集

fromsklearn.model_selection importtrain_test_split

print(type(url1))

url1 = url1.values

x = url1[:,0]

y = url1[:,1:]

x,y = url1.iloc[:, 1:].values,url1.iloc[:, 0].values

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size= 0.3,random_state= 0)

feat_labels = url1.columns[ 1:]

n_estimators：森林中树的数量

n_jobs 整数可选（默认=1）适合和预测并行运行的作业数，如果为-1，则将作业数设置为核心数

forest = RandomForestClassifier(n_estimators= 10000, random_state= 0, n_jobs= -1)

forest.fit(x_train, y_train)

下面对训练好的随机森林，完成重要性评估

feature_importances_ 可以调取关于特征重要程度

importances = forest.feature_importances_

print( “重要性：”,importances)

x_columns = url1.columns[ 1:]

indices = np.argsort(importances)[:: -1]

forf inrange(x_train.shape[ 1]):

对于最后需要逆序排序，我认为是做了类似决策树回溯的取值，从叶子收敛

到根，根部重要程度高于叶子。

print( “%2d) %-*s %f”% (f + 1, 30, feat_labels[indices[f]], importances[indices[f]]))

筛选变量（选择重要性比较高的变量）

threshold = 0.15

x_selected = x_train[:,importances > threshold]

可视化

importmatplotlib.pyplot asplt

plt.figure(figsize=( 10, 6))

plt.title( “红酒的数据集中各个特征的重要程度”,fontsize = 18)

plt.ylabel( “import level”,fontsize = 15,rotation= 90)

plt.rcParams[ ‘font.sans-serif’] = [ “SimHei”]

plt.rcParams[ ‘axes.unicode_minus’] = False

fori inrange(x_columns.shape[ 0]):

plt.bar(i,importances[indices[i]],color= ‘orange’,align= ‘center’)

plt.xticks(np.arange(x_columns.shape[ 0]),x_columns,rotation= 90,fontsize= 15)

plt.show()

结果：

RangeIndex: 178entries, 0to177

Data columns (total 14columns):

Class label 178non- nullint64

Alcohol 178non- nullfloat64

Malic acid 178non- nullfloat64

Ash 178non- nullfloat64

Alcalinity ofash 178non- nullfloat64

Magnesium 178non- nullint64

Total phenols 178non- nullfloat64

Flavanoids 178non- nullfloat64

Nonflavanoid phenols 178non- nullfloat64

Proanthocyanins 178non- nullfloat64

Color intensity 178non- nullfloat64

Hue 178non- nullfloat64

OD280/OD315 ofdiluted wines 178non- nullfloat64

Proline 178non- nullint64

dtypes: float64( 11), int64( 3)

memory usage: 19.5KB

重要性： [ 0.106589060.025399680.013916190.032033190.022078070.0607176

0.150947950.014645160.022351120.182482620.078242790.1319868

0.15860977]

Color intensity 0.182483
Proline 0.158610
Flavanoids 0.150948
OD280/OD315 ofdiluted wines 0.131987
Alcohol 0.106589
Hue 0.078243
Total phenols 0.060718
Alcalinity ofash 0.032033
Malic acid 0.025400
Proanthocyanins 0.022351
Magnesium 0.022078
Nonflavanoid phenols 0.014645
Ash 0.013916

图：

2，利用SVR进行训练

代码：

fromsklearn.svm importSVR # SVM中的回归算法

importpandas aspd

fromsklearn.model_selection importtrain_test_split

importmatplotlib.pyplot asplt

importnumpy asnp

数据预处理，使得数据更加有效的被模型或者评估器识别

fromsklearn importpreprocessing

fromsklearn.externals importjoblib

获取数据

origin_data = pd.read_csv( ‘wine.txt’,header= None)

X = origin_data.iloc[:, 1:].values

Y = origin_data.iloc[:, 0].values

print(type(Y))

print(type(Y.values))

总特征按照特征的重要性排序的所有特征

all_feature = [ 9, 12, 6, 11, 0, 10, 5, 3, 1, 8, 4, 7, 2]

这里我们选取前三个特征

topN_feature = all_feature[: 3]

print(topN_feature)

获取重要特征的数据

data_X = X[:,topN_feature]

将每个特征值归一化到一个固定范围

原始数据标准化，为了加速收敛

最小最大规范化对原始数据进行线性变换，变换到[0,1]区间

data_X = preprocessing.MinMaxScaler().fit_transform(data_X)

利用train_test_split 进行训练集和测试集进行分开

X_train,X_test,y_train,y_test = train_test_split(data_X,Y,test_size= 0.3)

通过多种模型预测

model_svr1 = SVR(kernel= ‘rbf’,C= 50,max_iter= 10000)

训练

model_svr1.fit(data_X,Y)

model_svr1.fit(X_train,y_train)

得分

score = model_svr1.score(X_test,y_test)

print(score)

结果：

0 .8211850237886935scikit-learn随机森林类库概述

sklearn.ensemble模块包含了两种基于随机决策树的平均算法：RandomForest算法和Extra-Trees算法。这两种算法都采用了很流行的树设计思想：perturb-and-combine思想。这种方法会在分类器的构建时，通过引入随机化，创建一组各不一样（diverse）的分类器。这种ensemble方法的预测会给出各个分类器预测的平均。

在sklearn.ensemble库中，我们可以找到Random Forest分类和回归的实现：RandomForestClassifier和RandomForestRegression 有了这些模型后，我们的做法是立马上手操作，因为学习中提供的示例都很简单，但是实际中遇到很多问题，下面概述一下：

命名模型调教的很好了，可是效果离我们的想象总有些偏差？——模型训练的第一步就是要定要目标，往错误的方向走太多也是后退。
凭直觉调了某个参数，可是居然没有任何作用，有时甚至起到反作用？——定好目标后，接下来就是要确定哪些参数是影响目标的，其对目标是正影响还是负影响，影响的大小。
感觉训练结束遥遥无期，sklearn只是一个在小数据上的玩具？——虽然sklearn并不是基于分布式计算环境而设计的，但是我们还是可以通过某些策略提高训练的效率
模型开始训练了，但是训练到哪一步了呢？——饱暖思淫欲啊，目标，性能和效率都得了满足后，我们有时还需要有别的追求，例如训练过程的输出，袋外得分计算等等。
在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种Extra Trees也有，分类类ExtraTreesClassifier，回归类ExtraTreesRegressor。由于RF和Extra Trees的区别较小，调参方法基本相同，本文只关注于RF的调参。

RandomForests

在随机森林（RF）中，该ensemble方法中的每棵树都基于一个通过可放回抽样（boostrap）得到的训练集构建。另外，在构建树的过程中，当split一个节点时，split的选择不再是对所有features的最佳选择。相反的，在features的子集中随机进行split反倒是最好的split方式。这种随机的后果是，整个forest的bias，从而得到一个更好的模型。

sklearn的随机森林（RF）实现通过对各分类结果预测求平均得到，而非让每个分类器进行投票（vote）。

Ext-Trees

在Ext-Trees中(详见ExtraTreesClassifier和 ExtraTreesRegressor)，该方法中，随机性在划分时会更进一步进行计算。在随机森林中，会使用侯选feature的一个随机子集，而非查找最好的阈值，对于每个候选feature来说，阈值是抽取的，选择这种随机生成阈值的方式作为划分原则。通常情况下，在减小模型的variance的同时，适当增加bias是允许的。

首先看一个类的参数：

classsklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=‘gini’,

max_depth=None, min_samples_split=2, min_samples_leaf=1,

min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None,

min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True,

oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None)一，RF Bagging框架参数

和GBDT对比，GBDT的框架参数比较多，重要的有最大迭代器个数，步长和子采样比例，调参起来比较费力。但是RF则比较简单，这是因为Bagging框架里的各个弱学习器之间是没有依赖关系的，这减小调参的难度，换句话说，达到同样的调参效果，RF调参数时间要比GBDT少一些，

下面我来看看RF重要的Bagging框架的参数，由于RandomForestClassifier和RandomForestRegressor参数绝大部分相同，这里会将它们一起讲，不同点会指出。

n_estimators: 也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。RandomForestClassifier和RandomForestRegressor默认是10。在实际调参的过程中，我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。
oob_score :即是否采用袋外样本来评估模型的好坏。默认识False。有放回采样中大约36.8%的没有被采样到的数据，我们常常称之为袋外数据（Out Of Bag 简称OOB），这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。个人推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。
criterion: 即CART树做划分时对特征的评价标准。分类模型和回归模型的损失函数是不一样的。分类RF对应的CART分类树默认是基尼系数gini,另一个可选择的标准是信息增益。回归RF对应的CART回归树默认是均方差mse，另一个可以选择的标准是绝对值差mae。一般来说选择默认的标准就已经很好的。

4）bootstrap：默认是True，是否有放回的采样。

5）verbose：日志亢长度，int表示亢长度，o表示输出训练过程，1表示偶尔输出，>1表示对每个子模型都输出

从上面可以看出， RF重要的框架参数比较少，主要需要关注的是 n_estimators，即RF最大的决策树个数。当使用这些方法的时候，最主要的参数是调整n_estimators和max_features。n_estimators指的是森林中树的个数，树数目越大越好，但是会增加计算开销，另外，注意如果超过限定数量后，计算将会停止。

二，RF决策树参数

下面我们再来看RF的决策树参数，它要调参的参数基本和GBDT相同，如下：

RF划分时考虑的最大特征数max_features: 可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑个特征；如果是"sqrt"或者"auto"意味着划分时最多考虑个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的"None"就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。max_features指的是，当划分一个节点的时候，features的随机子集的size，该值越小，variance会变小，但是bais会变大。（int 表示个数，float表示占所有特征的百分比，auto表示所有特征数的开方，sqrt表示所有特征数的开放，log2表示所有特征数的log2值，None表示等于所有特征数）
决策树最大深度max_depth: 默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。（int表示深度，None表示树会生长到所有叶子都分到一个类，或者某节点所代表的样本已小于min_samples_split）
内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。（int表示样本数，2表示默认值）
叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

5）叶子节点最小的样本权重和min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。
节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。

8）用于拟合和预测的并行运行的工作数量n_jobs：一般取整数，可选的（默认值为1），如果为-1，那么工作数量被设置为核的数量，机器上所有的核都会被使用（跟CPU核数一致）。如果n_jobs=k，则计算被划分为k个job，并运行在K核上。注意，由于进程间通信的开销，加速效果并不会是线性的（job数K不会提示K倍）通过构建大量的树，比起单颗树所需要的时间，性能也能得到很大的提升，

9）随机数生成器random_state：随机数生成器使用的种子，如果是RandomState实例，则random_stats就是随机数生成器；如果为None，则随机数生成器是np.random使用的RandomState实例。

上面决策树参数中最重要的包括最大特征数max_features，最大深度max_depth，内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf。

根据经验

对于回归问题：好的缺省值max_features = n_features;

对于分类问题：好的缺省值是max_features=sqrt(n_features)。n_features指的是数据中的feature总数。

当设置max_depth=None，以及min_samples_split=1时，通常会得到好的结果（完全展开的树）。但需要注意，这些值通常不是最优的，并且会浪费RAM内存。最好的参数应通过cross-validation给出。另外需要注意：

在随机森林中，缺省时会使用bootstrap进行样本抽样(bootstrap=True) ；

而extra-trees中，缺省策略为不使用bootstrap抽样 (bootstrap=False)；

当使用bootstrap样本时，泛化误差可能在估计时落在out-of-bag样本中。此时，可以通过设置oob_score=True来开启。

三，如何调参呢？

参数分类的目的在于缩小调参的范围，首先我们要明确训练的目标，把目标类的参数定下来。接下来，我们需要根据数据集的大小，考虑是否采用一些提高训练效率的策略，否则一次训练就三天三夜，时间太久了，所以我们需要调整哪些影响整体的模型性能的参数。

1，调参的目标：偏差和方差的协调

偏差和方差通过准确率来影响着模型的性能。调参的目标就是为了达到整体模型的偏差和方差的大和谐！进一步，这些参数又可以分为两类：过程影响类及子模型影响类。在子模型不变的前提下，某些参数可以通过改变训练的过程，从而影响着模型的性能，诸如：“子模型数”（n_estimators），“学习率”（learning_rate）等，另外，我们还可以通过改变子模型性能来影响整体模型的性能，诸如：“最大树深度”（max_depth），‘分裂条件’（criterion）等。正由于bagging的训练过程旨在降低方差，而Boosting的训练过程旨在降低偏差，过程影响类的参数能够引起整体模型性能的大幅度变化。一般来说，在此前提下，我们继续微调子模型影响类的参数，从而进一步提高模型的性能。

2，参数对整体模型性能的影响

假设模型是一个多元函数F，其输出值为模型的准确度。我们可以固定其他参数，从而对某个参数整体模型性能的影响进行分析：是正影响还是负影响，影响的单调性？

对Random Forest来说，增加“子模型树”（n_estimators）可以明显降低整体模型的方差，且不会对子模型的偏差和方差有任何影响。模型的准确度会随着“子模型数”的增加而提高，由于减少的是整体模型方差公式的第二项，故准确度的提高有一个上线。在不同的场景下，“分裂条件”（criterion）对模型的准确度的影响也不一样，该参数需要在实际运行时灵活调整。调整“最大叶子节点数”（max_leaf_models）以及“最大树深度”（max_depth）之一，可以粗粒度地调整树的结构：叶节点越多或者树越深，意味着子模型的偏差月底，方差越高；同时，调整”分裂所需要最小样本数”（min_samples_split），“叶节点最小样本数”（min_samples_leaf）及“叶节点最小权重总值”（min_weight_fraction_leaf），可以更细粒度地调整树的结构：分裂所需样本数越少或者叶节点所需样本越少，也意味着子模型越复杂。一般来说，我们总采用bootstrap对样本进行子采样来降低子模型之间的关联度，从而降低整体模型的方差。适当地减少“分裂时考虑的最大特征数”（max_features），给子模型注入了另外的随机性，同样也达到了降低子模型之间关联度的效果。但是一味地降低该参数也是不行的，因为分裂时可选特征变少，模型的偏差会越来越大。在下图中，我们可以看到这些参数对Random Forest整体模型性能的影响：

3，一个朴实的方案：贪心的坐标下降法

到此为止，我们终于知道需要调整哪些参数，对于单个参数，我们也知道怎么调整才能提升性能。然后，表示模型的函数F并不是一元函数，这些参数需要共同调参才能得到全局最优解。也就是说，把这些参数丢给调参算法（诸如Grid Search）？对于小数据集，我们还能这么任性，但是参数组合爆炸，在大数据集上，实际上网格搜索也不一定能得到全局最优解。

坐标下降法是一类优化算法，其最大的优势在于不同计算待优化的目标函数的梯度。我们最容易想到一种特别朴实的类似于坐标下降法的方法，与坐标下降法不同的是，其不同循环使用各个参数进行调整，而是贪心地选取了对整体模型性能影响最大的参数。参数对整体模型性能的影响力是动态变化的，故每一轮坐标选取的过程中，这种方法在对每个坐标的下降方向进行一次直线搜索（line search）。首先，找到那些能够提升整体模型性能的参数，其次确保提升是单调或者近似单调。这意味着，我们筛选出来的参数是整体模型性能有正影响的，且这种影响不是偶然性的，要知道，训练过程的随机性也会导致整体模型性能的细微区别，而这种区别是不具有单调性的。最后，在这些筛选出来的参数中，选取影响最大的参数进行调整即可。

无法对整体模型性能进行量化，也就谈不上去比较参数影响整体模型性能的程度，是的，我们还没有一个准确的方法来量化整体模型性能，只能通过交叉验证来近似计算整体模型性能。然而交叉验证也存在随机性，假设我们以验证集上的平均准确度作为整体模型的准确度，我们还得关心在各个验证集上准确度的变异系数，如果变异系数过大，则平均值作为整体模型的准确率也是不合适的。在接下来的案例分析中，我们所谈及的整体模型性能均是指平均准确度。

四，Random Forest 调参示例：Digit Recognizer

在这里，我们选取Kaggle上101教学赛的Digit Recognizer作为案例来演示对RandomForestClassifier调参的过程。当然，我们也不要傻乎乎地手工去设定不同的参数，然后训练模型，借助sklearn.grid_search库中的GridSearchCV类，不仅可以自动化调参，同时还可以对每一种参数组合进行交叉验证计算平均准确度。

4.1 例子： >>> fromsklearn.ensemble importRandomForestClassifier

fromsklearn.datasets importmake_classification

X, y = make_classification(n_samples= 1000, n_features= 4,

… n_informative= 2, n_redundant= 0,

… random_state= 0, shuffle= False)

clf = RandomForestClassifier(max_depth= 2, random_state= 0)

clf.fit(X, y)

RandomForestClassifier(bootstrap= True, class_weight= None, criterion= ‘gini’,

max_depth= 2, max_features= ‘auto’, max_leaf_nodes= None,

min_impurity_decrease= 0.0, min_impurity_split= None,

min_samples_leaf= 1, min_samples_split= 2,

min_weight_fraction_leaf= 0.0, n_estimators= 10, n_jobs= 1,

oob_score= False, random_state= 0, verbose= 0, warm_start= False)

print(clf.feature_importances_)

[ 0.172878560.806087040.018847920.00218648]

print(clf.predict([[ 0, 0, 0, 0]]))

[ 1] 4.2 方法如下：

五，进行预测的几种常用的方法

1 ） predict_proba(x) : 给出带有概率值的结果。每个点在所有label（类别）的概率和为1.

2） predict(x)：直接给出预测结果，内部还是调用的predict_proba()。根据概率的结果看哪个类型的预测值最高就是那个类型。

3）predict_log_proba(x)：和predict_proba基本上一样，只是把结果做了log()处理。

fromsklearn.cross_validation importcross_val_score

fromsklearn.datasets importmake_blobs

fromsklearn.ensemble importRandomForestClassifier

fromsklearn.ensemble importExtraTreesClassifier

fromsklearn.tree importDecisionTreeClassifier

X, y = make_blobs(n_samples= 10000, n_features= 10, centers= 100,

… random_state= 0)

clf = DecisionTreeClassifier(max_depth= None, min_samples_split= 1,

… random_state= 0)

scores = cross_val_score(clf, X, y)

scores.mean()

0.97…

clf = RandomForestClassifier(n_estimators= 10, max_depth= None,

… min_samples_split= 1, random_state= 0)

scores = cross_val_score(clf, X, y)

scores.mean()

0.999…

clf = ExtraTreesClassifier(n_estimators= 10, max_depth= None,

… min_samples_split= 1, random_state= 0)

scores = cross_val_score(clf, X, y)

scores.mean() > 0.999

True六，随机森林分类算法的实现

代码：

#coding:UTF_8

导入需要导入的库

importpandas aspd

importnumpy asnp

importmath

fromsklearn.ensemble importRandomForestClassifier

fromsklearn.ensemble importExtraTreesClassifier

fromsklearn.tree importDecisionTreeClassifier

fromsklearn importmodel_selection ,metrics

fromsklearn.model_selection importcross_val_score

fromsklearn.model_selection importtrain_test_split

importmatplotlib.pyplot asplt

importmatplotlib asmpl

fromsklearn.datasets importmake_blobs

importwarnings

忽略一些版本不兼容等警告

warnings.filterwarnings( “ignore”)

每个样本有几个属性或者特征

n_features = 2

x,y = make_blobs(n_samples= 300,n_features=n_features,centers= 6)

x_train,x_test,y_train,y_test = train_test_split(x,y,random_state= 1,train_size= 0.7)

绘制样本显示

plt.scatter(x[:,0],x[:,1],c=y)

plt.show()

传统决策树，随机森林算法极端随机数的区别

DT = DecisionTreeClassifier(max_depth= None,min_samples_split= 2,random_state= 0)

RF = RandomForestClassifier(n_estimators= 10,max_features=math.sqrt(n_features),

max_depth= None,min_samples_split= 2,bootstrap= True)

EC = ExtraTreesClassifier(n_estimators= 10,max_features=math.sqrt(n_features),

max_depth= None,min_samples_split= 2,bootstrap= False)

训练

DT.fit(x_train,y_train)

RF.fit(x_train,y_train)

EC.fit(x_train,y_train)

#区域预测

第0列的范围

x1_min,x1_max = x[:, 0].min(),x[:, 0].max()

第1列的范围

x2_min,x2_max = x[:, 1].min(),x[:, 1].max()

生成网格采样点行列均为200点

x1,x2 = np.mgrid[x1_min:x1_max: 200j,x2_min:x2_max: 200j]

将区域划分为一系列测试点用去学习的模型预测，进而根据预测结果画区域

area_sample_point = np.stack((x1.flat,x2.flat),axis= 1)

所有区域点进行预测

area1_predict = DT.predict(area_sample_point)

area1_predict = area1_predict.reshape(x1.shape)

area2_predict = RF.predict(area_sample_point)

area2_predict = area2_predict.reshape(x1.shape)

area3_predict = EC.predict(area_sample_point)

area3_predict = area3_predict.reshape(x1.shape)

用来正常显示中文标签

mpl.rcParams[ ‘font.sans-serif’] = [ u’SimHei’]

用来正常显示负号

mpl.rcParams[ ‘axes.unicode_minus’] = False

区域颜色

classifier_area_color = mpl.colors.ListedColormap([ ‘#A0FFA0’, ‘#FFA0A0’, ‘#A0A0FF’])

样本所属类别颜色

cm_dark = mpl.colors.ListedColormap([ ‘r’, ‘g’, ‘b’])

绘图

第一个子图

plt.subplot( 2, 2, 1)

plt.pcolormesh(x1,x2,area1_predict,cmap = classifier_area_color)

plt.scatter(x_train[:, 0],x_train[:, 1],c =y_train,marker= ‘o’,s= 50,cmap=cm_dark)

plt.scatter(x_test[:, 0],x_test[:, 1],c =y_test,marker= ‘x’,s= 50,cmap=cm_dark)

plt.xlabel( ‘data_x’,fontsize= 8)

plt.ylabel( ‘data_y’,fontsize= 8)

plt.xlim(x1_min,x1_max)

plt.ylim(x2_min,x2_max)

plt.title( u’DecisionTreeClassifier: 传统决策树’,fontsize= 8)

plt.text(x1_max -9,x2_max -2, u’o-------train ; x--------test$’)

第二个子图

plt.subplot( 2, 2, 2)

plt.pcolormesh(x1,x2,area2_predict,cmap = classifier_area_color)

plt.scatter(x_train[:, 0],x_train[:, 1],c =y_train,marker= ‘o’,s= 50,cmap=cm_dark)

plt.scatter(x_test[:, 0],x_test[:, 1],c =y_test,marker= ‘x’,s= 50,cmap=cm_dark)

plt.xlabel( ‘data_x’,fontsize= 8)

plt.ylabel( ‘data_y’,fontsize= 8)

plt.xlim(x1_min,x1_max)

plt.ylim(x2_min,x2_max)

plt.title( u’RandomForestClassifier: 随机森林算法’,fontsize= 8)

plt.text(x1_max -9,x2_max -2, u’o-------train ; x--------test$’)

第三个子图

plt.subplot( 2, 2, 3)

plt.pcolormesh(x1,x2,area3_predict,cmap = classifier_area_color)

plt.scatter(x_train[:, 0],x_train[:, 1],c =y_train,marker= ‘o’,s= 50,cmap=cm_dark)

plt.scatter(x_test[:, 0],x_test[:, 1],c =y_test,marker= ‘x’,s= 50,cmap=cm_dark)

plt.xlabel( ‘data_x’,fontsize= 8)

plt.ylabel( ‘data_y’,fontsize= 8)

plt.xlim(x1_min,x1_max)

plt.ylim(x2_min,x2_max)

plt.title( u’ExtraTreesClassifier: 极端随机树’,fontsize= 8)

plt.text(x1_max -9,x2_max -2, u’o-------train ; x--------test$’)

第四个子图

plt.subplot( 2, 2, 4)

y = []

交叉验证

score_DT = cross_val_score(DT,x_train,y_train)

y.append(score_DT.mean())

score_RF = cross_val_score(RF,x_train,y_train)

y.append(score_RF.mean())

score_EC = cross_val_score(EC,x_train,y_train)

y.append(score_EC.mean())

print( ‘DecisionTreeClassifier交叉验证准确率为:’+str(score_DT.mean()))

print( ‘RandomForestClassifier交叉验证准确率为:’+str(score_RF.mean()))

print( ‘ExtraTreesClassifier交叉验证准确率为:’+str(score_EC.mean()))

x = [ 0, 1, 2]

plt.bar(x,y, 0.4,color= ‘green’)

plt.xlabel( “0–DecisionTreeClassifier;1–RandomForestClassifier;2–ExtraTreesClassifie”, fontsize= 8)

plt.ylabel( “平均准确率”, fontsize= 8)

plt.ylim( 0.9, 0.99)

plt.title( “交叉验证”, fontsize= 8)

fora, b inzip(x, y):

plt.text(a, b, b, ha= ‘center’, va= ‘bottom’, fontsize= 10)

plt.show()

结果：

七，随机森林回归算法的实现

代码：

#随机森林回归

importmatplotlib asmpl

importnumpy asnp

importwarnings

importmatplotlib.pyplot asplt

fromsklearn.tree importDecisionTreeRegressor

fromsklearn.ensemble importRandomForestRegressor

fromsklearn.ensemble importExtraTreesRegressor

#忽略一些版本不兼容等警告

warnings.filterwarnings( “ignore”)

#产生心状坐标

t = np.arange( 0, 2*np.pi, 0.1)

x = 16*np.sin(t)** 3

x=x[:, np.newaxis]

y = 13np.cos(t) -5np.cos( 2t) -2np.cos( 3t)-np.cos( 4t)

y[:: 7]+= 3* ( 1- np.random.rand( 9)) #增加噪声，在每数2个数的时候增加一点噪声

#传统决策树线性回归,随机森林回归，极端森林回归

rf1=DecisionTreeRegressor()

rf2=RandomForestRegressor(n_estimators= 1000) #一般来说n_estimators越大越好，运行结果呈现出的两种结果该值分别是10和1000

rf3=ExtraTreesRegressor()

#三种算法的预测

y_rf1 =rf1.fit(x,y).predict(x)

y_rf2 =rf2.fit(x,y).predict(x)

y_rf3 =rf3.fit(x,y).predict(x)

#为了后面plt.text定位

x1_min, x1_max = x[:].min(), x[:].max()

x2_min, x2_max = y[:].min(), y[:].max()

mpl.rcParams[ ‘font.sans-serif’] = [ u’SimHei’] #用来正常显示中文标签

mpl.rcParams[ ‘axes.unicode_minus’] = False

plt.scatter(x, y, color= ‘darkorange’, label= ‘data’)

plt.hold( ‘on’)

plt.plot(x, y_rf1, color= ‘b’, label= ‘DecisionTreeRegressor’)

plt.plot(x, y_rf2, color= ‘g’, label= ‘RandomForestRegressor’)

plt.plot(x, y_rf3, color= ‘r’, label= ‘ExtraTreesRegressor’)

plt.xlabel( ‘data_x’)

plt.ylabel( ‘data_y’)

plt.title( ‘python_machine-learning_RandomForest(n_estimators=1000)-----心状学习’)

plt.legend()

plt.text(x1_max -4, x2_max -1, u’ $o - - - S a m p l e - P o i n t$ ’)

plt.show()

结果：

八，随机森林分类算法其他机器学习分类算法进行对比

代码：

importnumpy asnp

importmatplotlib.pyplot asplt

frommatplotlib.colors importListedColormap

fromsklearn.cross_validation importtrain_test_split

fromsklearn.preprocessing importStandardScaler

fromsklearn.datasets importmake_moons, make_circles, make_classification

fromsklearn.neighbors importKNeighborsClassifier

fromsklearn.svm importSVC

fromsklearn.tree importDecisionTreeClassifier

fromsklearn.ensemble importRandomForestClassifier, AdaBoostClassifier

fromsklearn.naive_bayes importGaussianNB

fromsklearn.lda importLDA

fromsklearn.qda importQDA

h = .02# step size in the mesh

names = [ “Nearest Neighbors”, “Linear SVM”, “RBF SVM”, “Decision Tree”,

“Random Forest”, “AdaBoost”, “Naive Bayes”, “LDA”, “QDA”]

classifiers = [

KNeighborsClassifier( 3),

SVC(kernel= “linear”, C= 0.025),

SVC(gamma= 2, C= 1),

DecisionTreeClassifier(max_depth= 5),

RandomForestClassifier(max_depth= 5, n_estimators= 10, max_features= 1),

AdaBoostClassifier(),

GaussianNB(),

LDA(),

QDA()]

X, y = make_classification(n_features= 2, n_redundant= 0, n_informative= 2,

random_state= 1, n_clusters_per_class= 1)

rng = np.random.RandomState( 2)

X += 2* rng.uniform(size=X.shape)

linearly_separable = (X, y)

datasets = [make_moons(noise= 0.3, random_state= 0),

make_circles(noise= 0.2, factor= 0.5, random_state= 1),

linearly_separable

]

figure = plt.figure(figsize=( 27, 9))

i = 1

iterate over datasets

fords indatasets:

preprocess dataset, split into training and test part

X, y = ds

X = StandardScaler().fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= .4)

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5

y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5

xx, yy = np.meshgrid(np.arange(x_min, x_max, h),

np.arange(y_min, y_max, h))

just plot the dataset first

cm = plt.cm.RdBu

cm_bright = ListedColormap([ ‘#FF0000’, ‘#0000FF’])

ax = plt.subplot(len(datasets), len(classifiers) + 1, i)

Plot the training points

ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)

and testing points

ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha= 0.6)

ax.set_xlim(xx.min(), xx.max())

ax.set_ylim(yy.min(), yy.max())

ax.set_xticks(())

ax.set_yticks(())

i += 1

iterate over classifiers

forname, clf inzip(names, classifiers):

ax = plt.subplot(len(datasets), len(classifiers) + 1, i)

clf.fit(X_train, y_train)

score = clf.score(X_test, y_test)

Plot the decision boundary. For that, we will assign a color to each

point in the mesh [x_min, m_max]x[y_min, y_max].

ifhasattr(clf, “decision_function”):

Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])

else:

Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

Put the result into a color plot

Z = Z.reshape(xx.shape)

ax.contourf(xx, yy, Z, cmap=cm, alpha= .8)

Plot also the training points

ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)

and testing points

ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,

alpha= 0.6)

ax.set_xlim(xx.min(), xx.max())

ax.set_ylim(yy.min(), yy.max())

ax.set_xticks(())

ax.set_yticks(())

ax.set_title(name)

ax.text(xx.max() - .3, yy.min() + .3, ( ‘%.2f’% score).lstrip( ‘0’),

size= 15, horizontalalignment= ‘right’)

i += 1

figure.subplots_adjust(left= .02, right= .98)

plt.show()

结果：

欢迎大家加入小编创建的Python行业交流群，有大牛答疑，有资源共享，有企业招人！是一个非常不错的交流基地！群号：683380553

这里随机生成了三个样本集，分割面近似为月形、圆形和线形的。我们可以重点对比一下决策树和随机森林对样本空间的分割：

1）从准确率上可以看出，随机森林在这三个测试集上都要优于单棵决策树，90%>85%，82%>80%，95%=95%；

2）从特征空间上直观地可以看出，随机森林比决策树拥有更强的分割能力（非线性拟合能力）。

九，解决问题：在调用sklearn时出现 Unknown label type: ‘unknown’

在sklearn模型训练出现如下错误：

‘ValueError: Unknown labeltype: ‘unknown’

解决方法：以GBDT为例：train_y后加上astype(‘int’)即可

gbdt.fit(train_x,train_y. astype(‘int’))

你可能感兴趣的:(机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

随机森林 Iris 特征重要性

reg

url = ‘http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data’

url1 = pd.DataFrame(url1)

df = pd.read_csv(url1,header=None)

print(url1)

查看几个标签

Class_label = np.unique(url1[‘Class label’])

print(Class_label)

查看数据信息

info_url = url1.info()

print(info_url)

除去标签之外，共有13个特征，数据集的大小为178，

下面将数据集分为训练集和测试集

url1 = url1.values

x = url1[:,0]

y = url1[:,1:]

n_estimators：森林中树的数量

n_jobs 整数 可选（默认=1） 适合和预测并行运行的作业数，如果为-1，则将作业数设置为核心数

下面对训练好的随机森林，完成重要性评估

feature_importances_ 可以调取关于特征重要程度

对于最后需要逆序排序，我认为是做了类似决策树回溯的取值，从叶子收敛

到根，根部重要程度高于叶子。

筛选变量（选择重要性比较高的变量）

可视化

数据预处理，使得数据更加有效的被模型或者评估器识别

获取数据

print(type(Y.values))

总特征 按照特征的重要性排序的所有特征

这里我们选取前三个特征

获取重要特征的数据

将每个特征值归一化到一个固定范围

原始数据标准化，为了加速收敛

最小最大规范化对原始数据进行线性变换，变换到[0,1]区间

利用train_test_split 进行训练集和测试集进行分开

通过多种模型预测

训练

model_svr1.fit(data_X,Y)

得分

导入需要导入的库

忽略一些版本不兼容等警告

每个样本有几个属性或者特征

绘制样本显示

plt.scatter(x[:,0],x[:,1],c=y)

plt.show()

传统决策树，随机森林算法 极端随机数的区别

训练

第0列的范围

第1列的范围

生成网格采样点行列均为200点

将区域划分为一系列测试点用去学习的模型预测，进而根据预测结果画区域

所有区域点进行预测

用来正常显示中文标签

用来正常显示负号

区域颜色

样本所属类别颜色

绘图

第一个子图

第二个子图

第三个子图

第四个子图

交叉验证

iterate over datasets

preprocess dataset, split into training and test part

just plot the dataset first

Plot the training points

and testing points

iterate over classifiers

Plot the decision boundary. For that, we will assign a color to each

point in the mesh [x_min, m_max]x[y_min, y_max].

Put the result into a color plot

Plot also the training points

and testing points

你可能感兴趣的:(机器学习)

n_jobs 整数可选（默认=1）适合和预测并行运行的作业数，如果为-1，则将作业数设置为核心数

总特征按照特征的重要性排序的所有特征

传统决策树，随机森林算法极端随机数的区别