江凪水心

Machine Learning（1）DecisionTree

DecisionTree

1 概述

1.1 决策树原理

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

决策树算法的本质是一种图结构，我们只需要问一系列问题就可以对数据进行分类了。

alcohol	malic_acid	ash	alcalinity_of_ash	magnesium	total_phenols	flavanoids	class
14.23	1.71	2.43	15.6	127.0	2.80	3.06	0
13.20	1.78	2.14	11.2	100.0	2.65	2.76	1
13.16	2.36	2.67	18.6	101.0	2.80	3.24	2

例如上面的数据集，根据红酒数据的不同特征，将其分为不同的类别（Class）

在这个决策过程中，我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点，在得到结论前的每一个问题都是中间节点，而得到的每一个结论（动物的类别）都叫做叶子节点。

关键概念：节点

根节点：没有进边，有出边。包含最初的，针对特征的提问。
中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。
叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。
子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

决策树算法的核心是要解决两个问题：

如何从数据表中找出最佳节点和最佳分枝？
如何让决策树停止生长，防止过拟合？

1.2 sklearn中的决策树

help(tree)

代码	类型
tree.DecisionTreeClassifier	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	决策树可视化
tree.ExtraTreeCalssifier	高随机版本分类树
tree.ExtraTreeRegressor	高随机版本回归树

sklearn基本建模流程

2 DecisionTreeClassifier

from sklearn import tree
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

wine = load_wine()# 载入红酒数据集

print(wine.data.shape)
print(wine.target.shape)
print(wine.target_names)

data = pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)
col_names = list(wine.feature_names)
col_names.append('calss')
data.columns = col_names
data.head(5)

2.1 重要参数

2.1.1 criterion

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标叫做“不纯度”。通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。

不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：

entropy：使用信息熵
gini：使用基尼系数

$Entropy\left( t \right) =-\sum_{i=0}^{c-1}{p\left( i|t \right) \log _2p\left( i|t \right)}$

$Gini\left( t \right) =1-\sum_{i=0}^{c-1}{p\left( i|t \right) ^2}$

其中t代表给定的节点，i代表标签的任意分类，p(i|t)代表标签分类i在节点t上所占的比例。注意，当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。

比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息熵。当然，这些不是绝对的。

例子

针对以上数据，划分训练集和测试集

Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target, test_size=0.3)
# train_test_split输入自变量，因变量，比例三个参数划分数据集
print('训练集大小：', Xtrain.shape)
print('测试集大小：', Xtest.shape)

# 训练集大小： (124, 13)
# 测试集大小： (54, 13)

建立模型

clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) #返回预测的准确度accuracy

print('accuracy score: %.2f' % score)

# accuracy score: 0.94

决策树绘图

# 决策树绘图
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf, 
                                out_file=None,
                                feature_names = feature_name,
                                class_names=["琴酒","雪莉","贝尔摩德"],
                                filled=True,
                                rounded=True) 
graph = graphviz.Source(dot_data)
graph

查看特征重要性

# 特征重要性
[*zip(feature_name,clf.feature_importances_)]
'''
[('酒精', 0.0),
 ('苹果酸', 0.022446861636353448),
 ('灰', 0.0),
 ('灰的碱性', 0.0),
 ('镁', 0.0),
 ('总酚', 0.014422336735850102),
 ('类黄酮', 0.11855919792009308),
 ('非黄烷类酚类', 0.0),
 ('花青素', 0.037023347251702504),
 ('颜色强度', 0.08787275638401838),
 ('色调', 0.02541551409286573),
 ('稀释葡萄酒', 0.2537216563624776),
 ('脯氨酸', 0.4405383296166392)]
'''

在只了解一个参数的情况下，建立了一棵完整的决策树。但是回到步骤2建立模型，score会在某个值附近波动，引起步骤3中画出来的每一棵树都不一样。它为什么会不稳定呢？如果使用其他数据集，它还会不稳定吗？

由于不纯度是基于节点来计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的节点能够保证最优的树吗？集成算法被用来解决这个问题：

sklearn中，既然一棵树不能保证最优，那就建更多的不同的树，然后从中取最好的。怎样从一组数据集中建不同的树？在每次分枝时，不从使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。这样，每次生成的树也就不同了。

2.1.2 random_state & splitter

*random_state*用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter也是用来控制决策树中的随机选项的，有两种输入值，输入best，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性*feature_importances_查看），输入random*，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当预测到模型会过拟合，用这两个参数来帮助你降低树建之后过拟合的可能性。

2.1.3 剪枝参数

在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止。这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致，因此当一棵决策树对训练数据有了过于优秀的解释性，它找出的规则必然包含了训练样本中的噪声，并使它对未知数据的拟合程度不足。

#我们的树对训练集的拟合程度如何?
score_train = clf.score(Xtrain, Ytrain)
score_train

# 1.0

为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略：

max_depth

限制树的最大深度，超过设定深度的树枝全部剪掉这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时，建议从n=3开始尝试，看看拟合的效果再决定是否增加设定深度。

min_samples_leaf & min_samples_split

*min_samples_leaf限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf*个样本的方向去发生。

一般搭配*max_depth*使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。一般来说，建议从=5开始使用。如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。同时，这个参数可以保证每个叶子的最小尺寸，可以在回归问题中避免低方差，过拟合的叶子节点出现。对于类别不多的分类问题，=1通常就是最佳选择。

*min_samples_split限定，一个节点必须要包含至少min_samples_split*个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

clf = tree.DecisionTreeClassifier(criterion="entropy", # 可以选择entropy，gini
                                  random_state=30, # 随机特征选择
                                  splitter="random", # random随机分枝，防止过拟合
                                  # 剪枝参数
                                  max_depth=4, 
                                  min_samples_leaf=10,
                                  min_samples_split=10) 
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)# 返回预测的准确度

print('accuracy score: %.2f' % score)

# accuracy score: 0.93

dot_data = tree.export_graphviz(clf, 
                                out_file=None,
                                feature_names = feature_name,
                                class_names=["琴酒","雪莉","贝尔摩德"],
                                filled=True,
                                rounded=True) 
graph = graphviz.Source(dot_data)
graph

（本部分笔者仅作演示，感兴趣可自行尝试最优参数和拟合结果）

max_feature & min_impurity_decrease

*max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max_depth异曲同工，max_features*是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。

确定最优剪枝参数

使用超参数曲线判断参数选择，使用已经训练好的决策树模型clf。超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。在建好的决策树里，模型度量指标就是score。

import matplotlib.pyplot as plt
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i+1
                                    ,criterion="entropy"
                                    ,random_state=30
                                    ,splitter="random"
                                    )
    clf = clf.fit(Xtrain, Ytrain)
    score = clf.score(Xtest, Ytest)
    test.append(score)
plt.plot(range(1,11),test,color="red",label="max_depth")
plt.legend()
plt.show()

2.2 重要属性和接口

属性是在模型训练之后，能够调用查看的模型的各种性质。对决策树来说，最重要的是**feature_importances_**，能够查看各个特征对模型的重要性。

sklearn中许多算法的接口都是相似的，比如说我们之前已经用到的fit和score，几乎对每个算法都可以使用。除了这两个接口之外，决策树最常用的接口还有apply和predict。apply（）中输入测试集返回每个测试样本所在的叶子节点的索引，predict（）输入测试集返回每个测试样本的标签。

在这里不得不提的是，**所有接口中要求输入X_train和X_test的部分，输入的特征矩阵必须至少是一个二维矩阵。sklearn接受任何一维矩阵作为特征矩阵被输入。如果你的数据的确只有一个特征，那必须用reshape(-1,1)来给矩阵增维；如果你的数据只有一个特征和一个样本，使用reshape(1,-1)来给你的数据增维。

#apply返回每个测试样本所在的叶子节点的索引
clf.apply(Xtest)

array([ 9, 27, 27, 16,  4, 10,  4,  4, 27, 27, 10, 22, 24, 16, 22, 27, 16,
       27,  4,  4, 16, 16, 16, 27, 22,  8, 27,  4, 22, 24,  8, 22,  4,  4,
       27, 16, 13, 22, 16, 13, 16, 27,  4, 22, 22, 27, 16, 27,  9,  6, 16,
       10, 27,  4], dtype=int64)
       
#predict返回每个测试样本的分类/回归结果
clf.predict(Xtest)

array([1, 0, 0, 1, 2, 1, 2, 2, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 2, 2, 1, 1,
       1, 0, 1, 2, 0, 2, 1, 0, 2, 1, 2, 2, 0, 1, 1, 1, 1, 1, 1, 0, 2, 1,
       1, 0, 1, 0, 1, 2, 1, 1, 0, 2])

3 DecisionTreeRegressor

需要注意的是，在回归树中，没有标签分布是否均衡的问题，因此没有class_weight这样的参数。

3.1 重要参数和属性，接口

回归树衡量分枝质量的指标，支持的标准有三种：

输入"mse"使用均方误差mean squared error(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失。
输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差
输入"mae"使用绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失

属性中最重要的依然是**feature_importances_**，接口依然是apply, fit, predict, score最核心。
$MSE=\frac{1}{N}\sum_{i=1}^N{\left( f_i-y_i \right) ^2}$
其中 N 是样本数量，i 是每一个数据样本，fit 是模型回归出的数值，y_i 是样本点 i 实际的数值标签。所以MSE的本质，其实是样本真实数据与回归结果的差异。在回归树中，MSE不只是分枝质量衡量指标，也是最常用的衡量回归树回归质量的指标，当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是score代表的预测准确率）。在回归中，我们追求的是，MSE越小越好。

然而，回归树的接口score返回的是R平方，并不是MSE。
$R^2=1-\frac{\sum_{i=1}^N{\left( f_i-y_i \right) ^2}}{\sum_{i=1}^N{\left( y_i-\widehat{y}_i \right) ^2}}$
值得一提的是，虽然均方误差永远为正，但是sklearn当中使用均方误差作为评判标准时，却是计算负均方误差（neg_mean_squared_error）。这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失(loss)，因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。(了解即可)

4 案例：泰坦尼克号幸存者预测

导入需要的库

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

导入数据集，数据预处理

data = pd.read_csv("data.csv",index_col = 0)

data.head()
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB

#删除缺失值过多的列，和观察判断来说和预测的y没有关系的列
data.drop(["Cabin","Name","Ticket"],inplace=True,axis=1)

#处理缺失值，对缺失值较多的列进行填补，有一些特征只确实一两个值，可以采取直接删除记录的方法
data["Age"] = data["Age"].fillna(data["Age"].mean())
data = data.dropna()

#将分类变量转换为数值型变量

#将二分类变量转换为数值型变量
#astype能够将一个pandas对象转换为某种类型，和apply(int(x))不同，astype可以将文本类转换为数字，用这个方式可以很便捷地将二分类特征转换为0~1
data["Sex"] = (data["Sex"]== "male").astype("int")

#将三分类变量转换为数值型变量
labels = data["Embarked"].unique().tolist()
data["Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))

#查看处理后的数据集
data.head()

提取标签和特征矩阵，划分测试集和训练集

X = data.iloc[:,data.columns != "Survived"]
y = data.iloc[:,data.columns == "Survived"]

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3)

#修正测试集和训练集的索引
for i in [Xtrain, Xtest, Ytrain, Ytest]:
    i.index = range(i.shape[0])
    
#查看分好的训练集和测试集
Xtrain.head()

初试模型结果

clf = DecisionTreeClassifier(random_state=25)
clf = clf.fit(Xtrain, Ytrain)
accuracy_score = clf.score(Xtest, Ytest)
cross_score = cross_val_score(clf, X, y, cv=10).mean()

print('accuracy_score: %.2f' % accuracy_score)
print('cross_val_score: %.2f' % cross_score)

accuracy_score: 0.78
cross_val_score: 0.77

这里的交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。

模型调参

tr = []
te = []
for i in range(10):
    clf = DecisionTreeClassifier(random_state=25,
                                max_depth=i+1,
                                criterion="entropy")
    clf = clf.fit(Xtrain, Ytrain)
    score_tr = clf.score(Xtrain, Ytrain)
    score_te = cross_val_score(clf, X, y, cv=10).mean()
    tr.append(score_tr)
    te.append(score_te)
print(max(te))
plt.plot(range(1,11),tr,color="red",label="train")
plt.plot(range(1,11),te,color="blue",label="test")
plt.xticks(range(1,11))
plt.legend()
plt.show()

网格搜索调参

在机器学习模型中，需要人工选择的参数称为超参数。比如随机森林中决策树的个数，人工神经网络模型中隐藏层层数和每层的节点个数，正则项中常数大小等等，他们都需要事先指定。超参数选择不恰当，就会出现欠拟合或者过拟合的问题。而在选择超参数的时候，有两个途径，一个是凭经验微调，另一个就是选择不同大小的参数，带入模型中，挑选表现最好的参数。

微调的一种方法是手工调制超参数，直到找到一个好的超参数组合，这么做的话会非常冗长，你也可能没有时间探索多种组合，所以可以使用Scikit-Learn的**GridSearchCV**来做这项搜索工作。

class sklearn.model_selection.GridSearchCV(estimator, # 选择使用的分类器，并且传入除需要确定最佳的参数之外的其他参数。
                                           param_grid, # 需要最优化的参数的取值，值为字典或者列表
                                           scoring=None, # 模型评价标准
                                           fit_params=None, 
                                           n_jobs=1, # CPU核数
                                           iid=True, # 默认为各个样本fold概率分布一致，误差估计为所有样本之和而非平均
                                           refit=True, 
                                           cv=None, # 交叉验证参数，默认None
                                           verbose=0, 
                                           pre_dispatch=‘2*n_jobs’, 
                                           error_score=’raise’, 
                                           return_train_score=’warn’)

gini_thresholds = np.linspace(0,0.5,20)

parameters = {'splitter':('best','random')
              ,'criterion':("gini","entropy")
              ,"max_depth":[*range(1,10)]
              ,'min_samples_leaf':[*range(1,50,5)]
              ,'min_impurity_decrease':[*np.linspace(0,0.5,20)]
             }

clf = DecisionTreeClassifier(random_state=25)
GS = GridSearchCV(clf, 
                  parameters, 
                  cv=10)
GS.fit(Xtrain,Ytrain)

print(GS.best_params_)

{'criterion': 'entropy', 'max_depth': 6, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 6, 'splitter': 'best'}

5 总结

5.1 决策树优点

易于理解和解释，因为树木可以画出来被看见
需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但请注意，sklearn中的决策树模块不支持对缺失值的处理。
使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。
能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。
能够处理多输出问题，即含有多个标签的问题，注意与一个标签中含有多种标签分类的问题区别开
是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释。
可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。
即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

5.2 决策树缺点

决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的，而这些参数的整合和调整对初学者来说会比较晦涩。
决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。
决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。
有些概念很难学习，因为决策树不容易表达它们，例如XOR，奇偶校验或多路复用器问题。
如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树之前平衡数据集。

6 附录

ID3算法构建决策树

ID3算法原型见于J.R Quinlan的博士论文，是基础理论较为完善，使用较为广泛的决策树模型，在此基础上J.R Quinlan进行优化后，陆续推出了C4.5和C5.0决策树算法，后二者现已称为当前最流行的决策树算法，我们先从ID3开始讲起，再讨论如何从ID3逐渐优化至C4.5。

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，而衡量这个“最佳”的指标叫做**“不纯度”**。不纯度基于叶子节点来计算的，所以树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

决策树的每个叶子节点中都会包含一组数据，在这组数据中，如果有某一类标签占有较大的比例，我们就说叶子节点“纯”，分枝分得好。某一类标签占的比例越大，叶子就越纯，不纯度就越低，分枝就越好。如果没有哪一类标签的比例很大，各类标签都相对平均，则说叶子节点”不纯“，分枝不好，不纯度高。

这个其实非常容易理解。分类型决策树在叶子节点上的决策规则是少数服从多数，在一个叶子节点上，如果某一类标签所占的比例较大，那所有进入这个叶子节点的样本都回被认为是这一类别。距离来说，如果90%根据规则进入叶子节点的样本都是类别0（叶子比较纯），那新进入叶子节点的测试样本的类别也很有可能是0。但是，如果51%的样本是0，49%的样本是1（极端情况），叶子节点还是会被认为是0类叶子节点，但此时此刻进入这个叶子的测试样本点几乎有一半的可能性应该是类别1。从数学上来说，类分布为（0,100%）的结点具有零不纯性，而均衡分布（50%,50%）的结点具有最高的不纯性。如果叶子本身不纯，那测试样本就很有可能被判断错误，相对的叶子越纯，那样本被判断错误的可能性就越小。

通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。若我们定义t代表决策树的某节点，是t节点所对应的数据集，设 p(i|t) 表示给定结点 t 中属于类别 i 的样本所占的比例，这个比例越高，则代表叶子越纯。

决策树最终的优化目标是使得叶节点的总不纯度最低，即对应衡量不纯度的指标最低。ID3采用信息熵来衡量不纯度，此处就先以信息熵为例进行讨论。ID3最优条件是叶节点的总信息熵最小，因此ID3决策树在决定是否对某节点进行切分的时候，会尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。换言之，就是要求父节点信息熵和子节点总信息熵之差要最大。对于ID3而言，二者之差就是信息增益，即Information gain。

如何选择属性，需要看信息增益（Information Gain）。也就是说，信息增益是相对于属性而言的，信息增益越大，属性对最终的分类结果影响也就越大，应该选择对最终分类结果影响最大的那个属性作为分类属性。属性A对训练数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)与属性A给定条件下D的条件熵H(D|A)之差：

$g (D, A) = H (D) - H (D, A)$

可以理解为：引入某一个条件后，不确定性减小了，这个减小的量=信息增益=信息熵-条件熵。信息增益越大，则说明引入的条件能更好地消除不确定性。

总的来说，决策树模型是一个典型的贪心模型，总目标是一个全局最优解，即一整套合理的分类规则使得最终叶节点的纯度最高，但全局最优解在随特征增加而呈现指数级增加的搜索空间内很难高效获取，因此我们退而求其次，考虑采用局部最优来一步步推导结果——只要保证信息增益最大，我们就能得到次最优的模型。当然，局部最优不一定等于全局最优，接下来我们就ID3可能存在的一些问题及改进方向进行一些讨论。

ID3的局限性

分支度越高（分类水平越多）的离散变量往往子节点的总信息熵会更小，ID3是按照某一列进行切分，有一些列的分类可能不会对我需要的结果有足够好的指示。极限情况下取ID作为切分字段，每个分类的纯度都是100%，因此这样的分类方式是没有效益的。
不能直接处理连续型变量，若要使用ID3处理连续型变量，则首先需要对连续变量进行离散化。
对缺失值较为敏感，使用ID3之前需要提前对缺失值进行处理。
没有剪枝的设置，容易导致过拟合，即在训练集上表现很好，测试集上表现很差。

C4.5算法

有些时候，使用信息增益会比较粗暴，效果也不一定好。因为增益这个指标天然地偏向于选择那些分支比较多的属性。这种偏向性是必须消除的，算法应该公正地评价所有的属性，因此，信息增益率（Gain Ratio）被提出：
$ratio=\frac{Inforamtion Gain}{Information Value}$
根据信息增益率进行决策的过程，称为C4.5决策树学习算法。

下面笔者自行创造了一套数据集示例，并给出了两种算法的计算过程，感兴趣可自行尝试：

#DecsionTree算法
#构建数据集
def createDataSet():
    dataSet = [[0, 2, 0, 0, 'N'], 
               [0, 2, 0, 1, 'N'], 
               [1, 2, 0, 0, 'Y'], 
               [2, 1, 0, 0, 'Y'], 
               [2, 0, 1, 0, 'Y'], 
               [2, 0, 1, 1, 'N'], 
               [1, 0, 1, 1, 'Y'],
               [0, 1, 0, 0, 'N'], 
               [0, 0, 1, 0, 'Y'], 
               [2, 1, 1, 0, 'Y'], 
               [0, 1, 1, 1, 'Y'], 
               [1, 1, 0, 1, 'Y'], 
               [1, 2, 1, 0, 'Y'],
               [2, 1, 0, 1, 'N']]
    labels = ['Age', 'Income', 'Job', 'Credit']
    return dataSet, labels

dS1,lab = createDataSet()
print(dS1)
print(lab)

#计算数据集的信息熵
#参数：dataset-List列表，训练集，包含了样本数据和分类结果
#返回值：shannonEnt-浮点数，训练集的香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
#featVec[-1]表示列表featVec中的最后一项，就是Y/N的分类结果        
        currentLabel = featVec[-1]
#对currentLabel计数，对应的分类为Y/N的样本各有多少个
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
#计算信息熵
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

snEnt = calcShannonEnt(dS1)
print('原始数据集香农熵：')
print(snEnt)

#按照feat指定的标签分割数据集
#参数：dataset-List列表，待分割样本集合
#      axie-数值，属性列表项序号，按照此属性的取值来分割样本集合
#      value-数值，属性取值
#返回值：retDataSet-List列表，分割后的样本集合，去除了分割属性
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reduceFeatVec = featVec[:axis]
            reduceFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reduceFeatVec)
    return retDataSet

print('splitDataSet函数示例')
print('将原始样本分割出Income（在labels中序号为1）值为0的集合：')
retDS1 = splitDataSet(dS1,1, 0)
print(retDS1)

#决策树ID3算法
#按照信息熵增益来确定用于分割的属性
#参数：dataset-List列表，待分割样本集合
#返回值：bestFeature-数值，分割属性对应在labels中的序号
def ID3(dataSet):
#属性数量=样本列表元素数量-1（最后一项是分类结果，不是属性）
    numFeatures = len(dataSet[0]) - 1
#计算原始数据集信息熵
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain= 0.0
    bestFeature = -1
    for i in range(numFeatures):
#当前属性下，所有样本的值构成列表
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
#当使用该属性分割时，计算其香农信息熵
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
#找出最大熵增益对应的属性
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

bFID3=ID3(dS1)
print('ID3第一次选择的最佳分割属性:')
print(bFID3)

#决策树C45算法
#按照信息熵增益率来确定用于分割的属性
#参数：dataset-List列表，待分割样本集合
#返回值：bestFeature-数值，分割属性对应在labels中的序号
def C45(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt(dataSet)
#用于找出最大增益率的变量
    bestInfoGainRatio = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
#用于计算分离信息
        splitInfo = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
            splitInfo += -prob * log(prob, 2)
        infoGain = baseEntropy - newEntropy
        if (splitInfo == 0): 
            continue
#属性选取标准改为增益率
        infoGainRatio = infoGain / splitInfo
        if (infoGainRatio > bestInfoGainRatio):
            bestInfoGainRatio = infoGainRatio
            bestFeature = i
    return bestFeature

bFC45=C45(dS1)
print('C45第一次选择的最佳分割属性:')
print(bFC45)

你可能感兴趣的:(机器学习算法,python,机器学习)

Python——Pickle库 Devin01213
pickle是python语言的一个标准模块，安装python后已包含pickle库，不需要单独再安装。那么为什么需要序列化和反序列化这一操作呢？1.便于存储。序列化过程将文本信息转变为二进制数据流。这样就信息就容易存储在硬盘之中，当需要读取文件的时候，从硬盘中读取数据，然后再将其反序列化便可以得到原始的数据。在Python程序运行中得到了一些字符串、列表、字典等数据，想要长久的保存下来，方便以后
Pathlib操作文件IN Python Louis yeap python python 开发语言 pathlib 文件
系列文章目录文章目录目录系列文章目录文章目录前言一、Pathlib是什么？二、使用步骤前言pathlib是Python标准库中用于操作文件和目录路径的模块，自Python3.4起引入。它提供了一种面向对象的方式处理路径，使路径操作更加简洁、可读和跨平台。pathlib取代了传统模块如os.path和部分shutil的功能，成为推荐的路径操作工具。一、Pathlib是什么？pathlib是Pytho
Async协程保姆级教学 Louis yeap python 大数据 python 开发语言协程 async
目录编辑前言二、Async协程使用步骤1.导入标准库2.协程三、协程的应用场景1.网络IO2.数据库IO3.文件IO4.异步任务调度5.Web服务6.设备和串口IO7.队列和管道总结前言介绍：Python协程的概念源于生成器（Generator）。但它通过asyncio和事件循环，进一步扩展了生成器的功能，从而支持异步非阻塞操作。允许程序在执行过程中暂停（挂起），然后在需要时恢复运行。与传统的线程
垃圾回收机制 Louis yeap 算法 python go
系列文章目录文章目录目录系列文章目录文章目录前言一、垃圾回收算法二、golang垃圾回收算法三、python垃圾回收算法前言垃圾回收（GarbageCollection,GC）是一种自动管理内存的技术，用于动态分配内存的编程语言中。当程序运行时，会创建大量的对象和变量，这些对象占用内存。在程序的某些阶段，一些对象不再被需要，或者不再被引用，这些对象占用的内存就可以被释放，以便其他对象使用。垃圾回收
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
python pickle 模块的使用 weixin_30305735 python json 数据结构与算法
用于序列化的两个模块json：用于字符串和Python数据类型间进行转换pickle:用于python特有的类型和python的数据类型间进行转换json提供四个功能：dumps,dump,loads,loadpickle提供四个功能：dumps,dump,loads,loadpickle可以存储什么类型的数据呢？所有python支持的原生类型：布尔值，整数，浮点数，复数，字符串，字节，None。
Rust中奖励函数的实现与应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Rust中奖励函数的实现与应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Rust,奖励函数,强化学习,机器学习,状态空间1.背景介绍1.1问题的由来在机器学习领域，特别是在强化学习（ReinforcementLearning,RL）中，奖励函数（RewardFunction）扮演着至关重要的角色。它定义了智能体（Agent）在执行任务时
Python中Pickle库 SteveKenny Python python 开发语言后端
文章目录简介函数dumpsloadsdumpload简介Python中有个序列化过程叫作pickle，它能够实现任意对象与文本之间的相互转化，也可以实现任意对象与二进制之间的相互转化。也就是说，pickle可以实现Python对象的存储及恢复。pickle模块的应用很简单，只有四个方法dumps()：将Python中的对象序列化成二进制对象，并返回loads()：读取给定的二进制对象数据，并将其转
python中的序列化 fate252 Python python 序列化 pickle json
序列化（picking）把不方便存储或不可传输的对象转换为可存储或可传输的数据的过程称之为序列化。序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。反过来，把从磁盘或网络得到的序列化数据重建为对象的过程称之为反序列化（unpickling）。序列化和反序列化实际是为了通用存储或传输而编码和解码的过程。举例：网络游戏mabi洛奇的存档功能，当每次不想玩的时候就可以存档到服务器
Selenium自动化测试框架入门与使用 Future_yzx selenium 测试工具
目录1.Selenium简介2.使用Selenium2.1Java使用Selenium2.2Python使用Selenium2.3支持的浏览器及WebDriver3.ChromeDriver的安装3.1查看本机Chrome版本3.2匹配对应的ChromeDriver并下载3.3配置ChromeDriver路径3.4在服务器（如CentOS）上安装ChromeJava中使用Selenium的代码示例
python selenium清除缓存_python 解决selenium 中的 .clear()方法失效问题许吴倩 python selenium清除缓存
最近在使用selenium做一个数字货币的自动化脚本时，遇到一个问题就是okex网站的input使用clear()方法居然无法清空，但是后来试了好多次发现方法是可以使用的，而且这个网站修改input的value也没用，必须在文本框里修改才行，本次的目的就是要清除输入框的默认值，然而clear()没有反应，最后还是用了别的方法解决了问题，那就是使用鼠标双击事件，全选后输入内容。fromseleniu
Django SimpleUI运维管理系统搭建教程 ivwdcwso 开发运维 sqlite 数据库 Django SimpleUI Django python 开发
DjangoSimpleUI运维管理系统搭建教程本教程将详细介绍如何从零搭建一个基于DjangoSimpleUI的运维管理系统。一、环境准备1.安装Python和相关依赖#安装Python3.8+sudoaptinstallpython3.8python3.8-dev#安装虚拟环境pip3installvirtualenv#创建并激活虚拟环境virtualenvvenvsourcevenv/bin
Robot Framework 测试总结 Change is good 测试框架和工具 robotframework
在2014年结识robotframework，缘于一个偶然的机会。一个测试前辈推荐了robotframework。Robotframework是python语言的测试框架。简单的看了一下介绍，觉得不错，很适合新手入门。而且测试部门的领导也很支持引入开源的自动化测试工具。RobotFramework是一个开源的测试自动化框架，用于验收测试和验收测试驱动开发。它遵循不同的测试用例样式——关键字驱动、行
python-unittest-selenium执行用例实例/执行多个用例 Change is good python python selenium 开发语言
我们在做selenium测试的时候呢，经常会碰到一些需要执行多个用例的情况，也就是多线程执行py程序，我们前面讲过单个的py用例怎么执行和生产html报告，下面给大家介绍下多个用例怎么执行并自动生成html报告。一、写好每个测试用例，如我_register/_boot/_check/_buy/_longin/，我这里写了六条用例，当然每个用例下还是有分支的测试点。上面是一个例子，其他的不截图出来了
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
selenium clear（）方法清除文本框内容 Change is good selenium python 测试工具
在使用Selenium进行Web自动化测试时，清除文本框内容是一个常见的需求。这可以通过多种方式实现，取决于你使用的是哪种编程语言（如Python、Java等）以及你的具体需求。以下是一些常见的方法：1.使用clear()方法clear()方法是Selenium提供的一个非常直接的方法来清除文本框的内容。这个方法会删除文本框中的所有内容，并将其设置为空字符串。python：fromselenium
理解随机森林算法菌菌的快乐生活算法随机森林机器学习
基本概念随机森林（RandomForest）是一种集成学习算法，它属于机器学习中的监督学习算法。简单来说，它就像是一群“专家”（决策树）在一起讨论并做出决策。想象你要判断一个水果是苹果还是橙子，你可以通过观察水果的颜色、形状、大小等特征。随机森林算法就是利用很多棵决策树来对这个水果进行判断。每一棵决策树就像一个小专家，它们根据自己对这些特征的判断来给出一个答案（是苹果还是橙子），最后综合这些小专家
conda创建新虚拟环境——从无到有 S.T.A.R. 深度学习 tensorflow anaconda
自己租的GPU最近有点鱼的记忆，base配什么环境自己都忘了，所以自己开始学习如何创建并且配置一个新环境，当然这一切建立在andonate3安装完的前提下自己的配置：Linux系统，Xshell编译器创建环境condacreate-nyourEnvnamepython=3.6激活环境condaactivateyourEnvname就可以看到命令行的base换成了你的环境名可以开始installco
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
miniforge选择躺平小菜菜 python
一、介绍说明Miniforge是一款Python环境和包管理工具，相比Anaconda，推荐使用Miniforge的原因主要有以下三个方面。首先，miniforge集成了Anaconda的核心工具：conda。conda是一个包和环境管理工具，因此，miniforge里面的conda和Anaconda里面的conda完全一样；你能用Anaconda做的安装、升级、删除包等功能，miniforge都
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析码界领航 pandas 数据结构 python numpy
目录前言1.DataFrame简介2.DataFrame的特点3.DataFrame的创建3.1使用字典创建DataFrame3.2使用列表的列表（或元组）创建DataFrame3.3使用NumPy数组创建DataFrame3.4使用Series构成的字典创建DataFrame3.5使用字典构成的字典创建DataFrame4.从CSV文件读取5.DataFrame的属性和方法5.1查看DataFr
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
Anaconda 中更新当前环境的 Python 版本菌菌的快乐生活 python
要在Anaconda中更新当前环境的Python版本，可以按照以下步骤操作：打开AnacondaPrompt（Windows）或终端（macOS/Linux）。首先，你可以激活你想要更新的环境：condaactivateyour_environment_name将your_environment_name替换成你的环境名称。检查可用的Python更新版本：condasearchpython这将列出
rocketmq python 某个队列不消费_RocketMQ消息发送常见错误与解决方案 weixin_39849479 rocketmq python 某个队列不消费
点击上方“中间件兴趣圈”，选择“设为星标”做积极的人，越努力越幸运！本文将结合自己使用RocketMQ的经验，对消息发送常见的问题进行分享，基本会遵循出现问题，分析问题、解决问题。1、Norouteinfoofthistopic无法找到路由信息，其完整的错误堆栈信息如下：而且很多读者朋友会说Broker端开启了自动创建主题也会出现上述问题。RocketMQ的路由寻找流程如下图所示：上面的核心关键点
centos8安装python2.7_CentOS6.8 升级python2.7 杀心成焚
前提：centos6.8虚拟机，新机器，很多包都没有centos6.8自带python是2.6，项目需要python2.7注意：因为是新机器，所以os上很多依赖包都没有。我第一次参考链接的方式安装2.7，结果在执行pythonget-pip.py中报错：zipimport.ZipImportError:can'tdecompressdata;zlibnotavailable。查看了一些文档，都然并
华为OD机试D卷 --矩阵匹配--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 矩阵 python javascript java c++c语言
文章目录题目描述输入描述输出描述用例题目解析java源码js源码python源码c源码c++源码题目描述从一个N*M（N≤M）的矩阵中选出N个数，任意两个数字不能在同一行或同一列，求选出来的N个数中第K大的数字的最小值是多少。输入描述输入矩阵要求：1≤K≤N≤M≤150输入格式：NMKN*M矩阵输出描述N*M的矩阵中可以选出M!/N!种组合数组，每个组合数组种第K大的数中的最小值。无需考虑重复数字
linux离线安装gensim,安装gensim 宇宙探索未解之迷 linux离线安装gensim
pip3installjieba-0.39.zippip3installdocutils-0.15.2-py3-none-any.whlpip3installpython_dateutil-2.8.0-py2.py3-none-any.whlRequirementalreadysatisfied:six>=1.5pip3installbotocore-1.12.238-py2.py3-none-a
【Python】RocketMQ 基础使用 Encarta1993 Python rocketmq
目录1.介绍2.实践2.1.启动消费者2.2.启动生产者1.介绍RocketMQ是一个开源的分布式消息传递系统，最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案，适用于各种场景，包括在线消息通信、日志处理、流式处理、事件驱动架构等。下面是对Rocket
YOLO 目标检测编程详解不知名靓仔 YOLO 目标检测人工智能
引言目标检测是计算机视觉中的一个重要任务，它旨在识别图像中的对象并定位这些对象的位置。YOLO（YouOnlyLookOnce）是一种流行的目标检测算法，因其速度快且准确度高而广受好评。本文将深入探讨YOLO的原理及其实现方法，并提供一个使用Python和PyTorch的示例代码。项目源码见最下方1.YOLO算法简介YOLO算法的核心思想是将目标检测视为回归问题，而不是传统的分类加定位的两阶段方法
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D