geter_CS

决策树和回归树(Decision_Tree_and_Regression_Tree)

参考了统计学习方法，西瓜书，Machine Learnig with python做的总结，所以不能作为教程，还包含自己用sklearn做的一些对比实验，原文是写在jupyter上的，这里是直接转为.md导过来的，所以格式有些问题，有些东西还待完善…

注意几点：连续特征处理，预测问题或者说回归问题（连续性目标特征）

决策树（Decision tree）

熵

熵表示随机变量不确定性的度量。离散随机变量X的概率分布为, $P(X=x_i)=p_i,i=1,2,3...,n$ .则随机变量X的熵可以定义为： $H(p)=-\sum_{i=1}^np_ilog_2(p_i)$ $0\leq H(p)\leq log_2(n)$ 熵越大，随机变量的不确定性就越大.当随机变量的取任何值概率都相等时，也就是 $p_i=\frac{1}{n}$ 时，熵最大.此时可以知道 $H(p)=-n\times\frac{1}{n}\times log_2(\frac{1}{n})=log_2(n)$ .

条件熵

我们知道条件概率为 $P(Y=y_i|X=x_i)$ ,表示在已知 $X=x_i$ 条件下 $Y=y_i$ 的概率. $\quad$ 则条件熵定义为在已知随机变量 $X$ 的条件下，随机变量Y的不确定性，表示为 $H (Y ∣ X)$ : $H(Y|X)=-\sum_{i=1}^n p_iH(Y|X=x_i)$

信息增益

特征A对于训练数据D的信息增益表示为 $g (D, A)$ ： $g (D, A) = H (D) - H (D ∣ A)$ H(D)表示原始数据分类的不确定性, $H (D ∣ A)$ 表示特征A给定条件下数据集D分类的不确定性. $g (D, A)$ 就表示给定特征A后数据集D不确定性减小的程度.对于数据集 $D$ 和特征 $A$ 有： $H(D)=-\sum_{i=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$ ,这里 $C_k|$ 表示类别 $C_k$ 的数量. $H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log_2(\frac{|D_{ik}|}{|D_i|})$ 这里 $n$ 表示特征 $A$ 的可取值数量.

信息增益比

定义：特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据D关于特征A的值的熵 $H_A(D)$ 值比，即： $g_R(D,A)=\frac{g(D,A)}{H_A(D)}$ ,其中 $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$ , $n$ 是特征 $A$ 取值个数.

基尼指数

定义：分类问题假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ,则概率分布的基尼指数定义为 $Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp^2_k$
对于二分类问题，若样本点属于第一个类的概率是p,则概率分布的基尼指数为 $G i n i (p) = 2 p (1 - p)$
对于给定样本集合 $D$ ,其基尼指数为： $Gini(D)=1-\sum_{k=1}^K(\frac{C_k}{D})^2 （1）$
这里， $C_k$ 是 $D$ 中属于第 $k$ 类的样本自己， $K$ 是类的个数.
如果样本集合根据特征 $A$ 是否取某一可能值 $a$ ,被分割成 $D_1$ 和 $D_2$ 两个部分，即 $D_1=\{(x,y)\in D|A(x)=a\},D_2=D-D_1$
则在特征 $A$ 的条件下，集合 $D$ 的基尼指数定义为: $Gini(D,A)=\frac{D_1}{D}Gini(D_1)+\frac{D_2}{D}Gini(D_2)$
基尼指数 $G i n i (D)$ 表示集合 $D$ 的不确定性，基尼指数 $G (D, A)$ 表示经 $A = a$ 分割后集合 $D$ 的不确定性.基尼指数越大，样本集合的不确定性也就越大.怎么理解：当种类数变多时（1）式中第二项会变小，这样会使基尼指数变大，这样也就是表示了不确定性越大.

决策树生成

ID3：
输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\epsilon$ ;
输出：决策树 $T$
1.若 $D$ 中所有实例属于同一类 $C_k$ ,则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的类标记，返回T；
2.若 $A=\varnothing$ ,则返回单节点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类标记，返回 $T$ ；
3.否则，选择信息增益最大的特征 $A_g$ ；
4.如果 $A_g$ 信息增益小于阈值 $\epsilon$ ，则置 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类标记，返回 $T$ ；
5.否则，对 $A_g$ 的每个可能值 $a_i$ ,依 $A_g=a_i$ 将 $D$ 分为若干个非空子集 $D_i$ ,将 $D_i$ 中实例数最大的类作为标记，构建子节点，由节点及其子节点构成树 $T$ ,返回 $T$ ；
6.对第i个子节点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归调用1-5步，得到子树，返回 $T_i$ .

C45：
C45与ID3算法相似，但是使用的是信息增益比来选择特征，这是因为 以信息增益比作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题.使用信息增益比可以对这一问题进行校正. 这是因为 $A$ 的取值很多的话 $\frac{|D_i|}{|D|}$ 会很小，这样会导致 $H (D ∣ A)$ 也会很小，这样信息增益就会很大.而信息增益比在信息增益的基础上除以了特征 $A$ 的取值类别的熵，也就是 $H_A(D)$ 就表示特征 $A$ 的取值不确定性程度或者说取值复杂度，那么信息增益的基础上除以 $H_A(D)$ 就可以抵消掉特征 $A$ 的取值复杂度的影响.

剪枝

决策树剪枝通过最小化决策树整体的损失函数来实现.

CART

后面回归树一起

优点

不需要特征归一化处理；
可以做分类，也可以做回归；
可以建模非线性关系；

缺点

若是连续特征，树可能会相当大；
决策树的一个缺点是要求训练数据中包含所有标签类，否则对于数据中没有出现过的标签类没有判别能力
数据微小变化可能导致不同的树；
若特征很多，而数据量少，那么树很容易过拟合；

python实现

import pandas as pd
import numpy as np
from pprint import pprint 
dataset=pd.read_csv("data/zoo.data",names=["animal_name","hair","feathers","eggs","milk",
                                       "airbone","aquatic","predator","toothed","backbone","breathes","venomous","fins","legs"
                                       ,"tail","domestic","catsize","class"])##若有数据没有columns可以使用names来添加
dataset.head()

	animal_name	hair	eggs	milk	aquatic	predator	toothed	backbone	breathes	fins	legs	tail	catsize	class
0	aardvark	1	0	1	0	1	1	1	1	0	4	0	1	1
1	antelope	1	0	1	0	0	1	1	1	0	4	1	1	1
2	bass	0	1	0	1	1	1	1	0	1	0	1	0	4
3	bear	1	0	1	0	1	1	1	1	0	4	0	1	1
4	boar	1	0	1	0	1	1	1	1	0	4	1	1	1

dataset=dataset.drop("animal_name",axis=1)#去掉列
dataset.head()
#dataset.loc[set(range(0,101))-set([9,100,2])]#去掉行
#dataset[["hair","eggs"]].iloc[[1,2,3,6]]#去掉行和列
#np.unique(dataset[["hair","eggs"]].iloc[[1,2,3,6]])#去掉重复项
#p.unique(dataset["tail"])

	hair	eggs	milk	aquatic	predator	toothed	backbone	breathes	fins	legs	tail	catsize	class
0	1	0	1	0	1	1	1	1	0	4	0	1	1
1	1	0	1	0	0	1	1	1	0	4	1	1	1
2	0	1	0	1	1	1	1	0	1	0	1	0	4
3	1	0	1	0	1	1	1	1	0	4	0	1	1
4	1	0	1	0	1	1	1	1	0	4	1	1	1

def entropy(target_col):
    elements,counts = np.unique(target_col,return_counts = True)
    entropy = np.sum([(-counts[i]/np.sum(counts))*np.log2(counts[i]/np.sum(counts)) for i in range(len(elements))])
    return entropy
def InfoGain(data,split_attribute_name,target_name="class"):
    total_entropy = entropy(data[target_name])
    vals,counts= np.unique(data[split_attribute_name],return_counts=True)
    Weighted_Entropy = np.sum([(counts[i]/np.sum(counts))*entropy(data.where(data[split_attribute_name]==vals[i]).dropna()[target_name]) for i in range(len(vals))])
    Information_Gain = total_entropy - Weighted_Entropy
    return Information_Gain

def ID3(data,originaldata,features,target_attribute_name="class",parent_node_class = None):    
    if len(np.unique(data[target_attribute_name])) <= 1:#也就是只有一个类别
        return np.unique(data[target_attribute_name])[0]#返回该类
    elif len(data)==0:
        return np.unique(originaldata[target_attribute_name])[np.argmax(np.unique(originaldata[target_attribute_name],return_counts=True)[1])]
    elif len(features) ==0:
        return parent_node_class
    else:
        parent_node_class = np.unique(data[target_attribute_name])[np.argmax(np.unique(data[target_attribute_name],return_counts=True)[1])]
    item_values = [InfoGain(data,feature,target_attribute_name) for feature in features] #Return the information gain values for the features in the dataset
    best_feature_index = np.argmax(item_values)
    best_feature = features[best_feature_index]
    tree = {best_feature:{}}
    features = [i for i in features if i != best_feature]
    for value in np.unique(data[best_feature]):
            value = value
            sub_data = data.where(data[best_feature] == value).dropna()
            subtree = ID3(sub_data,dataset,features,target_attribute_name,parent_node_class)
            tree[best_feature][value] = subtree
            #print(tree)
    return(tree)

def predict(query,tree,default = 1):
    for key in list(query.keys()):
        if key in list(tree.keys()):
            #2.
            try:
                result = tree[key][query[key]] 
            except:
                return default
            #3.
            result = tree[key][query[key]]
            #4.
            if isinstance(result,dict):
                return predict(query,result)
            else:
                return result

def train_test_split(dataset):
    training_data = dataset.iloc[:80].reset_index(drop=True)
    testing_data = dataset.iloc[80:].reset_index(drop=True)
    return training_data,testing_data
training_data = train_test_split(dataset)[0]
testing_data = train_test_split(dataset)[1] 
tree = ID3(training_data,training_data,training_data.columns[:-1])
pprint(tree)

{'legs': {0: {'fins': {0.0: {'toothed': {0.0: 7.0, 1.0: 3.0}},
                       1.0: {'eggs': {0.0: 1.0, 1.0: 4.0}}}},
          2: {'hair': {0.0: 2.0, 1.0: 1.0}},
          4: {'hair': {0.0: {'toothed': {0.0: 7.0, 1.0: 5.0}}, 1.0: 1.0}},
          6: {'aquatic': {0.0: 6.0, 1.0: 7.0}},
          8: 7.0}}

def test(data,tree):
    #Create new query instances by simply removing the target feature column from the original dataset and 
    #convert it to a dictionary
    queries = data.to_dict(orient = "records")
    
    #Create a empty DataFrame in whose columns the prediction of the tree are stored
    predicted = pd.DataFrame(columns=["predicted"]) 
    
    #Calculate the prediction accuracy
    for i in range(len(data)):
        predicted.loc[i,"predicted"] = predict(queries[i],tree,1.0) 
    print('The prediction accuracy is: ',(np.sum(predicted["predicted"] == data["class"])/len(data))*100,'%')
testing_data.to_dict(orient = "records")#orient若不设置，默认key值是数值
test(testing_data,tree)

The prediction accuracy is:  85.71428571428571 %

sklearn实现

from sklearn.tree import DecisionTreeClassifier

dataset1=pd.read_csv("data\zoo.data",names=["animal_name","hair","feathers","eggs","milk",
                                       "airbone","aquatic","predator","toothed","backbone","breathes","venomous","fins","legs"
                                       ,"tail","domestic","catsize","class"])
dataset1=dataset1.drop("animal_name",axis=1)

train_features=dataset1.iloc[:80,:-1]
train_features
test_features=dataset1.iloc[80:,:-1]
train_targets=dataset1.iloc[:80,-1]
test_targets=dataset1.iloc[80:,-1]
test_targets

80     3
81     7
82     4
83     2
84     1
85     7
86     4
87     2
88     6
89     5
90     3
91     3
92     4
93     1
94     1
95     2
96     1
97     6
98     1
99     7
100    2
Name: class, dtype: int64

model=DecisionTreeClassifier(criterion="entropy",max_depth=6,min_samples_leaf=1,min_samples_split=4)#gini
model.fit(train_features,train_targets)
#Scikit-Learn 用的是 CART 算法， CART 算法仅产生二叉树：每一个非叶节点总是只有
#两个子节点（只有是或否两个结果） 。然而，像 ID3 这样的算法可以产生超过两个子节，因此这里用sklearn没有python写的效果好
#点的决策树模型。

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=6,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=4,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

prediction=model.predict(test_features)
print("The prediction accuracy is:",model.score(test_features,test_targets)*100,"%")

The prediction accuracy is: 80.95238095238095 %

sklearn 中决策树的剪枝通过调参实现
clf = tree.DecisionTreeClassifier()这个构建决策树的构造函数，带有参数常用的包括如下：

criterion='gini', 选用基尼系数作为选择特征的分裂点“entropy”

max_depth=None, 树的最大深度

min_samples_split=2, 分裂点的样本个数

min_samples_leaf =1, 叶子节点的样本个数

max_leaf_nodes=None，最大的叶子节点数

### 试试随机森林
from sklearn.ensemble import RandomForestClassifier
model=RandomForestClassifier(n_estimators=5,max_leaf_nodes=6,n_jobs=-1,criterion="entropy")
model.fit(train_features,train_targets)
prediction=model.predict(test_features)
print("The prediction accuracy is:",model.score(test_features,test_targets)*100,"%")

The prediction accuracy is: 76.19047619047619 %

### 试试AdaBoostClassifier（或者说Booting DTC，提升决策分类树）
from sklearn.ensemble import AdaBoostClassifier
model=AdaBoostClassifier(DecisionTreeClassifier(max_depth=3),n_estimators=200,algorithm="SAMME.R",learning_rate=0.5)
model.fit(train_features,train_targets)
#model=AdaBoostClassifier(n_estimators=200,algorithm="SAMME.R",learning_rate=0.5)#SAMME.R
#model.fit(train_features,train_targets)
prediction=model.predict(test_features)
print("The prediction accuracy is:",model.score(test_features,test_targets)*100,"%")

The prediction accuracy is: 85.71428571428571 %

### 试试Gradient Tree Boosting(梯度提升决策分类树也就是常说的GBDT（）)
from sklearn.ensemble import GradientBoostingClassifier
model=GradientBoostingClassifier(max_depth=6,n_estimators=100,learning_rate=1)
model.fit(train_features,train_targets)
prediction=model.predict(test_features)
print("The prediction accuracy is:",model.score(test_features,test_targets)*100,"%")

The prediction accuracy is: 85.71428571428571 %

连续属性值的处理

对于连续属性值取值数目不在有限，因此不能直接根据连续属性的可取值进行划分。最简单的是采用二分法对连续属性进行处理，这正是C4.5决策树算法中采用的机制.见西瓜书P83

回归树（Regression Tree）

如果我们需要用树结构来做预测问题，比如使用属性房间数，地理位置来预测目标特征（target feature）即房屋价格，此时价格就是连续的。我们就需要使用回归树来解决这个问题。

回归树的生成与决策树生成基本一样，只是有两点改变，首先我们回顾一下决策树生成叶子节点时的停止准侧（标准critera）：
1.如果拆分过程导致数据集为空，则返回原始数据的目标特征值
2.如果拆分过程使得数据无特征剩余，则返回父节点的目标特征值
3.如果拆分过程使得数据目标特征值是一致时，返回这个值

1.现在我们来考虑连续问题的情况，此时停止准则中的第三个点就不在适用，因为目标特征值是连续的，所以不可能拆分到一个纯的目标特征值.为了解决这个问题，我们可以使用一种个提前结束准则，即返回目标特征值的平均值，当拆分到数据集中数量小于等于5时.也就是在回归树中，我们采用平均目标特征值作为叶子结点（预测值）。注意这个5是可调的下面实验中我们将展示其影响

2.现在来考虑划分标准,我们希望通过这个划分标准划分得到的预测值，尽量靠近真实值，因此我们选取加权方差(Varience)作为划分标准。为甚不用熵，因为目标特征值很多情况下就一个，那么条件熵是0.

举个例子

$WeightVar(Season)=\frac{1}{9}\times(79-79)^2+\frac{5}{9}\times\frac{(352-211.8)^2+(421-211.8)^2+(12-211.8)^2+(162-211.8)^2+(112-211.8)^2}{4}+\frac{1}{9}\times(161-161)^2+\frac{2}{9}\times\frac{(109-137)^2+(165-137)^2}{1}=16429.1$

$WeightVar(Weekday)=\frac{2}{9}\times\frac{(109-94)^2+(79-94)^2}{1}+\frac{2}{9}\times\frac{(162-137)^2+(112-137)^2}{1}+\frac{1}{9}\times(421-421)^2+\frac{2}{9}\times\frac{(161-86.5)^2+(12-86.5)^2}{1}+\frac{2}{9}\times\frac{(352-258.5)^2+(165-258.5)^2}{1}=6730$

$WeightVar(Weathersit)=\frac{4}{9}\times\frac{(421-174.2)^2+(165-174.2)^2+(12-174.2)^2+(161-174.2)^2+(112-174.2)^2}{4}+\frac{2}{9}\times\frac{(352-230.5)^2+(109-230.5)^2}{1}+\frac{2}{9}\times\frac{(79-120.5)^2+(112-120.5)^2}{1}=19646.83$

由于 $W e e k d a y$ 有最低的加权方差，因此选择这个特征作为根节点.

最后准确度度量使用的是根均方误差RMSE： $RMSE=\sqrt{\frac{\sum_{i=1}^2(t_i-Model(test_i))^2}{n}}$

CART

CART对分类树使用基尼指数最小化准则，进行特征选择，生成 二叉树.对于回归树采用平方误差最小化准则（没有使用RMSE）由于CART生成二叉树，无论分类树还是回归树事实上对属性值选取采取的是二分法（连续属性处理方式）.(ID3,C45不一定生成二叉树)

CART分类树

输入：训练数据集D，停止计算条件；
输出：CART决策树
(1) 设节点的训练数据集为 $D$ ,对于每个特征 $A$ ,对其可能的取的每个 $a$ 值，计算 $A = a$ 的基尼指数Gini(D,A=a).
(2) 在所有可能的特征以及它们所有可能的切分点 $a$ 中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点，生成两个子节点，并将数据集分配到两个子节点中。
(3) 对两个子节点递归调用(1),(2),直至满足停止条件
(4) 生成CART决策树
算法停止条件:节点中样本个数小于约定阈值，或样本集合的基尼指数小于预定阈值（样本基本属于同一类），或者没有更多特征.

CART回归树(最小二乘回归树)

CART回归树也叫最小二乘回归树，这是因为其以最小化平方误差来生成决策树的.其特征是采用二分法来选取的.而且其目标特征值实际上采用的就是平均处理的方式.
对于训练数据 $D=\{(x_1,y_1),(x_2,y_2),..,(x_n,y_n)\}$

一个回归树对应着输入空间(特征空间)的一个划分，以及在划分单元上的的输出值.假设将输入空间划分为 $M$ 个单元 $R_1,R_2,..,R_M$ ,并且在每个单元 $R_m$ 上有一个固定输出值 $c_m$ ,于是回归树模型可以表示为 $f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
那么这个回归树的误差可以表示 $\sum_{i=1}^n(y_i-c_i)^2$
其中 $c_i=f(x)\in\{c_1,c_2,...,c_M\}$ ,由于回归树生成是最小平方误差，所以 $c_m$ 应该是单元 $R_m$ 中的所有输入实例 $x_i$ 对应的标签值 $y_i$ 的均值，即 $\hat{c}_m=c_m=ave(y_i|x_i\in R_m)$
这和上面讲的平均目标特征值作为叶子结点的处理方式是一样的
特征空间的划分采用启发式的方法,选择第 $j$ 个变量（特征）和它的取值 $s$ ，作为切分变量和切分点，将数据集划分为两个.寻找最优切分变量和切分点通过最小化平方差.具体见算法

CART回归树(最小二乘回归树)算法

输入:训练数据集 $D$ ；
输出：回归树 $f (x)$
在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域，并决定每个子区域上的输出值，构建二叉树
(1)选择最优切分变量(特征) $j$ 与切分点 $s$ ，求解 $min_{j,s}[min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2]$ 遍历变量 $j$ ，对固定切分变量扫描切分点 $s$ ,选择使上式达到最小值得 $(j, s)$
(2)用选定的对(j,s)划分区域，并决定相应的输出值： $R_1(j,s)=\{x|x^{j}\leq s\},R_2(j,s)=\{x|x^{j}>s\}$
$\hat{c}_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)y_i},x\in R_m,m=1,2$
(3)继续对两个子区域调用(1),(2),直至满足停止条件.
(4)将输入空间划分为 $M$ 个区域 $R_1,R_2,...,R_M$ ,生成决策树: $f(x)=\sum_{m=1}^M\hat{c}_mI(x\in R_m)$

sklearn实现

from sklearn.tree import DecisionTreeRegressor
import pandas as pd
import numpy as np
dataset=pd.read_csv("data/Bike-Sharing-Dataset/day.csv")
dataset=dataset[['season','holiday','weekday','workingday','weathersit','cnt']].sample(frac=1)
#dataset.sample(frac=0.11)#随机抽取，参数frac：0-1之间，表示随机抽取比例，想抽取n个则直接设置参数n=2
#dataset.sample(n=5)
dataset.head()

	season	weekday	workingday	weathersit	cnt
706	4	5	1	2	5008
75	1	4	1	1	2744
263	3	3	1	2	4352
334	4	4	1	1	3727
416	1	2	1	1	3777

mean_data=np.mean(dataset.iloc[:,-1])#对最后一列取个平均
mean_data

4504.3488372093025

def train_test_split(dataset):
    training_data=dataset.iloc[:int(0.7*len(dataset))].reset_index(drop=True)#drop index并重新设置
    testing_data=dataset.iloc[int(0.7*len(dataset)):].reset_index(drop=True)
    return training_data,testing_data
training_data=train_test_split(dataset)[0]
testing_data=train_test_split(dataset)[1]
#training_data
#testing_data.iloc[:,:-1]

regression_model=DecisionTreeRegressor(criterion="mse",min_samples_leaf=5)
regression_model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=5,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best')

predicted=regression_model.predict(testing_data.iloc[:,:-1])
predicted.shape
testing_data.iloc[:,-1:].shape
test_target=np.asarray(testing_data.iloc[:,-1:])
test_target=test_target.reshape([220,])

RMSE=np.sqrt(np.sum((predicted-test_target)**2)/(len(test_target)-1))
RMSE

1579.8360862692232

现在我们看看：拆分数据集最小量变化对树结构的影响

import matplotlib.pyplot as pl
train_data_RMSE=[]
test_data_RMSE=[]
train_target=np.asarray(training_data.iloc[:,-1:]).reshape([len(training_data),])
test_taregt=np.asarray(testing_data.iloc[:,-1:]).reshape([len(testing_data,)])
for i in range(1,100):
    model=DecisionTreeRegressor(criterion="mse",min_samples_leaf=i)
    model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])
    train_predict=model.predict(training_data.iloc[:,:-1])
    test_predict=model.predict(testing_data.iloc[:,:-1])
    train_rmse=np.sqrt(np.sum((train_predict-train_target)**2)/(len(training_data)-1))
    test_rmse=np.sqrt(np.sum((test_predict-test_target)**2)/(len(testing_data-1)))
    train_data_RMSE.append(train_rmse)
    test_data_RMSE.append(test_rmse)
pl.plot(range(1,100),train_data_RMSE,label="train_data_RMSE")#也就是两条线相交的那个点是最好的
pl.plot(range(1,100),test_data_RMSE,label="test_data_RMSE")
pl.legend()
pl.show()

其他模型在此数据集上的表现：

from sklearn.linear_model import LinearRegression
model=LinearRegression(normalize=True)
model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

predicted=model.predict(testing_data.iloc[:,:-1])
RMSE=np.sqrt(np.sum((predicted-test_target)**2)/(len(testing_data)-1))
print(RMSE)#发现方差更大，可能是因为数据并非是非线性的

33699.118262229465

#再试试Lasso和Ridge
from sklearn.linear_model import Lasso
model=Lasso(alpha=0.3,normalize=True)
model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])

Lasso(alpha=0.3, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=True, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

predicted=model.predict(testing_data.iloc[:,:-1])
RMSE=np.sqrt(np.sum((predicted-test_target)**2)/(len(testing_data)-1))
print(RMSE)#发现方差更大，可能是因为数据并非是非线性的

1710.6078966005025

#再试试Ridge
from sklearn.linear_model import Ridge
model=Ridge(0.3,normalize=True)
model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])

Ridge(alpha=0.3, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=True, random_state=None, solver='auto', tol=0.001)

predicted=model.predict(testing_data.iloc[:,:-1])
RMSE=np.sqrt(np.sum((predicted-test_target)**2)/(len(testing_data)-1))
print(RMSE)#发现方差更大，可能是因为数据并非是非线性的

32156.18744278281

### 再试试AdaBoosting regression（提升回归树）
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor
model=AdaBoostRegressor(base_estimator=DecisionTreeRegressor(max_depth=3),n_estimators=100,learning_rate=1)#没有指出base_estimator,则默认是DecisionTreeRegressor(max_depth=3)
model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])
predicted=model.predict(testing_data.iloc[:,:-1])
RMSE=np.sqrt(np.sum((predicted-test_target)**2)/(len(testing_data)-1))
print(RMSE)#发现方差更大，可能是因为数据并非是非线性的

1495.9294447250152


D:\anaconda\lib\site-packages\sklearn\utils\validation.py:761: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
  y = column_or_1d(y, warn=True)

### 再试试Gradient Boosting Tree Regressor（梯度提升回归树）
from sklearn.ensemble import GradientBoostingRegressor
model=GradientBoostingRegressor(loss="huber",max_depth=2,n_estimators=200,learning_rate=0.05)#由于使用梯度，所以学习率更小，损失函数可选有ls,lad,huber,quamtile
model.fit(training_data.iloc[:,:-1],training_data.iloc[:,-1:])
predicted=model.predict(testing_data.iloc[:,:-1])
RMSE=np.sqrt(np.sum((predicted-test_target)**2)/(len(testing_data)-1))
print(RMSE)#发现方差更大，可能是因为数据并非是非线性的

D:\anaconda\lib\site-packages\sklearn\utils\validation.py:761: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
  y = column_or_1d(y, warn=True)


1491.1037993981756

你可能感兴趣的:(机器学习,决策树,回归树,decision,tree,regression,tree)

知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
List 和 Set 的区别不会搬砖的淡水鱼数据结构 list windows 数据结构
List和Set的区别在Java中，List和Set都是Collection接口的子接口，但它们的存储结构、特点、使用场景不同。对比项List（有序、可重复）Set（无序、不可重复）是否允许重复元素✅允许❌不允许是否有序✅按插入顺序排序❌无序（TreeSet除外）是否可以有null✅允许多个null✅只允许一个null底层数据结构数组、链表哈希表、红黑树访问方式通过索引访问通过iterator遍历
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
98-二叉树-验证二叉搜索树 Hello_Git javascript
树|深度优先搜索|二叉搜索树|二叉树一、二叉搜索树（BST）的性质首先，了解二叉搜索树（BinarySearchTree,BST）的定义和性质是解决这类问题的基础。BST的定义左子树：节点的左子树只包含小于当前节点的数。右子树：节点的右子树只包含大于当前节点的数。递归性质：左子树和右子树本身也必须是二叉搜索树。简单来说，BST具有以下特点：中序遍历BST可以得到一个递增的有序序列。每个节点的值都大
杭州宇树科技有限公司（Hangzhou Yushu Science And Technology Co., Ltd.） [19]，简称宇树，是一家从事软件和信息技术服务业民用机器人公司 [19-20] 分享是一种传递，一种快乐杂学百货铺-啥都学人工智能
UnitreeRoboticsisaworld-renownedcivilianroboticscompany,whichisfocusingontheR&D,production,andsalesofconsumerandindustry-classhigh-performancegeneral-purposeleggedandhumanoidrobots,six-axismanipulator
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
java实现二叉树的深度优先遍历开往1982 深度优先算法 java
深度优先三种遍历方法1.先序遍历2.中序遍历3.后序遍历1.定义树节点（这里我重构了tostring方法）packagecom.data.tree;publicclassNode{intvalue;Nodeleft;Noderight;publicNode(intval){value=val;}@OverridepublicStringtoString(){return"Node[value="+
Mininet树形拓扑解析漫谈网络网络技术进阶通途网络 mininet sdn nfv
在Mininet中，tree,depth,fanout用于定义树形拓扑的参数，其中：depth：树的深度（层数），包括根节点所在的层。fanout：每层节点的分叉数（每个节点连接的子节点数量）。对于tree,4,3，即深度为4，分叉数为3，其节点生成规则如下：一、拓扑参数定义depth=4：交换机的层级数（根为第1层，共4层交换机）。fanout=3：每台交换机（非最后一层）连接3台子交换机或主机
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库后端java
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter是什么？
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
推荐项目：yaml-pro，提升你的YAML编辑体验余靖年Veronica
推荐项目：yaml-pro，提升你的YAML编辑体验项目地址:https://gitcode.com/gh_mirrors/ya/yaml-pro在日常的开发工作中，YAML作为配置文件的宠儿，其简洁明了的语法深受开发者喜爱。然而，当面对复杂或庞大的YAML文件时，高效的编辑工具就显得至关重要。因此，我们强烈推荐一款专为Emacs用户设计的开源神器——yaml-pro，它利用tree-sitter
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
红黑树详解？红黑树设计的背景？ F_windy java
红黑树详解1.红黑树的基本概念红黑树（Red-BlackTree）是一种自平衡的二叉搜索树（BST），通过节点颜色（红或黑）和一组规则来保持近似平衡，确保插入、删除、查找等操作的时间复杂度为O(logn)。它的核心思想是通过颜色标记和旋转操作，减少树的高度差异，从而提升性能。2.红黑树的五大规则红黑树必须满足以下规则：颜色规则：每个节点非红即黑。根节点规则：根节点必须是黑色。叶子节点规则：所有叶子
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

	hair	eggs	milk	aquatic	predator	toothed	backbone	breathes	fins	legs	tail	catsize	class
0	1	0	1	0	1	1	1	1	0	4	0	1	1
1	1	0	1	0	0	1	1	1	0	4	1	1	1
2	0	1	0	1	1	1	1	0	1	0	1	0	4
3	1	0	1	0	1	1	1	1	0	4	0	1	1
4	1	0	1	0	1	1	1	1	0	4	1	1	1

	hair	eggs	milk	aquatic	predator	toothed	backbone	breathes	fins	legs	tail	catsize	class
0	1	0	1	0	1	1	1	1	0	4	0	1	1
1	1	0	1	0	0	1	1	1	0	4	1	1	1
2	0	1	0	1	1	1	1	0	1	0	1	0	4
3	1	0	1	0	1	1	1	1	0	4	0	1	1
4	1	0	1	0	1	1	1	1	0	4	1	1	1

	hair	eggs	milk	aquatic	predator	toothed	backbone	breathes	fins	legs	tail	catsize	class
0	1	0	1	0	1	1	1	1	0	4	0	1	1
1	1	0	1	0	0	1	1	1	0	4	1	1	1
2	0	1	0	1	1	1	1	0	1	0	1	0	4
3	1	0	1	0	1	1	1	1	0	4	0	1	1
4	1	0	1	0	1	1	1	1	0	4	1	1	1