weixin_39993322

python决策树id3算法_机器学习之-常见决策树算法(ID3、C4.5、CART)

一、引言

决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一颗熵值下降最快的树，到叶子节点处，熵值为0。其具有可读性、分类速度快的优点，是一种有监督学习。最早提及决策树思想的是Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及Breiman等人在1984年提出的CART算法。本篇文章主要介绍决策树的基本概念，以及上面这3种常见决策树算法(ID3、C4.5、CART)原理及其代码实现。

二、决策树(ID3、C4.5和CART算法)

2.1、决策树是什么

下面主要讨论用与分类的决策树。决策树呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型；预测时，对新的数据，利用决策模型进行分类。

决策树的分类：决策树可以分为两类，主要取决于它目标变量的类型。

离散性决策树：离散性决策树，其目标变量是离散的，如性别：男或女等；

连续性决策树：连续性决策树，其目标变量是连续的，如工资、价格、年龄等；

决策树相关的重要概念：

(1)根结点(Root Node)：它表示整个样本集合，并且该节点可以进一步划分成两个或多个子集。

(2)拆分(Splitting)：表示将一个结点拆分成多个子集的过程。

(3)决策结点(Decision Node)：当一个子结点进一步被拆分成多个子节点时，这个子节点就叫做决策结点。

(4)叶子结点(Leaf/Terminal Node)：无法再拆分的结点被称为叶子结点。

(5)剪枝(Pruning)：移除决策树中子结点的过程就叫做剪枝，跟拆分过程相反。

(6)分支/子树(Branch/Sub-Tree)：一棵决策树的一部分就叫做分支或子树。

(7)父结点和子结点(Paren and Child Node)：一个结点被拆分成多个子节点，这个结点就叫做父节点；其拆分后的子结点也叫做子结点。

2.2、决策树的构造过程

决策树的构造过程一般分为3个部分，分别是特征选择、决策树生产和决策树裁剪。

(1)特征选择：

特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准，如何选择特征有不同的量化评估方法，从而衍生出不同的决策树，如ID3(通过信息增益选择特征)、C4.5(通过信息增益比选择特征)、CART(通过Gini指数选择特征)等。

目的(准则)：使用某特征对数据集划分之后，各数据子集的纯度要比划分钱的数据集D的纯度高(也就是不确定性要比划分前数据集D的不确定性低)

(2)决策树的生成

根据选择的特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止生长。这个过程实际上就是使用满足划分准则的特征不断的将数据集划分成纯度更高，不确定行更小的子集的过程。对于当前数据集的每一次划分，都希望根据某个特征划分之后的各个子集的纯度更高，不确定性更小。

(3)决策树的裁剪

决策树容易过拟合，一般需要剪枝来缩小树结构规模、缓解过拟合。

2.3、决策树的优缺点

决策树的优点：

(1)具有可读性，如果给定一个模型，那么过呢据所产生的决策树很容易推理出相应的逻辑表达。

(2)分类速度快，能在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

决策树的缺点：

(1)对未知的测试数据未必有好的分类、泛化能力，即可能发生过拟合现象，此时可采用剪枝或随机森林。

2.4、ID3算法原理与python代码实现

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征递归地构建决策树。

2.4.1信息增益

在《最大熵模型学习》一文中，我们提到过熵和条件熵的概念，下面我们在总结一遍。

(1)熵

在信息论中，熵(entropy)是随机变量不确定性的度量，也就是熵越大，则随机变量的不确定性越大。设X是一个取有限个值得离散随机变量，其概率分布为：

则随机变量X的熵定义为：

(2)条件熵

设有随机变量(X, Y)，其联合概率分布为：

条件熵H(Y|X)表示在已知随机变量X的条件下，随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

当熵和条件熵中的概率由数据估计得到时(如极大似然估计)，所对应的熵与条件熵分别称为经验熵和经验条件熵。

(3)信息增益

定义：信息增益表示由于得知特征A的信息后儿时的数据集D的分类不确定性减少的程度，定义为：

Gain(D,A) = H(D) – H(D|A)

即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(H|A)之差。

理解：选择划分后信息增益大的作为划分特征，说明使用该特征后划分得到的子集纯度越高，即不确定性越小。因此我们总是选择当前使得信息增益最大的特征来划分数据集。

缺点：信息增益偏向取值较多的特征(原因：当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分后的熵更低，即不确定性更低，因此信息增益更大)

2.4.2 ID3算法

输入：训练数据集D，特征集A，阈值ε；

输出：决策树T.

Step1：若D中所有实例属于同一类

，则T为单结点树，并将类

作为该节点的类标记，返回T；

Step2：若A=Ø，则T为单结点树，并将D中实例数最大的类

作为该节点的类标记，返回T；

Step3：否则，2.1.1(3)计算A中个特征对D的信息增益，选择信息增益最大的特征

；

Step4：如果

的信息增益小于阈值ε，则T为单节点树，并将D中实例数最大的类

作为该节点的类标记，返回T

Step5：否则，对

的每一种可能值

，依

将D分割为若干非空子集

，将

中实例数最大的类作为标记，构建子结点，由结点及其子树构成树T，返回T；

Step6：对第i个子节点，以

为训练集，以

为特征集合，递归调用Step1~step5，得到子树

，返回

；

2.4.3 python代码实现

接下来我们通过下面这组数据作为测试样本

序号

不浮出水面是否可以生存

是否有脚蹼

是否属于鱼类

是

否

是

否

是

否

文件名：id3.py

# -*- coding: utf-8 -*-

from math import log

import operator

import tree_plotter

def create_data_set():

"""

创建样本数据

:return:

"""

data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

labels = ['no surfacing', 'flippers']

return data_set, labels

def calc_shannon_ent(data_set):

"""

计算信息熵

:param data_set: 如： [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

:return:

"""

num = len(data_set) # n rows

# 为所有的分类类目创建字典

label_counts = {}

for feat_vec in data_set:

current_label = feat_vec[-1] # 取得最后一列数据

if current_label not in label_counts.keys():

label_counts[current_label] = 0

label_counts[current_label] += 1

# 计算香浓熵

shannon_ent = 0.0

for key in label_counts:

prob = float(label_counts[key]) / num

shannon_ent = shannon_ent - prob * log(prob, 2)

return shannon_ent

def split_data_set(data_set, axis, value):

"""

返回特征值等于value的子数据集，切该数据集不包含列(特征)axis

:param data_set: 待划分的数据集

:param axis: 特征索引

:param value: 分类值

:return:

"""

ret_data_set = []

for feat_vec in data_set:

if feat_vec[axis] == value:

reduce_feat_vec = feat_vec[:axis]

reduce_feat_vec.extend(feat_vec[axis + 1:])

ret_data_set.append(reduce_feat_vec)

return ret_data_set

def choose_best_feature_to_split(data_set):

"""

按照最大信息增益划分数据

:param data_set: 样本数据，如： [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

:return:

"""

num_feature = len(data_set[0]) - 1 # 特征个数，如：不浮出水面是否可以生存和是否有脚蹼

base_entropy = calc_shannon_ent(data_set) # 经验熵H(D)

best_info_gain = 0

best_feature_idx = -1

for feature_idx in range(num_feature):

feature_val_list = [number[feature_idx] for number in data_set] # 得到某个特征下所有值(某列)

unique_feature_val_list = set(feature_val_list) # 获取无重复的属性特征值

new_entropy = 0

for feature_val in unique_feature_val_list:

sub_data_set = split_data_set(data_set, feature_idx, feature_val)

prob = len(sub_data_set) / float(len(data_set)) # 即p(t)

new_entropy += prob * calc_shannon_ent(sub_data_set) #对各子集香农熵求和

info_gain = base_entropy - new_entropy # 计算信息增益，g(D,A)=H(D)-H(D|A)

# 最大信息增益

if info_gain > best_info_gain:

best_info_gain = info_gain

best_feature_idx = feature_idx

return best_feature_idx

def majority_cnt(class_list):

"""

统计每个类别出现的次数，并按大到小排序，返回出现次数最大的类别标签

:param class_list: 类数组

:return:

"""

class_count = {}

for vote in class_list:

if vote not in class_count.keys():

class_count[vote] = 0

class_count[vote] += 1

sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reversed=True)

print sorted_class_count[0][0]

return sorted_class_count[0][0]

def create_tree(data_set, labels):

"""

构建决策树

:param data_set: 数据集合，如： [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

:param labels: 标签数组，如：['no surfacing', 'flippers']

:return:

"""

class_list = [sample[-1] for sample in data_set] # ['yes', 'yes', 'no', 'no', 'no']

# 类别相同，停止划分

if class_list.count(class_list[-1]) == len(class_list):

return class_list[-1]

# 长度为1，返回出现次数最多的类别

if len(class_list[0]) == 1:

return majority_cnt((class_list))

# 按照信息增益最高选取分类特征属性

best_feature_idx = choose_best_feature_to_split(data_set) # 返回分类的特征的数组索引

best_feat_label = labels[best_feature_idx] # 该特征的label

my_tree = {best_feat_label: {}} # 构建树的字典

del (labels[best_feature_idx]) # 从labels的list中删除该label，相当于待划分的子标签集

feature_values = [example[best_feature_idx] for example in data_set]

unique_feature_values = set(feature_values)

for feature_value in unique_feature_values:

sub_labels = labels[:] # 子集合

# 构建数据的子集合，并进行递归

sub_data_set = split_data_set(data_set, best_feature_idx, feature_value) # 待划分的子数据集

my_tree[best_feat_label][feature_value] = create_tree(sub_data_set, sub_labels)

return my_tree

def classify(input_tree, feat_labels, test_vec):

"""

决策树分类

:param input_tree: 决策树

:param feat_labels: 特征标签

:param test_vec: 测试的数据

:return:

"""

first_str = list(input_tree.keys())[0] # 获取树的第一特征属性

second_dict = input_tree[first_str] # 树的分子，子集合Dict

feat_index = feat_labels.index(first_str) # 获取决策树第一层在feat_labels中的位置

for key in second_dict.keys():

if test_vec[feat_index] == key:

if type(second_dict[key]).__name__ == 'dict':

class_label = classify(second_dict[key], feat_labels, test_vec)

else:

class_label = second_dict[key]

return class_label

data_set, labels = create_data_set()

decision_tree = create_tree(data_set, labels)

print "决策树：", decision_tree

data_set, labels = create_data_set()

print "(1)不浮出水面可以生存，无脚蹼：", classify(decision_tree, labels, [1, 0])

print "(2)不浮出水面可以生存，有脚蹼：", classify(decision_tree, labels, [1, 1])

print "(3)不浮出水面可以不能生存，无脚蹼：", classify(decision_tree, labels, [0, 0])

tree_plotter.create_plot(decision_tree)

画图程序，tree_plotter.py：

import matplotlib.pyplot as plt

decision_node = dict(boxstyle="sawtooth", fc="0.8")

leaf_node = dict(boxstyle="round4", fc="0.8")

arrow_args = dict(arrowstyle="

def plot_node(node_txt, center_pt, parent_pt, node_type):

create_plot.ax1.annotate(node_txt, xy=parent_pt, xycoords='axes fraction', \

xytext=center_pt, textcoords='axes fraction', \

va="center", ha="center", bbox=node_type, arrowprops=arrow_args)

def get_num_leafs(my_tree):

num_leafs = 0

first_str = list(my_tree.keys())[0]

second_dict = my_tree[first_str]

for key in second_dict.keys():

if type(second_dict[key]).__name__ == 'dict':

num_leafs += get_num_leafs(second_dict[key])

else:

num_leafs += 1

return num_leafs

def get_tree_depth(my_tree):

max_depth = 0

first_str = list(my_tree.keys())[0]

second_dict = my_tree[first_str]

for key in second_dict.keys():

if type(second_dict[key]).__name__ == 'dict':

thisDepth = get_tree_depth(second_dict[key]) + 1

else:

thisDepth = 1

if thisDepth > max_depth:

max_depth = thisDepth

return max_depth

def plot_mid_text(cntr_pt, parent_pt, txt_string):

x_mid = (parent_pt[0] - cntr_pt[0]) / 2.0 + cntr_pt[0]

y_mid = (parent_pt[1] - cntr_pt[1]) / 2.0 + cntr_pt[1]

create_plot.ax1.text(x_mid, y_mid, txt_string)

def plot_tree(my_tree, parent_pt, node_txt):

num_leafs = get_num_leafs(my_tree)

depth = get_tree_depth(my_tree)

first_str = list(my_tree.keys())[0]

cntr_pt = (plot_tree.x_off + (1.0 + float(num_leafs)) / 2.0 / plot_tree.total_w, plot_tree.y_off)

plot_mid_text(cntr_pt, parent_pt, node_txt)

plot_node(first_str, cntr_pt, parent_pt, decision_node)

second_dict = my_tree[first_str]

plot_tree.y_off = plot_tree.y_off - 1.0 / plot_tree.total_d

for key in second_dict.keys():

if type(second_dict[key]).__name__ == 'dict':

plot_tree(second_dict[key], cntr_pt, str(key))

else:

plot_tree.x_off = plot_tree.x_off + 1.0 / plot_tree.total_w

plot_node(second_dict[key], (plot_tree.x_off, plot_tree.y_off), cntr_pt, leaf_node)

plot_mid_text((plot_tree.x_off, plot_tree.y_off), cntr_pt, str(key))

plot_tree.y_off = plot_tree.y_off + 1.0 / plot_tree.total_d

def create_plot(in_tree):

fig = plt.figure(1, facecolor='white')

fig.clf()

axprops = dict(xticks=[], yticks=[])

create_plot.ax1 = plt.subplot(111, frameon=False, **axprops)

plot_tree.total_w = float(get_num_leafs(in_tree))

plot_tree.total_d = float(get_tree_depth(in_tree))

plot_tree.x_off = -0.5 / plot_tree.total_w

plot_tree.y_off = 1.0

plot_tree(in_tree, (0.5, 1.0), '')

plt.show()

输出结果如下：

决策树： {‘no surfacing’: {0: ‘no’, 1: {‘flippers’: {0: ‘no’, 1: ‘yes’}}}}

(1)不浮出水面可以生存，无脚蹼： no

(2)不浮出水面可以生存，有脚蹼： yes

(3)不浮出水面可以不能生存，无脚蹼： no

最终我们得到决策树如下：

2.5、C4.5算法原理与python代码实现

C4.5算法与ID3算法很相似，C4.5算法是对ID3算法做了改进，在生成决策树过程中采用信息增益比来选择特征。

2.5.1 信息增益比

我们知道信息增益会偏向取值较多的特征，使用信息增益比可以对这一问题进行校正。

定义：特征A对训练数据集D的信息增益比GainRatio(D,A)定义为其信息增益Gain(D,A)与训练数据集D的经验熵H(D)之比：

2.5.2 C4.5算法

C4.5算法过程跟ID3算法一样，只是选择特征的方法由信息增益改成信息增益比。

2.5.3 python代码实现

我们还是采用2.1.3中的实例，C4.5算法跟ID3算法，不同的地方只是特征选择方法，即：

choose_best_feature_to_split方法。

def choose_best_feature_to_split(data_set):

"""

按照最大信息增益比划分数据

:param data_set: 样本数据，如： [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

:return:

"""

num_feature = len(data_set[0]) - 1 # 特征个数，如：不浮出水面是否可以生存和是否有脚蹼

base_entropy = calc_shannon_ent(data_set) # 经验熵H(D)

best_info_gain_ratio = 0.0

best_feature_idx = -1

for feature_idx in range(num_feature):

feature_val_list = [number[feature_idx] for number in data_set] # 得到某个特征下所有值(某列)

unique_feature_val_list = set(feature_val_list) # 获取无重复的属性特征值

new_entropy = 0

split_info = 0.0

for value in unique_feature_val_list:

sub_data_set = split_data_set(data_set, feature_idx, value)

prob = len(sub_data_set) / float(len(data_set)) # 即p(t)

new_entropy += prob * calc_shannon_ent(sub_data_set) # 对各子集香农熵求和

split_info += -prob * log(prob, 2)

info_gain = base_entropy - new_entropy # 计算信息增益，g(D,A)=H(D)-H(D|A)

if split_info == 0: # fix the overflow bug

continue

info_gain_ratio = info_gain / split_info

# 最大信息增益比

if info_gain_ratio > best_info_gain_ratio:

best_info_gain_ratio = info_gain_ratio

best_feature_idx = feature_idx

return best_feature_idx

效果跟ID3算法一样，这里就不重复。

2.6、CART算法原理与python代码实现

2.6.1 Gini指数

分类问题中，假设有K个类，样本点属于第k类的概率为

，则概率分布的基尼指数定义为：

备注：

表示选中的样本属于k类别的概率，则这个样本被分错的概率为

。

对于给定的样本集合D，其基尼指数为：

备注：这里

是D中属于第k类的样本自己，K是类的个数。

如果样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分，即：

则在特征A的条件下，集合D的基尼指数定义为：

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点跟熵相似。

下面举一个例子来说明上面的公式：

如下，是一个包含30个学生的样本，其包含三种特征，分别是：性别(男/女)、班级(IX/X)和高度(5到6ft)。其中30个学生里面有15个学生喜欢在闲暇时间玩板球。那么要如何选择第一个要划分的特征呢，我们通过上面的公式来进行计算。

如下，可以Gini(D,Gender)最小，所以选择性别作为最优特征。

2.6.2 CART算法

输入：训练数据集D，停止计算的条件

输出：CART决策树

根据训练数据集，从根结点开始，递归地对每个结点进行以下操作，构建二叉树：

Step1：设结点的训练数据集为D，计算现有特征对该数据集的基尼指数。此时，对每一个特征A，对其可能取的每个值a，根据样本点A=a的测试为“是”或“否”将D分割为D1和D2两部分，利用上式Gini(D,A)来计算A=a时的基尼指数。

Step2：在所有可能的特征A以及他们所有可能的切分点a中，选择基尼指数最小的特征及其对应可能的切分点作为最有特征与最优切分点。依最优特征与最有切分点，从现结点生成两个子节点，将训练数据集依特征分配到两个子节点中去。

Step3：对两个子结点递归地调用Step1、Step2，直至满足条件。

Step4：生成CART决策树

算法停止计算的条件是节点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值，或者没有更多特征。

2.6.3 python代码实现

cart.py：

# -*- coding: utf-8 -*-

import numpy as np

class Tree(object):

def __init__(self, value=None, true_branch=None, false_branch=None, results=None, col=-1, summary=None, data=None):

self.value = value

self.true_branch = true_branch

self.false_branch = false_branch

self.results = results

self.col = col

self.summary = summary

self.data = data

def __str__(self):

print(self.col, self.value)

print(self.results)

print(self.summary)

return ""

def split_datas(rows, value, column):

"""

根据条件分离数据集

:param rows:

:param value:

:param column:

:return: (list1, list2)

"""

list1 = []

list2 = []

if isinstance(value, int) or isinstance(value, float):

for row in rows:

if row[column] >= value:

list1.append(row)

else:

list2.append(row)

else:

for row in rows:

if row[column] == value:

list1.append(row)

else:

list2.append(row)

return list1, list2

def calculate_diff_count(data_set):

"""

分类统计data_set中每个类别的数量

:param datas:如：[[5.1, 3.5, 1.4, 0.2, 'setosa'], [4.9, 3, 1.4, 0.2, 'setosa'],....]

:return: 如：{'setosa': 50, 'versicolor': 50, 'virginica': 50}

"""

results = {}

for data in data_set:

# 数据的最后一列data[-1]是类别

if data[-1] not in results:

results.setdefault(data[-1], 1)

else:

results[data[-1]] += 1

return results

def gini(data_set):

"""

计算gini的值，即Gini(p)

:param data_set: 如：[[5.1, 3.5, 1.4, 0.2, 'setosa'], [4.9, 3, 1.4, 0.2, 'setosa'],....]

:return:

"""

length = len(data_set)

category_2_cnt = calculate_diff_count(data_set)

sum = 0.0

for category in category_2_cnt:

sum += pow(float(category_2_cnt[category]) / length, 2)

return 1 - sum

def build_decision_tree(data_set, evaluation_function=gini):

"""

递归建立决策树，当gain=0时，停止回归

:param data_set: 如：[[5.1, 3.5, 1.4, 0.2, 'setosa'], [4.9, 3, 1.4, 0.2, 'setosa'],....]

:param evaluation_function:

:return:

"""

current_gain = evaluation_function(data_set)

column_length = len(data_set[0])

rows_length = len(data_set)

best_gain = 0.0

best_value = None

best_set = None

# choose the best gain

for feature_idx in range(column_length - 1):

feature_value_set = set(row[feature_idx] for row in data_set)

for feature_value in feature_value_set:

sub_data_set1, sub_data_set2 = split_datas(data_set, feature_value, feature_idx)

p = float(len(sub_data_set1)) / rows_length

# Gini(D,A)表示在特征A的条件下集合D的基尼指数，gini_d_a越小，样本集合不确定性越小

# 我们的目的是找到另gini_d_a最小的特征，及gain最大的特征

gini_d_a = p * evaluation_function(sub_data_set1) + (1 - p) * evaluation_function(sub_data_set2)

gain = current_gain - gini_d_a

if gain > best_gain:

best_gain = gain

best_value = (feature_idx, feature_value)

best_set = (sub_data_set1, sub_data_set2)

dc_y = {'impurity': '%.3f' % current_gain, 'sample': '%d' % rows_length}

# stop or not stop

if best_gain > 0:

true_branch = build_decision_tree(best_set[0], evaluation_function)

false_branch = build_decision_tree(best_set[1], evaluation_function)

return Tree(col=best_value[0], value=best_value[1], true_branch=true_branch, false_branch=false_branch, summary=dc_y)

else:

return Tree(results=calculate_diff_count(data_set), summary=dc_y, data=data_set)

def prune(tree, mini_gain, evaluation_function=gini):

"""

裁剪

:param tree:

:param mini_gain:

:param evaluation_function:

:return:

"""

if tree.true_branch.results == None:

prune(tree.true_branch, mini_gain, evaluation_function)

if tree.false_branch.results == None:

prune(tree.false_branch, mini_gain, evaluation_function)

if tree.true_branch.results != None and tree.false_branch.results != None:

len1 = len(tree.true_branch.data)

len2 = len(tree.false_branch.data)

len3 = len(tree.true_branch.data + tree.false_branch.data)

p = float(len1) / (len1 + len2)

gain = evaluation_function(tree.true_branch.data + tree.false_branch.data) \

- p * evaluation_function(tree.true_branch.data)\

- (1 - p) * evaluation_function(tree.false_branch.data)

if gain < mini_gain:

# 当节点的gain小于给定的 mini Gain时则合并这两个节点

tree.data = tree.true_branch.data + tree.false_branch.data

tree.results = calculate_diff_count(tree.data)

tree.true_branch = None

tree.false_branch = None

def classify(data, tree):

"""

分类

:param data:

:param tree:

:return:

"""

if tree.results != None:

return tree.results

else:

branch = None

v = data[tree.col]

if isinstance(v, int) or isinstance(v, float):

if v >= tree.value:

branch = tree.true_branch

else:

branch = tree.false_branch

else:

if v == tree.value:

branch = tree.true_branch

else:

branch = tree.false_branch

return classify(data, branch)

def load_csv():

def convert_types(s):

s = s.strip()

try:

return float(s) if '.' in s else int(s)

except ValueError:

return s

data = np.loadtxt("datas.csv", dtype="str", delimiter=",")

data = data[1:, :]

data_set = ([[convert_types(item) for item in row] for row in data])

return data_set

if __name__ == '__main__':

data_set = load_csv()

print data_set

decistion_tree = build_decision_tree(data_set, evaluation_function=gini)

print decistion_tree.results

# prune(decistion_tree, 0.4)

print classify([5.1,3.5,1.4,0.2], decistion_tree) # setosa

print classify([6.8,2.8,4.8,1.4], decistion_tree) # versicolor

print classify([6.8,3.2,5.9,2.3], decistion_tree) # virginica

输出结果：

{‘setosa’: 50}

{‘versicolor’: 47}

{‘virginica’: 43}

如果想进一步学习机器学习的其他算法，可以参考我写的其他文章：

参考：

[3] https://github.com/RRdmlearning/Decision-Tree

[4] https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/

打赏

微信扫一扫，打赏作者吧～

你可能感兴趣的:(python决策树id3算法)

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
莫队算法 —— 将暴力玩出花秒啦算法
莫队算法——将暴力玩出花一、为什么需要莫队？——暴力法的瓶颈我们已经学会了用分块处理一些在线的区间问题。现在，我们来看一类特殊的离线区间查询问题。“离线”意味着我们可以把所有查询先读进来，再按我们喜欢的顺序去处理它们。思考一个问题：给定一个长度为N的数组，M次询问。每次询问一个区间[l,r]，问区间内有多少种数字至少出现了2次？那我们回到最朴素的暴力。纯暴力：对于每个询问(l,r)，都for一遍，
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
区块链技术概述：从比特币到Web3.0 闲人编程 Python区块链50讲区块链 web3 python 元宇宙比特币安全
目录区块链技术概述：从比特币到Web3.0引言：数字革命的下一篇章1.区块链技术基础1.1区块链定义与核心特征1.2区块链数据结构可视化2.比特币：区块链的开端2.1比特币的核心创新2.2比特币交易生命周期3.以太坊与智能合约革命3.1以太坊的核心创新3.2智能合约执行流程4.Web3.0：互联网的新范式4.1Web3.0的核心特征4.2Web3技术栈5.Python实现简易区块链系统5.1区块类
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
利用chatGPT提取复杂json数据到excel文件中 z日火工具使用 excel chatgpt json
利用chatGPT提取复杂json数据到excel文件中1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构3利用ChatGPT写python代码解析数据4复制代码到vscode运行任务说明：整理一个项目的所有接口，保存到excel文档中。在这里插入图片描述1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构我需要json数据的"pa
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
力扣网C语言编程题：接雨水（双指针法）魏劭逻辑编程题 C语言 c语言 leetcode 算法
一.简介前面文章是以动态规划方法实现的，文章如下：力扣网C语言编程题：接雨水（动态规划实现）-CSDN博客本文继续针对力扣网的接雨水问题，以另一种解题思路（双指针）以C语言实现和Python实现。二.力扣网C语言编程题：接雨水（双指针法）题目：接雨水给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例2：输入：height=[4,2,0,3,2,5]输出：
C++ Lambda表达式详解：从入门到精通 Jay_515 c++Lambda
Lambda表达式是C11引入的最重要特性之一，它彻底改变了我们在C中编写函数对象的方式。本文将带你全面掌握Lambda表达式的使用技巧！1.什么是Lambda表达式？Lambda表达式是C++11引入的一种匿名函数对象，它允许我们在需要函数的地方内联定义函数，无需单独命名。Lambda的出现极大简化了代码，特别是在使用STL算法时。为什么需要Lambda？简化代码：避免为简单操作单独编写函数对象
Tiktok App 登录账号、密码、验证码 XOR 加密算法
抖音App登录账号、密码、验证码XOR加密算法%E9n+z,\&R1a4b.^流程分析登录TiktokAPP时，通过抓包发现账号密码是非明文传输的。getUserProfile($userId,$secUid);echo"\n\n视频列表：\n";echo$tiktok->getMixList($userId);//示例：加密后的密码hex字符串$encrypted_hex="7472607771
mongodb和redis的区别： huangbfeng mongodb redis 数据库
1、内存管理机制Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的LRU算法删除数据。MongoDB数据存在内存，由linux系统mmap实现，当内存不够时，只将热点数据放入内存，其他数据存在磁盘。2、支持的数据结构Redis支持的数据结构丰富，包括hash、set、list等。MongoDB数据结构比较单一，但是支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常
数据库系统工程师简要概括笔记 Mint_Datazzh 数据库系统工程师数据库笔记数据库系统工程师
文章内容仅为粗略总结知识，便于个人复习思考原文链接:数据库系统工程师简要概括笔记–笔墨云烟数据库系统工程师—1.1计算机硬件基础知识数据库系统工程师—1.2计算机体系结构与存储系统数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识数据库系统工程师—2.程序语言基础知识数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图数据库系统工程师—3.5排序算法数据库系统工程师—3.
Python各版本发布时间和重要特性 mosquito_lover1 python
1.Python1.x:-Python1.0(1994年1月):第一个正式版本。-Python1.6(2000年9月):最后一个1.x版本。2.Python2.x:-Python2.0(2000年10月):引入了列表推导、垃圾回收等特性。-Python2.7(2010年7月):Python2.x系列的最后一个版本，长期支持至2020年1月1日。3.Python3.x:-Python3.0(2008
结构化数据增强的生成式算法案例：客户交易数据增强 python游乐园数据深度学习大数据算法学习
1基础信息1.1案例背景这是一个用于增强结构化客户交易数据的生成式算法。这种类型的数据增强在金融、电子商务等领域非常有用，可以帮助解决数据不平衡问题或在小数据集上提高模型性能。1.2问题定义给定原始交易数据集D={x₁,x₂,...,xₙ}，其中每条记录包含：交易金额交易时间客户年龄客户收入水平交易类别地理位置是否为欺诈交易(标签)目标：生成与原始数据分布相似但多样化的新样本，同时保持字段间的合理
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
python中用matplotlib画图解决中文问题！！！！！！！终于ok了 luckylbb python 爬虫
在网上用了很多方法基本一样最后终于解决了，分享一下，前面几步似曾相识，但是依旧我发解决问题，重点在最后一步，亲测有效！！！！1、首先在Windons\Fonts下面找到simhei的字体没有就去下载，其实就是黑体，将它拖到桌面备用2、importmatplotlibprint(matplotlib.matplotlib_fname())输入命令查找到自己下载的matplotlib配置文件的位置我的
Python使用matplotlib绘制图像时，中文图例或标题无法正常显示问题独不懂 Python python matplotlib 开发语言
Python使用matplotlib绘制图像时，中文图例或标题无法显示问题解决方法一、问题描述二、解决方法欢迎学习交流！邮箱：z…@1…6.com网站：https://zephyrhours.github.io/一、问题描述Matplotlib库是Python中经常使用的绘图工具，但是有时候我们在使用plt绘制图像，需要将英文标题或者图例显示为中文样式，总会出现无法显示的问题，具体情况如下：imp
Python 文件操作与 wc 工具的重构：从文件对象到输入重定向的全面指南面朝大海，春不暖，花不开 Python基础 python 重构开发语言
文章大纲引言在编程世界中，文件操作是一项基础且至关重要的技能。无论是读取配置文件、处理日志，还是实现数据持久化，文件操作都扮演着核心角色。Python作为一门简洁而强大的语言，提供了直观的文件处理接口，其中open函数和文件对象是开发者最常使用的工具。通过这些工具，我们可以轻松实现文件的读写操作。本文将深入探讨Python文件操作的各个方面，从open函数的基本用法到文件对象的操作方法，再到资源管
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
python中使用grpc方法示例_Python中使用grpc与consul weixin_39719077
gRPC客户端和服务端可以在多种环境中运行和交互，并且可以用任何gRPC支持的语言来编写。gRPC支持C++JavaPythonGoRubyC#Node.jsPHPDart等语言gRPC默认使用protocolbuffers，这是Google开源的一种轻便高效的结构化数据存储格式，可以用于结构化数据串行化，或者说序列化。它很适合做数据存储或RPC数据交换格式。安装GoogleProtocolBuf
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f