turbosqi

机器学习-决策树算法

机器学习-基础知识
机器学习-线性回归
机器学习-逻辑回归
机器学习-聚类算法
机器学习-决策树算法
机器学习-集成算法
机器学习-SVM算法

文章目录

- - 1. 决策树算法
  - - 1.1. 什么是决策树/判定树
    - 1.2. 决策树归纳算法
    - 1.3. 熵概念
    - 1.4. 具体算法
    - 1.5. 决策树剪枝
    - 1.6. 连续值与缺失值处理
    - - 1.6.1. 连续值处理
      - 1.6.2. 缺失值处理
    - 1.7. 决策树算法的优缺点
    - 1.8. 决策树算法的具体实现
    - - 1.8.1. 使用sklearn工具包实现
      - 1.8.2. 模拟实现
  - 2. 决策树算法实践
  - - 2.1. 决策树实现步骤
    - 2.2. 绘制决策边界
    - 2.3. 概率估计
    - 2.4. 决策树中的正则化
    - 2.5. 决策树对数据敏感
    - 2.6. 回归任务
    - - 2.6.1. 回归任务
      - 2.6.2. 树的深度影响
      - 2.6.3. 树的最小叶子结点个数影响

1. 决策树算法

1.1. 什么是决策树/判定树

决策树是一个类似于流程图的树结构，其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类的分布，树的顶层是根结点。决策树是一种有监督学习的一种算法，是机器学习中分类方法中的一个重要分支。

1.2. 决策树归纳算法

策略：
1. 自根至叶的递归过程，在每个中间结点寻找一个"划分"属性；
2. 开始构建根结点，所有训练数据都放在根结点，选择一个最优特征，按照这一特征将训练集分割成子集，进入子结点；
3. 所有子集按内部结点的属性递归的进行分割；
4. 如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点上去；
5. 每个子集都被分到叶结点上，即都有了明确的类，这就生成了一颗决策树。
三种停止条件：
1. 当前结点包含的样本全属于同一个类别，无需划分；
2. 当前属性集为空，或者所有样本在所有属性上取值相同，无法划分；
3. 当前结点包含的样本集合为空，不能划分。

1.3. 熵概念

用比特(bit)来衡量信息的多少

熵：
$\sum_{x}{P(x)log_2[P(x)]}\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
变量的不确定性越大，熵就越大。

信息的获取量：

$Infor_A(D)\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$

1.4. 具体算法

ID3算法

对于以上的四个属性中，最大的信息熵为age，所以选择age作为第一个分支，建立决策树

具体的实现过程：

CART算法

反映了从D中随机抽取两个样例，其类别标记不一致的概率

Gini(D)越小，数据集D的纯度越高
$Gini(D)=\sum_{k=1}^{|y|}\sum_{k^{'}\neq k}{p_kp_k{'}}=1-\sum_{k=1}^{|y|}{p_k^2} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
属性a的基尼指数：
$Gini\_index(D,a)=\sum_{v=1}^{V}\frac{|D^v|}{|D|} Gini(D^v)\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
在候选属性集合中，选取那个使划分后基尼系数最小的属性
具体计算过程：
增益率-C4.5算法

信息增益：对可取值数目较多的属性有所偏好(缺点)
$Gini\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
增益率：
$IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|} \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad$
- 属性a的可能取值数目越大(即V越大)，则IV(a)的值通常就越大
- 启发式：先从候选划分属性中找出信息增益高于平均水平的，再从中选取增益率最高的

1.5. 决策树剪枝

剪枝：防止决策树过拟合
基本策略：
- 预剪枝：提前终止某些分支的生长
  
  限制深度，叶子结点个数，叶子结点的样本数，信息增益等
- 后剪枝：生成一棵完全树，再回头剪枝
  
  通过一定的衡量标准： $C_ \alpha (T)=C(T)+ \alpha \cdot |T_{leaf}|$
优缺点：
- 时间开销：
  - 预剪枝：训练时间开销降低，测试时间开销降低
  - 后剪枝：训练时间开销增加，测试时间开销降低
- 过/欠拟合风险：
  - 预剪枝：过拟合风险降低，欠拟合风险增加
  - 后剪枝：过拟合风险降低，欠拟合风险不变
- 泛化性能：
  
  后剪枝通常由于预剪枝

1.6. 连续值与缺失值处理

1.6.1. 连续值处理

连续值处理：由于连续属性的可取值数目不再有限，因此不能直接根据连续属性的可取值来对结点进行划分。
基本思路：连续属性离散化
常见做法：二分法

1.6.2. 缺失值处理

基本思路: 样本赋权，权重划分

1.7. 决策树算法的优缺点

优点：
1. 速度快：计算量相对较少，且容易转化为分类规则。只要沿着树根向下一直走到叶，沿途的分裂条件就能唯一确定一条分类的谓词。
2. 准确性高：挖掘出来的分类规则准确性高，便于理解，决策树可以清晰的看到哪些字段比较重要
3. 非参数学习，不需要设置参数
缺点：
1. 缺乏伸缩性：由于进行深度优先搜索，所以算法受内存大小限制，难于处理大训练集。
2. 为了处理大数据集或连续值的种种改进算法(离散化、取样)不仅增加了分类算法的额外开销，而且降低了分类的准确性,对连续性的字段比较难预测，当类别太多时，错误可能就会增加的比较快，对有时间顺序的数据，需要很多预处理的工作。

1.8. 决策树算法的具体实现

1.8.1. 使用sklearn工具包实现

from sklearn.feature_extraction import DictVectorizer
# 读取和写入csv文件时用到
import csv
# 导入决策树模块
from sklearn import tree
# 导入数据预处理模块
from sklearn import preprocessing


# 读取csv文件，并将特征放入dict列表和类标签列表中
allElectronicsData = open("注意：文件路径",'rt')
reader = csv.reader(allElectronicsData)
headers = next(reader)
print(headers)

# 保存前面的属性组
featureList = []
# 保存后面的标签分类
labelList = []

for row in reader:
    labelList.append(row[len(row)-1])
    rowDict = {}
    for i in range(1,len(row)-1):
        rowDict[headers[i]] = row[i]
    featureList.append(rowDict)
print(featureList)

# 数据预处理,把分类数据二值化
vec = DictVectorizer()
dummyx = vec.fit_transform(featureList).toarray()
print("dummyX:" + str(dummyx))
print(vec.get_feature_names_out())

print("labelList:" + str(labelList))
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
print("dummyY:" + str(dummyY))

# 创建决策树分类的对象
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(dummyx,dummyY)

# 可视化模型
with open("注意：文件路径", 'w') as f:
    f = tree.export_graphviz(clf, feature_names=vec.get_feature_names_out(), out_file=f)

# 测试集进行验证
oneRowW = dummyx[0,:]
print("oneRowX:" + str(oneRowW))

# 把数据集中的年龄改为中年
newRowX = oneRowW
newRowX[0] = 1
newRowX[2] = 0
print("newRowX:" + str(newRowX))

newRowX = [newRowX]
predictedY = clf.predict(newRowX)
print("predictedY:" + str(predictedY))

结果展示：

1.8.2. 模拟实现

导包操作

import matplotlib.pyplot as plt
from math import log
import operator

算法模拟核心

def createDataSet():
	dataSet = [[0, 0, 0, 0, 'no'],
			   [0, 0, 0, 1, 'no'],
			   [0, 1, 0, 1, 'yes'],
			   [0, 1, 1, 0, 'yes'],
			   [0, 0, 0, 0, 'no'],
			   [1, 0, 0, 0, 'no'],
			   [1, 0, 0, 1, 'no'],
			   [1, 1, 1, 1, 'yes'],
			   [1, 0, 1, 2, 'yes'],
			   [1, 0, 1, 2, 'yes'],
			   [2, 0, 1, 2, 'yes'],
			   [2, 0, 1, 1, 'yes'],
			   [2, 1, 0, 1, 'yes'],
			   [2, 1, 0, 2, 'yes'],
			   [2, 0, 0, 0, 'no']]
	labels = ['F1-AGE','F2-WORK','F3-HOME','F4-LOAN']
	return dataSet,labels

def createTree(dataset,labels,featLabels):
	"""
	dataset:数据集
	labels:最终的标签的分类
	featLabels: 标签的顺序
	"""
	# 把数据集最后一列的值存入classList
	classList = [example[-1] for example in dataset]

	# 当样本的标签全部一样时，就会相等
	if classList.count(classList[0]) == len(classList):
		return classList[0]
	# 当前数据集中只剩下一类标签，此时已经遍历完了所有的数据集
	if len(dataset[0]) == 1:
		return majorityCnt(classList)

	# 选择最优的特征,对应索引值
	bestFeat = chooseBestFeatureToSplit(dataset)
	# 找到实际的名字
	bestFeatLabel = labels[bestFeat]
	featLabels.append(bestFeatLabel)

	myTree = {bestFeatLabel:{}}
	del labels[bestFeat]


	featValue = [example[bestFeat] for example in dataset]
	# 得到不同的分支
	uniqueVals = set(featValue)
	for value in uniqueVals:
		# 递归运行过程中,标签值的更替
		sublabels = labels[:]
		myTree[bestFeatLabel][value] = createTree(splitDataSet(dataset,bestFeat,value),sublabels,featLabels)
	return myTree

def majorityCnt(classList):
	"""计算哪一个类最多的"""
	classCount = {}
	for vote in classList:
	   if vote not in classCount.keys():classCount[vote] = 0
	   classCount[vote] += 1
	# 排序后的结果
	sortedclassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
	return sortedclassCount[0][0]

def chooseBestFeatureToSplit(dataset):
	numFeatures = len(dataset[0]) - 1
	baseEntropy = calcShannonEnt(dataset)
	# 最好的信息增益
	bestInfoGain = 0
	# 最好的特征
	bestFeature = -1
	for i in range(numFeatures):
		featList = [example[i] for example in dataset]
		uniqueVals = set(featList)
		newEntropy = 0
		for val in uniqueVals:
			subDataSet = splitDataSet(dataset,i,val)
			prob = len(subDataSet)/float(len(dataset))
			newEntropy += prob * calcShannonEnt(subDataSet)
		infoGain = baseEntropy - newEntropy
		if infoGain > bestInfoGain:
			bestInfoGain = infoGain
			bestFeature = i
	return bestFeature


def splitDataSet(dataset,axis,val):
	retDataSet = []
	for featVec in dataset:
		if featVec[axis] == val:
			reducedFeatVec = featVec[:axis]
			reducedFeatVec.extend(featVec[axis+1:])
			retDataSet.append(reducedFeatVec)
	return retDataSet

def calcShannonEnt(dataset):
	"""最开始时候的熵值"""
	numexamples = len(dataset)
	labelCounts = {}
	# 先进行统计
	for featVec in dataset:
		currentlabel = featVec[-1]
		if currentlabel not in labelCounts.keys():
			labelCounts[currentlabel] = 0
		labelCounts[currentlabel] += 1

	shannonEnt = 0
	for key in labelCounts:
		prop = float(labelCounts[key])/numexamples
		shannonEnt -= prop*log(prop,2)
	return shannonEnt

画图操作

def getNumLeafs(myTree):
	numLeafs = 0
	firstStr = next(iter(myTree))
	secondDict = myTree[firstStr]
	for key in secondDict.keys():
		if type(secondDict[key]).__name__=='dict':
			numLeafs += getNumLeafs(secondDict[key])
		else:   numLeafs +=1
	return numLeafs


def getTreeDepth(myTree):
	maxDepth = 0
	firstStr = next(iter(myTree))
	secondDict = myTree[firstStr]
	for key in secondDict.keys():
		if type(secondDict[key]).__name__=='dict':
			thisDepth = 1 + getTreeDepth(secondDict[key])
		else:   thisDepth = 1
		if thisDepth > maxDepth: maxDepth = thisDepth
	return maxDepth

def plotNode(nodeTxt, centerPt, parentPt, nodeType):
	arrow_args = dict(arrowstyle="<-")
	#font = FontProperties(fname=r"c:\windows\fonts\simsunb.ttf", size=14)
	createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',
		xytext=centerPt, textcoords='axes fraction',
		va="center", ha="center", bbox=nodeType, arrowprops=arrow_args)#, FontProperties=font


def plotMidText(cntrPt, parentPt, txtString):
	xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]
	yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
	createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)


def plotTree(myTree, parentPt, nodeTxt):
	decisionNode = dict(boxstyle="sawtooth", fc="0.8")
	leafNode = dict(boxstyle="round4", fc="0.8")
	numLeafs = getNumLeafs(myTree)
	depth = getTreeDepth(myTree)
	firstStr = next(iter(myTree))
	cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW, plotTree.yOff)
	plotMidText(cntrPt, parentPt, nodeTxt)
	plotNode(firstStr, cntrPt, parentPt, decisionNode)
	secondDict = myTree[firstStr]
	plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD
	for key in secondDict.keys():
		if type(secondDict[key]).__name__=='dict':
			plotTree(secondDict[key],cntrPt,str(key))
		else:
			plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW
			plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
			plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
	plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD


def createPlot(inTree):
	fig = plt.figure(1, facecolor='white')	
  #清空fig
	fig.clf()																				
	axprops = dict(xticks=[], yticks=[])
  #去掉x、y轴
	createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)   
  #获取决策树叶结点数目
	plotTree.totalW = float(getNumLeafs(inTree))
  #获取决策树层数
	plotTree.totalD = float(getTreeDepth(inTree))			
  #x偏移
	plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0		
  #绘制决策树
	plotTree(inTree, (0.5,1.0), '')															
	plt.show()

具体实现

if __name__ == '__main__':
	# 获取数据
	dataset,labels = createDataSet()
	featLabels = []
	mytree = createTree(dataset, labels, featLabels)
	createPlot(mytree)

结果展示

2. 决策树算法实践

2.1. 决策树实现步骤

导包操作

import numpy as np
import os
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
import warnings
warnings.filterwarnings('ignore')

加载数据集

导入燕尾花的数据集和决策树模型，并且加载数据集进行训练

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X = iris.data[:,2:]
y = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

导出决策树模型

# 以DOT格式导出决策树
from sklearn.tree import export_graphviz

export_graphviz(
    tree_clf,
    out_file="iris_tree.dot",
    feature_names=iris.feature_names[2:],
    class_names=iris.target_names,
    rounded=True,
    filled=True
)

使用graphviz包中的dot命令行工具将此**.dot**文件转换为各种格式，如PDF或PNG QMDownload\ChromeDownload\iris tree.dot -o E:\QMDownload\ChromeDownload\iris_tree.png

决策树：dot -Tpdf iris.dot(源文件) -o output.pdf(目标文件)
加载树模型到Jupyter

# 把图片加载到jupyter
from IPython.display import Image
Image(filename='E:\QMDownload\ChromeDownload\iris_tree.png',width = 350,height = 350)

效果展示

2.2. 绘制决策边界

绘制图形

from matplotlib.colors import ListedColormap


def plot_decision_boundary(clf, X, y, axes=[0, 7.5, 0, 3], iris=True, legend=False, plot_training=True):
    x1s = np.linspace(axes[0], axes[1], 100)
    x2s = np.linspace(axes[2], axes[3], 100)
    x1, x2 = np.meshgrid(x1s, x2s)
    X_new = np.c_[x1.ravel(), x2.ravel()]
    y_pred = clf.predict(X_new).reshape(x1.shape)
    custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
    plt.contourf(x1, x2, y_pred, alpha=0.3, cmap=custom_cmap)
    if not iris:
        custom_cmap2 = ListedColormap(['#7d7d58','#4c4c7f','#507d50'])
        plt.contour(x1, x2, y_pred, cmap=custom_cmap2, alpha=0.8)
    if plot_training:
        plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo", label="Iris-Setosa")
        plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs", label="Iris-Versicolor")
        plt.plot(X[:, 0][y==2], X[:, 1][y==2], "g^", label="Iris-Virginica")
        plt.axis(axes)
    if iris:
        plt.xlabel("Petal length", fontsize=14)
        plt.ylabel("Petal width", fontsize=14)
    else:
        plt.xlabel(r"$x_1$", fontsize=18)
        plt.ylabel(r"$x_2$", fontsize=18, rotation=0)
    if legend:
        plt.legend(loc="lower right", fontsize=14)

        
plt.figure(figsize=(8, 4))
plot_decision_boundary(tree_clf, X, y)
plt.plot([2.45, 2.45], [0, 3], "k-", linewidth=2)
plt.plot([2.45, 7.5], [1.75, 1.75], "k--", linewidth=2)
plt.plot([4.95, 4.95], [0, 1.75], "k:", linewidth=2)
plt.plot([4.85, 4.85], [1.75, 3], "k:", linewidth=2)
plt.text(1.40, 1.0, "Depth=0", fontsize=15)
plt.text(3.2, 1.80, "Depth=1", fontsize=13)
plt.text(4.05, 0.5, "(Depth=2)", fontsize=11)
plt.title('Decision Tree decision boundaries')

plt.show()

效果展示

从此图中能够看出，当Depth=0时，分的横轴Petal length，以2.45为标准，当Petal length<2.45时，class=setosa，大于的时候是另外两类；然后以纵轴Petal width划分，当Petal width<1.75时，class=versicolor，大于1.75时是class=virginica

2.3. 概率估计

估计类概率
输入数据为：花瓣长5厘米，宽1.5厘米的花。相应的叶节点是深度为2的左节点，因此决策树应输出以下概率：

Iris-Setosa 为 0％（0/54）
Iris-Versicolor 为 90.7％（49/54）
Iris-Virginica 为 9.3％（5/54）

# 预测概率值
tree_clf.predict_proba([[5,1.5]])
## 结果：array([[0. , 0.90740741, 0.09259259]])

# 直接预测结果
tree_clf.predict([[5,1.5]])
## 结果：array([1])

2.4. 决策树中的正则化

通过DecisionTreeClassifier类的一些参数来设置，防止出现决策树过拟合的现象，下面列出五种常用的参数以及代表的含义

min_samples_split ：节点在分割之前必须具有的最小样本数
min_samples_leaf ：叶子节点必须具有的最小样本数
max_leaf_nodes ：叶子节点的最大数量
max_features ：在每个节点处评估用于拆分的最大特征数
max_depth ：树最大的深度

五种参数的具体实现

# 测试案例
from sklearn.datasets import make_moons
X,y = make_moons(n_samples = 100,noise = 0.25,random_state = 53)
tree_clf1 = DecisionTreeClassifier(random_state=42)
tree_clf2 = DecisionTreeClassifier(min_samples_split=20,random_state=42)
tree_clf3 = DecisionTreeClassifier(min_samples_leaf=4,random_state=42)
tree_clf4 = DecisionTreeClassifier(max_leaf_nodes=20,random_state=42)
tree_clf5 = DecisionTreeClassifier(max_features=2,random_state=42)
tree_clf6 = DecisionTreeClassifier(max_depth=5,random_state=42)
tree_clf1.fit(X,y)
tree_clf2.fit(X,y)
tree_clf3.fit(X,y)
tree_clf4.fit(X,y)
tree_clf5.fit(X,y)
tree_clf6.fit(X,y)

plt.figure(figsize=(18,11))
plt.subplot(231)
plot_decision_boundary(tree_clf1,X,y,axes=[-1.5,2.5,-1,1.5],iris = False)
plt.title('Origin image')

plt.subplot(232)
plot_decision_boundary(tree_clf2,X,y,axes=[-1.5,2.5,-1,1.5],iris = False)
plt.title('min_samples_split=20')

plt.subplot(233)
plot_decision_boundary(tree_clf3,X,y,axes=[-1.5,2.5,-1,1.5],iris = False)
plt.title('min_samples_leaf=4')

plt.subplot(234)
plot_decision_boundary(tree_clf4,X,y,axes=[-1.5,2.5,-1,1.5],iris = False)
plt.title('max_leaf_nodes=20')

plt.subplot(235)
plot_decision_boundary(tree_clf5,X,y,axes=[-1.5,2.5,-1,1.5],iris = False)
plt.title('max_features=2')

plt.subplot(236)
plot_decision_boundary(tree_clf6,X,y,axes=[-1.5,2.5,-1,1.5],iris = False)
plt.title('max_depth=5')

效果展示

从图像上看，当min_samples_split=20和min_samples_leaf=4的时候效果较好，其他都出现过拟合的现象，在测试集上的表现相对较差。

2.5. 决策树对数据敏感

代码实例

np.random.seed(6)
Xs = np.random.rand(100, 2) - 0.5
ys = (Xs[:, 0] > 0).astype(np.float32) * 2

angle = np.pi / 4
rotation_matrix = np.array([[np.cos(angle), -np.sin(angle)], [np.sin(angle), np.cos(angle)]])
Xsr = Xs.dot(rotation_matrix)

tree_clf_s = DecisionTreeClassifier(random_state=42)
tree_clf_s.fit(Xs, ys)
tree_clf_sr = DecisionTreeClassifier(random_state=42)
tree_clf_sr.fit(Xsr, ys)

plt.figure(figsize=(11, 4))
plt.subplot(121)
plot_decision_boundary(tree_clf_s, Xs, ys, axes=[-0.7, 0.7, -0.7, 0.7], iris=False)
plt.title('Sensitivity to training set rotation')

plt.subplot(122)
plot_decision_boundary(tree_clf_sr, Xsr, ys, axes=[-0.7, 0.7, -0.7, 0.7], iris=False)
plt.title('Sensitivity to training set rotation')

plt.show()

效果展示

左图是原始图像以及分类的结果；右图为左图向右旋转90度后的结果，可以看出，决策树并不是简单的画一条斜线，而是出现连续的线段。

2.6. 回归任务

2.6.1. 回归任务

模拟数据集

np.random.seed(42)
m=200
X=np.random.rand(m,1)
y = 4*(X-0.5)**2
y = y + np.random.randn(m,1)/10

进行训练

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X,y)

导出决策树模型

export_graphviz(
        tree_reg,
        out_file=("regression_tree.dot"),
        feature_names=["x1"],
        rounded=True,
        filled=True
    )

加载树模型到Jupyter

# 把图片加载到jupyter
from IPython.display import Image
Image(filename='E:/QMDownload/ChromeDownload/regression_tree.png',width = 450,height = 600)

结果展示

2.6.2. 树的深度影响

from sklearn.tree import DecisionTreeRegressor

# 对比树的最大深度
tree_reg1 = DecisionTreeRegressor(random_state=42, max_depth=2)
tree_reg2 = DecisionTreeRegressor(random_state=42, max_depth=3)
tree_reg1.fit(X, y)
tree_reg2.fit(X, y)

def plot_regression_predictions(tree_reg, X, y, axes=[0, 1, -0.2, 1], ylabel="$y$"):
    x1 = np.linspace(axes[0], axes[1], 500).reshape(-1, 1)
    y_pred = tree_reg.predict(x1)
    plt.axis(axes)
    plt.xlabel("$x_1$", fontsize=18)
    if ylabel:
        plt.ylabel(ylabel, fontsize=18, rotation=0)
    plt.plot(X, y, "b.")
    plt.plot(x1, y_pred, "r.-", linewidth=2, label=r"$\hat{y}$")

plt.figure(figsize=(11, 4))
plt.subplot(121)
plot_regression_predictions(tree_reg1, X, y)
for split, style in ((0.1973, "k-"), (0.0917, "k--"), (0.7718, "k--")):
    plt.plot([split, split], [-0.2, 1], style, linewidth=2)
plt.text(0.21, 0.65, "Depth=0", fontsize=15)
plt.text(0.01, 0.2, "Depth=1", fontsize=13)
plt.text(0.65, 0.8, "Depth=1", fontsize=13)
plt.legend(loc="upper center", fontsize=18)
plt.title("max_depth=2", fontsize=14)

plt.subplot(122)
plot_regression_predictions(tree_reg2, X, y, ylabel=None)
for split, style in ((0.1973, "k-"), (0.0917, "k--"), (0.7718, "k--")):
    plt.plot([split, split], [-0.2, 1], style, linewidth=2)
for split in (0.0458, 0.1298, 0.2873, 0.9040):
    plt.plot([split, split], [-0.2, 1], "k:", linewidth=1)
plt.text(0.3, 0.5, "Depth=2", fontsize=13)
plt.title("max_depth=3", fontsize=14)

plt.show()

效果展示：

树的深度为3的时候，在0.0到0.2之间出现过拟合现象

2.6.3. 树的最小叶子结点个数影响

tree_reg1 = DecisionTreeRegressor(random_state=42)
tree_reg2 = DecisionTreeRegressor(random_state=42, min_samples_leaf=10)
tree_reg1.fit(X, y)
tree_reg2.fit(X, y)

x1 = np.linspace(0, 1, 500).reshape(-1, 1)
y_pred1 = tree_reg1.predict(x1)
y_pred2 = tree_reg2.predict(x1)

plt.figure(figsize=(11, 4))

plt.subplot(121)
plt.plot(X, y, "b.")
plt.plot(x1, y_pred1, "r.-", linewidth=2, label=r"$\hat{y}$")
plt.axis([0, 1, -0.2, 1.1])
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", fontsize=18, rotation=0)
plt.legend(loc="upper center", fontsize=18)
plt.title("No restrictions", fontsize=14)

plt.subplot(122)
plt.plot(X, y, "b.")
plt.plot(x1, y_pred2, "r.-", linewidth=2, label=r"$\hat{y}$")
plt.axis([0, 1, -0.2, 1.1])
plt.xlabel("$x_1$", fontsize=18)
plt.title("min_samples_leaf={}".format(tree_reg2.min_samples_leaf), fontsize=14)

plt.show()

效果展示：

左图为不做任何过拟合处理的结果图；右图是做min_samples_leaf=10的拟合结果，可以有效防止过拟合现象

你可能感兴趣的:(机器学习,决策树,算法)

高并发场景下，如何用无锁实现高性能LRU缓存？后端
《百万人高并发场景下，我如何用无锁实现高性能LRU缓存？》LRU算法核心原理LRU（LeastRecentlyUsed）算法是缓存系统的核心淘汰策略，其核心逻辑可以用一张流程图描述：（图：访问数据时触发链表重组，新增数据时触发淘汰检测）一、分段锁设计思路分段缓存（Segment）：将整个缓存按key的hash值划分为多个Segment，每个Segment内部维护一个小型LRU缓存（HashMap+
【C++指南】解锁C++ STL：从入门到进阶的技术之旅倔强的石头_ C++指南 c++开发语言
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《C++指南》期待您的关注目录一、STL是什么二、STL的核心组件2.1容器（Containers）2.2算法（Algorithms）2.3迭代器（Iterators）2.4其他组件三、STL的优势3.1高效开发3.2高性能3.3泛型与可扩展性3.4代码简洁与可维护性3.5跨平台兼容性四、结语一、STL是什么S
攻克AWS认证机器学习工程师（AWS Certified Machine Learning Engineer） - 助理级别认证：我的成功路线图硅基创想家 AI-人工智能与大模型 aws 机器学习云计算 AWS认证
引言当我决定考取AWS认证机器学习工程师-助理（AWSCertifiedMachineLearningEngineer—Associate）级别证书时，我就预料到这将是一段充满挑战但回报颇丰的旅程。跟你说吧，它在这两方面都没让我失望。这项考试面向的是不仅理解机器学习原理，还对AWS生态系统有扎实基础认知的专业人士。如果你还未达到AWS认证解决方案架构师-助理级别的水平，那你得先夯实这些基础。一个不
Tritonserver 在得物的最佳实践运维
一、Tritonserver介绍Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案，因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点，是目前云端的GPU服务高效部署的主流方案。Tritonserver的部署是以模型仓库(ModelRepository)的形式体现的，即需要模型文件和配置文件，且按一定的格式放置如下，根目录下每个模型有各自的文件夹。.
DeepSeek 实现原理探析 rockmelodies 人工智能 ai deepseek 深度学习
DeepSeek实现原理探析引言DeepSeek是一种基于深度学习的智能搜索技术，它通过结合自然语言处理（NLP）、信息检索（IR）和机器学习（ML）等多领域的技术，旨在提供更加精准、智能的搜索结果。本文将深入探讨DeepSeek的实现原理，分析其核心技术及其在实际应用中的表现。一、DeepSeek的核心技术自然语言处理（NLP）词嵌入（WordEmbedding）：DeepSeek使用如Word
基于麻雀优化算法的路径优化问题（Matlab代码实现）长安程序猿算法 matlab 开发语言
欢迎来到本博客❤️❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。目录1概述1.引言2.麻雀搜索算法（SSA）原理3.改进策略4.实验与结果展示5.考虑几何约束条件的路径优化6.结论与展望2运行结果3参考文献‍4Matlab代码1概述路径规划是移动机器人技术研究领域中非常重要的部分。面对愈渐复杂的工作环境，传统的路径规划技术存在各种难以解决的问题
位图的深入解析：从数据结构到图像处理与C++实现 Exhausted、机器学习计算机视觉人工智能图像处理 c++算法数据结构开发语言
在学习优选算法课程的时候，博主学习位运算了解到位运算的这个概念，之前没有接触过，就查找了相关的资料，丰富一下自身，当作课外知识来了解一下。位图（Bitmap）是一种用于表示图像的数据结构，它将图像分解为像素的二维网格，每个像素的颜色值存储在一个矩阵中。位图广泛应用于计算机图形学、图像处理和计算机视觉等领域。目录1.位图的基本概念1.1像素1.2分辨率1.3颜色深度2.位图的存储格式2.1BMP格式
常见的深度学习模型总结编码时空的诗意行者深度学习人工智能
1.深度前馈神经网络(DeepFeedforwardNetworks)发明时间：2006年左右，随着计算能力的提升和大数据集的可用性增加，深度学习开始兴起。发明动机：解决传统机器学习模型在复杂数据上的局限性，如线性模型无法处理非线性关系的数据。模型特点：由多个隐藏层组成的神经网络，每一层的节点与下一层的节点完全连接。应用场景：分类、回归、语音识别、图像识别等。2.卷积神经网络(Convolutio
LVS的NAT及DR模式 ..Move... lvs
DR模式：原理：负载均衡器接收到客户的请求数据包时，根据调度算法决定将请求发送给哪个后端的真实服务器（RS）。然后负载均衡器就把客户端发送的请求数据包的目标MAC地址改成后端真实服务器的MAC地址（R-MAC）。真实服务器响应完请求后，查看默认路由，把响应后的数据包直接发送给客户端，不需要经过负载均衡器。优点：负载均衡器只负责将请求包分发给后端节点服务器，而RS将应答包直接发给用户。所以，减少了负
【协同任务】VFH算法多无人机协同控制技术【含Matlab源码 1999期】 Matlab领域 matlab
⛄一、VFH*算法简介在机器人的每个位置,建立相应的向量场直方图,得到若干个初始候选方向,VFH将沿每个候选方向前进的后果考虑进去。对每个候选方向,首先估算出机器人沿该方向前进一段距离ds后的新位置,然后以该位置为中心,再建立新的向量场,对新的向量场继续分析得到若干候选方向,如此继续下去,重复ng次,就建立了一个深度为ng的搜索树。最后使用A算法,找出一条路径,使根结点到某一个叶子结点的代价最低,
自动驾驶技术的未来趋势与挑战分析智能计算研究中心其他
内容概要自动驾驶技术自诞生以来经历了多个发展阶段。最初的研究集中在感知和控制系统的基础构建，随后进入了数据处理和算法的优化阶段，如今，随着人工智能和机器学习技术的快速应用，自动驾驶行业正处于一个前所未有的迅猛发展期。当前，行业内涌现出多种解决方案，各大汽车制造商与科技公司纷纷加大投入，推动这一领域的技术进步。市场需求不断增加，为自动驾驶技术注入活力。城市交通拥堵、环境污染等问题促使人们寻求更加智能
基于联邦学习的政务大数据平台应用研究宋罗世家技术屋计算机软件及理论发展专栏政务大数据
摘要当前数字政府建设已进入深水区，政务大数据平台作为数据底座支撑各类政务信息化应用，其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法，基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先，介绍政务大数据平台及联邦学习应用现状；然后，分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战；接着，阐述基于联邦学习的推荐算法和隐私集合求交技术的解决
C++14新特性之lambda参数auto 画个逗号给明天" C++14新特性 c++开发语言
1.介绍在C++11中，lambda表达式参数需要使用具体的类型，例如：autof=[](inta){returna;}参数的类型为int。在C++14中对lambda表达式进行了优化，参数可以是auto,例如：autof=[](autoa){returna;};这使得lambda表达式更加的灵活，可以接收任意类型的参数，这一特性通常称为泛型lambda。2.使用场景（1）结合STL算法。#inc
编程题-在排序数组中查找元素的第一个和最后一个位置（中等） Kevin Kou 数据结构算法 c++二分查找
题目：给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。解法一（二分查找）：直接遍历所有数组nums中元素时间复杂度为O(n)，没有利用到数组升序排列的条件。由于数组已经排序，因此整个数组是单调递增的，我们可以利用
LVS（Linux Virtual Server）概述 afei00123 Linux
目录1.LVS简介2.LVS的组成3.LVS负载均衡的三种包转发方式3.1NAT（网络地址映射）3.2IPTunneling（IP隧道）3.3DirectRouting（直接路由）4.LVS相关术语5.LVS-NAT模式工作原理6.LVS-DR模式工作原理7.LVS的负载调度算法1.LVS简介LVS（LinuxVirtualServer）即Linux虚拟服务器，是由章文嵩博士主导的开源负载均衡项目
基于深度学习的半导体检测与预测算法研究(二) 埃菲尔铁塔_CV算法深度学习人工智能神经网络 opencv 计算机视觉 python
摘要随着半导体行业的飞速发展，对生产过程中的检测和性能预测提出了更高要求。深度学习凭借其强大的数据处理和特征提取能力，在半导体领域展现出巨大的应用潜力。本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术，并通过实际案例验证了深度学习算法在
基于深度学习的半导体算法原理及应用埃菲尔铁塔_CV算法算法机器学习人工智能计算机视觉深度学习 python
摘要随着半导体产业的持续发展，深度学习技术在该领域的应用日益广泛且深入。本文全面阐述了基于深度学习的半导体算法原理，涵盖卷积神经网络（CNN）、循环神经网络（RNN）及其变体长短时记忆网络（LSTM）和门控循环单元（GRU）等在半导体制造过程监测、缺陷检测、性能预测等方面的应用。详细分析了这些算法处理半导体相关数据的机制，探讨了算法实现中的关键技术，如数据预处理、模型训练与优化等。通过实际案例展示
计算机视觉国内外研究现状（综述）埃菲尔铁塔_CV算法计算机视觉
1.国内外研究进展1.2.1特征提取研究进展特征提取是图像处理的一个重要环节，是进行身份识别和行为识别的重要部分。近年来，针对不同特征的提取，国内外学者提出了许多特征提取算法，同样特征提取的效果大都不错。但是在复杂的猪舍环境中提取猪的特征还是比较困难的。下面针对几种目前常用的特征提取算法进行一些介绍。（1）传统的特征提取算法传统特征提取算法已经发展了很久，现阶段比较成熟，是深度学习算法出来之前研究
SpringBoot Jwt令牌的使用（黑马javaweb) liuaiguo75 SpringBoot JAVA Idea spring boot 后端 java spring intellij-idea log4j mybatis
JWT概念JSONWebToken(JWT)是一种开放标准(RFC7519)，它定义了一种紧凑和自包含的方式，用于作为JSON对象在各方之间安全地传输信息。这个信息可以被验证和信任，因为它是数字签名的。JWTs可以使用秘密(使用HMAC算法)或使用RSA或ECDSA的公钥/私钥对进行签名。JWT作用1、授权2、信息交换JWT示例代码1、SpringBoot中引入JWTio.jsonwebtoken
第六届MathorCup高校数学建模挑战赛-A题：淡水养殖池塘水华发生及池水自净化研究格图素书大数据竞赛赛题解析数学建模
目录摘要1问题的重述2问题的分析2.1问题一的分析2.2问题二的分析2.3问题三的分析2.4问题四的分析2.5问题五的分析3.问题的假设4.符号说明5.模型的建立与求解5.1问题一的建模与求解5.1.1分析对象与指标的选取5.1.2折线图分析5.1.3相关性分析5.1.4问题1的结果分析5.2问题二的建模与求解5.2.1分析对象与指标的选取5.2.2Topsis算法评价5.2.3综合污染指数法5.
【GA MTSP】基于matlab遗传算法求解多旅行商问题（目标函数：最短距离单起点多终点）【含Matlab源码 4354期】 Matlab研究室 matlab
欢迎来到Matlab研究室博客之家✅博主简介：985研究生，热爱科研的Matlab仿真开发者，完整代码论文复现程序定制期刊写作科研合作扫描文章底部QQ二维码。个人主页：Matlab研究室代码获取方式：扫描文章底部QQ二维码⛳️座右铭：行百里者，半于九十；路漫漫其修远兮，吾将上下而求索。更多Matlab路径规划仿真内容点击①Matlab路径规划（研究室版
模型应用管理的成功之道：策略、工具与团队协作项目管理工具
管理模型应用涉及多个方面，包括模型的开发、部署、监控、优化和维护。以下是管理模型应用的关键步骤和策略：1.模型开发●需求分析：明确业务需求，确定模型的目标和评估指标。●数据准备：收集、清洗和预处理数据，确保数据质量。●模型选择：根据问题类型选择合适的算法和模型架构。●训练与验证：使用训练数据训练模型，并通过验证集评估模型性能。●超参数调优：通过交叉验证、网格搜索等方法优化模型超参数。2.模型部署●
LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！大模型入门学习产品经理语言模型人工智能 DeepSeek 大模型学习 LLM
前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数
2024年前端最全Java进阶(五十五)-Java Lambda表达式入门_eclipse lambda(2)，程序员面试技巧和注意事项 2401_84435192 程序员前端面试学习
算法冒泡排序选择排序快速排序二叉树查找:最大值、最小值、固定值二叉树遍历二叉树的最大深度给予链表中的任一节点，把它删除掉链表倒叙如何判断一个单链表有环由于篇幅限制小编，pdf文档的详解资料太全面，细节内容实在太多啦，所以只把部分知识点截图出来粗略的介绍，每个小节点里面都有更细化的内容！如果你觉得对你有帮助，可以戳这里获取：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】"And
【Matlab算法】[特殊字符]基于人工势场的多机器人协同运动与避障算法研究（附MATLAB完整代码） Albert_Lsk MATLAB算法实现与应用 matlab 算法机器人人工智能开发语言算法应用避障算法
基于人工势场的多机器人协同运动与避障算法研究摘要1.引言2.方法说明2.1人工势场模型2.2运动控制流程3.核心函数解释3.1主循环结构3.2力计算函数4.实验设计4.1参数配置4.2测试场景5.结果分析5.1典型运动轨迹5.2性能指标6.总结与建议成果总结改进方向附录：完整MATLAB代码参考文献摘要本文提出了一种基于人工势场法的多机器人协同运动与避障算法，通过MATLAB实现仿真验证。算法通过
python 学习路线 Coding Happily python 学习 windows
学习顺序《python编程：从入门到实践》《Head-FirstPython》《“笨方法”学python3》《PythonCookbook》《Python机器学习基础教程》《FluentPython》《Python编程》《Python编程：从入门到实践》变量变量命名：仅用小写和下划线。变量本质:指向特定的值。字符串在字符串中使用变量：f’{varies1}{varies2}’更早版本:‘{}{}’
图像分类与目标检测算法 BugNest AI 算法分类目标检测 ai 人工智能图像处理
在计算机视觉领域，图像分类与目标检测是两项至关重要的技术。它们通过对图像进行深入解析和理解，为各种应用场景提供了强大的支持。本文将详细介绍这两项技术的算法原理、技术进展以及当前的落地应用。一、图像分类算法图像分类是指将输入的图像划分为预定义的类别之一。这一过程的核心在于特征提取和分类器的设计。1.特征提取特征提取是图像分类的第一步，其目标是从图像中提取出能够区分不同类别的关键信息。传统的特征提取方
python栈实战迷宫寻找出口 #岩王爷深度优先算法
迷宫问题，作为计算机科学和算法设计中的一个经典问题，不仅考验了我们对数据结构的理解和应用，还锻炼了我们解决复杂问题的能力。在众多的解决方案中，利用栈来实现深度优先搜索（DFS）是一种直观且高效的方法。栈，作为一种基础的数据结构，其特性使得它在处理需要回溯的场景时显得尤为合适。在迷宫问题中，当我们沿着某条路径深入探索时，可能会遇到无法继续前行的死胡同。此时，栈的作用就凸显出来了：我们可以将当前的位置
【鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪】萌虎不虎 OpenHarmony harmonyos opencv 华为
鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪OpenCV介绍OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。它由一系列的C函数和少量C++类构成，同时提供Python、Java和MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV具有极广的应用领域，它包括但不限于：人脸识别和物
idea新增java快捷键代码片段 LeoGoGoGoo 开发问题汇总 intellij-idea java ide
最近在写一些算法题，有很多的List<List这种编写，想着能否自定义一下快捷键直接在写代码输入：lli，即可看见提示
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方