汀、人工智能

A.机器学习入门算法（五）：基于企鹅数据集的决策树分类预测

机器学习算法入门教程（一）: 基于逻辑回归的分类预测

机器学习入门算法（二）: 基于朴素贝叶斯(Naive Bayes)的分类预测

机器学习入门算法（三）：基于鸢尾花和horse-colic数据集的KNN近邻(k-nearest neighbors)分类预测

机器学习入门算法（四）: 基于支持向量机的分类预测

机器学习入门算法（五）：基于企鹅数据集的决策树分类预测

机器学习入门算法（六）基于天气数据集的XGBoost分类预测

机器学习入门算法[七]：基于英雄联盟数据集的LightGBM的分类预测

机器学习入门算法（八）：基于BP神经网络的乳腺癌的分类预测

机器学习入门算法（九）: 基于线性判别模型的LDA手写数字分类识别

机器学习算法（五）：基于企鹅数据集的决策树分类预测

本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc

本地码源见文末

1 逻决策树的介绍和应用

1.1 决策树的介绍

决策树是一种常见的分类模型，在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先询问男方是否有房产，如果有房产再了解是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。

主要应用：

由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法，使得它成为集成学习中最为广泛使用的基模型。梯度提升树(GBDT)，XGBoost以及LightGBM等先进的集成模型都采用了决策树作为基模型，在广告计算、CTR预估、金融风控等领域大放异彩，成为当今与神经网络相提并论的复杂模型，更是数据挖掘比赛中的常客。在新的研究中，南京大学周志华教授提出一种多粒度级联森林模型，创造了一种全新的基于决策树的深度集成方法，为我们提供了决策树发展的另一种可能。

同时决策树在一些明确需要可解释性或者提取分类规则的场景中被广泛应用，而其他机器学习模型在这一点很难做到。例如在医疗辅助系统中，为了方便专业人员发现错误，常常将决策树算法用于辅助病症检测。例如在一个预测哮喘患者的模型中，医生发现测试的许多高级模型的效果非常差。在他们运行了一个决策树模型后发现，算法认为剧烈咳嗽的病人患哮喘的风险很小。但医生非常清楚剧烈咳嗽一般都会被立刻检查治疗，这意味着患有剧烈咳嗽的哮喘病人都会马上得到收治。用于建模的数据认为这类病人风险很小，是因为所有这类病人都得到了及时治疗，所以极少有人在此之后患病或死亡。

1.2 相关流程

了解决策树的理论知识
掌握决策树的 sklearn 函数调用并将其运用在企鹅数据集的预测中

Part1 Demo实践

Step1:库函数导入
Step2:模型训练
Step3:数据和模型可视化
Step4:模型预测

Part2 基于企鹅（penguins）数据集的决策树分类实践

Step1:库函数导入
Step2:数据读取/载入
Step3:数据信息简单查看
Step4:可视化描述
Step5:利用决策树模型在二分类上进行训练和预测
Step6:利用决策树模型在三分类(多分类)上进行训练和预测

3 算法实战

3.1Demo实践

Step1: 库函数导入

##  基础函数库
import numpy as np 

## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns

## 导入决策树模型函数
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

Step2: 训练模型

##Demo演示LogisticRegression分类

## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 1, 0, 1, 0, 1])

## 调用决策树回归模型
tree_clf = DecisionTreeClassifier()

## 调用决策树模型拟合构造的数据集
tree_clf = tree_clf.fit(x_fearures, y_label)

Step3: 数据和模型可视化（需要用到graphviz可视化库）

## 可视化构造的数据样本点
plt.figure()
plt.scatter(x_fearures[:,0],x_fearures[:,1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()

## 可视化决策树
import graphviz
dot_data = tree.export_graphviz(tree_clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("pengunis")

'pengunis.pdf'

Step4:模型预测

## 创建新样本
x_fearures_new1 = np.array([[0, -1]])
x_fearures_new2 = np.array([[2, 1]])

## 在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict = tree_clf.predict(x_fearures_new1)
y_label_new2_predict = tree_clf.predict(x_fearures_new2)

print('The New point 1 predict class:\n',y_label_new1_predict)
print('The New point 2 predict class:\n',y_label_new2_predict)

The New point 1 predict class:
 [1]
The New point 2 predict class:
 [0]

3.2 基于penguins_raw数据集的决策树实战

在实践的最开始，我们首先需要导入一些基础的函数库包括：numpy （Python进行科学计算的基础软件包），pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具），matplotlib和seaborn绘图。

#下载需要用到的数据集
!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv

--2023-03-22 16:21:32--  https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv
正在解析主机 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)... 49.7.22.39
正在连接 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)|49.7.22.39|:443... 已连接。
已发出 HTTP 请求，正在等待回应... 200 OK
长度： 53098 (52K) [text/csv]
正在保存至: “penguins_raw.csv”

penguins_raw.csv    100%[===================>]  51.85K  --.-KB/s    in 0.04s   

2023-03-22 16:21:33 (1.23 MB/s) - 已保存 “penguins_raw.csv” [53098/53098])

Step1：函数库导入

##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

本次我们选择企鹅数据（palmerpenguins）进行方法的尝试训练，该数据集一共包含8个变量，其中7个特征变量，1个目标分类变量。共有150个样本，目标变量为企鹅的类别其都属于企鹅类的三个亚属，分别是(Adélie, Chinstrap and Gentoo)。包含的三种种企鹅的七个特征，分别是所在岛屿，嘴巴长度，嘴巴深度，脚蹼长度，身体体积，性别以及年龄。

变量	描述
species	a factor denoting penguin species
island	a factor denoting island in Palmer Archipelago, Antarctica
bill_length_mm	a number denoting bill length
bill_depth_mm	a number denoting bill depth
flipper_length_mm	an integer denoting flipper length
body_mass_g	an integer denoting body mass
sex	a factor denoting penguin sex
year	an integer denoting the study year

Step2：数据读取/载入

## 我们利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('./penguins_raw.csv')

## 为了方便我们仅选取四个简单的特征，有兴趣的同学可以研究下其他特征的含义以及使用方法
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]

Step3：数据信息简单查看

## 利用.info()查看数据的整体信息
data.info()


RangeIndex: 344 entries, 0 to 343
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Species              344 non-null    object 
 1   Culmen Length (mm)   342 non-null    float64
 2   Culmen Depth (mm)    342 non-null    float64
 3   Flipper Length (mm)  342 non-null    float64
 4   Body Mass (g)        342 non-null    float64
dtypes: float64(4), object(1)
memory usage: 13.6+ KB

## 进行简单的数据查看，我们可以利用 .head() 头部.tail()尾部
data.head()

	Species	Culmen Length (mm)	Culmen Depth (mm)	Flipper Length (mm)	Body Mass (g)
0	Adelie Penguin (Pygoscelis adeliae)	39.1	18.7	181.0	3750.0
1	Adelie Penguin (Pygoscelis adeliae)	39.5	17.4	186.0	3800.0
2	Adelie Penguin (Pygoscelis adeliae)	40.3	18.0	195.0	3250.0
3	Adelie Penguin (Pygoscelis adeliae)	NaN	NaN	NaN	NaN
4	Adelie Penguin (Pygoscelis adeliae)	36.7	19.3	193.0	3450.0

这里我们发现数据集中存在NaN，一般的我们认为NaN在数据集中代表了缺失值，可能是数据采集或处理时产生的一种错误。这里我们采用-1将缺失值进行填补，还有其他例如“中位数填补、平均数填补”的缺失值处理方法有兴趣的同学也可以尝试。

data = data.fillna(-1)

data.tail()

	Species	Culmen Length (mm)	Culmen Depth (mm)	Flipper Length (mm)	Body Mass (g)
339	Chinstrap penguin (Pygoscelis antarctica)	55.8	19.8	207.0	4000.0
340	Chinstrap penguin (Pygoscelis antarctica)	43.5	18.1	202.0	3400.0
341	Chinstrap penguin (Pygoscelis antarctica)	49.6	18.2	193.0	3775.0
342	Chinstrap penguin (Pygoscelis antarctica)	50.8	19.0	210.0	4100.0
343	Chinstrap penguin (Pygoscelis antarctica)	50.2	18.7	198.0	3775.0

## 其对应的类别标签为'Adelie Penguin', 'Gentoo penguin', 'Chinstrap penguin'三种不同企鹅的类别。
data['Species'].unique()

array(['Adelie Penguin (Pygoscelis adeliae)',
       'Gentoo penguin (Pygoscelis papua)',
       'Chinstrap penguin (Pygoscelis antarctica)'], dtype=object)

## 利用value_counts函数查看每个类别数量
pd.Series(data['Species']).value_counts()

Adelie Penguin (Pygoscelis adeliae)          152
Gentoo penguin (Pygoscelis papua)            124
Chinstrap penguin (Pygoscelis antarctica)     68
Name: Species, dtype: int64

## 对于特征进行一些统计描述
data.describe()

	Culmen Length (mm)	Culmen Depth (mm)	Flipper Length (mm)	Body Mass (g)
count	344.000000	344.000000	344.000000	344.000000
mean	43.660756	17.045640	199.741279	4177.319767
std	6.428957	2.405614	20.806759	861.263227
min	-1.000000	-1.000000	-1.000000	-1.000000
25%	39.200000	15.500000	190.000000	3550.000000
50%	44.250000	17.300000	197.000000	4025.000000
75%	48.500000	18.700000	213.000000	4750.000000
max	59.600000	21.500000	231.000000	6300.000000

Step4:可视化描述

## 特征与标签组合的散点可视化
sns.pairplot(data=data, diag_kind='hist', hue= 'Species')
plt.show()

从上图可以发现，在2D情况下不同的特征组合对于不同类别的企鹅的散点分布，以及大概的区分能力。Culmen Lenth与其他特征的组合散点的重合较少，所以对于数据集的划分能力最好。

我们发现

'''为了方便我们将标签转化为数字
       'Adelie Penguin (Pygoscelis adeliae)'        ------0
       'Gentoo penguin (Pygoscelis papua)'          ------1
       'Chinstrap penguin (Pygoscelis antarctica)   ------2 '''

def trans(x):
    if x == data['Species'].unique()[0]:
        return 0
    if x == data['Species'].unique()[1]:
        return 1
    if x == data['Species'].unique()[2]:
        return 2

data['Species'] = data['Species'].apply(trans)

for col in data.columns:
    if col != 'Species':
        sns.boxplot(x='Species', y=col, saturation=0.5, palette='pastel', data=data)
        plt.title(col)
        plt.show()

利用箱型图我们也可以得到不同类别在不同特征上的分布差异情况。

# 选取其前三个特征绘制三维散点图
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(10,8))
ax = fig.add_subplot(111, projection='3d')

data_class0 = data[data['Species']==0].values
data_class1 = data[data['Species']==1].values
data_class2 = data[data['Species']==2].values
# 'setosa'(0), 'versicolor'(1), 'virginica'(2)
ax.scatter(data_class0[:,0], data_class0[:,1], data_class0[:,2],label=data['Species'].unique()[0])
ax.scatter(data_class1[:,0], data_class1[:,1], data_class1[:,2],label=data['Species'].unique()[1])
ax.scatter(data_class2[:,0], data_class2[:,1], data_class2[:,2],label=data['Species'].unique()[2])
plt.legend()

plt.show()

Step5:利用决策树模型在二分类上进行训练和预测

## 为了正确评估模型性能，将数据划分为训练集和测试集，并在训练集上训练模型，在测试集上验证模型性能。
from sklearn.model_selection import train_test_split

## 选择其类别为0和1的样本 （不包括类别为2的样本）
data_target_part = data[data['Species'].isin([0,1])][['Species']]
data_features_part = data[data['Species'].isin([0,1])][['Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]

## 测试集大小为20%， 80%/20%分
x_train, x_test, y_train, y_test = train_test_split(data_features_part, data_target_part, test_size = 0.2, random_state = 2020)

## 从sklearn中导入决策树模型
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
## 定义 决策树模型 
clf = DecisionTreeClassifier(criterion='entropy')
# 在训练集上训练决策树模型
clf.fit(x_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='entropy',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

## 可视化
import graphviz
dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("penguins")

'penguins.pdf'


## 在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
from sklearn import metrics

## 利用accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))

## 查看混淆矩阵 (预测值和真实值的各类情况统计矩阵)
confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)
print('The confusion matrix result:\n',confusion_matrix_result)

# 利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()

The accuracy of the Logistic Regression is: 0.9954545454545455
The accuracy of the Logistic Regression is: 1.0
The confusion matrix result:
 [[31  0]
 [ 0 25]]

我们可以发现其准确度为1，代表所有的样本都预测正确了。

Step6:利用决策树模型在三分类(多分类)上进行训练和预测

## 测试集大小为20%， 80%/20%分
x_train, x_test, y_train, y_test = train_test_split(data[['Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']], data[['Species']], test_size = 0.2, random_state = 2020)
## 定义 决策树模型 
clf = DecisionTreeClassifier()
# 在训练集上训练决策树模型
clf.fit(x_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

## 在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)

## 由于决策树模型是概率预测模型（前文介绍的 p = p(y=1|x,\theta)）,所有我们可以利用 predict_proba 函数预测其概率
train_predict_proba = clf.predict_proba(x_train)
test_predict_proba = clf.predict_proba(x_test)

print('The test predict Probability of each class:\n',test_predict_proba)
## 其中第一列代表预测为0类的概率，第二列代表预测为1类的概率，第三列代表预测为2类的概率。

## 利用accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))

The test predict Probability of each class:
 [[0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]]
The accuracy of the Logistic Regression is: 0.9963636363636363
The accuracy of the Logistic Regression is: 0.9565217391304348

## 查看混淆矩阵
confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)
print('The confusion matrix result:\n',confusion_matrix_result)

# 利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()

The confusion matrix result:
 [[30  1  0]
 [ 0 23  0]
 [ 2  0 13]]

3.3 重要知识点

3.3.1 决策树构建的伪代码

输入：训练集D={( $x_1$ , $y_1$ ),( $x_2$ , $y_2$ ),…,( $x_m$ , $y_m$ )};
特征集A={ $a_1$ , $a_2$ ,…, $a_d$ }

输出：以node为根节点的一颗决策树

过程：函数TreeGenerate( $D$ , $A$ )

生成节点node
$i f$ $D$ 中样本全书属于同一类别 $C$ $t h e n$ :
----将node标记为 $C$ 类叶节点； $re t u r n$
$i f$ $A$ = 空集 OR D中样本在 $A$ 上的取值相同 $t h e n$ :
----将node标记为叶节点，其类别标记为 $D$ 中样本数最多的类； $re t u r n$
从 $A$ 中选择最优划分属性 $a_*$ ;
$f or$ $a_*$ 的每一个值 $a_*^v$ $d o$ :
----为node生成一个分支，令 $D_v$ 表示 $D$ 中在 $a_*$ 上取值为 $a_*^v$ 的样本子集；
---- $i f$ $D_v$ 为空 $t h e n$ :
--------将分支节点标记为叶节点，其类别标记为 $D$ 中样本最多的类; $t h e n$
---- $e l se$ :
--------以 TreeGenerate( $D_v$ , $A$ { $a_*$ })为分支节点

决策树的构建过程是一个递归过程。函数存在三种返回状态：（1）当前节点包含的样本全部属于同一类别，无需继续划分；（2）当前属性集为空或者所有样本在某个属性上的取值相同，无法继续划分；（3）当前节点包含的样本集合为空，无法划分。

3.3.2 划分选择

从上述伪代码中我们发现，决策树的关键在于中选择最优划分属，一般我们希望决策树每次划分节点中包含的样本尽量属于同一类别，也就是节点的“纯度”更高。

3.3.2.1 信息增益

信息熵是一种衡量数据混乱程度的指标，信息熵越小，则数据的“纯度”越高

$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$

其中 $p_k$ 代表了第 $k$ 类样本在 $D$ 中占有的比例。

假设离散属性 $a$ 有 $V$ 个可能的取值{ $a^1$ , $a^2$ ,…, $a^V$ }，若使用 $a$ 对数据集 $D$ 进行划分，则产生 $D$ 个分支节点，记为 $D^v$ 。则使用 $a$ 对数据集进行划分所带来的信息增益被定义为：

$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$

一般的信息增益越大，则意味着使用特征 $a$ 来进行划分的效果越好。

3.3.2.2基尼指数

$\begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned}$

基尼指数反映了从数据集 $D$ 中随机抽取两个的类别标记不一致的概率。

$\operatorname{Gini}\operatorname{index}(D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right)$

使用特征 $a$ 对数据集 $D$ 划分的基尼指数定义为上。

3.3.3 重要参数

Criterion这个参数正是用来决定模型特征选择的计算方法的。sklearn提供了两种选择：

输入”entropy“，使用信息熵（Entropy）
输入”gini“，使用基尼系数（Gini Impurity）

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显。splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

限制树的最大深度，超过设定深度的树枝全部剪掉。这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。

min_samples_leaf 限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。

4.总结

决策树的主要优点：

具有很好的解释性，模型可以生成可以理解的规则。
可以发现特征的重要程度。
模型的计算复杂度较低。

决策树的主要缺点：

模型容易过拟合，需要采用减枝技术处理。
不能很好利用连续型特征。
预测能力有限，无法达到其他强监督模型效果。
方差较高，数据分布的轻微改变很容易造成树结构完全不同。

4.1 算力领取

进入OpenI启智AI协作平台，领取普惠算力资源(GPU/NPU/GCU)。
注册地址：https://openi.pcl.ac.cn/user/sign_up?sharedUser=ting
填写推荐人：ting
赠送算力+10，相关项目在本人专栏可查

本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc

参考链接：https://tianchi.aliyun.com/course/278/3422

机器学习入门系列全码源链接见：
https://download.csdn.net/download/sinat_39620217/87630193

本人最近打算整合ML、DRL、NLP等相关领域的体系化项目课程，方便入门同学快速掌握相关知识。声明：部分项目为网络经典项目方便大家快速学习，后续会不断增添实战环节（比赛、论文、现实应用等）。

对于机器学习这块规划为：基础入门机器学习算法—>简单项目实战—>数据建模比赛----->相关现实中应用场景问题解决。一条路线帮助大家学习，快速实战。
对于深度强化学习这块规划为：基础单智能算法教学（gym环境为主）---->主流多智能算法教学（gym环境为主）---->单智能多智能题实战（论文复现偏业务如：无人机优化调度、电力资源调度等项目应用）
自然语言处理相关规划：除了单点算法技术外，主要围绕知识图谱构建进行：信息抽取相关技术（含智能标注）—>知识融合---->知识推理---->图谱应用

上述对于你掌握后的期许：

对于ML，希望你后续可以乱杀数学建模相关比赛（参加就获奖保底，top还是难的需要钻研）
可以实际解决现实中一些优化调度问题，而非停留在gym环境下的一些游戏demo玩玩。（更深层次可能需要自己钻研了，难度还是很大的）
掌握可知识图谱全流程构建其中各个重要环节算法，包含图数据库相关知识。

这三块领域耦合情况比较大，后续会通过比如：搜索推荐系统整个项目进行耦合，各项算法都会耦合在其中。举例：知识图谱就会用到（图算法、NLP、ML相关算法），搜索推荐系统（除了该领域召回粗排精排重排混排等算法外，还有强化学习、知识图谱等耦合在其中）。饼画的有点大，后面慢慢实现。

你可能感兴趣的:(数据挖掘-机器学习,机器学习,决策树,数据分析,数据挖掘,分类预测)

LeetCode力扣 75. 颜色分类冒泡排序法，计数法等閒 leetcode 算法排序算法
75.颜色分类难度中等1190收藏分享切换为英文接收动态反馈给定一个包含红色、白色和蓝色、共n个元素的数组nums，原地对它们进行排序，使得相同颜色的元素相邻，并按照红色、白色、蓝色顺序排列。我们使用整数0、1和2分别表示红色、白色和蓝色。必须在不使用库的sort函数的情况下解决这个问题。示例1：输入：nums=[2,0,2,1,1,0]输出：[0,0,1,1,2,2]示例2：输入：nums=[2
JS力扣刷题75. 颜色分类
varsortColors=function(nums){//冒泡排序for(leti=nums.length-2;i>=0;i--)for(letj=0;j<=i;j++)if(nums[j+1]<nums[j])[nums[j+1],nums[j]]=[nums[j],nums[j+1]]};
电商架构浅析快乐非自愿架构大数据
前言什么是电商，电商有哪些分类，以及一个完整的电商平台应该由哪些模块组成？本文将围绕电商平台系统的整体架构展开分析。一、简介1.什么是电商简单说就是通过网络进行的商务活动。以前的人都是通过现金进行交易，就是所谓的一手交钱、一手交货。而电商，则是通过通过网上商城、物流配送、线上资金结算等过程来完成交易。本质就是买卖双方围绕线上商品进行交易履约的过程。2.电商分类二、业务流程分析目前的电商的种类很多，
GO语言中二次插值算法实现预测
基础介绍：给定给定区间，函数连续且，那么根据介值定理，函数必然在区间内有根。二分法：将区间不断二分，使端点不断逼近零点。下一次迭代的区间为或，其中。割线法（线性插值）：基本思想是用弦的斜率近似代替目标函数的切线斜率，并用割线与横轴交点的横坐标作为方程式的根的近似。即给定两个点,。其割线方程为，那么令，x的值即为下一次迭代的结果。逆二次插值法：为割线法的进化版本。使用三个点确定一个二次函数，二次函数
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
DRF视图类选择与使用八九燕来 python django restful
在DjangoRESTFramework(DRF)中，视图（Views）扮演着协调请求、序列化器和模型之间交互的核心角色。它决定了如何处理请求（如数据校验、权限控制、业务逻辑），如何将数据传递给序列化器，以及如何将处理结果返回给客户端。以下是一个清晰的分类和选择指南：一、视图的核心作用处理HTTP请求解析请求数据（如GET,POST,PUT,DELETE），验证请求合法性。协调序列化器和模型调用序
DeepSeek 帮助自己的工作
引言简述人工智能助手在职场中的普及趋势DeepSeek作为智能创作助手的核心功能概述DeepSeek的核心能力信息检索与整合：基于用户意图精准搜索并生成答案多场景应用：技术文档撰写、数据分析、代码生成等交互优化：遵循用户指定的格式与内容规范职场应用场景与实操案例技术文档撰写自动生成API文档框架根据需求补充技术细节示例代码块与公式的规范化输出数据分析支持快速检索行业数据并生成可视化建议数学建模中的
华为OD机试 - 数字加减游戏（Python/JS/C/C++ 2025 A卷 200分）哪吒华为od 游戏 python
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 相同数字的积木游戏1（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 游戏 python
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 去除多余空格（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 猜密码 - 深度优先搜索dfs算法（Python/JS/C/C++ 2025 A卷 100分）哪吒算法华为od 深度优先 2025A卷华为OD机试
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 等差数列（Python/JS/C/C++ 2025 A卷 100分）哪吒华为od python javascript 2025A卷华为OD机试
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
2025年国内开源数据分析工具琅琊榜：实力与应用全解析数澜悠客数据工具箱开源数据分析数据挖掘
一、引言在数字化浪潮汹涌澎湃的当下，数据已然成为企业和组织的核心资产。如何从海量、复杂的数据中挖掘出有价值的信息，成为了各个行业关注的焦点。开源数据分析工具，凭借其免费、灵活、可定制等特性，犹如一把把利刃，为数据领域的从业者们开辟出高效处理和分析数据的新路径，在国内数据领域中占据着举足轻重的地位。这些开源工具不仅降低了数据分析的门槛，让更多中小企业能够以较低成本搭建起自己的数据处理和分析体系，还极
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
数据库表结构设计实战：从基础到商品三级分类实现 Code季风 GORM从入门到精通数据库 sql 微服务 golang 学习前端
数据库表结构设计是后端开发的基石，良好的设计能提升系统性能、降低维护成本。本文将从基础概念讲起，结合商品三级分类的实战案例，详解表结构设计的核心思路与最佳实践。一、数据库表结构设计基础1.关系数据库的核心约束与索引（1）列约束：保证数据完整性主键约束（PRIMARYKEY）：唯一标识表中每条记录，不可重复且非空。通常用id字段，如idINT32PRIMARYKEYAUTO_INCREMENT。外键
★★★【酷安精品，雪豹速清】 1.6.0.0 | 安卓11文件管理及清理工具★★★ weixin_48801999 人工智能
软件经过测试可用，时间9月4日，请勿更新，勿忘点个赞，因为为修改软件，华为等机型无法适用于，且时间久了不可以使用为正常现象！雪豹速清app，目前评分很高的一款安卓垃圾清理工具，特色功能自动扫全盘，扫描速度超快，智能文件分类，一建清理垃圾，支持安卓11/Android/data目录访问、文件复制、缓存垃圾扫描、文件管理等操作。2021.09.04v1.6.0【新增】工具箱新增M3U8视频合并功能，支
电工电气仿真APP专辑
电工电气仿真APP专辑电工电气仿真软件能够构建虚拟的电气系统模型，并在计算机上运行这些模型以预测实际系统的行为。通过仿真，工程师可以测试不同的设计方案、优化系统性能、评估故障情况，并在实际构建系统之前进行详细的验证。电工电气仿真APP专辑-SimappsStore-工业仿真APP商店开关仿真，测试设计，优化参数，提前预知开关性能！开关仿真可以帮助工程师预测开关在实际工作中的行为，并评估其性能。通过
Java学习第二十二部分——了解框架慕y274 java 学习开发语言
目录一.概述二.分类1.Web开发框架2.持久层框架3.依赖注入框架4.安全框架5.微服务框架三.优势四.建议一.概述Java框架是一种用于简化Java开发过程的工具，它提供了一组预定义的类和接口，帮助开发者更高效地构建应用程序。二.分类1.Web开发框架-**SpringMVC**-**特点**：它是Spring框架的一部分，用于构建Web应用程序。它支持多种视图技术，如JSP、Thymelea
防火墙知识点总结知新zx 服务器网络运维
一、是什么定义：不同区域，安全策略的一台硬件设备二、为什么要用作用：保护内网终端、服务器和一些通信设备的安全三、怎么用（工作原理）分类：传统防火墙、下一代防火墙1、传统防火墙①包过滤工作层次：3/4层原理：类似于路由交换的ACL，路由交换基于端口in/out，防火墙基于区域与区域之间（默认任何区域deny）优缺点：只检测3，4层，处理速度快，开销小，但应用层威胁无法防御或检测，无会画状态跟踪②状态
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
第一部分：医疗器械行业与产品经理角色基石01 winter_医疗器械_2012 医疗器械硬件产品经理实战手册产品经理大数据
第1章：医疗器械行业全景图1.1定义与分类医疗器械的定义与分类是行业监管的基石，直接影响产品注册路径、监管强度及市场策略。以下结合中国（NMPA）、美国（FDA）、欧盟（MDR/IVDR）三大体系系统解析：一、医疗器械定义核心标准：用于预防、诊断、治疗、缓解人类疾病/损伤，或控制生理结构/功能的仪器、设备、材料等，不依赖药理学/免疫学代谢实现主要作用（区别于药品）。典型产品示例：诊断类：血糖仪、M
【ARM AMBA AXI 入门 5.1 - QoS是什么？QoS是怎么工作的？】主公讲 ARM #ARM AMBA AXI 系列 QoS是什么？QoS 怎么工作的？AXI QoS
请阅读【嵌入式及芯片开发学必备专栏】转自：揭秘数通知识：QoS是什么？QoS是怎么工作的？（一）文章目录QoS概述综合服务和差分服务QoS工具报文分类报文标记流量监管和整形工具拥塞管理工具拥塞避免工具队列策略FIFO（先进先出队列，FirstInFirstOutQueue）PriorityQueue（优先队列PQ）Weighted-fairQueue（加权平均队列WFQ）丢弃策略我们在学习嵌入的时
C语言基础第1天：数据类型、常量
一、数据类型（一）数据类型的定义数据类型是固定大小内存的别名，它描述了变量存放数据的类型，其核心作用是组织和操作数据。计算机要处理的数据包括数字、字符串、文字、符号、图片、音视频等，数据类型不仅助力这些数据的组织与操作，还决定了程序对内存的有效利用方式。同时，了解数据类型的内存需求是理解计算机管理和操作数据的关键，因为程序运行依赖内存。（二）数据类型的分类基本类型（C语言内置）1.数值类型整型（整
低代码平台的性能测试实践与挑战测试者家园智能化测试性能测试人工智能低代码智能化测试人工智能性能测试软件开发和测试工程策略软件测试
一、引言近年来，低代码平台（Low-CodePlatform）正在快速改变企业软件开发方式。Gartner预测，到2025年，超过70%的应用开发将基于低代码或无代码技术。通过“拖拉拽建模+图形化逻辑+一键发布”，企业大幅缩短了从需求到交付的周期，实现了真正的“业务人员可编程”。但与此同时，一个被忽视的问题悄然浮现：低代码虽“低门槛”，但不等于“低复杂性”；表面简洁的背后，隐藏着深不可测的运行时系
【JavaScript 事件循环实战解析】 Gazer_S js javascript 开发语言 ecmascript
JavaScript事件循环实战解析引言JavaScript的事件循环机制是理解异步编程的关键。本文通过实际代码示例和详细解析，帮助你掌握事件循环的工作原理，准确预测代码执行顺序。事件循环基础JavaScript是单线程语言，通过事件循环处理异步操作。事件循环由以下几个关键部分组成：调用栈(CallStack):执行同步代码宏任务队列(MacrotaskQueue):存放setTimeout等AP
YOLO 中的 Confidence 与 Class Probability 区别详解
YOLO中的Confidence与ClassProbability区别详解1.Confidence（置信度）定义：某个预测框包含目标的概率×预测框与真实框的IOU（重合程度）公式：Confidence=Pr⁡(object)×IOUpred,truth\text{Confidence}=\Pr(\text{object})\times\text{IOU}_{\text{pred,truth}}Co
Python入门Day3 Zonda要好好学习 Python python windows
Python的基础数据类型1.Python中提供了六种内置的数据类型，一般用于存储数据：–数值Number–字符串String–列表List–元组Tuple–字典Dictionary–集合Set2.Python中的数据类型可以做以下几个分类：–有序：可以使用下标（索引）访问元素–无序：不可以使用下标（索引）访问元素–可变：可以被修改–不可变：不可以被修改有序无序可变列表字典、集合不可变字符串、元组
企业物资集采平台解决方案之：AI+物联网，智能预测需求，让企业库存“零呆滞”的科技实践万米商云人工智能物联网科技集采商城企业采购供应链采购
在制造业、能源、基建、连锁零售等行业，物资采购与库存管理长期是成本黑洞与效率瓶颈。传统模式依赖经验判断与静态计划，常面临两大困境：“备而不用”：过量采购导致库存积压，占用巨额资金，备件老化报废损失触目惊心；“用而无备”：突发需求或预测偏差造成缺货，产线停摆、项目延误，损失难以估量。德勤报告指出，全球企业每年因库存管理不善造成的损失高达万亿美元级别。如何突破这一困局？AI与物联网的深度融合，正为企业
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
智慧储能园区一体化管控平台 | 图扑数字孪生
在全球能源绿色低碳转型与“双碳”目标推动下，储能产业正迎来迅猛的爆发式增长。据预测数据显示，到2030年全球储能装机容量将攀升至411GW/1194GWh。中国作为全球新能源领域的重要力量，正积极构建“源网荷储”一体化的新型电力系统。在此背景下，储能园区作为电力系统灵活调节的关键，其安全高效运营成为行业发展的核心要素。在传统储能园区运维模式中，众多设备运行数据分散混乱，无法协同分析，导致异常情况的
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod