茫茫人海一粒沙

[机器学习-Sklearn]决策树学习与总结（ID3, C4.5, C5.0, CART）

决策树学习与总结（ID3, C4.5, C5.0, CART）

1. 什么是决策树
2. 决策树介绍
3. ID3 算法

信息熵
信息增益
缺点

4. C4.5算法
5. C5.0算法
6. CART算法

基尼指数 Gini指标

7. 连续属性离散化
8. 过拟合的解决方案
9. 例子1 - 脊椎动物分类
10. 例子2

1. 准备数据及读取
2. 决策树的特征向量化
3. 决策树训练
4. 决策树可视化
5 预测结果
6. Module persistence

1）用Python有的pickle对我们训练好的模型保存
2）用joblib’s保持如果你的模型里有大量的 numpy arrays的话

7. 自己算验证熵的结果
8. 如果你用基尼指数，也就是CART算法
9. 自己算验证基尼指数的结果
10. 把数据集全部改成数字不用DictVectorizer做向量化

11. 例子 -基于Iris数据集的训练
12. 特征的重要性计算
可能遇到问题

1. 什么是决策树

决策树是什么，我们来“决策树”这个词进行分词，那么就会是决策/树。大家不妨思考一下，重点是决策还是树呢？其实啊，决策树的关键点在树上。

我们平时写代码的那一串一串的If Else其实就是决策树的思想了。看下面的图是不是觉得很熟悉呢？

2. 决策树介绍

决策树之所以叫决策树，就是因为它的结构是树形状的，如果你之前没了解过树这种数据结构，那么你至少要知道以下几个名词是什么意思。

根节点：最顶部的那个节点
叶子节点：每条路径最末尾的那个节点，也就是最外层的节点
非叶子节点：一些条件的节点，下面会有更多分支，也叫做分支节点
分支：也就是分叉

3. ID3 算法

ID3算法是在每个结点处选取能获得最高信息增益的分支属性进行分裂
在每个决策结点处划分分支、选取分支属性的目的是将整个决策树的样本
纯度提升
衡量样本集合纯度的指标则是

信息熵

不理解信息熵的可以看这篇博客[机器学习-概念篇]彻底搞懂信息量，熵、相对熵、交叉熵

举例来说，如果有一个大小为10的布尔值样本集S，其中有6个真值、4个
假值，那么该布尔型样本分类的熵为：

信息增益

计算分支属性对于样本集分类好坏程度的度量——信息增益
由于分裂后样本集的纯度提高，则样本集的熵降低，熵降低的值即为该分裂方法的信息增益

脊椎动物分类训练样本集

共有14个样本，其中8个正例，6个反例，设此样本集为 S，则分裂前的熵值为

脊椎动物训练样本集以“饮食习性”作为分支属性的分裂情况


设“饮食习性”属性为Y，由此可以计算得出,作为分支属性进行分裂之后的
信息增益为

同理，计算可得，以“胎生动物”“水生动物”“会飞”作为分支属性时的信息增益分别为0.6893、0.0454、0.0454
由此可知“胎生动物”作为分支属性时能获得最大的信息增益，即具有最强的区分样本的能力，所以在此选择使用“胎生动物”作为分支属性对根结点进行划分
由根结点通过计算信息增益选取合适的属性进行分裂，若新生成的结点的分类属性不唯一，则对新生的结点继续进行分裂，不断重复此步骤，直至所有样本属于同一类，或者达到要求的分类条件为止

缺点

4. C4.5算法

C4.5算法总体思路与ID3类似，都是通过构造决策树进行分类，其区别在于分支的处理，在分支属性的选取上，ID3算法使用信息增益作为度量，而C4.5算法引入了信息增益率作为度量

由信息增益率公式中可见，当比较大时，信息增益率会明显降低，从而在一定程度上能够解决ID3算法存在的往往选择取值较多的分支属性的问题
在前面例子中，假设选择“饮食习性”作为分支属性，其信息增益率为

5. C5.0算法

C5.0算法是Quinlan在C4.5算法的基础上提出的商用改进版本，目的是对含有大量数据的数据集进行分析
C5.0算法与C4.5算法相比有以下优势：
– 决策树构建时间要比C4.5算法快上数倍，同时生成的决策树规模也更小，拥有更少的叶子结
点数
– 使用了提升法(boosting)，组合多个决策树来做出分类，使准确率大大提高
– 提供可选项由使用者视情况决定，例如是否考虑样本的权重、样本错误分类成本等

6. CART算法

基尼指数 Gini指标

CART算法在分支处理中分支属性的度量指标

在前面例子中，假设选择“会飞”作为分支属性，其Gini指标为

7. 连续属性离散化

如果是连续的数值型是如年龄，我们一般把它离散化，如离散化为幼年，中年，老年
因为你不可能让把每个年龄都分成一个特征，那样会很多，也没必要。

8. 过拟合的解决方案

一方面要注意数据训练集的质量，选取具有代表性样本的训练样本集
要避免决策树过度增长，通过限制树的深度来减少数据中的噪声对于决策树构建的影响，一般可以采取剪枝的方法
剪枝包括预剪枝和后剪枝两类
预剪枝的思路是提前终止决策树的增长，在形成完全拟合训练样本集的决策树之前就停止树的增长，避免决策树规模过大而产生过拟合
后剪枝策略先让决策树完全生长，之后针对子树进行判断，用叶子结点或者子树中最常用的分支替换子树，以此方式不断改进决策树，直至无法改进为止

9. 例子1 - 脊椎动物分类

脊椎动物分类训练样本集 test.csv 文件, 做了下面的变换
是：0，否： 1 ，杂食动物： omnivorous animal，肉食动物：carnivorous animals，：草食动物， herbivore

omnivorous animal, 0, 1, 1, 0
omnivorous animal, 0, 1, 1, 0
carnivorous animals, 0, 1, 1, 0
carnivorous animals, 1, 1, 0, 1
carnivorous animals, 1, 0, 1, 1
carnivorous animals, 1, 1, 1, 1
omnivorous animal, 0, 1, 0, 0
herbivore, 0, 1, 1, 0
omnivorous animal, 1, 1, 0, 1
carnivorous animals, 1, 0, 1, 1
carnivorous animals, 0, 0, 1, 0
carnivorous animals, 1, 1, 1, 0
herbivore, 0, 1, 1, 0
carnivorous animals, 1, 1, 1, 1

代码

import pandas as pd
import sklearn as sklearn
from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
import pydotplus
from sklearn.externals.six import StringIO
# pandas 读取 csv 文件，header = None 表示不将首行作为列
data = pd.read_csv('data/test.csv', header=None)
# 指定列
data.columns = ['Diet Habits', 'viviparous animal', 'Aquatic animals', 'Can fly','mammal']

# sparse=False意思是不产生稀疏矩阵
vec = sklearn.feature_extraction.DictVectorizer(sparse=False)
# 先用 pandas 对每行生成字典，然后进行向量化
feature = data[['Diet Habits', 'viviparous animal', 'Aquatic animals']]

X_train = vec.fit_transform(feature.to_dict(orient='record'))
# 打印各个变量
print('show feature\n', feature)
print('show vector\n', X_train)
print('show vector name\n', vec.get_feature_names())
print('show vector name\n', vec.vocabulary_)
Y_train = data['mammal']
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf.fit(X_train, Y_train)

dot_data = StringIO()
tree.export_graphviz(clf,feature_names=vec.get_feature_names(),out_file=dot_data)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("test.pdf")

show feature
             Diet Habits  viviparous animal  Aquatic animals
0     omnivorous animal                  0                1
1     omnivorous animal                  0                1
2   carnivorous animals                  0                1
3   carnivorous animals                  1                1
4   carnivorous animals                  1                0
5   carnivorous animals                  1                1
6     omnivorous animal                  0                1
7             herbivore                  0                1
8     omnivorous animal                  1                1
9   carnivorous animals                  1                0
10  carnivorous animals                  0                0
11  carnivorous animals                  1                1
12            herbivore                  0                1
13  carnivorous animals                  1                1
show vector
 [[1. 0. 0. 1. 0.]
 [1. 0. 0. 1. 0.]
 [1. 1. 0. 0. 0.]
 [1. 1. 0. 0. 1.]
 [0. 1. 0. 0. 1.]
 [1. 1. 0. 0. 1.]
 [1. 0. 0. 1. 0.]
 [1. 0. 1. 0. 0.]
 [1. 0. 0. 1. 1.]
 [0. 1. 0. 0. 1.]
 [0. 1. 0. 0. 0.]
 [1. 1. 0. 0. 1.]
 [1. 0. 1. 0. 0.]
 [1. 1. 0. 0. 1.]]
show vector name
 ['Aquatic animals', 'Diet Habits=carnivorous animals', 'Diet Habits=herbivore', 'Diet Habits=omnivorous animal', 'viviparous animal']
show vector name
 {'Diet Habits=omnivorous animal': 3, 'viviparous animal': 4, 'Aquatic animals': 0, 'Diet Habits=carnivorous animals': 1, 'Diet Habits=herbivore': 2}

10. 例子2

安装panda 和 scikit-learn 如果你没有安装的话
conda install pandas
conda install scikit-learn

1. 准备数据及读取

季节	时间已过 8 点	风力情况	要不要赖床
spring	no	breeze	yes
winter	no	no wind	yes
autumn	yes	breeze	yes
winter	no	no wind	yes
summer	no	breeze	yes
winter	yes	breeze	yes
winter	no	gale	yes
winter	no	no wind	yes
spring	yes	no wind	no
summer	yes	gale	no
summer	no	gale	no
autumn	yes	breeze	no

spring,no,breeze,1
winter,no,no wind,1
autumn,yes,breeze,1
winter,no,no wind,1
summer,no,breeze,1
winter,yes,breeze,1
winter,no,gale,1
winter,no,no wind,1
spring,yes,no wind,0
summer,yes,gale,0
summer,no,gale,0
autumn,yes,breeze,0

2. 决策树的特征向量化

sklearn的DictVectorizer能对字典进行向量化。什么叫向量化呢？比如说你有季节这个属性有[春,夏,秋,冬]四个可选值，那么如果是春季，就可以用[1,0,0,0]表示，夏季就可以用[0,1,0,0]表示。不过在调用DictVectorizer它会将这些属性打乱，不会按照我们的思路来运行，但我们也可以一个方法查看，我们看看代码就明白了

通过DictVectorizer，我们就能够把字符型的数据，转化成0 1的矩阵，方便后面进行运算。额外说一句，这种转换方式其实就是one-hot编码。

import pandas as pd
import sklearn as sklearn
from sklearn.feature_extraction import DictVectorizer
from sklearn import tree

# pandas 读取 csv 文件，header = None 表示不将首行作为列
data = pd.read_csv('data/laic.csv', header=None)
# 指定列
data.columns = ['season', 'after 8', 'wind', 'lay bed']

# sparse=False意思是不产生稀疏矩阵
vec = DictVectorizer(sparse=False)
# 先用 pandas 对每行生成字典，然后进行向量化
feature = data[['season', 'after 8', 'wind']]

X_train = vec.fit_transform(feature.to_dict(orient='record'))
# 打印各个变量
print('show feature\n', feature)
print('show vector\n', X_train)
print('show vector name\n', vec.get_feature_names())
print('show vector name\n', vec.vocabulary_)

执行结果

show feature
     season after 8     wind
0   spring      no   breeze
1   winter      no  no wind
2   autumn     yes   breeze
3   winter      no  no wind
4   summer      no   breeze
5   winter     yes   breeze
6   winter      no     gale
7   winter      no  no wind
8   spring     yes  no wind
9   summer     yes     gale
10  summer      no     gale
11  autumn     yes   breeze
show vector
 [[1. 0. 0. 1. 0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0. 1. 0. 0. 1.]
 [0. 1. 1. 0. 0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0. 1. 0. 0. 1.]
 [1. 0. 0. 0. 1. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 1. 1. 0. 0.]
 [1. 0. 0. 0. 0. 1. 0. 1. 0.]
 [1. 0. 0. 0. 0. 1. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 1. 0. 0. 1. 0.]
 [1. 0. 0. 0. 1. 0. 0. 1. 0.]
 [0. 1. 1. 0. 0. 0. 1. 0. 0.]]
show vector name
  ['after 8=no', 'after 8=yes', 'season=autumn', 'season=spring', 'season=summer', 'season=winter', 'wind=breeze', 'wind=gale', 'wind=no wind']
show vector name
 {'season=spring': 3, 'after 8=no': 0, 'wind=breeze': 6, 'season=winter': 5, 'wind=no wind': 8, 'season=autumn': 2, 'after 8=yes': 1, 'season=summer': 4, 'wind=gale': 7}

3. 决策树训练

Y_train = data['lay bed']
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf.fit(X_train, Y_train)

4. 决策树可视化

当完成一棵树的训练的时候，我们也可以让它可视化展示出来，不过sklearn没有提供这种功能，它仅仅能够让训练的模型保存到dot文件中。但我们可以借助其他工具让模型可视化，先看保存到dot的代码：

with open("out.dot", 'w') as f :
    f = tree.export_graphviz(clf, out_file = f,
            feature_names = vec.get_feature_names())

5 预测结果

result = clf.predict([[1., 0.,  0. ,1. , 0. , 0. , 1. , 0. , 0.]])
print(result)

[1]

然后可以执行下面命令生成一个out.pdf

dot out.dot -T pdf -o out.pdf

after 8=no	after 8=yes	season=autumn	season=spring	season=summer	season=winter	wind=breeze	wind=gale	wind=no wind	lay bed
1.	0.	0.	1.	0.	0.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
0.	1.	1.	0.	0.	0.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
1.	0.	0.	0.	1.	0.	1.	0.	0.	1
0.	1.	0.	0.	0.	1.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	1.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
0.	1.	0.	1.	0.	0.	0.	0.	1.	0
0.	1.	0.	0.	1.	0.	0.	1.	0.	0
1.	0.	0.	0.	1.	0.	0.	1.	0.	0
0.	1.	1.	0.	0.	0.	1.	0.	0.	0

6. Module persistence

两种方式保持我们的模型
参考Sklearn 官网

1）用Python有的pickle对我们训练好的模型保存

import pickle
with open('decisive_tree_module.txt', 'wb') as f:
    pickle.dump(clf, f)
with open('decisive_tree_module.txt', 'rb') as f:
    clf2 = pickle.load(f)
#s = pickle.dumps(clf)
#clf2 = pickle.loads(s)
predict2 =  clf2.predict([[1., 0.,  0. ,1. , 0. , 0. , 1. , 0. , 0.]])
print('Predict result via loading pickle saved module :', predict2)

Predict result via loading pickle saved module : [1]

2）用joblib’s保持如果你的模型里有大量的 numpy arrays的话

from joblib import dump, load
dump(clf, 'jdecisive_tree_module.joblib')
clf3 = load('jdecisive_tree_module.joblib')
predict3 =  clf3.predict([[1., 0.,  0. ,1. , 0. , 0. , 1. , 0. , 0.]])
print('Predict result via loading joblib saved module :', predict3)

Predict result via loading joblib saved module : [1]

7. 自己算验证熵的结果

import math
root_node_entropy = -(8/12)*(math.log(8/12, 2)) - (4/12)*(math.log(4/12, 2))
node1_left = (-(3/7)*(math.log(3/7, 2)) - (4/7)*(math.log(4/7,2)))
#node1_right =  (-(5/5)*(math.log(5/5, 2)) - (0/5)*(math.log(0/5,2)))
node1_right =  (-(5/5)*(0) - 0)
#node2_left =  -(3/3)*(math.log(3/3, 2)) - (0/3)*(math.log(0/3, 2))
node2_left =  -(3/3)*(0) - 0
node2_right = -(3/4)*(math.log(3/4, 2)) - (1/4)*(math.log(1/4, 2))

print('Entropy of season=winter ', root_node_entropy)
print('Entropy of wind=breeze ', node1_left)
print('Entropy of wind=breeze ', node1_right)
print('Entropy of node2_left', node2_left)
print('Entropy of node2_right', node2_right)

Entropy of season=winter  0.9182958340544896
Entropy of wind=breeze  0.9852281360342516
Entropy of wind=breeze  -0.0
Entropy of node2_left -0.0
Entropy of node2_right 0.8112781244591328

8. 如果你用基尼指数，也就是CART算法

只需要把entropy 改成 gini就可以了

clf = tree.DecisionTreeClassifier(criterion='gini')

9. 自己算验证基尼指数的结果

import math
root_node_entropy = 1 -(8 / 12) * (8 / 12) - (4 / 12) *(4 / 12)
node1_left = 1-(3 / 7) * (3 / 7)  - (4 / 7) * (4 / 7)
# node1_right =  (-(5/5)*(math.log(5/5, 2)) - (0/5)*(math.log(0/5,2)))
node1_right = (-(5 / 5) * (0) - 0)
# node2_left =  -(3/3)*(math.log(3/3, 2)) - (0/3)*(math.log(0/3, 2))
node2_left = -(3 / 3) * (0) - 0
node2_right = 1-(3 / 4) * (3 / 4) - (1 / 4) *(1 / 4)
node3_left = -(2 / 2) * (0) - 0
node3_right = 1-(1 / 2) * (1 / 2) - (1 / 2) *(1 / 2)

print('Entropy of season=winter ', root_node_entropy)
print('Entropy of wind=breeze ', node1_left)
print('Entropy of wind=breeze ', node1_right)
print('Entropy of node2_left', node2_left)
print('Entropy of node2_right', node2_right)
print('Entropy of node3_left', node3_left)
print('Entropy of node3_right', node3_right)

Entropy of season=winter  0.4444444444444445
Entropy of wind=breeze  0.489795918367347
Entropy of wind=breeze  -0.0
Entropy of node2_left -0.0
Entropy of node2_right 0.375
Entropy of node3_left -0.0
Entropy of node3_right 0.5

10. 把数据集全部改成数字不用DictVectorizer做向量化

spring :1 , summer : 2, spring : 3 , winter : 4
时间已过 8 点-no : 0
时间已过 8 点-yes :1
breeze : 1 , no wind : 2 , gale :3

laic1.csv 文件

1,0,1,1
4,0,2,1
3,1,1,1
4,0,2,1
2,0,1,1
4,1,1,1
4,0,3,1
4,0,2,1
1,1,2,0
2,1,3,0
2,0,3,0
3,1,1,0

代码

import pandas as pd
from sklearn import tree
data = pd.read_csv('data/laic1.csv', header=None)
# 指定列
data.columns = ['season', 'after 8', 'wind', 'lay bed']
X_train = data[['season', 'after 8', 'wind']]
Y_train = data['lay bed']
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf.fit(X_train, Y_train)
with open("out1.dot", 'w') as f :
    f = tree.export_graphviz(clf, out_file = f,
            feature_names =['season', 'after 8', 'wind'])

结果，可以看到决策树图其实都一样的。

预测结果

result = clf.predict([[1,1,1]])
print('Predict result:', result)

Predict result: [0]

11. 例子 -基于Iris数据集的训练

from sklearn import datasets
from sklearn import tree
import pydotplus
from sklearn.externals.six import StringIO
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()
# 特征
iris_feature = iris.data
# 分类标签
iris_label = iris.target

iris_target_name=iris['target_names']
feature_names = iris['feature_names']
# 划分
X_train, X_test, Y_train, Y_test = train_test_split(iris_feature, iris_label, test_size=0.3, random_state=42)

clf = tree.DecisionTreeClassifier(criterion='entropy')
clf.fit(X_train, Y_train)
s = clf.score(X_test, Y_test)
print(s)

0.9777777777777777

12. 特征的重要性计算

数据集如下

构建决策树，使用gini系数作为切割参数，决策数为cart树。生成的树结构如下

计算个特征的重要性
f1 = 0.497 - 0.3754 + 0.52 + 0.4443 = 4.262
f2 = 0
f3 = 0.45914 - 0.497 - 0.2457 = 1.281
f4 = 0.2457 - 0.4443 + 0.3754 - 0.5*2 = 0.883

这棵树总的不纯减少量为4.262+1.281+0.883=6.426

经过归一化后，各特征的重要性分别如下：
f1_importance = 4.262/6.426=0.663
f2_importance = 0
f3_importance = 1.281/6.426=0.2
f4_importance = 0.883/6.426=0.137

使用代码跑出来的特征重要性如下

from sklearn.tree import DecisionTreeClassifier

train_df = pd.DataFrame(
    [[1, 1, 1, 1, 0],
     [1, 1, 1, 2, 0],
     [2, 1, 1, 1, 1],
     [3, 2, 1, 1, 1],
     [3, 3, 2, 1, 1],
     [3, 3, 2, 2, 0],
     [2, 3, 2, 2, 1],
     [1, 2, 1, 1, 0],
     [1, 3, 2, 1, 1],
     [3, 2, 2, 1, 1],
     [1, 2, 2, 2, 1],
     [2, 2, 1, 2, 1],
     [2, 1, 2, 1, 1],
     [3, 2, 1, 2, 0],
    ], columns=['f1', 'f2', 'f3', 'f4', 'label'])

X, y = train_df[['f1', 'f2', 'f3', 'f4']].values, train_df['label']

clf = DecisionTreeClassifier(criterion='gini')
clf.fit(X,y)
print(clf.feature_importances_)

# 特征重要性
[0.66296296 0.         0.2        0.13703704]

可能遇到问题

如果你这个graphvis 的问题（GraphViz’s executables not found），可以根据下面这个link解决它

https://blog.csdn.net/qq_40304090/article/details/88594813

你可能感兴趣的:(Sklearn)

K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
conda安装包报PackagesNotFoundError错误张遥数据分析 python anaconda
先查找包(base)bash-3.2$anacondasearch-tcondasklearn返回包的相关信息根据对应的包的包名使用如下命令(base)bash-3.2$anacondashowcorjos/sklearn-pandas会直接给出安装命令condainstall--channelhttps://conda.anaconda.org/corjossklearn-pandas
【ML】支持向量机SVM及Python实现（详细） 2401_84009698 程序员支持向量机 python 算法
fromsklearn.preprocessingimportStandardScalerfrommatplotlib.colorsimportListedColormapfromsklearn.svmimportSVC###2.1加载数据样本加载样本数据及其分类标签iris=datasets.load_iris()X=iris.data[:,[2,3]]#按花瓣划分#X=iris.data[:,
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
# Seaborn热图修改画布大小|Seaborn热图修改横纵坐标大小|Seaborn删除注释|Seaborn删除调色板|Seaborn注释添加标注文字|Seaborn删除刻度线 Red Red 生信小技巧 python 开发语言 ux 笔记学习方法
Seaborn热图修改画布大小|Seaborn热图修改横纵坐标大小|Seaborn删除注释|Seaborn删除调色板|Seaborn注释添加标注文字|Seaborn删除刻度线查看图片importmatplotlibaspltplt.show()修改画布大小#导入需要用到的相关包importseabornassnsimportpandasaspdimportmatplotlibfromsklearn
推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
30、基于SelectFromModel和LassoCV的特征选择凌晨思索
30、基于SelectFromModel和LassoCV的特征选择importmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.datasetsimportload_diabetesfromsklearn.feature_selectionimportSelectFromModelfromsklearn.linear_modelimportLasso
01-30 姬汉斯
今天看的是关于文档识别和分类的处理案例。利用多项式贝叶斯公式计算TF-IDF值，以此计算出文档中的词频，文档频率等数据属性，TFIDFVectorizer类用于进行整理，NTLK包进行标注处理，计算文档中各个字符的权重，通过分类器进行分类处理。Sklearn在其中依然有巨大作用，还在熟悉其特性
Python处理大数据，如何提高处理速度 RS& #python python 大数据 pandas
Python处理大数据，如何提高处理速度？一、利用大数据分析工具Dask：https://dask.org/Dask简介：Dask支持Pandas的DataFrame和NumpyArray的数据结构，并且既可在本地计算机上运行，也可以扩展到在集群上运行。Dask可支持pandas、Numpy、Sklearn、XGBoost、XArray、RAPIDS等等。原理及使用方法：https://blog.
自动安装第三方库python,python第三方库自动安装脚本杏仁菌子自动安装第三方库python
#python第三方库自动安装脚本，需要在cmd中运行此脚本#BatchInstall.pyimportoslibs={"numpy","matplotlib","pillow","sklearn","requests",\"jieba","beautifulsoup4","wheel","networkx","sympy",\"pyinstaller","django","flask","wer
XGBoost调参demo（Python）妄念驱动机器学习算法 python 机器学习 XGBoost python
XGBoost我们用的是保险公司的一份数据#各种库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsi
机器学习实战----波士顿房价预测模型永远偷渡不了的非洲人机器学习机器学习 sklearn python
波士顿房价模型预测是一个回归问题，可以采用r2_score方法来作为评价指标。importnumpyasnpimportpandasaspdfromsklearn.metricsimportr2_score#从sklearn的数据库中导入波士顿房产数据fromsklearn.datasetsimportload_bostonfromsklearn.model_selectionimporttrai
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
Python中sklearn实现随机森林RF回归与变量重要性影响程度排序分析疯狂学习GIS
本文详细介绍在Python中，实现随机森林（RandomForest，RF）回归与变量重要性分析、排序的代码编写与分析过程。其中，关于基于MATLAB实现同样过程的代码与实战，大家可以点击查看这篇博客1（https://blog.csdn.net/zhebushibiaoshifu/article/details/114806478）。本文分为两部分，第一部分为代码的分段讲解，第二部分为完
机器学习小组第三周：简单的数据预处理和特征工程 -Helslie 机器学习机器学习
学习目标●无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler●缺失值处理●处理分类型特征：编码与哑变量●处理连续型特征：二值化与分段学习资料首先，参考：《机器学习的敲门砖：归一化与KD树》及《特征工程系列：特征预处理（上）》中相关部分。其次，其他知识点可参考推荐博文：sklearn中的数据预处理和特征工程。20200311数据归一化在量纲不同的情况下，对于部分算法不能反映样本中每
Python图像纹理分割 2401_84585316 程序员 python 开发语言
将下图左右两种不同类型的纹理区域分开，方法输出结果是一幅与该图像等大小的二值图像，左边为0，右边为1，或者相反，灰色边框线在设计的方法中不作考虑，自行去除。2️⃣实现源码importmatplotlib.imageasmpimgimportmatplotlib.pyplotaspltimportnumpyasnpfromcv2importcv2fromsklearn.multiclassimpor
鸢尾花的简单分类器 Oneshot_fea8
importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromscipy.spatial.distanceimporteuclideanimportnumpyasnpDATA_FILE='./data_ai/Iris.csv'SPECIES=['Iris-setosa',#山鸢尾'Iris-versicolor',#变色鸢
ARIMA-temp-humidity TuringSnowy 笔记
importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromstatsmodels.tsa.statespace.sarimaximportSARIMAXfromstatsmodels.graphics.tsaplotsimportplot_acf,plot_pacffromsklearn.metricsimportmean_squ
基于Python的机器学习系列（16）：扩展 - AdaBoost 会飞的Anthony 信息系统机器学习人工智能 python 机器学习开发语言
简介在本篇中，我们将扩展之前的AdaBoost算法实现，深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题，并对AdaBoost的实现进行一些调整，以提高其准确性和可用性。1.修复Alpha计算中的问题在AdaBoost中，如果分类器的错误率e为0，则计算出的权重α将是未定义的。为了解决这个问题，我们可以在计算过程中向分母中添加一个非常小的值，以避免除零错误。2.调整学习率sklearn
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
文本分析之关键词提取（TF-IDF算法） SEVEN-YEARS tf-idf
键词提取是自然语言处理中的一个重要步骤，可以帮助我们理解文本的主要内容。TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用的关键词提取方法，它基于词频和逆文档频率的概念来确定词语的重要性。准备工作首先，我们需要准备一些工具和库，包括Pandas、jieba（结巴分词）、sklearn等。Pandas：用于数据处理。jieba：用于中文分词。skl
使用SVM进行评论情感分析 github_czy 支持向量机机器学习人工智能
importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportSVCfromsklearn.metricsimportaccuracy_score,precision_score
sklearn 评估模型常用函数小Z资本 sklearn 人工智能 python
`sklearn.metrics`是scikit-learn库中的一个模块，它提供了许多用于评估预测模型性能的指标和工具。这些指标和工具可以帮助你了解模型在训练集和测试集上的表现，以及模型是否能够很好地泛化到未见过的数据。以下是一些`sklearn.metrics`中常用的函数和指标：1.**分类指标**：-`accuracy_score`:计算分类准确率。-`classification_rep
[sklearn] 分类指标解惑 PigeonGuan sklearn 分类人工智能
首先查看metrics官方文档：https://scikit-learn.org/stable/api/sklearn.metrics.htmlweighted/macro/micro/samples的区别weighted和samplesweighted这个参数在roc_auc_score函数中，其实就是考虑了trueinstance的情况（也就是需要传一个sample_weights的参数？）。
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
PyTorch深度学习模型训练流程的python实现：回归 moyao_miao python 人工智能深度学习 pytorch 回归
回归的流程与分类基本一致，只需要把评估指标改动一下就行。回归输出的是损失曲线、R^2曲线、训练集预测值与真实值折线图、测试集预测值散点图与真实值折线图。输出效果如下：注意：预测值与真实值图像处理为按真实值排序，图中呈现的升序与数据集趋势无关。代码如下：fromfunctoolsimportpartialimportnumpyasnpimportpandasaspdfromsklearn.prepr
在sklearn中如何实现参数网格搜索（GridSearch）？ 2401_85761762 sklearn 人工智能 python
深入理解Scikit-learn中的参数网格搜索（GridSearch）引言在机器学习模型的开发过程中，超参数的调整对于模型性能有着至关重要的影响。Scikit-learn（简称sklearn），作为Python中一个广泛使用的机器学习库，提供了强大的工具来帮助我们进行超参数的优化。其中，GridSearchCV是实现参数网格搜索的利器。本文将详细介绍GridSearchCV的使用方法，并探讨其在
sklearn preprocessing perfectmanman 代码
sklearnpreprocessing代码代码来自Anaconda软件里sklearn模块init.py"""The:mod:`sklearn.preprocessing`moduleincludesscaling,centering,normalization,binarizationandimputationmethods."""from.dataimportBinarizerfrom.da
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

after 8=no	after 8=yes	season=autumn	season=spring	season=summer	season=winter	wind=breeze	wind=gale	wind=no wind	lay bed
1.	0.	0.	1.	0.	0.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
0.	1.	1.	0.	0.	0.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
1.	0.	0.	0.	1.	0.	1.	0.	0.	1
0.	1.	0.	0.	0.	1.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	1.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
0.	1.	0.	1.	0.	0.	0.	0.	1.	0
0.	1.	0.	0.	1.	0.	0.	1.	0.	0
1.	0.	0.	0.	1.	0.	0.	1.	0.	0
0.	1.	1.	0.	0.	0.	1.	0.	0.	0

after 8=no	after 8=yes	season=autumn	season=spring	season=summer	season=winter	wind=breeze	wind=gale	wind=no wind	lay bed
1.	0.	0.	1.	0.	0.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
0.	1.	1.	0.	0.	0.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
1.	0.	0.	0.	1.	0.	1.	0.	0.	1
0.	1.	0.	0.	0.	1.	1.	0.	0.	1
1.	0.	0.	0.	0.	1.	0.	1.	0.	1
1.	0.	0.	0.	0.	1.	0.	0.	1.	1
0.	1.	0.	1.	0.	0.	0.	0.	1.	0
0.	1.	0.	0.	1.	0.	0.	1.	0.	0
1.	0.	0.	0.	1.	0.	0.	1.	0.	0
0.	1.	1.	0.	0.	0.	1.	0.	0.	0

[机器学习-Sklearn]决策树学习与总结 （ID3, C4.5, C5.0, CART）

决策树学习与总结 （ID3, C4.5, C5.0, CART）