小孩不要怕

机器学习建模分析

机器学习

机器学习分类

1、递进关系：深度学习–>机器学习–>人工智能
2、机器学习任务分为两大类方法：
（1）有监督的学习：利用经验数据，学习表示事物的模型，关注利用模型预测未来（数据）。包括：

分类问题：对事物所属类型的判别，类别数量是已知的。如：鸟类型识别、垃圾邮件分类
回归问题：预测的目标是连续变量。它是基于连续性数据的预测建模分析技术。如：根据父母身高预测孩子身高；根据近几年的房价预测未来房价

（2）无监督的学习：倾向于对事物本身特性的分分析，常见问题包括：

数据降维：对描述事物的特征数量进行压缩的方法。如：从已有的100个特征中选取部分特征表示音乐信号
聚类问题：将事物划分为不同的类别（事先不知道类别的数量，现分的），根据事物之间的相似性，将相似的事物归为一簇。如：电子商务网站将具有类似背景与购买习惯的用户自动归为一类。

在解决实际领域问题时，通常要先根据应用背景和分析目标，将应用转换成以上某类问题及组合问题，然后选用合适的学习算法训练模型

额外知识—深度学习

为机器学习的分支领域之一，是基于机器学习的神经网络模型发展起来的技术。用到了GPU(图形处理)。
GPU提供了强大的计算能力

机器学习方法库—Scikit-learn

优点：

该库是基于Numpy、Scipy、Pandas、Matplotlib的开发

该库封装了大量经典以及最新的机器学习模型

基本功能包括：分类、回归、聚类、数据降维、模型选择和数据项预处理

缺点：

本身不支持深度学习与GPU加速

注意：

Scikit-learn的model_selection类提供了数据集切分的方法。
metrics类实现了Scikit-learn包中各类机器学习算法的性能评估。

有监督的学习—回归问题分析

1、定义：预测的目标是连续变量，它是基于连续性数据的预测建模分析技术
2、常用方法：线性回归、逻辑回归、多项式回归
3、预测分析过程：
（1）训练：通过样本数据，学习目标变量和自变量之间的因果关系，建立数学模型
（2）目标：根据自变量预测相应的目标变量。

回归模型学习

由于回归问题是属于有监督的学习，所以我们要提前给定经验数据（也就是数据集），来获得相应的模型参数{w1,w2,…,wd,b}。其中：
wi：回归系数
b：截距，其作用是为了让模型在数据集上预测的误差最小。

求解线性回归模型

目标：使得线性模型预测所有的训练数据时误差平方和最小—即均方根误差最小
方法：

最小二乘法------矩阵解析计算
梯度下降法------逐步逼近，更便于计算机实现

![在这里插入图片描述](https://img-blog.csdnimg.cn/0603de6299c344b08fea69831a263e1a.png

回归分析代码实现

Scikit-learn库下的linear_model类下的LinearRegression类提供了回归分析模型初始化的方法；Scikit-learn库下的model_selection类和Metrics类分别实现了数据切分和各类机器学习算法的性能评估的方法。

导入相应的库（实际运用中可能不止这几个库，具体问题具体分析）：
from sklearn.linear_model import LinearRegression
from sklearn import model_selection
from sklearn import metrics

模型初始化：linreg= LinearRegression()
模型学习：linreg.fit(X, y)
模型预测：y_pred= linreg.predict(X)
回归模型的截距：linreg.intercept_
回归模型的回归系数：linreg.coef_
数据切分为训练集和测试集：X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size, random_state, shuffle, stratify)
均方根误差(RMSE)计算：err= metrics.mean_squared_error(y, y_pred)
决定系数计算：decision_score= linreg.score(X, y)

参数详解如下：

参数	解释
X[m,n]	样本特征二维数组，m样本数，n特征项个数，，数值型
y[n]	分类标签的一维数组，必须为整数
test_size	测试集比例，若为整数则是样本数量
random_state	随机数种子。1：每次得到相同样本的划分，否则每次划分不一样。
shuffle	bool类型，是否在拆分之前对数据进行打乱，默认为True
stratify	输入类数组对象，如果不是None，则数据以分层方式拆分，使用此作为类标签，默认为None

回归模型保存—模型文件以.pkl结尾

利用joblib库

import joblib
joblib.dump(filename, value)------回归模型保存
joblib.load(filename)------回归模型加载

filename------模型保存的文件位置及所设定的文件名
value------回归模型学习时你所设置的模型名

import joblib
joblib.dump(filename= 'E:\qwe.pkl', value= linreg)
'''
等同于joblib.dump(linreg, 'E:\qwe.pkl')
'''
load_linreg= joblib.load('E:\qwe.pkl')#从保存的文件中读取模型

回归模型实现步骤

第一步：从文件中读取数据并对数据进行处理，按照题目要求划分训练集和测试集。
-需要导入的库：import pandas as pd 和 from sklearn import model_selection
第二步：回归模型初始化
-需要导入的库：from sklearn.linear_model import LinearRegression
第三步：模型评价（即性能评估）
-需要导入的库：from sklearn import metrics
第四步：回归模型保存（看题目是否要求）
-需要导入的库：import joblib

注意：不要硬搬步骤，实际问题灵活运用。

例题5-1

从案例5-1的advertising.csv中读取历史数据，建立广告投入和销量关系的模型，并根据下个月的预计投入预测销量。

import joblib#模型保存及引用
import pandas as pd#读取数据
from sklearn import metrics#性能评估
from sklearn.linear_model import LineaRegression#模型初始化
import matplotlib.pyplot as plt#可视化分析
#第一步：读取数据并对数据进行处理
data= pd.read_scv('E:\data/advertising.csv',index_col= 0)
#以散点图的形式进行不同渠道的广告投资费用与产品销量的关系
data.plot.scatter(x= 'TV', y= 'Slaes')
data.plot.scatter(x= 'Weibo', y= 'Slaes')
data.plot.scatter(x= 'WeChat', y= 'Slaes')
#将每组数据的广告投资费用作为一个小列表保存在大列表X中
X= data.iloc[:,:-1].values.astype(float)
#将每组数据对应的产品销量保存在列表y中
y= data.iloc[:,-1].values.astype(float)
#第二步：全部数据的回归模型初始化
linreg= LinearRegression()
linreg.fit(X, y)
#显示全部数据的回归模型的截距和回归系数
print(linreg.intercept_, linreg.coef_)
#数据切分
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.35, random_state= 1)
#训练集数据的回归模型初始化
linregTr= LinearRegression()
linregTr.fit(X_train, y_train)
#显示训练集的回归模型的截图和回归系数
print(linregTr.intercept_, linregTr.coef_)
#训练集和测试集的模型预测
y_train_pred= linregTr.predict(X_train)
y_test_pred= linregTr.predict(X_test)
#训练集和测试集的均方根误差(RMSE)
train_err= metrics.mean_squared_error(y_train, y_train_pred)
test_err= metrics.mean_squared_error(y_test, y_test_pred)
#测试集的决定系数
test_predict_score= linregTr.score(X_test, y_test)
print(test_predict_score)
#第三步：将其保存到E:\qwe.pkl
joblib.dump(linreg, 'E:\qwe.pkl')
load_linreg= joblib.load('E:\qwe.pkl')
#给定一份数据进行预测
new_X= [[130.1, 87.8, 69.2]]
print(load_linreg.predict(new_X))

运行结果显示为：

例题5-2

使用UCI数据集的波士顿房价数据集（Boston House PriceDataset），这是一个经典的回归数据集，我们会分析数据集中的各个特征对于房价的影响，最后会对房价进行预测。数据存在boston_housing_data.csv中，包含506行、14列，其中最后一列为房价，有部分值为空。

import pandas as pd#读取数据
from sklearn import metrics#模型评价（性能评估）
from sklearn import model_selection#数据切分
import pyplotlib.pyplot as plt#可视化分析
from sklearn.linear_model import LinearRegression#回归模型初始化
#第一步：读取数据并对数据进行处理
data= pd.read_csv('E:\data/boston_housing_data.csv')
#数据打乱
data= data.sample(frac= 1)
'''
注意：此处不用print来显示前五行的原因：display会将数据以表格的形式呈现出来，看的更清楚更直观。
'''
display(data.head())
#由于.csv的数据中有部分值为空，所以要进行预处理
display(data.shape)
display(data.isnull().any())#按列查看是否有空值
data.dropna(inplace= True)#滤除含有缺失值的行
display(data.shape)#显示处理后的数据的行列数

运行结果显示为：

#可视化分析
pd.plotting.scatter_matrix(data, diagonal= 'kde', c= 'k')
plt.show()

运行结果显示为：

#数据划分
train_num= int(data.shape[0]*0.8)#划分训练集为前80%的数据
X_train= data.iloc[:train_num, :-1].values.astype(float)
y_train= data.iloc[:train_num, -1].values.astype(float)
X_test= data.iloc[train_num:, :-1].values.astype(float)
y_test= data.iloc[train_num:, -1].values.astype(float)

#第二步：训练集回归模型初始化
linregTr= LinearRegression()
linregTr.fit(X_train, y_train)
display(linregTr.intercept_, linreg.coef_)#显示训练集回归模型的截距和回归系数
'''
注意：此处不用print的原因：若用print，则回归系数会以列表的形式呈现出来并且会紧跟在截距的数字之后，
并不会自动换行。而display会自动换行，并且会使回归系数以一维数组的形式呈现出来。
可自行在jupyter notebook上实验一下看看
'''

运行结果显示为：

#第三步：模型评价（性能评估）
#得到训练集和测试集的模型预测
y_train_pred= linregTr.predict(X_train)
y_test_pred= linregTr.predict(X_test)
#得到训练集和测试集的均方根误差（RMSE）
train_err= metrics.mean_squared_error(y_train, y_train_pred)
test_err= metrics.mean_squared_error(y_test, y_test_pred)
print("训练集和测试集的均方根误差分别为:{:.2f},{:.2f}".format(train_err, test_err))
#得到测试集的决定系数
test_predict_score= linregTr.score(y_test, y_test_pred)
print("测试集上的决定系数为：{:.2f}".format(test_predict_score))

运行结果显示为：

#第四步：预测结果图形比较
fig= plt.figure(figsize= (8,5))
plt.plot(y_test, label= '真实值')
plt.plot(y_test_pred, label= '预测值')
plt.legend()
plt.show()

运行结果显示为：

思考与练习1

第一题：

import pandas as pd
from sklearn import metrics
from sklearn import model_selection
from sklearn.linear_model import LinearRegression

"""
第一步：读取数据并对数据进行处理
"""
data= pd.read_csv('E:\data/advertising.csv', index_col= 0)
X= data.iloc[:,:-1].values.astype(float)
y= data.iloc[:,-1].values.astype(float)

"""
第二步：根据题目要求给X、y、X_test、X_train、y_train、y_test赋值
"""
#划分为训练集和测试集并得到训练集的回归模型linregTr
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.35, random_state= 1)
"""
第三步：相关回归模型初始化
"""
#得到全部数据的回归模型linreg
linreg= LinearRegression()
linreg.fit(X, y)
print(linreg.intercept_, linreg.coef_)
#得到训练集数据的回归模型linreg
linregTr= LinearRegression()
linregTr.fit(X_train, y_train)
print(linregTr.intercept_,linregTr.coef_)
"""
第四步：模型评价
"""
#得到测试集在linreg和linregTr上的预测值
y_test_pred1= linreg.predict(X_test)
y_test_pred2= linregTr.predict(X_test)

#测试集在linreg上的RMSE和决定系数:
err= metrics.mean_squared_error(y_test, y_test_pred1)
predict_score= linreg.score(X_test, y_test)
print("回归模型linreg在测试集上的RMSE和决定系数分别为：{:.3f},{:.3f}".format(err, predict_score))

#测试集在linregTr上的RMSE和决定系数:
y_test_err= metrics.mean_squared_error(y_test, y_test_pred2)
y_test_predict_score= linregTr.score(X_test, y_test)
print("训练集模型linregTr在测试集上的RMSE和决定系数分别为：{:.3f},{:.3f}".format(y_test_err, y_test_predict_score))
"""
由分析知：因为使用全部数据所得到的回归模型在测试集上的RMSE比训练集的回归模型linregTr在测试集上的RMSE小，且决定系数要比linregTr决定系数
大，所以回归模型inreg在测试集上的性能更好。
"""

运行结果显示为：

第二题：

import pandas as pd
from sklearn import metrics
from sklearn import model_selection
from sklearn.linear_model import LinearRegression

data= pd.read_csv('E:\data/advertising.csv', index_col= 0)
X= data.iloc[:,:-1].values.astype(float)
y= data.iloc[:,-1].values.astype(float)
#得到全部数据的回归模型linreg即200条样本
linreg= LinearRegression()
linreg.fit(X, y)
print("200条样本的回归模型linreg:\n{}{}".format(linreg.intercept_, linreg.coef_))

#得到100条样本的回归模型linregHalf
X_Half= data.iloc[:100,:-1].values.astype(float)
y_Half= data.iloc[:100,-1].values.astype(float)
linregHalf= LinearRegression()
linregHalf.fit(X_Half, y_Half)
print("100条样本的回归模型linregHalf:\n{}{}".format(linregHalf.intercept_, linregHalf.coef_))

#划分训练集和测试集
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.35, random_state= 1)

#测试集在linreg和linregHalf上的预测值
y_test_pred1= linreg.predict(X_test)
y_test_pred2= linregHalf.predict(X_test)

#测试集在linreg和linregHalf上的RMSE和决定系数
y_test_err1= metrics.mean_squared_error(y_test, y_test_pred1)
y_test_predict_score1= linreg.score(X_test, y_test)
print("测试集在linreg上的RMSE和决定系数分别为：{:.3f},{:.3f}".format(y_test_err1, y_test_predict_score1))

y_test_err2= metrics.mean_squared_error(y_test, y_test_pred2)
y_test_predict_score2= linregHalf.score(X_test, y_test)
print("测试集在linregHalf上的RMSE和决定系数分别为：{:.3f},{:.3f}".format(y_test_err2, y_test_predict_score2))

"""
由分析可知：前100条样本的回归模型linregHalf在测试集上的RMSE比200条样本的回归模型linregPre200的
RMSE要大，且其决定系数比linregPre200的决定系数要小，所以200条样本学习的模型预测性能更好。
"""

运行结果显示为：

有监督的学习—分类问题分析

1、分类分析是最常见的监督学习问题，又可细分为：

二分类问题：如手机垃圾短信的识别
多分类问题：停车场车牌数字识别

2、分类学习会采用不同的算法得到不同的分类模型。

常见算法如下：

决策树(Decision Tree)

集成学习(Ensemble learning)—先做了解

支持向量机(SVM,Support Vector Machine)

KNN(K-近邻算法)

神经网络(Neural Network)

贝叶斯分类等等

分类模型性能评估

用到的性能分析函数如下：

准确率(Accuracy)计算：clf.score(X, y)
模型预测：predicted_y= clf.predict(X)
混淆矩阵计算：metrics.confusion_matrix(y, predicted_y)
分类性能报告：metrics.classification_report(y, predicted_y)
显示特征重要程度：clf.feature_importances_

分类学习方式一------决策树

决策树原理

决策树构造算法：ID3、C4.5和CART等

决策树分类代码实现及决策树绘制

Scikit-learn库下的tree下的DecisionTreeClassifier类实现了模型的初始化,该类支持二分类和多分类的问题。

导入相应的库（实际运用中可能不止这几个库，具体问题具体分析）：
from sklearn import tree或from sklearn.tree import DecisionTreeClassifier------决策树初始化
import pandas as pd------读取数据
from sklearn import metrics------性能评估
from graphviz import Source------将决策树保存到文件中
from IPython.display import Image—决策树显示

模型初始化：clf= tree.DecisionTreeClassifier()或clf= DecisionTreeClassifier()
模型学习：clf.fit(X, y)
准确率(Accuracy)计算：clf.score(X, y)
模型预测：predicted_y= clf.predict(X)
混淆矩阵计算：metrics.confusion_matrix(y, predicted_y)
分类性能报告：metrics.classification_report(y, predicted_y)
显示特征重要程度：clf.feature_importances_
决策树绘制：sklearn.tree.export_graphviz(decision_tree, out_file= None, feature_names= None, class_names= None)

参数详解如下：

参数	解释
X[m,n]	样本特征二维数组，m样本数，n特征项个数，，数值型
y[n]	分类标签的一维数组，必须为整数
decision_tree	决策树分类器，即输出的树对象
out_file	对象或字符串，即输出的文件名，默认=无
feature_names	str列表，即输出的字符串列表，表示特征名称，默认=无------每个函数的名称。如果 None 将使用通用名称(“feature_0”、“feature_1”、…)
class_names	str 或 bool 的列表，即输入字符串列表，目标类的名称，默认 = 无------每个目标类别的名称按数字升序排列。仅与分类相关

决策树模型保存—模型文件以.model保存

利用joblib库

import joblib
joblib.dump(filename, value)------决策树模型保存
joblib.load(filename)------决策树模型加载

filename------模型保存的文件位置及所设定的文件名
value------回归模型学习时你所设置的模型名

import joblib
joblib.dump(filename= 'E:\qwe.model', value= clf)
'''
等同于joblib.dump(clf, 'E:\qwe.model')
'''
load_linreg= joblib.load('E:\qwe.model')#从保存的文件中读取模型

决策树模型实现步骤

第一步：导入数据并对数据进行处理，根据题目要求进行数据划分（即划分特征值和标签）
-需要导入的库：import pandas as pd和from sklearn import model_selection
第二步：决策树模型初始化并进行决策树图的生成
-需要导入的库：from sklearn import tree、from graphviz import Source、from IPython.display import Image
第三步：评估分类器性能
-需要导入的库：from sklearn import metrics
第四步：分类模型保存（根据题目要求看是否有该步骤）

例题5-3

银行贷款偿还数据集共包括15个样本，保存在文本文件bankdebt.csv中。每个样本包含3个特征项，1个分类标签，二分类

#第一步：读取数据,进行数据预处理（字符类型替换为数字）
data= pd.read_csv(r'E:\data\bankdebt.csv', index_col= 0, header= None)

data.loc[data[1]=='Yes', 1]= 1
data.loc[data[1]=='No', 1]= 0
data.loc[data[4]=='Yes', 4]= 1
data.loc[data[4]=='No', 4]= 0
data.loc[data[2]=='Single', 2]= 1
data.loc[data[2]=='Married', 2]=2
data.loc[data[2]=='Divorced', 2]=3
print(data.loc[1:5,:])

运行结果显示为：

#第二步：设置X、y，训练分类器
X= data.loc[:,1:3].values.astype(float)
y= data.loc[:,4].values.astype(float)
#导入决策树，训练分类器
from sklearn import tree
clf= tree.DecisionTreeClassifier()#模型初始化
clf.fit(X,y)#模型学习
clf.score(X,y)#Accuracy计算,即计算分类器的准确率
	>>> 1.0

#第三步：评估分类器性能
predicted_y= clf.predict(X)#模型预测
from sklearn import metrics
print(metrics.classification_report(y, predicted_y))#分类性能报告
print('Confusion matrix:')
print(metrics.confusion_matrix(y, predicted_y))#混淆矩阵计算

运行结果显示为：

#第四步：生成并显示决策树图
#第一列定义为是否有房，第二列是否结婚，第三列收入情况
featureName= ['House', 'Marital', 'Income']
#是否有能力偿还贷款
className= ['Cheat', 'Not Cheat']
#生成决策树图
#注意：若无graphviz库，则pip install graphviz即可
from graphviz import Source
graph= Source(tree.export_graphviz(clf,out_file= None, feature_names= featureName,class_names=className))
#保存到文件中并显示
"""
format:生成的图片格式
将决策树图保存为.png文件并赋给名为png_bytes的文件
"""
png_bytes= graph.pipe(format='png')

#打开dectree.png文件（若无该文件，则会在当前目录下创建该文件）并用f来引用
#wb：以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。
#此为文件的读写的知识代码块
with open('dectree.png','wb') as f:
    f.write(png_bytes)#write():写入数据。将该图片写入文件dectree.png中并保存。

#显示该决策树图片
from IPython.display import Image
Image(png_bytes)#若想在notebook中显示图像则为：display(Image(png_bytes))

运行结果显示为：

完整实现代码为：

import pandas as pd
from sklearn import tree#导入决策树并进行操作
from graphviz import Source#生成决策树图
from IPython.display import Image#显示决策树图
"""
第一步：导入数据，并对数据进行处理
需要导入的库：
import pandas as pd
"""
data= pd.read_csv(r'E:\data\bankdebt.csv', header= None, index_col= 0)
data.loc[data.loc[:,1]=='Yes',1]= 1
data.loc[data.loc[:,1]=='No', 1]= 0
data.loc[data.loc[:,4]=='Yes', 4]= 1
data.loc[data.loc[:,4]=='No', 4]= 0
data.loc[data.loc[:,2]=='Single', 2]= 1
data.loc[data.loc[:,2]=='Married', 2]= 2
data.loc[data.loc[:,2]=='Divorced', 2]= 3
"""
第二步：根据题目要求给X、y、X_test、X_train、y_train、y_test赋值，即划分特征值和标签
"""
X= data.loc[:,:3].values.astype(float)
y=data.loc[:,4].values.astype(float)
"""
第三步：决策数模型初始化（分类模型初始化）并进行决策树图的生成
需要的库
from sklearn import tree
from graphviz import Source
from IPython.display import Image
"""
clf= tree.DecisionTreeClassifier()#模型初始化
clf.fit(X,y)#模型学习
clf.score(X, y)#计算分类器的准确率（Accuracy）
#生成并显示决策树图
featureName= ['House', 'Marital', 'Income']
className= ['Cheat', 'Not Cheat']
#生成图
from graphviz import Source
graph= Source(tree.export_graphviz(clf, out_file= None, feature_names= featureName, class_names= className))
png_bytes= graph.pipe(format= 'png')
with open('E:\决策树图.png', 'wb') as f:
    f.write(png_bytes)
from IPython.display import Image
display(Image(png_bytes))
"""
第四步：评估分类器性能
需要导入的库：
from sklearn import metrics
"""
predicted_y= clf.predict(X)#模型预测
from sklearn import metrics
print("分类性能报告:\n{}".format(metrics.classification_report(y,predicted_y)))
print("混淆矩阵计算：\n{}".format(metrics.confusion_matrix(y, predicted_y)))

运行结果显示为：

例题5-4 水果

#第一步：读取数据并进行处理
import pandas as pd
data= pd.read_csv('E:\data/fruit_data_with_colors.csv', index_col= 0)
print(data.shape)#查看数据的行列数
data.head()#查看数据的前五行

#对数据进行预处理，字符类型替换为数字
print(data.groupby('fruit_name').size())#查看不同种类的水果数量
fruit_type= data.iloc[:,0:2].drop_duplicates()#将完全相同的两行或多行删减为一行，作用：获取水果的类型
print(fruit_type)
#将水果类型转换为字典类型
fruit_type= dict([(str(fruiy_type.iloc[i,0]), fruit_type.iloc[i, 1]) for i in range(fruit_type.shape[0])])
print(fruit_type)

运行结果显示为：

#绘图观察数据
#绘制箱形图
import matplotlib.pyplot as plt
data.iloc[:,3:].plot(kind= 'box', subplots= True, layout=(2,2), sharex= False, sharey= False, figsize=(9,9))
#绘制散点图
pd.plotting.scatter_matrix(data.iloc[:,3:], diagonal= 'hist', c=data.iloc[:,0], figsize=(9,9))
plt.show()
'''
subplots------是否单独显示每个columns，默认为False。设置为True时，会将每个columns的数据单独在一个子图中显示
layout------当“subplots”为True时，用于布置图片显示布局，图片按几行、几列显示，参数为元组。
'''

运行结果显示为：

#第二步：划分特征值和标签
X= data.iloc[:,3:]#取'mass','width','height','color_score'作为特征
y= data['fruit_label']#y为label标签
#数据划分
from sklearn import model_selection
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.3, random_state= 1)

#第三步：决策树模型初始化并进行决策树图的生成
from sklearn import tree
clf= tree.DecisionTreeClassifier()
clf.fit(X_train, t_train)
print("决策树模型在训练集上的准确率为：{:.2f}".format(clf.score(X_train, y_train)))
print("决策树模型在测试集上的准确率为：{:.2f}".format(clf.score(X_test, y_test)))
	>>> 
	决策树模型在训练集上的准确率为：1.00
	决策树模型在测试集上的准确率为：0.94

#生成并显示决策树图
featureName= ['mass', 'width', 'height', 'color_score']
className= ['apple', 'lemon', 'mandarin', 'orange']
#生成决策树
from graphviz import Source
graph= Source(tree.export_graphviz(clf, out
_file= None, feature_names= featureName, class_names= className, filled= True, rounded= True))
png_bytes= graph.pipe(format= 'png')
with open('fruit.png', 'wb') as f:
	f.write(png_bytes)
from IPython.display import Image
Image(png_bytes)

运行结果显示为：

#第四步：评估分类器性能
from sklearn import metrics
#分类性能报告
print(metrics.classification_report(y_test,clf.predict(X_test)))
#显示特征重要程度
for i in zip(featureName, clf.feature_importances_):
	print(i)

运行结果显示为：

#第五步：决策树模型保存
import joblib
joblib.dump(filename= 'clf2.model', value= clf)
#等同于joblib.dump(clf, 'clf2.model')
test_clf= joblib.load('clf2.model')
test_data= [[192, 8.4, 7.3, 0.55]]
print("模型对[192,8.4,7.3,0.55]预测类型为：",fruit_type[str(test_clf2.predict(test_data)[0])])

运行结果显示为：

分类学习方式二------集成学习

Sklearn没有集成学习，需要在线安装pip install xgboost
过拟合：即泛化能力低，指为了得到一致假设而使假设变得过度严格，即过于紧密或精确地匹配待定数据集以至于无法良好地预测未来地观察结果。换种说法就是：其在训练集上的表现很好，但在训练集之外的数据上表现的不好，可详见https://www.jianshu.com/p/3bcbc0a3cccc。

集成方法1—随机森林(Bagging)

原理：随机森林是通过随机的方式建立一个森林，每棵树都是从训练集中抽取的部分样本，且基于部分随机选择的特征子集构建。
在预测未知数据时，多个决策树投票决定最终结果。

集成方法2—梯度提升机（Boosting）

原理：利用梯度提升的方法，通过迭代不断地训练新模型，并且新模型会专门针对之前的模型弱点进行改进，以此来提升模型的性能。

分类学习方式三------SVM(支持向量机)

SVM是基于数学优化方法的分类学习算法

原理：将数据看做多维空间的点，求解一个最优的超平面，将两种不同类别的点分割开来

SVM分类

SVM最基本的应用：分类
分类：求解一个最优的分类面，并将数据集分割为两个子集。
注意：数据集在低维空间中无法使用超平面划分，所以SVM需要借助核函数将低维数据映射到高维空间，以此来寻找超平面分割。

核函数有多种，目的是为了适应不同特性的数据集，它是影响SVM分类性能的关键因素。
常用核函数为：线性核、多项式核、高斯核和sigmoid核等。

SVM分类代码实现

Scikit-learn库中的SVM中的SupportVectorClassification类------只支持二分类。

导入相应的库（实际运用中可能不止这几个库，具体问题具体分析）：
from sklearn import svm------SVM初始化
import pandas as pd------读取数据
from sklearn import metrics------性能评估

SVM模型初始化：clf= svm.SVC(kernel= , gamma, C)
模型学习：clf.fit(X, y)
准确率(Accuracy)计算：clf.score(X, y)
模型预测：predicted_y= clf.predict(X)
混淆矩阵计算：metrics.confusion_matrix(y, predicted_y)
分类性能报告：metrics.classification_report(y, predicted_y)
显示特征重要程度：clf.feature_importances_

参数	解释
kernel	使用的核函数类型。linear：线性核函数；poly：多项式核函数；rbf：高斯核函数； sigmoid：sigmoid核函数；系统默认为rbf高斯核函数
gamma	poly、rbf、或sigmoid的核系数，一般取值在(0,1)之间，默认为’auto’
C	误差项的惩罚参数，一般取10n，如：1、0.1、0.01…

注意：参数gamma主要是对低维样本进行高维映射，gamma值越大则映射的维度越高，训练的结果越好。但是越容易引起过拟合，即泛化能力低。

SVM离散型数据处理

norminal（离散型）数据: 反映对象属于哪一类，各类别之间没有先后之分。是数据的第一个等级，其结构最弱。只需要按照名称来分类比如性别（男/女），肤色（白/黄/黑），国籍（中国/英国/法国/其他）等。

若某列索引下的数据为离散型数据，则可将其转换为one-hot(独热)矩阵（即dummies矩阵）
相关代码如下：
dumm_column缩写= pd.get_dummies(data, prefix= None, prefix_sep=’_’)

参数	解释
data	传入的data为需要进行one-hot编码的数据
prefix	用于附加到DataFrame上的列名的字符串
prefix_sep= ‘_’	默认为‘_’，还可以为’/'。作用：将字符串与原列名用_连起来，让编程人员能够清楚的知道附加的字符串代表什么。

SVM数据标准化方法的代码实现

用到了sklearn-learn库中的preprocessing类

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。
在SVM中，使用所有跟距离计算相关的的kernel都需要对数据进行标准化

SVM样本距离计算，数值型数据需要进行标准化处理，然后再次进行划分训练集和测试集进行检验预测性能

from sklearn import preprocessing
X_scale= preprocessing.scale(X)
数据标准化之后，数据的均值为0，方差为1。

SVM参数调优的代码实现

Scikit-learn的算法参数调优类：GridSearchCV

代码如下：
from sklearn.model_selection import GridSearchCV
参数调优初始化：gc= GridSearchCV(estimator, param_grid, scoring= ,cv ,...)
模型学习：gc.fit(X, y)
准确率：gc.score(X, y)
优化过程期间观察到的最好的评分：gc.best_score_
已取得最佳效果的参数的组合(调优后最好的参数)是：gc.best_params_
效果最好的分类器(调优后最好的模型)是：gc.best_estimator_

参数详解如下：

参数	解释
estimator	指定选择使用的分类器，为一个字符串。如：estimator= svc
param_grid	指定需要最优化的参数的取值，为字典或者列表
cv	交叉验证参数，为一个数字；默认为None，使用三折交叉验证
X[M,n]	自变量二维数组，m为样本数，n为特征项个数，数值型
y[n]	分类标签的一维数组，必须为整数

SVM模型保存—模型文件以.model保存

利用joblib库

import joblib
joblib.dump(filename, value)------SVM模型保存
joblib.load(filename)------SVM模型加载

filename------模型保存的文件位置及所设定的文件名
value------回归模型学习时你所设置的模型名

import joblib
joblib.dump(filename= 'E:\svc.model', value= clf)
'''
等同于joblib.dump(clf, 'E:\svc.model')
'''
load_clf= joblib.load('E:\svc.model')#从保存的文件中读取模型

SVM模型实现步骤

第一步：导入数据并对数据进行处理
-需要导入的库：import pandas as pd
第二步：全部数据的svm模型初始化并测试性能
-需要导入的库：from sklearn import svm, metrics
第三步：划分训练集和测试集，并初始化训练集的svm模型，在测试集上检验预测性能
-需要导入的库：from sklearn import model_selection、from sklearn import svm, metrics
第四步：SVM样本距离计算(数值型数据需要进行标准化处理)，然后再次划分训练集和测试集，并初始化训练集的svm模型，在测试集上检验预测性能。
-需要导入的库：from sklearn import svm、from sklearn import model_selection、from sklearn import metrics、from sklearn import preprocessing
第五步~第n步：进一步调整svm模型参数，提高正确率
第五步~第n步可变为：svm模型参数调优，调整出正确率最高的svm模型参数，然后在测试集上验证预测性能以此来提高正确率。
-需要导入的库：from sklearn.model_selection import GridSearchCV

例题5-5

使用Scikit-learn建立svm模型，预测银行客户是否接受推荐的投资计划并评估分类器性能。

#第一步：导入数据并进行数据处理
data= pd.read_csv('E:\data/bankpep.csv', index_col= 'id')
data.head()

运行结果显示为：

data.loc[data['sex']== 'MALE', 'sex']= 0
data.loc[data['sex']== 'FEMALE', 'sex']= 1
feature=  ['married', 'car', 'save_act', 'current_act', 'mortgage', 'pep']
for i in feature:
    data.loc[data[i]== 'YES', i]= 1
    data.loc[data[i]== 'NO', i]= 0
data.head()

运行结果显示为：

#将norminal数据转换为dummies矩阵
dumm_reg= pd.get_dummies(data['region'], prefix= 'reg', prefix_sep='_')
dumm_child= pd.get_dummies(data['children'], prefix= 'child', prefix_sep='_')
#删除dataframe中原来的两列后再 join dummies
df1 = data.drop(['region','children'], axis = 1)
df2 = df1.join([dumm_reg,dumm_child], how='outer')
df2.head()
X= df2.drop('pep', axis= 1).values.astype(float)
y= df2['pep'].values.astype(int)
df2.head()

运行结果显示为：

#第二步：训练全部数据的SVM模型并测试性能
from sklearn import svm
svc= svm.SVC(kernel= 'rbf', gamma= 0.6, C=1.0)
svc.fit(X, y)
print(svc.score(X, y))
from sklearn import metrics
predicted_y= svc.predict(X)
print(metrics.confusion_matrix(y, predicted_y))
print(metrics.classification_report(y, predicted_y))

运行结果显示为：

#第三步：划分测试集和训练集，在测试集上检验预测性能
from sklearn import model_selection
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.3, random_state= 1)
svc= svm.SVC(kernel= 'rbf', gamma= 0.7, C= 1.0)
svc.fit(X_train, y_train)
print(svc.score(X_train, y_train))
print(svc.score(X_test, y_test))

运行结果显示为：

#第四步：SVM样本距离计算，数值型数据需要进行标准化处理，然后再次进行划分训练集和测试集进行检验预测性能
"""
SVM样本距离计算，数值型数据需要标准化(scale)处理
#数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。
#在SVM中，使用所有跟距离计算相关的的kernel都需要对数据进行标准化
"""
from sklearn import preprocessing
X_scale= preprocessing.scale(X)
X_train, X_test, y_train, y_test= model_selection.train_test_split(X_scale, y, test_size= 0.3, random_state= 1)
svc=svm.SVC(kernel= 'rbf', gamma= 0.7, C=1.0)
svc.fit(X_train, y_train)
print(svc.score(X_test, y_test))
	>>> 0.964444444444

'''
第五步~第n步：进一步调整SVM模型参数，提高正确率;此处直接进行参数调优
'''
from sklearn.model_selection import GridSearchCV
import pandas as pd
import numpy as np

#初始化参数
from sklearn import svm
svc= svm.SVC()
param= {'kernel':['poly','rbf'],"gamma":[0.4,0.5,0.6,0.7],'C':[0.001,0.1,0.0001]}
#进行网格搜索
gc= GridSearchCV(svc, param_grid= param, cv= 6)
#gc训练
gc.fit(X_train, y_train)
print("评价测试集的准确率", gc.score(X_test, y_test))
print("在交叉验证中最好的结果", gc.best_score_ )
print("调优后最好参数是：", gc.best_params_ )
print("调优后最好的模型是", gc.best_estimator_ )

运行结果显示为：

分类学习方式四------KNN(K-近邻算法)

基本原理：待分类样本的类别，由距离最近的k个邻居投票决定

基本目标：给定一个样本数据集合，样本集中每一个数据都存在标签。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，根据距离公式求出两者之间的距离，然后根据距离大小进行排序，提取样本集中特征最相似数据（最近邻）的分类标签。

K-近邻算法三要素

第一要素—K值：K值的选择对分类结果有着非常大的影响，不同的k值得到不同的分类结果。
若k值较小，用较小邻域中的训练实例进行预测，预测结果会对近邻的实例非常敏感，“学习”的估计误差会增大。
若k值较大，用较大邻域中的训练实例进行预测。与待分类实例较远的训练实例也
会对预测起作用，“学习”的估计误差会减少、近似误差会增大。

第二要素—度量距离：
特征空间中两个实例的距离是两个实例相似程度的反映，不同的距离度量所确定的近邻点是不同的。
常见距离方法：闵可夫斯基距离（minkowski）、汉明距离等。
距离度量时涉及数值计算和不同数值的影响，因此计算前需要进行数值化预处理、归一化预处理。

第三要素—分类决策规则：
分类决策通常采用多数表决，多数表决规则等价于经验风险最小化。也可以基于距离的远近进行加权投票，距离越近的样本权重越大。

KNN分类代码实现1

Scikit-learnKNN算法：KNeighborsClassifier类支持二分类和多分类问题。

需要导入的库：
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier

KNN模型初始化：clf= neighbors.KNeighborsClassifier(n_neighbors= , weights= ,algorithm= ,leaf_size= , metric= , p= , ...)
模型学习：clf.fit(X, y)
Accuracy计算：clf.score(X, y)
模型预测：predicted_y= clf.predict(X)
混淆矩阵计算：metrics.confusion_matrix(y, predicted_y)
分类性能报告：metrics.classification_report(y, predicted_y)

参数详解如下：

参数	解释
n_neighbors	指定K值，必须为一个整数，缺省值为5
weights	指定投票权重类型，邻居投票权可以为相同或不同，一个字符串或者可调用对象。取值类型有：‘uniform’，本节点的所有邻居接点的投票权重都相同；’distance’，本节点的所有邻居节点的投票权中与距离成反比，即越近的节点，其投票权重越大；[callable]，一个可调用对象，传入距离的数组，返回同样形状的权重数组。缺省值为’uniform’。
algorithm	指定计算最近邻的算法，一个字符串。取值类型有：’ball_tree’：使用BallTree算法；‘kd_tree’：使用KDTree算法；’brute’：使用暴力搜索法；’auto’:自动决定最合适的算法。缺省值为’auto’
leaf_size	指定BallTree或者KDTree叶节点规模，影响树的构建和查询速度，为一个整数。缺省值为30。
metric	指定距离度量，为一个字符串。缺省值为’minkowski’。
p	指定在’minkowski’度量上的指数，为一个整数值。值为1时，对应曼哈顿距离；值为2时对应欧式距离,缺省值为2。
X[m,n]	样本特征二维数组，m 样本数，n 特征项个数，数值型
y[n]	分类标签的一维数组，必须为整数

KNN分类代码实现2—数据归一化

Scikit-learn的数据归一化处理类：preprocessing

需要导入的库：
from sklearn.preprocesssing import MinMaxScaler

类初始化：X_scale= preprocessing.MinMaxScaler(feature_range= , copy)

归一化参数生成：fit(X)------求x进行归一化处理所需的统计信息，如每个特征的最小值和最大值

数据归一化处理：transform(X)------根据X的统计信息、feature_range缩放X的特征，需在fit（X）或fit_transform(X)之后执行，否则会报错

参数生成并处理：fit_transform(X)------包含两个步骤，先执行 fit 方法提取统计信息, 再执行transform用提取的数据特征、feature_range缩放X 的特征。

KNN分类代码实现3—参数调优

Scikit-learn的算法参数调优类：GridSearchCV

代码如下：
from sklearn.model_selection import GridSearchCV
参数调优初始化：gc= GridSearchCV(estimator, param_grid, scoring= ,cv ,...)
模型学习：gc.fit(X, y)
准确率：gc.score(X, y)
优化过程期间观察到的最好的评分：gc.best_score_
已取得最佳效果的参数的组合(调优后最好的参数)是：gc.best_params_
效果最好的分类器(调优后最好的模型)是：gc.best_estimator_

参数详解如下：

参数	解释
estimator	指定选择使用的分类器，为一个字符串。如：estimator= svc
param_grid	指定需要最优化的参数的取值，为字典或者列表
cv	交叉验证参数，为一个数字；默认为None，使用三折交叉验证
X[M,n]	自变量二维数组，m为样本数，n为特征项个数，数值型
y[n]	分类标签的一维数组，必须为整数

例题5-7—海伦交友数据集

使用Scikit-learn的KNN算法对海伦交友数据集的聚类分析。

import pandas as pd
data= pd.read_csv('E:\data/datingTestSet1.csv')
display(data.head())
display(data.shape)

运行结果显示为：

import matplotlib.pyplot as plt
pd.plotting.scatter_matrix(data, diagonal= 'hist')
plt.show()

运行结果显示为：

#第二步：数据预处理，标签数值化,提取特征集、标签集并划分测试集、训练集，对特征数据(训练集和测试集)进行归一化处理

#数据预处理，字符类型标签替换为数字
data_type= dict({'0':'didntLike','1':'smallDoses','2':'largeDoses'})
data.loc[data['type']== 'didntLike', 'type']= 0
data.loc[data['type']== 'smallDoses', 'type']= 1
data.loc[data['type']== 'largeDoses', 'type']= 2
display(data.head())
#提取特征集、标签集
X= data.iloc[:,:-1].values.astype(float)
y= data.iloc[:,-1].values.astype(int)
#划分测试集、训练集
from sklearn import model_selection
#stratify的作用是：保持测试集与整个数据集里result的数据分类比例一致
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.25, random_state= 0, stratify= y)

#训练数据和测试数据归一化
from sklearn.preprocessing import MinMaxScaler
mms= MinMaxScaler()
X_train= mms.fit_transform(X_train)#对训练数据进行归一化处理
X_test= mms.transform(X_test)#对测试数据进行归一化处理

运行结果显示为：

#第三步：训练算法（1）参数调优，获取最优参数
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

#初始化参数
knn= KNeighborsClassifier()#初始化k-近邻模型
#初始化k值列表
Kl= np.linspace(1, int(y_train.size/2), num= int(y_train.size/2), endpoint= True, dtype= 'int')
#k值得上限与gc中的cv关联，避免交叉验证时训练集样本数量小于k值
param= {"n_neighbors": Kl,"weights":['uniform','distance']}
#进行网格搜索
gc= GridSearchCV(knn, param_grid=param, cv=6)
#gc训练
gc.fit(X_train, y_train)
print("评价测试集的准确率", gc.score(X_test, y_test) )
print("在交叉验证中最好的结果", gc.best_score_ )
print("调优后最好参数是：", gc.best_params_ )
print("调优后最好的模型是", gc.best_estimator_ )

运行结果显示为：

#第四步：模型初始化及训练
#k-近邻模型初始化
knc= KNeighborsClassifier(n_neighbors= 21, weights= 'distance')
knc.fit(X_train, y_train)

#第五步：评价模型，在测试集上计算分类转却屡、混淆矩阵、分类性能报告
predicted_y= knc.predict(X_test)
from sklearn import metrics
print("测试集上的分类准确率为：",knc.score(X_test, y_test))
print("混淆矩阵：\n",metrics.confusion_matrix(y_test, predicted_y))
print("分类性能报告：\n",metrics.classification_report(y_test, predicted_y, target_names= ['didntLike', 'smallDoses', 'largeDoses']))
#target_names= ['didntLike', 'smallDoses', 'largeDoses']此为分类标签

运行结果显示为：

#第六步：保存训练模型，并加载模型进行预测
import joblib
joblib.dump(knc, 'knc2.model')
knc2= joblib.load('knc2.model')
test_data=[[40920,8.326976,0.953952]]
#对预测数据作归一化处理
test_data= mms.transform(test_data)
print(data_type[str(knc2.predict(test_data)[0])])
	>>> largeDoses

分类学习方式五------神经网络(Neural Network)MLP

训练神经网络

神经网络代码实现

Scikit-learn的神经网络实现：MLPClassifier类

需要导入的库：
from sklearn.neural_network import MLPClassifier

神经网络模型初始化：mlp= MLPClassifier(solver, activation,hidden_layer_sizes,alpha,max_iter,random_state,...)
模型学习：mlp.fit(X, y)
准确率(Accuracy)计算：mlp.score(X, y)
模型预测：predicted_y= mlp.predict(X)
混淆矩阵计算：metrics.confusion_matrix(y, predicted_y)
分类性能报告：metrics.classification_report(y, predicted_y)
显示特征重要程度：mlp.feature_importances_

例题5-8

使用神经网络对鸢尾花数据集进行分类分析。

import pandas as pd
data= pd.read_csv('E:\data/iris.data', header= None)
data.columns= ['sepal length','sepal width', 'petal length', 'petal width', 'class']
print(data['class'].value_counts())#每类花的样本数
data.groupby('class').mean()#每类花各特征的均值

运行结果显示为：

#数据预处理,类别使用整数表示
data.loc[ data['class'] == 'Iris-setosa', 'class' ] = 0
data.loc[ data['class'] == 'Iris-versicolor', 'class' ] = 1
data.loc[ data['class'] == 'Iris-virginica', 'class' ] = 2
X = data.iloc[:,0:4].values.astype(float)
y = data.iloc[:,4].values.astype(int)

#创建神经网络分类器，训练网格结点连接权重以及偏差
from sklearn.neural_network import MLPClassifier
mlp= MLPClassifier(solver= 'lbfgs', alpha=1e-5, hidden_layer_sizes= (5,5), random_state= 1)
mlp.fit(X, y)
mlp.score(X, y)
	>>> 0.9866666666666667

#分类性能评估
from sklearn import metrics
predicted_y= mlp.predict(X)
print("Classification report for %s" % mlp)
#分类性能报告
print (metrics.classification_report(y, predicted_y))
#混淆矩阵计算
print( "Confusion matrix:\n", metrics.confusion_matrix(y, predicted_y))

运行结果显示为：

思考与练习2

import pandas as pd
from sklearn import model_selection

#导入数据集，对数据进行处理并把数据集分为训练集和测试集
data= pd.read_csv('E:\data/bankpep.csv', index_col= 'id')
display(data.head())

data.loc[data['sex']== 'MALE', 'sex']= 0
data.loc[data['sex']== 'FEMALE', 'sex']= 1
data.loc[data['region']=='SUBURBAN', 'region']= 0
data.loc[data['region']=='RURAL', 'region']= 1
data.loc[data['region']=='TOWN', 'region']= 2
data.loc[data['region']=='INNER_CITY', 'region']= 3
feature=  ['married', 'car', 'save_act', 'current_act', 'mortgage', 'pep']
for i in feature:
    data.loc[data[i]== 'YES', i]= 1
    data.loc[data[i]== 'NO', i]= 0
display(data.head())
#将数据划分为训练集和测试集
X= data.drop(['pep'], axis= 1).values.astype(float)
y= data['pep'].values.astype(int)
X_train, X_test, y_train, y_test= model_selection.train_test_split(X, y, test_size= 0.3, random_state= 1)

运行结果显示为：

#1.训练决策树分类器，查看决策数据分类器的性能
from sklearn import tree
clf= tree.DecisionTreeClassifier()
clf.fit(X, y)
print("准确度为：\n",clf.score(X, y))
from sklearn import metrics
predicted_y= clf.predict(X)
print("混淆矩阵为：\n",metrics.confusion_matrix(y, predicted_y))
print("分类性能报告为：\n",metrics.classification_report(y, predicted_y))

运行结果显示为：

#2.将例5-5的分类器保存在文件中，然后重新加载预测给出的新数据。
import joblib
joblib.dump(svc, "E:\svc.mode")
svc2= joblib.load("E:\svc.mode")
new_data=[[63, 0, 35689, 2, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0]]
predicted_y2= svc2.predict(new_data)
predicted_y2[0]
	>>> 0

#3.训练决策树分类器，观察在测试集上的分类效果，与SVM分类器的效果进行比较。
#1.训练决策树分类器，查看决策数据分类器的性能
from sklearn import tree
clf= tree.DecisionTreeClassifier()
clf.fit(X_train, y_train)
print("准确度为：\n",clf.score(X_test, y_test))
from sklearn import metrics
predicted_y_test= clf.predict(X_test)
print("混淆矩阵为：\n",metrics.confusion_matrix(y_test, predicted_y_test))
print("分类性能报告为：\n",metrics.classification_report(y_test, predicted_y_test))

"""
由分析可知，训练决策树分类器在测试集上准确率为87%,在SVM分类器上的准确率为69%,
所以训练决策树分类器在测试集上的分类效果比SVM分类器的效果要好。
"""

运行结果显示为：

#4.训练SVM分类器时，使用‘rbf’核函数，调整参数gamma的值；使用不同的核函数，分别观察在测试集上的分类效果
#gamma=0.3
X_train, X_test, y_train, y_test= model_selection.train_test_split(X_scale, y, test_size= 0.3, random_state= 1)
svc=svm.SVC(kernel= 'rbf', gamma= 0.3, C=1.0)
svc.fit(X_train, y_train)
print(svc.score(X_test, y_test))
	>>> 0.7888888888888889

#gamma=0.4
X_train, X_test, y_train, y_test= model_selection.train_test_split(X_scale, y, test_size= 0.3, random_state= 1)
svc=svm.SVC(kernel= 'rbf', gamma= 0.4, C=1.0)
svc.fit(X_train, y_train)
print(svc.score(X_test, y_test))
	>>> 0.7944444444444444

#gamma=0.9
X_train, X_test, y_train, y_test= model_selection.train_test_split(X_scale, y, test_size= 0.3, random_state= 1)
svc=svm.SVC(kernel= 'rbf', gamma= 0.9, C=1.0)
svc.fit(X_train, y_train)
print(svc.score(X_test, y_test))
	>>> 0.6666666666666666

无监督的学习—聚类分析

定义：根据数据内在性质及规律将其划分为若干个不相交的子集，每个子集成为一个簇(Cluster)，即将数据划分到不同簇的过程，目标是使同一个簇中的样本的相似度较高，而不同簇间的样本相似度较低。
注意：自动获得的簇需要人为对应“类别”概念，不同算法会得到不同的结果。

聚类可以作为分类等其他任务的预处理过程。

聚类分析方法

划分法(Paritition)：K-means
层次法(Hierarchical)
基于密度聚类(Density based)
基于图/网格聚类(Graph/Grid based)
基于模型聚类(Model based)

聚类过程

1.根据样本与簇中心的距离相似度，将数据集中的每个样本划分到与其最相似的一个簇
2.计算每个簇的中心
3.不断重复这一过程直到每个簇中心点不再变化

Step1:随机选择3个中心点
Step2:计算每个样本所属的簇
Step3:根据每个簇的样本重新计算中心点
经过多次迭代之后，中心点不再变化

聚类方法性能评估

有分类标签的数据集：

使用兰德指数(ARI)（Adjusted Rand Index）
计算真实标签与聚类标签两种分布相似性之间的相似性，取值范围为[0,1]
1:表示最好的结果，即聚类类别和真实类别的分布完全一致
from sklearn import metrics
metrics.adjusted_rand_score(y, kmeans.labels_)

没有分类标签的数据集：

使用轮廓系数(Silhouette Coefficient)来度量聚类的质量
轮廓系数同时考虑聚类结果的簇内凝聚度和簇间分离度
取值范围：[-1,1],轮廓系数越大，聚类效果越好
from sklearn import metrics
metrics.silhouette_score(X, kmeans.labels_,metric= ‘euclidean’)

聚类方式一—K-means算法

K-means算法是划分法中的经典算法
基本目标：将数据聚为若干簇，簇内的点足够近，簇间的点足够远
方法：首先假定数据集划分为的簇数为k，从数据集中任意选择k个样本作为各簇的中心。
核心：相似度的计算
由于其数值型数据为欧氏距离，所以要先进行标准化处理

K-means算法代码实现

Scikit-learn的聚类：Cluster类

需要导入的库： import pandas as pd
from sklearn.cluster import KMeans

K-Means模型初始化：kmeans= KMeans(n_clusters)
模型学习：kmeans.fit(X)

参数	解释
n_clusters	簇的个数
X	特征二维数组，数值型

K-means算法初始k值确定

肘部原理：
尝试多个k值聚类，比较轮廓系数，然后选择合适的k作为最终模型

步骤：
1.设置多个簇的个数，eg:clusters= [2, 3, 4, 5, 6, 7, 8]
2.设置一个记录轮廓系数的空列表，eg:sc_scores= []
3.不同的簇的个数对应的K-means模型初始化并计算相对应的轮廓系数加到记录轮廓系数的空列表中。
4.可通过折线图查看轮廓系数与簇数的关系（看现实要求，有则画折线图，无则可以省略4）

代码如下：

clusters= [2, 3, 4, 5, 6, 7, 8]#设置不同的簇个数
sc_scores= []#用来记录不同个数的簇所对应的轮廓系数
#计算各个簇模型的轮廓系数
for i in clusters:
    kmeans= KMeans(n_clusters= i).fit(X)
    sc= metrics.silhouette_score(X, kmeans.labels_, metric= 'euclidean')
    sc_scores.append(sc)
#绘制曲线图反应轮廓系数与簇数的关系
import matplotlib.pyplot as plt
plt.plot(clusters, sc_scores, marker= 'o')
plt.xlabel('Number of Clusters')
plt.ylabel('Sihouette Coefiicient Score')
plt.show()

例题5-6

使用Scikit-learn的K-means算法对鸢尾花数据集的聚类分析。

import pandas as pd
#花萼sepal  花瓣petal
columns= ['sepal length', 'sepal width', 'petal length', 'petal width', 'class']
data= pd.read_csv('E:\data/iris.data', header= None, names= columns)
data.head()

运行结果显示为：

#通过绘制特征散点图矩阵，观察每两种特征的区分度
import matplotlib.pyplot as plt
pd.plotting.scatter_matrix(data, diagonal= 'hist')
plt.show()

运行结果显示为：

#定义簇的个数为3，取前4列特征值，训练聚类模型
X= data.iloc[:,0:4].values.astype(float)
from sklearn.cluster import KMeans
kmeans= KMeans(n_clusters= 3)
kmeans.fit(X)

#使用样本簇编号作为类型标签，绘制特征对的散点图矩阵用不同颜色表示不同的簇
pd.plotting.scatter_matrix(data, c=[kmeans.labels_], diagonal= 'hist')
plt.show()
#Kmeans为X中的每个训练数据点分配一个簇标签。我们可以在kmeans.labels_中找到这些标签

运行结果显示为：

#聚类方法性能评估
#使用兰德指数(ARI)对有分类标签的数据集进行性能评估
from sklearn import metrics
data.loc[data['class']=='Iris-setosa', 'class']= 0
data.loc[ data['class'] == 'Iris-versicolor', 'class' ] = 1
data.loc[ data['class'] == 'Iris-virginica', 'class' ] = 2
y= data['class'].values.astype(int)
print(metrics.adjusted_rand_score(y, kmeans.labels_))

#比较数据类别标签与聚类结果ARI,但在比较前数据需要做个比较
data['kmeans_labels_']= kmeans.labels_#加上一列簇标签
import numpy as np
tt= data[['class', 'kmeans_labels_']]
#pd.crosstab(obj[col1], obj[col2])
#统计col1的col2分布或先根据col1分组，然后对col2进行计数
pd.crosstab(tt['class'], tt['kmeans_labels_'])

运行结果显示为：

#初始k值确定
clusters= [2, 3, 4, 5, 6, 7, 8]#设置不同的簇个数
sc_scores= []#用来记录不同个数的簇所对应的轮廓系数
#计算各个簇模型的轮廓系数
for i in clusters:
    kmeans= KMeans(n_clusters= i).fit(X)
    sc= metrics.silhouette_score(X, kmeans.labels_, metric= 'euclidean')
    sc_scores.append(sc)
#绘制曲线图反应轮廓系数与簇数的关系
import matplotlib.pyplot as plt
plt.plot(clusters, sc_scores, marker= 'o')
plt.xlabel('Number of Clusters')
plt.ylabel('Sihouette Coefiicient Score')
plt.show()
#折线图可知：当k=2时，聚类的轮廓系数最大

运行结果显示为：

思考与练习3

你可能感兴趣的:(数据科学,python,人工智能)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分