


  • 浅层神经网络
  • 深层神经网络


  • 线性回归
  • 逻辑回归
  • 决策树
  • SVM
  • 朴素贝叶斯
  • K最近邻算法
  • K均值算法
  • 随机森林算法
  • 降维算法
  • Gradient Boost 和 Adaboost 算法


  1. 深度学习课程
  2. sklearn库常用算法调用
  3. 用鸢尾花数据集完成


  • 5.22 ~ 5.28


  • CSDN 技术博客 1 篇
  • github代码


- 数据集(Dataset)

from sklearn.datasets import load_iris #鸢尾花数据集
from sklearn.datasets import load-boston #波士顿房价数据集
from sklearn.datasets import load_digits #手写数字数据集
from sklearn.datasets import load_wine #葡萄酒数据集
from sklearn.datasets import load-barest-cancer #乳腺癌数据集
from sklearn.datasets import load-diabetes #糖尿病数据集

- 模型选择(Model Selection)

from sklearn.model_selection import train_test_split #数据集划分
from sklearn.model_selection import cross_validate #交叉验证
from sklearn.model_selection import KFold # K折交叉验证

- 预处理 (Preprocessing)

from sklearn.preprocessing import OneHotEncoder #one-hot编码
from sklearn.preprocessing import LabelEncoder #标签编码
from sklearn.preprocessing import MinMaxScaler #归一化
from sklearn.preprocessing import StandardScaler #标准化
from sklearn.preprocessing import normalize #正则化  (norm=L1/L2)

- 分类(Classification)

from sklearn.linear_model import SGDClassifier #SGD分类器
from sklearn import svm #SVM分类器
from sklearn.tree import DecisionTreeClassifier #决策树分类
from sklearn.naive_bayes import GaussianNB #朴素贝叶斯(高斯分布型)
from sklearn.naive_bayes import BernoulliNB # 朴素贝叶斯(伯努利型)
from sklearn.neighbors import KNeighborsClassifier #KNN分类器

- 回归 (Regression)

from sklearn.neighbors import KNeighborsRegressor #KNN回归
from sklearn.tree import DecisionTreeRegressor #决策树回归
from sklearn.svm import LinearSVR #SVM回归
from sklearn.linear_model import LinearRegression #线性回归

- 聚类(Clustering)

from sklearn.cluster import KMeans #K均值聚类
from sklearn.cluster import AgglomerativeClustering #层次聚类

- 降维(Dimensionality Reduction)

from sklearn.decomposition import PCA #PCA降维
from sklearn.manifold import LocallyLinearEmbedding #LLE降维
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis #LDA降维

1. 线性回归


#Import Library
#Import other necessary libraries like pandas, numpy...
from sklearn import linear_model

#Load Train and Test datasets
#Identify feature and response variable(s) and values must be numeric and numpy arrays

# Create linear regression object
linear = linear_model.LinearRegression()

# Train the model using the training sets and check score
linear.fit(x_train, y_train)
linear.score(x_train, y_train)

#Equation coefficient and Intercept
print('Coefficient: n', linear.coef_)
print('Intercept: n', linear.intercept_)

#Predict Output
predicted= linear.predict(x_test)

2. 逻辑回归

  通过将数据拟合进一个逻辑函数来预估一个事件出现的概率。因为它预估的是概率,所以它的输出值大小在 0 和 1 之间。

#Import Library
from sklearn.linear_model import LogisticRegression
#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create logistic regression object
model = LogisticRegression()

# Train the model using the training sets and check score
model.fit(X, y)
model.score(X, y)

#Equation coefficient and Intercept
print('Coefficient: n', model.coef_)
print('Intercept: n', model.intercept_)

#Predict Output
predicted= model.predict(x_test)

3. 决策树


#Import Library
#Import other necessary libraries like pandas, numpy...
from sklearn import tree

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create tree object 
model = tree.DecisionTreeClassifier(criterion='gini') 
# for classification, here you can change the algorithm as gini or entropy (information gain) by default it is gini  

# model = tree.DecisionTreeRegressor() for regression
# Train the model using the training sets and check score
model.fit(X, y)
model.score(X, y)

#Predict Output
predicted= model.predict(x_test)

4. 支持向量机


#Import Library
from sklearn import svm

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create SVM classification object 
model = svm.svc() 
# there is various option associated with it, this is simple for classification. You can refer link, for mo# re detail.
# Train the model using the training sets and check score
model.fit(X, y)
model.score(X, y)

#Predict Output
predicted= model.predict(x_test)

5. 朴素贝叶斯

  朴素贝叶斯分类器假设一个分类的特性与该分类的其它特性不相关,贝叶斯定理提供了一种从P( c ),P(x)和P(x|c) 计算后验概率 P(c|x) 的方法。

#Import Library
from sklearn.naive_bayes import GaussianNB

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create SVM classification object model = GaussianNB() # there is other distribution for multinomial classes like Bernoulli Naive Bayes, Refer link
# Train the model using the training sets and check score
model.fit(X, y)

#Predict Output
predicted= model.predict(x_test)

6. KNN

  该算法可用于分类问题和回归问题,多用于分类问题。根据一个距离函数,新案例会被分配到它的 K 个近邻中最普遍的类别中去。

#Import Library
from sklearn.neighbors import KNeighborsClassifier

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create KNeighbors classifier object model 
# default value for n_neighbors is 5

# Train the model using the training sets and check score
model.fit(X, y)

#Predict Output
predicted= model.predict(x_test)

7. K-means

K – 均值算法怎样形成集群:

  1. K – 均值算法给每个集群选择k个点。这些点称作为质心。
  2. 每一个数据点与距离最近的质心形成一个集群,也就是 k 个集群。
  3. 根据现有的类别成员,找出每个类别的质心。现在我们有了新质心。
  4. 当我们有新质心后,重复步骤 2 和步骤 3。找到距离每个数据点最近的质心,并与新的k集群联系起来。重复这个过程,直到数据都收敛了,也就是当质心不再改变。
#Import Library
from sklearn.cluster import KMeans

#Assumed you have, X (attributes) for training data set and x_test(attributes) of test_dataset
# Create KNeighbors classifier object model 
k_means = KMeans(n_clusters=3, random_state=0)

# Train the model using the training sets and check score

#Predict Output
predicted= model.predict(x_test)

8. 随机森林


#Import Library
from sklearn.ensemble import RandomForestClassifier

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create Random Forest object
model= RandomForestClassifier()

# Train the model using the training sets and check score
model.fit(X, y)

#Predict Output
predicted= model.predict(x_test)

9. 降维算法


#Import Library
from sklearn import decomposition

#Assumed you have training and test data set as train and test
# Create PCA obeject pca= decomposition.PCA(n_components=k) #default value of k =min(n_sample, n_features)
# For Factor analysis
#fa= decomposition.FactorAnalysis()
# Reduced the dimension of training dataset using PCA
train_reduced = pca.fit_transform(train)

#Reduced the dimension of test dataset
test_reduced = pca.transform(test)

#For more detail on this, please refer  this link.

10. Gradient Boosting 和 AdaBoost 算法

  当我们要处理很多数据来做一个有高预测能力的预测时,我们会用到 GBM 和 AdaBoost 这两种 boosting 算法。boosting 算法是一种集成学习算法。它结合了建立在多个基础估计值基础上的预测结果,来增进单个估计值的可靠程度。

#Import Library
from sklearn.ensemble import GradientBoostingClassifier

#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create Gradient Boosting Classifier object
model= GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)

# Train the model using the training sets and check score
model.fit(X, y)

#Predict Output
predicted= model.predict(x_test)




以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性: 萼片长度, 萼片宽度,花瓣长度, 花瓣宽度.

三类分别为:setosa, versicolor, virginica

print iris.target          #输出真实标签
print len(iris.target)      #150个样本 每个样本4个特征
print iris.data.shape  
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
(150L, 4L)







  1. 导入Iris鸢尾花数据集
  2. 提取花瓣数据
  3. 拆分数据
  4. 训练模型
  5. 可视化训练结果






  • 1,初始化k个聚类中心。
  • 2,计算出每个对象跟这k个中心的距离(相似度计算,这个下面会提到),假如x这个对象跟y这个中心的距离最小(相似度最大),那么x属于y这个中心。这一步就可以得到初步的k个聚类 。
  • 3,在第二步得到的每个聚类分别计算出新的聚类中心,和旧的中心比对,假如不相同,则继续第2步,直到新旧两个中心相同,说明聚类不可变,已经成功 。


  • 第一步,将文件中的数据读入到dataset列表中,通过len(dataset[0])来获取数据维数,在测试样例中是四维
  • 第二步,产生聚类的初始位置。首先扫描数据,获取每一维数据分量中的最大值和最小值,然后在这个区间上随机产生一个值,循环k次(k为所分的类别),这样就产生了聚类初始中心(k个)
  • 第三步,按照最短距离(欧式距离)原则将所有样本分配到k个聚类中心中的某一个,这步操作的结果是产生列表assigments,可以通过Python中的zip函数整合成字典。注意到原始聚类中心可能不在样本中,因此可能出现分配的结果出现某一个聚类中心点集合为空,此时需要结束,提示“随机数产生错误,需要重新运行”,以产生合适的初始中心。
  • 第四步,计算各个聚类中心的新向量,更新距离,即每一类中每一维均值向量。然后再进行分配,比较前后两个聚类中心向量是否相等,若不相等则进行循环,否则终止循环,进入下一步。





  这周主要是playing code,书没有往后看多少,主要还是这几个分类算法的实际应用,本来以为调库模板已经总结在这里了,一动手才发现有些算法实现还有些问题,主要是数据处理和sklearn调库应用起来还不太熟练,github上先push了几个实现的算法,以后再把十大算法的坑填上。
