python 机器学习&restful服务化

  • 最近一直想用机器学习做一个模型,然后暴露服务,提供restful接口给外部调用,这样也能体现出模型的价值,所以今天稍微捣鼓了一下,之前用过java的weka去做过,但是发现那个好麻烦,而且对很多算法的支持不够强大,社区好像也没太多人,所以今天转向python去做,python机器学习社区还是比较火的,我用的环境是anaconda,在jupyter下面去写的这个例子,前面主要是模型的训练,
    后面用了python的flask框架做了一个restful接口,这样直接可以通过接口访问,直接通过json进行交互,屏蔽了平台的差异性。
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))
# Load libraries
import pandas
from pandas.tools.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from flask import Flask

def study():
# Load dataset
    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
    names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
    dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
    array = dataset.values
    X = array[:,0:4]
    Y = array[:,4]
    validation_size = 0.20
    seed = 7
    X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)
# Test options and evaluation metric
    seed = 7
    scoring = 'accuracy'
# Spot Check Algorithms
    models = []
    models.append(('LR', LogisticRegression()))
    models.append(('LDA', LinearDiscriminantAnalysis()))
    models.append(('KNN', KNeighborsClassifier()))
    models.append(('CART', DecisionTreeClassifier()))
    models.append(('NB', GaussianNB()))
    models.append(('SVM', SVC()))
# evaluate each model in turn
    results = []
    names = []
    result = ""
    for name, model in models:
        
        kfold = model_selection.KFold(n_splits=10, random_state=seed)
        cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
        results.append(cv_results)
        names.append(name)
        msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
        result = result + msg
    return result

app = Flask(__name__)

@app.route('/')
def index():
    return study();

if __name__ == '__main__':
    app.run(host='127.0.0.1',port=3366)
  • 运行结果

Python: 3.6.1 |Anaconda 4.4.0 (x86_64)| (default, May 11 2017, 13:04:09) 
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)]
scipy: 0.19.0
numpy: 1.12.1
matplotlib: 2.0.2
pandas: 0.20.1
sklearn: 0.18.1

* Running on [http://127.0.0.1:3366/](http://127.0.0.1:3366/) (Press CTRL+C to quit)

  • 调用rest api结果
image.png
  • 感想与计划
    之前一直觉得做一件事很难,的确,做好一件事并不简单,但是要是去入门什么的确实十分的简单,上面贴的那么多代码,我并不知道每个函数的具体用法,但是我可以推测出每个函数大致是在干什么,每个参数大致代表什么意思,因为我对机器学习这个流程很了解,所以我知道每一部分的代码在做什么,
    url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
    names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
    dataset = pandas.read_csv(url, names=names)
# Split-out validation dataset
    array = dataset.values
    X = array[:,0:4]
    Y = array[:,4]

比如说上面的url表示的就是数据集的链接,names就是表示数据集的feature和target,很显然前面四个是这个数据集的feature也就是有4个特征,最后的class应该就是target(结论)。
那么接下来就是通过pandas去读取这个文件,当然pandas我也不知道是什么,但是我能猜出来大致是要通过这个url下载这个文件,而且保存为csv格式,然后给这些记录加上名称。
然后array就是取这个数据集里的值,X就是取0=

接下来计划把机器学习的库和工具熟练使用,这个过程就是去多做多看的过程,下面推荐一下官方文档,scikit-learn 这个就是python机器学习算法的库的教程,里面有大量的实例
http://scikit-learn.org/stable/documentation.html
既然用python去处理数据,有时候去找数据之前的关系的时候画图是最直观的http://matplotlib.org/api/pyplot_api.html ,patplotlib是python广泛使用的画图库,很好用。
https://docs.scipy.org/doc/numpy-dev/user/quickstart.html ,python处理数据的时候,涉及到一些科学计算,numpy是python比较有名的科学计算库,主要是数组的一些处理。
http://pandas.pydata.org/pandas-docs/stable/10min.html# pandas也是对于数据的处理,依赖于numpy,但是提供了一些更高级的操作,提供了丰富的时间序列功能,数据对齐, groupby, merge and join 方法,在金融领域得到广泛的应用

你可能感兴趣的:(python 机器学习&restful服务化)