scikit-learn使用joblib持久化模型过程中的问题详解

在机器学习过程中,一般用来训练模型的过程比较长,所以我们一般会将训练的模型进行保存(持久化),然后进行评估,预测等等,这样便可以节省大量的时间。


在模型持久化过程中,我们使用scikit-learn提供的joblib.dump()方法,但是在使用过程中会出现很多问题。如我们使用如下语句:

[python]  view plain copy
  1. from sklearn.externals import joblib
  2. joblib.dump(clf,'../../data/model/randomforest.pkl')  
此语句将产生大量的模型文件,如下图所示

scikit-learn使用joblib持久化模型过程中的问题详解_第1张图片

然后,我们再使用joblib.load(‘../../data/model/randomforest.pkl’)进行加载.当设置参数时,模型持久化便会压缩成一个文件。

以下是我们进行模型持久化的正确操作语句:

[python]  view plain copy
  1. from sklearn.externals import joblib

  2. #save model  
  3. joblib.dump(clf,'../../data/model/randomforest.pkl',compress=3)  
  4. #load model to clf  
  5. clf = joblib.load('../../data/model/randomforest.pkl')  
  1. from sklearn.externals import joblib

    #load model to clf   clf = joblib.load('../../data/model/randomforest.pkl')
     
      

你可能感兴趣的:(大数据算法实现,Python语言)