盘点常见的机器学习模型序列化结构

工业上,我们为了达到模型服务有较强的迁移性的目的,常用的方法是将训练好的模型结构以序列化的方式持久化到磁盘,最终实现随时部署随时服务的目标。
目前工业生产中有几种常用的序列化结构,下面将分别介绍他们的特点以及优缺点。

Pickle

这种序列化结构在sk learn中有较多的使用

Joblib

同pickle,早期在sk learn中也有较多的使用,在后续版本中该部分功能从sk learn中独立出来。因为这种序列化的模型结构与版本依赖关系较大,所以在实际部署中有较多的诟病。

Pmml

作为一种通用语言的序列化结构,最新的算法框架和数据计算引擎中都有很好的应用。

Java/C++ model

该类型的模型结构与自身语言相关性较强(虽然后面有人又做了多语言拓展,如lightGBM)这类语言的模型结构在速度和性能上确实有较大优势。由于使用群体不大,很多数据科学的方法和模型算法都不能得到很好的使用、交流成本较高,,目前只有特殊的场景会考虑使用这种模型序列化的结构。
如:
c++语言下有LightGBM、MLPack、Caffa/CUDA
java语言下有Aerosolve、H2O、Weka

你可能感兴趣的:(机器学习,机器学习)