机器学习大规模学习平台架构

对于已有的开源的机器学习框架,很多都是单机环境下部署的,但是对于大公司层面的机器学习的应用需求,简单的单机,分布式spark机器学习平台很难满足公司的大数据应用需求,因为不仅要求具有正确性,还要求高效性和稳定性。

这里面存在很多的问题,比如模型如何在多台机器上跑,参数如何分布在多台服务器上,构成parameter server (google提出的),同样的,这些参数如何时时的更新,学习,并且如何保存中间结果,多台训练worker时时的相互交互,实现同步或者异步等问题。


想要把tensorflow,caffe,torch等非常好的机器学习,深度学习框架实现并行化,需要很大的投入。其中对于这些模型,很重要的部分就是参数的学习,在一定程度上,这些参数就表征了整个模型,最终学习,训练的结果就是编码体现在这些参数中的。因此想要实现分布式的机器学习框架平台,很大程度需要实现分布式参数服务器,有了分布式参数服务器,便可以在此基础上扩展机器学习平台,将单机版的机器学习模型转换为分布式PS-机器学习模型。


在有了参数服务器之后,便需要将模型分布式化,这里主要修改I/O层和通信层,这两个模块必须要好好的研究,才能实现这个转换工程。

你可能感兴趣的:(机器学习,深度学习,技术类,平台)