python算法调用方案

1、python算法部署方案

(1)独立部署

算法端和应用端各自独立部署。

使用WSGI(flask)web应用A包装算法,并发布该应用A。
应用端B 通过httpclient调用算法应用A中的api接口。

(2)统一部署

算法模块和应用模块糅合在一起。

应用端和算法模型在一个项目里。
只需在项目中需要使用算法的地方,直接找到算法模块所在目录并加载到内存使用。

2、大数据清洗时,调用python算法的可行方案

(1)独立部署

使用时,大数据应用和算法应用也是独立的。

  • 算法方:把 “使用httpclient调用算法接口” 这部分功能包装在hive/spark udf中。
  • 大数据方:在编写hive/spark sql时,调用hive/spark udf的evaluate(xx)方法,并传递对应参数。

(2)统一部署

使用时,可以把大数据应用和算法应用也统一到同一项目。

先编写python脚本,并在脚本中实现以下功能:

  • 从HDFS/spark中读取数据(加载到内存);
  • 加载算法模型;
  • 用算法处理数据。

再把python脚本部署到GPU服务器上,启动python脚本。

你可能感兴趣的:(算法学习,python,语言学习,大数据组件hadoop,flink等学习,python,算法,开发语言)