pyspark-ml学习笔记:pyspark下使用xgboost进行分布式训练

问题是这样的,如果我们想基于pyspark开发一个分布式机器训练平台,而xgboost是不可或缺的模型,但是pyspark ml中没有对应的API,这时候我们需要想办法解决它。

还可以参考:https://github.com/MachineLP/Spark-/tree/master/pyspark-xgboost 

测试代码: ( (pyspark使用可以参考这个:https://blog.csdn.net/u014365862/article/details/87825398 ))

#!/usr/bin/env python
# -*- coding:utf8 -*-

"""
------------------------------------------------- 
   Description :  pyspark测试 
   Author :       liupeng 
   Date :         2019/7/23 
------------------------------------------------- 

"""

import os 
import sys 
import time 
import pandas as pd 
import numpy as np 
from start_pyspark import spark, sc, sqlContext
import pyspark.sql.types as typ
import pyspark.ml.feature as ft
from pyspark.sql.functions import isnan, isnull


import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--ja

你可能感兴趣的:(机器学习,spark学习,MachineLP成长记)