xgboost回归预测1-商品销量预测

任务背景:预测未来一周各个城市各个品类商品的销量

Rawdata:Brazilian E-Commerce(2017.4-2018.10)

目前已有销量数据:

2016/10(6个月)---2017/04---2018/10(18个月) 共计:24个月

滑动窗口:过去四周预测未来一周的数据

选用特征与标签(过去四周):

特征变量:商品销量

属性标签:城市名、品类名、商品均价、店铺数量、用户数量

商品维度——商品销量、商品均价、品类名、城市名

店铺(用户)维度——城市名、品类名、店铺数量、用户数量

测试集(训练集)划分:

训练集70%(201610-201803)

验证集10%(检测模型合理性,调整参数,防止过拟合)(201804-201805)

测试集20%(201806-201810)


相关代码学习:

1、产销预测http://127.0.0.1:8891/notebooks/Desktop/xgboost%E8%AE%AD%E7%BB%83-%E5%95%86%E5%93%81%E9%94%80%E9%87%8F%E9%A2%84%E6%B5%8B%E9%A1%B9%E7%9B%AE/%E4%BA%A7%E9%94%80%E9%A2%84%E6%B5%8B/Prediction_Sale/%E4%BA%A7%E9%94%80%E9%A2%84%E6%B5%8B.ipynb

pandas读取文件的read_csv()方法的parse_dates参数 - 简书http://127.0.0.1:8891/notebooks/Desktop/xgboost%E8%AE%AD%E7%BB%83-%E5%95%86%E5%93%81%E9%94%80%E9%87%8F%E9%A2%84%E6%B5%8B%E9%A1%B9%E7%9B%AE/%E4%BA%A7%E9%94%80%E9%A2%84%E6%B5%8B/Prediction_Sale/%E4%BA%A7%E9%94%80%E9%A2%84%E6%B5%8B.ipynb

Pandas中loc和iloc函数用法详解(源码+实例) - 简书

python缺失值处理 fillna均值_Python处理缺失值_weixin_39629947的博客-CSDN博客

pandas:填充缺失值 fillna("missing") 和fillna("missing",inplace=True)的区别_liulina603的专栏-CSDN博客_dataframe fillna inplace
python数据预处理_用python进行数据预处理简介_weixin_40009063的博客-CSDN博客
 

python pandas 之drop()函数_lhaniey的博客-CSDN博客_python的drop函数

Jupyter Notebook 设置黑色背景主题、字体大小、代码自动补全 - 志光 - 博客园

2、未来房价预测

http://127.0.0.1:8892/notebooks/Desktop/xgboost%E8%AE%AD%E7%BB%83-%E5%95%86%E5%93%81%E9%94%80%E9%87%8F%E9%A2%84%E6%B5%8B%E9%A1%B9%E7%9B%AE/%E6%9C%AA%E6%9D%A5%E6%88%BF%E4%BB%B7%E9%A2%84%E6%B5%8B/notebook/future_baseline1_0.709330.ipynb


(实践过程)

STEP ONE:

数据指标建立——

city_name,seller_id,product_id,order_id,customer_id,category_name,price,sale_num,sale_amt

STEP TWO:

数据预处理——

缺失数据 重复数据

训练集/测试集划分

STEP THREE:

撰写模型参数(区分指标和变量)

撰写评价模型

撰写预测函数

STEP FOUR:

结果分析——

validating
RMSPE: 0.179211

#但相对于真实值,我们模型的预测值整体要偏高一些
#从对偏差数据分析来看,偏差最大的几个数据却忽高忽低
#改进方向1:将周处理成时间变量,利用时间的序列性特质(而非独立不自相关变量)
#改进方向2:利用验证数据集,以不同的城市/品类分组进行细致校正,每个城市/品类分别计算可以取得最佳RMSPE得分的校正系数

你可能感兴趣的:(回归,机器学习)