DC竞赛 国能日新功率预测题 rank21 解决方案(适合新手)

 DataCastle国能日新光伏功率预测

 

 数据异常处

本题在测试集中提供了时间、辐照度、风速、风向、温度、压强、湿度、实发辐照度 8个特征,以及标签**实际功率**。
而在训练集中只有前七个特征,无实发辐照度

 策略

在观察了数据之后,我们确定实发辐照度是一个强力特征,于是我们采取了stacking的策略:

1. 第一次训练以实发辐照度标签,预测 测试集的实发辐照度

2. 第二次训练将实发辐照度加入特征进行训练,预测最终的标签实际功率

 特征工程

由于数据具有周期性,于是我们提取每天的数据,并以**辐照度**为依据,构建白天(daytime)夜晚(nighttime)以及整日(allday)三种时间分区,并对各个时间分区构建mean/std/min/max以及var(max-min),通过对构造特征进行加减乘除来构造新的特征。

 模型选择

我们选择了轻量级的lightGbm以及受欢迎的xgboost进行融合,由于最后时间不够,所以我们仅尝试了简单的加权融合。最后阶段尝试使用具有周期性的Lstm发现效果不好,故放弃使用。

分析

1. 由于辐照度是人工预测,会带来误差,所以预测的实发辐照度也存着误差。
2. 有的电场的实际功率在夜晚直接为0,有的电场会由于消耗得到负值,所以我们进行了特殊化处理(specialize)
3. 在数据预处理阶段需要做的更加仔细,原始数据的时间在.csv打开之后呈现整数,实际上在控制台打印发现为小数(例如可能看到的0 :00实际为23 : 59.99),这样导致提取出来的时间会有很大错误,为后面的运算带来非常大的误差。

源码链接:国能日新功率预测rank21解决方案

总结

这次最深的感受还是那句老话特征为王,只有特征才能带来极大的提分上限,同时,数据预处理的重要性大于模型融合。

你可能感兴趣的:(竞赛总结)