【Datawhale夏令营】任务三学习笔记

acff8ed52629488e89b6f666cd4a247e.gif

                          任务一笔记回顾

                          任务二笔记回顾

acff8ed52629488e89b6f666cd4a247e.gif

目录

一:竞赛上分流程

1.1问题建模1.2数据分析

1.3数据清洗1.4特征工程

1.5模型训练与验证

二:任务总结与心得


 

一:竞赛上分流程

【Datawhale夏令营】任务三学习笔记_第1张图片

问题建模——>数据分析 ——>数据清洗——>特征工程——>模型训练与验证——>模型预测

1.1问题建模

【Datawhale夏令营】任务三学习笔记_第2张图片

 

1.2数据分析

【Datawhale夏令营】任务三学习笔记_第3张图片

 

1.3数据清洗

  1. 数据审查:首先,查看数据集的整体结构和特征。了解数据的格式、类型、缺失值、异常值等信息。

  2. 处理缺失值:检查数据集中是否存在缺失值。可以选择删除包含缺失值的行或列,或者使用恰当的方法填充缺失值,比如用均值、中位数或者使用插值算法填充。

  3. 处理异常值:检测并处理异常值,这些异常值可能会对分析结果产生显著影响。可以使用统计方法,比如计算离群值或使用箱线图,或者应用领域知识和专业判断来处理异常值。

  4. 数据类型转换:检查数据的类型是否正确,并根据需要进行类型转换。例如,将字符串类型转换为数值类型,或者将日期和时间类型转换为标准格式。

  5. 数据去重:检查数据集中是否存在重复的数据行或列,并根据需要删除重复项,以确保数据的唯一性。

1.4特征工程

(1)交叉特征:主要提取流量、上部温度设定、下部温度设定之间的关系;

(2)历史平移特征:通过历史平移获取上个阶段的信息;

(3)差分特征:可以帮助获取相邻阶段的增长差异,描述数据的涨减变化情况。在此基础上还可以构建相邻数据比值变化、二阶差分等;

(4)窗口统计特征:窗口统计可以构建不同的窗口大小,然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息,可以反映最近阶段数据的变化情况。
【Datawhale夏令营】任务三学习笔记_第4张图片


 

1.5模型训练与验证

【Datawhale夏令营】任务三学习笔记_第5张图片

 


 

二:任务总结与心得

【Datawhale夏令营】任务三学习笔记_第6张图片

 

2.1      baseline进行修改优化后并跑通,结果可观如下:

313df650a89046a39e915ec317147212.png

2.2      调整参数后: 

483b4094cccf43029d347d46d2008e64.png

 

参考文章:

datawhale暑期夏令营:datawhale开源项目

 

你可能感兴趣的:(学习,笔记,python,机器学习)