Predict Future Sales(时间序列)——Kaggle银牌(TOP 4%)基础方案(一):赛题背景和数据字段分析

笔者将分享一次kaggle数据竞赛的实例,包括了数据竞赛的基本套路流程:赛题业务背景分析,数据探索(EDA),特征工程,单模预测(特征重要性分析)以及stacking模型融合。


本次赛题的链接:Predict Future Sales,赛题任务是对未来的销量进行预测,属于时间序列挖掘的一类问题,数据由俄罗斯最大的软件公司:1C Company提供。

文件说明 

数据集下载:dataset

提供的数据说明
文件名 文件说明
sales_train.csv 训练集(2013年1月至2015年10月的数据
items.csv 有关商品/产品的补充信息
shops.csv 有关商店的补充信息
item_categories.csv 有关项目类别的补充信息
test.csv 测试集(需要预测2015年11月的销售额)
sample_submission.csv 格式正确的示例提交文件


        sales_train.csv为训练集,包括字段:date、date_block_num、shop_id、item_id、item_price、item_cnt_day。items.csv、shops.csv、item_categories.csv均为对数据的补充信息,可以构造更加多维的特征,附加了item_name、item_id、item_category_id、item_category_name、item_category_id、shop_name、shop_id等字段,测试集仅包含ID、shop_id、item_id三个字段。各字段的解释如下:

字段名 字段说明
ID 表示测试集中的(商店,项目)元组的ID
shop_id 商店的唯一标识符
item_id 产品的唯一标识符
item_category_id 项目类别的唯一标识符
item_cnt_day 销售的产品数量。您正在预测此度量的每月金额
item_price 商品的当前价格
date 日期(格式为dd / mm / yyyy)
date_block_num 一个连续的月号,用于方便。2013年1月是0,2013年2月是1,…,2015年10月是33
item_name 项目名称
shop_name 商店名称
item_category_name 项目类别的名称

摸清楚各个字段和原始数据的意义是进行数据挖掘的第一步,方便于结合个人的业务理解去处理数据和特征工程的构造。下一篇介绍如何探索原始数据和EDA可视化分析。

你可能感兴趣的:(数据竞赛(数据挖掘))