Kaggle比赛——预测未来销售(一)

预测未来销售——项目介绍

  • 1、数据来源
  • 2、数据集说明
    • 2、1 文件说明
    • 2、2 文件字段说明
    • 2、3 商店名称说明(Google翻译过来的)
  • 3、项目要求
    • 3、1 评估的要求
    • 3、2 提交文件格式

1、数据来源

  预测未来销售该项目来源于kaggle中的一场比赛的赛题,比赛使用的数据是由日常销售数据组成的时间序列数据集,该数据集由俄罗斯最大的软件公司之一 - 1C公司提供。

2、数据集说明

  数据集下载地址

2、1 文件说明

文件名 文件说明 包含属性
sales_train.csv 训练集(2013年1月至2015年10月的每日历史数据,包括销售额) date、date_block_num、shop_id、item_id、item_price、item_cnt_day
test.csv 测试集(预测2015年11月这些商店和产品的销售额) ID、shop_id、item_id
sample_submission.csv 格式正确的示例提交文件 ID、item_cnt_month
items.csv 有关商品/产品的补充信息 item_name、item_id、item_category_id
item_categories.csv 有关项目类别的补充信息 item_category_name、item_category_id
shops.csv 有关商店的补充信息 shop_name、shop_id

2、2 文件字段说明

字段 字段说明
shop_id 商店的唯一标识符
item_id 产品的唯一标识符
item_category_id 项目类别的唯一标识符
item_cnt_day 销售的产品数量。您正在预测此度量的每月金额
item_price 商品的当前价格
date 日期(格式为dd / mm / yyyy)
date_block_num 一个连续的月号,用于方便。2013年1月是0,2013年2月是1,…,2015年10月是33
item_name 项目名称
shop_name 商店名称
item_category_name 项目类别的名称
ID 表示测试集中的(商店,项目)元组的ID

2、3 商店名称说明(Google翻译过来的)

item_category_name item_category_id
PC - 耳机/耳机 0
配件 - PS2 1
配件 - PS3 2
配件 - PS4 3
配件 - PSP 4
配件 - PSVita 5
配件 - XBOX 360 6
配件 - XBOX ONE 7
门票(号码) 8
货物交付 9
游戏机 - PS2 10
游戏机 - PS3 11
游戏机 - PS4 12
游戏机 - PSP 13
游戏机 - PSVita 14
游戏机 - XBOX 360 15
游戏机 - XBOX ONE 16
游戏机 - 其他 17
游戏 - PS2 18
游戏 - PS3 19
游戏 - PS4 20
游戏 - PSP 21
游戏 - PSVita 22
游戏 - XBOX 360 23
游戏 - XBOX ONE 24
游戏 - 游戏配件 25
Android游戏 - 数字 26
MAC游戏 - 数字 27
PC游戏 - 其他出版物 28
PC电脑游戏 - 收藏版 29
PC游戏 - 标准版 30
电脑游戏 - 数字 31
支付卡(电影、音乐、游戏) 32
支付卡 - 直播 33
支付卡 - 直播! (数字) 34
支付卡 - PSN 35
支付卡 - Windows(数字) 36
电影院 - 蓝光 37
电影院 - 蓝光3D 38
电影院 - 蓝光4K 39
电影院 - DVD 40
电影院 - 收藏家 41
书籍 - 艺术书、百科全书 42
书籍 - 有声读物 43
书籍 - 有声读物(图) 44
书籍 - 有声读物1C 45
书籍 - 商业文学 46
书籍 - 漫画 47
书籍 - 计算机文学 48
书籍 - 有条理的材料1C 49
书籍 - 明信片 50
书籍 - 认知文学 51
书籍 - 指南 52
书籍 - 小说 53
书籍 - 数字 54
音乐 - 本地CD 55
音乐 - 品牌CD制作 56
音乐 - MP3 57
音乐 - 乙烯基 58
音乐 - 音乐视频 59
音乐 - 礼品版 60
礼品 - 属性 61
礼品 - 小工具、机器人、体育 62
礼品 - 软玩具 63
礼品 - 棋盘游戏 64
礼品 - 棋盘游戏(紧凑型) 65
礼品 - 卡片、贴纸 66
礼品 - 发展 67
礼品 - 证书、服务 68
礼品 - 纪念品 69
礼品 - 纪念品(链接) 70
礼品 - 袋,相册,鼠标垫 71
礼品 - 数字 72
程序 - 1C:企业8 73
程序 - MAC(数字) 74
计划 - 家庭和办公室 75
节目 - 家庭和办公室(数字) 76
课程 - 教育 77
课程 - 教育(图) 78
服务 79
实用程序 - 门票 80
纯粹的载体(尖顶) 81
纯载体(片) 82
电池 83

3、项目要求

3、1 评估的要求

  (1) 将均方根误差(RMSE)作为评估提交的度量指标;
  (2) 真实销售量被限制在[0,20]范围以内。

3、2 提交文件格式

  该项目要求预测下个月(第34个月或2015年11月)各个商店的每个产品的销售额。即对于测试集中的每个ID(唯一映射到shop_id与item_id),预测出其下一个月的销售总数。提交的文件格式如下所示:

ID item_cnt_month
0 0.5
1 0.5
2 0.5
3 0.5

  PS:最新优化没有同步到博客当中,需要交流的可以邮箱交流:博主邮箱:[email protected]

你可能感兴趣的:(预测未来销售)