在数据科学学习之旅中,我经常处理日常工作中的时间序列数据集,并据此做出预测。
我将通过以下步骤:
我们在两个不同的表中提供了商店的以下信息:
利用所有这些信息,我们预测未来6周的销售量。
# 让我们导入EDA所需的库:
import numpy as np # 线性代数
import pandas as pd # 数据处理,CSV文件I / O导入(例如pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
plt.style.use("ggplot") # 绘图
#导入训练和测试文件:
train_df = pd.read_csv("../Data/train.csv")
test_df = pd.read_csv("../Data/test.csv")
#文件中有多少数据:
print("在训练集中,我们有", train_df.shape[0], "个观察值和", train_df.shape[1], 列/变量。")
print("在测试集中,我们有", test_df.shape[0], "个观察值和", test_df.shape[1], "列/变量。")
print("在商店集中,我们有", store_df.shape[0], "个观察值和", store_df.shape[1], "列/变量。")
在训练集中,我们有1017209个观察值和9列/变量。
在测试集中,我们有41088个观测值和8列/变量。
在商店集中,我们有1115个观察值和10列/变量。
首先让我们清理 训练数据集。
#查看数据
train_df.head().append(train_df.tail()) #显示前5行。
train_df.isnull().all()
Out[5]:
Store False
DayOfWeek False
Date False
Sales False
Customers False
Open False
Promo False
StateHoliday False
SchoolHoliday False
dtype: bool
让我们从第一个变量开始-> 销售量
opened_sales = (train_df[(train_df.Open == 1) #如果商店开业
opened_sales.Sales.describe()
Out[6]:
count 422307.000000
mean 6951.782199
std 3101.768685
min 133.000000
25% 4853.000000
50% 6367.000000
75% 8355.000000
max 41551.000000
Name: Sales, dtype: float64
看一下顾客变量
In [9]:
train_df.Customers.describe()
Out[9]:
count 1.017209e+06
mean 6.331459e+02
std 4.644117e+02
min 0.000000e+00
25% 4.050000e+02
50% 6.090000e+02
75% 8.370000e+02
max 7.388000e+03
Name: Customers, dtype: float64
train_df[(train_df.Customers > 6000)]
我们看一下假期 变量。
train_df.StateHoliday.value_counts()
0 855087
0 131072
a 20260
b 6690
c 4100
Name: StateHoliday, dtype: int64
train_df.StateHoliday_cat.count()
1017209
train_df.tail()
train_df.isnull().all() #检查缺失
Out[18]:
Store False
DayOfWeek False
Date False
Sales False
Customers False
Open False
Promo False
SchoolHoliday False
StateHoliday_cat False
dtype: bool
让我们继续进行商店分析
store_df.head().append(store_df.tail())
#缺失数据:
Store 0.000000
StoreType 0.000000
Assortment 0.000000
CompetitionDistance 0.269058
CompetitionOpenSinceMonth 31.748879
CompetitionOpenSinceYear 31.748879
Promo2 0.000000
Promo2SinceWeek 48.789238
Promo2SinceYear 48.789238
PromoInterval 48.789238
dtype: float64
In [21]:
让我们从缺失的数据开始。第一个是 CompetitionDistance
store_df.CompetitionDistance.plot.box()
让我看看异常值,因此我们可以在均值和中位数之间进行选择来填充NaN
缺少数据,因为商店没有竞争。 因此,我建议用零填充缺失的值。
store_df["CompetitionOpenSinceMonth"].fillna(0, inplace = True)
让我们看一下促销活动。
store_df.groupby(by = "Promo2", axis = 0).count()
如果未进行促销,则应将“促销”中的NaN替换为零
我们合并商店数据和训练集数据,然后继续进行分析。
第一,让我们按销售量、客户等比较商店。
f, ax = plt.subplots(2, 3, figsize = (20,10))
plt.subplots_adjust(hspace = 0.3)
plt.show()
从图中可以看出,StoreType A拥有最多的商店,销售和客户。但是,StoreType D的平均每位客户平均支出最高。只有17家商店的StoreType B拥有最多的平均顾客。
我们逐年查看趋势。
sns.factorplot(data = train_store_df,
# 我们可以看到季节性,但看不到趋势。 该销售额每年保持不变
我们看一下相关图。
"CompetitionOpenSinceMonth", "CompetitionOpenSinceYear", "Promo2
我们可以得到相关性:
最受欢迎的见解
1.在python中使用lstm和pytorch进行时间序列预测
2.python中利用长短期记忆模型lstm进行时间序列预测分析
3.使用r语言进行时间序列(arima,指数平滑)分析
4.r语言多元copula-garch-模型时间序列预测
5.r语言copulas和金融时间序列案例
6.使用r语言随机波动模型sv处理时间序列中的随机波动
7.r语言时间序列tar阈值自回归模型
8.r语言k-shape时间序列聚类方法对股票价格时间序列聚类
9.python3用arima模型进行时间序列预测