本篇文章主要写的是维基百科词条EDA在时间序列预测前需要对数据集进行观察,是否需要维度拆分等。不拆分维度可能对于时间序列预测的结果趋势有很大的影响。
模块导入
import pandas as pd
import re
from collections import Counter
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
数据读取及清洗
train=pd.read_csv('train_1.csv').fillna(0)
train
train.info()
这个DataFrame有600M,为了将内存变小,需对值的格式做转换。
for i in train.columns[1:]:
train[i]=pd.to_numeric(train[i],downcast='integer')
train
train.info()
浮点型转换成整型后,缩小了一半的内存空间。
在处理时间序列时,词条分的越细,预测的规律性就会越强,预测的趋势就会更加准确。
查看各个国家语言的词条数
def get_language(page):
res=re.search('[a-z][a-z].wikipedia.org',page)
# print(res.group()[0:2])
if res:
return res.group()[0:2]
else:
return 'na'
train['lang']=train['Page'].apply(get_language)
print(Counter(train['lang'])) # Counter()统计个数
将不同国家语言的词条数据分别存于字典中,并聚合搜索次数
lang_sets={}
lang_sets['en']=train[train['lang']=='en'].iloc[:,0:-1] # 最后一行是lang,去掉最后一行,并将DataFrame存入字典
lang_sets['ja'] = train[train.lang=='ja'].iloc[:,0:-1]
lang_sets['de'] = train[train.lang=='de'].iloc[:,0:-1]
lang_sets['na'] = train[train.lang=='na'].iloc[:,0:-1]
lang_sets['fr'] = train[train.lang=='fr'].iloc[:,0:-1]
lang_sets['zh'] = train[train.lang=='zh'].iloc[:,0:-1]
lang_sets['ru'] = train[train.lang=='ru'].iloc[:,0:-1]
lang_sets['es'] = train[train.lang=='es'].iloc[:,0:-1]
sum={}
for key in lang_sets:
sum[key]=lang_sets[key].iloc[:,1:].sum(axis=0)/lang_sets[key].shape[0] # 转化成Series
不同国家语言平均词条数曲线
days=[r for r in range(sum['en'].shape[0])]
plt.figure(figsize=[10,10])
labels={'en':'English','ja':'Japanese','de':'German',
'na':'Media','fr':'French','zh':'Chinese',
'ru':'Russian','es':'Spanish'
}
for key in sum:
plt.plot(days,sum[key],label=labels[key])
plt.xlabel('Day')
plt.ylabel('Views per page')
plt.title('Pages in Different Languages')
plt.legend()
从上图看出:
- 搜索的词条为英文的数量较多,是其他语言的2倍左右,主要原因也是又因为维基百科主要用的也是英文;
- 中文的词条数较少,主要也是因为国家政策原因。
- 俄罗斯文和英文在400天左右搜索数量出现了一波小高峰,原因是可能在那个时间点出现了什么事件增多了搜索数量,可能是国家事件等等,可通过词条内容数据分布来验证这一假设。
随机抽取不同内容词条的搜索次数随时间分布
def plot_entry(key,idx):
data=lang_sets[key].iloc[idx,1:]
plt.figure(figsize=(10,5))
plt.plot(days,data)
plt.xlabel('day')
plt.ylabel('views')
plt.title(train.iloc[lang_sets[key].index[idx],0])
idx = [1, 5, 10, 50, 100, 250,500, 750,1000,1500,2000,3000,4000,5000]
for i in idx:
plot_entry('en',i)
不同国家语言搜索量top10
top_pages={}
for key in lang_sets:
print(key)
sum_set=pd.DataFrame(lang_sets[key]['Page'])
sum_set['total']=lang_sets[key].sum(axis=1) # sum()会忽视Page列
sum_set=sum_set.sort_values('total',ascending=False)
print(sum_set.head(10))
top_pages[key]=sum_set.index[0]
print('\n\n')
不同国家语言搜索量最大的词条随时间变化曲线
for key in top_pages:
plt.figure(figsize=(10,5))
cols=train.columns
cols=cols[1:-1] # 去掉page列和lang列
data=train.loc[top_pages[key],cols]
plt.plot(days,data)
plt.xlabel('Days')
plt.ylabel('Views')
plt.title(train.loc[top_pages[key],'Page'])
总结
将数据集按不同维度拆分,拆分的越细,越能排除其他因素的影响,时间序列预测的趋势越好;而且可以在不同国家的词条横向、纵向对比分析,探索、挖掘数据的价值。