实现步骤:
一、读取数据、清理、格式化
import pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Bar,Pie,Line
#使用set_option不容易被截断
pd.set_option('display.max_colwidth', -1)
# 读取整个目录,将所有的文件合并到一个dataframe
data_dir = r"D:\node\nd\Pandas_study\pandas_test\blog_access_log"
df_list = []
import os
#error_bad_lines参数,如果日志异常,就跳过,处理下面的日志
for fname in os.listdir(f"{data_dir}"):
df_list.append(pd.read_csv(f"{data_dir}/{fname}", sep=" ", header=None, error_bad_lines=False))
df = pd.concat(df_list)
print(df.head())
#复制0,3,6,9列
df = df[[0,3,6,9]].copy()
# print(df.head())
#替换列名
df.columns = ["ip","stime","status","client"]
print(df.head())
#查看类型
print(df.dtypes)
二、统计爬虫spider的访问比例,输出柱状图
df["is_spider"] = df["client"].str.lower().str.contains("spider")
#统计爬虫和非爬虫的数量
df_spider = df["is_spider"].value_counts()
print(df_spider)
bar = (
Bar()
.add_xaxis([str(x) for x in df_spider.index])
.add_yaxis("是否Spider", df_spider.values.tolist())
.set_global_opts(title_opts=opts.TitleOpts(title="爬虫访问量占比"))
)
bar.render(path = "访问量.html")
三、统计http状态码的访问占比,输出饼图
df_status = df.groupby("status").size()
print(df_status)
b = list(zip(df_status.index,df_status))
print(b)
pie = (
Pie()
.add("状态码比例", list(zip(df_status.index, df_status)))
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
pie.render(path = "饼图.html")
四、统计按小时、按天的PV/UV流量趋势,输出折线图
#转换日志里stime列的格式
df["stime"] = pd.to_datetime(df["stime"].str[1:],format="%d/%b/%Y:%H:%M:%S")
#把stime变为index
df.set_index("stime",inplace = True)
#对index进行排列
df.sort_index(inplace = True)
print(df.index)
按小时/天统计
#按小时进行采样,取ip这一列,pv取的是行数,uv取的是去重的个数
df_pvuv = df.resample("H")["ip"].agg(pv = np.size , uv = pd.Series.nunique)
print(df_pvuv)
#按六小时采样
df_pvuv = df.resample("6H")["ip"].agg(pv = np.size , uv = pd.Series.nunique)
print(df_pvuv.head())
#按天统计
df_pvuv = df.resample("D")["ip"].agg(pv = np.size , uv = pd.Series.nunique)
print(df_pvuv.head())
折线图
line = (
Line()
.add_xaxis(df_pvuv.index.to_list())
.add_yaxis("PV",df_pvuv["pv"].to_list())
.add_yaxis("UV",df_pvuv["uv"].to_list())
.set_global_opts(
title_opts=opts.TitleOpts(title = "PVUV数据对比"),
tooltip_opts=opts.TooltipOpts(trigger="axis",axis_pointer_type="cross")
)
)
line.render(path = "折线图.html")