Pandas处理分析原始网站的日志

实现步骤：

一、读取数据、清理、格式化

import pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Bar,Pie,Line
#使用set_option不容易被截断
pd.set_option('display.max_colwidth', -1)

# 读取整个目录，将所有的文件合并到一个dataframe
data_dir = r"D:\node\nd\Pandas_study\pandas_test\blog_access_log"

df_list = []

import os
#error_bad_lines参数，如果日志异常，就跳过，处理下面的日志
for fname in os.listdir(f"{data_dir}"):
    df_list.append(pd.read_csv(f"{data_dir}/{fname}", sep=" ", header=None, error_bad_lines=False))

df = pd.concat(df_list)
print(df.head())

image.png

#复制0，3,6,9列
df = df[[0,3,6,9]].copy()
# print(df.head())
#替换列名
df.columns = ["ip","stime","status","client"]
print(df.head())

image.png

#查看类型
print(df.dtypes)

image.png

二、统计爬虫spider的访问比例，输出柱状图

df["is_spider"] = df["client"].str.lower().str.contains("spider")
#统计爬虫和非爬虫的数量
df_spider = df["is_spider"].value_counts()
print(df_spider)

bar = (
        Bar()
        .add_xaxis([str(x) for x in df_spider.index])
        .add_yaxis("是否Spider", df_spider.values.tolist())
        .set_global_opts(title_opts=opts.TitleOpts(title="爬虫访问量占比"))
)
bar.render(path = "访问量.html")

image.png

三、统计http状态码的访问占比，输出饼图

df_status = df.groupby("status").size()
print(df_status)

b = list(zip(df_status.index,df_status))
print(b)

pie = (
        Pie()
        .add("状态码比例", list(zip(df_status.index, df_status)))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
    )
pie.render(path = "饼图.html")

image.png

四、统计按小时、按天的PV/UV流量趋势，输出折线图

#转换日志里stime列的格式
df["stime"] = pd.to_datetime(df["stime"].str[1:],format="%d/%b/%Y:%H:%M:%S")
#把stime变为index
df.set_index("stime",inplace = True)
#对index进行排列
df.sort_index(inplace = True)
print(df.index)

image.png

按小时/天统计

#按小时进行采样，取ip这一列，pv取的是行数，uv取的是去重的个数  
df_pvuv = df.resample("H")["ip"].agg(pv = np.size , uv = pd.Series.nunique)
print(df_pvuv)
#按六小时采样
df_pvuv = df.resample("6H")["ip"].agg(pv = np.size , uv = pd.Series.nunique)
print(df_pvuv.head())
#按天统计
df_pvuv = df.resample("D")["ip"].agg(pv = np.size , uv = pd.Series.nunique)
print(df_pvuv.head())

按小时进行采样

折线图

line = (
    Line()
    .add_xaxis(df_pvuv.index.to_list())
    .add_yaxis("PV",df_pvuv["pv"].to_list())
    .add_yaxis("UV",df_pvuv["uv"].to_list())
    .set_global_opts(
        title_opts=opts.TitleOpts(title = "PVUV数据对比"),
        tooltip_opts=opts.TooltipOpts(trigger="axis",axis_pointer_type="cross")
    )
)
line.render(path = "折线图.html")

image.png

Pandas处理分析原始网站的日志

实现步骤：

一、读取数据、清理、格式化

二、统计爬虫spider的访问比例，输出柱状图

三、统计http状态码的访问占比，输出饼图

四、统计按小时、按天的PV/UV流量趋势，输出折线图

你可能感兴趣的:(Pandas处理分析原始网站的日志)