用spark做web日志分析

本文以服务器日志分析为例,给大家展示真实场景中,怎么用pySpark去完成大数据的处理和分析的。

总述

这里的应用主要包括4部分:
Part 1: Apache Web服务器日志格式
Part 2: web服务器日志初步解析
Part 3: web服务器日志进一步解析和可视化
Part 4: 对返回404的结果做分析

part 1 Apache Web服务器日志格式

这里用到的服务器日志格式是 Apache Common Log Format (CLF)。简单数来,你看到的每一行都是如下的样式:
127.0.0.1 - - [01/Aug/1995:00:00:01 -0400] "GET /images/launch-logo.gif HTTP/1.0" 200 1839

一个详细一些的字段说明如下:

  • 127.0.0.1
    第一项 ,发起请求的客户端IP地址。

  • -
    第二项 ,空白,用占位符“-”替代,表示所请求的信息(来自远程机器的用户身份),不可用。

  • -
    第三项,空白,表示所请求的信息(来自本地登录的用户身份),不可用。

  • [01/Aug/1995:00:00:01 -0400]
    第四项,服务器端处理完请求的时间,具体细节如下:
    [day/month/year:hour:minute:second timezone]

    • day = 2 digits
    • month = 3 letters

你可能感兴趣的:(spark,pyspark)