awk分析nginx访问日志

awk 简介

基本上来说，awk 可以从输入（标准输入，或一个或多个文件）中是否存在指定模式的记录（即文本行）。每次发现匹配时，就执行相关联的动作（例如写入到标准输出或外部文件）。

awk 语法

由于我们在 IBM HTTP Server 配置文件中指定了访问日志的固定格式，因此，我们可以轻易地使用 awk 解析，抽取我们需要的数据。

以下面的示例日志为例：

 202.189.63.115 - - [31/Aug/2012:15:42:31 +0800] "GET / HTTP/1.1" 200 1365 "-" 

 "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1"

$0 就是整个记录行

$1 就是访问 IP ” 202.189.63.115”

$4 就是请求时间的前半部分 “[31/Aug/2012:15:42:31”

$5 就是请求时间的后半部分 “+0800]”

以此类推……

当我们使用默认的域分割符时，我们可以从日志中解析出下面不同类型的信息：

awk '{print $1}' access.log # IP 地址 (%h)

awk '{print $2}' access.log # RFC 1413 标识 (%l)

awk '{print $3}' access.log # 用户 ID (%u)

awk '{print 5}' access.log # 日期和时间 (%t)

awk '{print $7}' access _log # URI (%>s)

awk '{print $9}' access _log # 状态码 (%>s)

awk '{print $10}' access _log # 响应大小 (%b)

我们不难发现，仅使用默认的域分隔符，不方便解析出请求行、引用页和浏览器类型等其他信息，因为这些信息之中包含不确定个数的空格。因此，我们需要把域分隔符修改为 “ ，就能够轻松读出这些信息。

awk -F" '{print $2}' access.log # 请求行 (%r)

awk -F" '{print $4}' access.log # 引用页

awk -F" '{print $6}' access.log # 浏览器

注意：这里为了避免 Unix/Linux Shell 误解 “ 为字符串开始，我们使用了反斜杠，转义了 “ 。

awk 使用

统计浏览器类型

如果我们想知道那些类型的浏览器访问过网站，并按出现的次数倒序排列，我可以使用下面的命令：

 awk -F\" '{print $6}' access.log | sort | uniq -c | sort -fr

此命令行首先解析出浏览器域，然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。

发现系统存在的问题

我们可以使用下面的命令行，统计服务器返回的状态码，发现系统可能存在的问题。

 awk '{print $9}' access.log | sort | uniq -c | sort

有关状态码的 awk 命令示例：

查找并显示所有状态码为 404 的请求

awk '($9 ~ /404/)' access.log

统计所有状态码为 404 的请求

awk '(9,$7}' | sort

现在我们假设某个请求 ( 例如 : URI: /path/to/notfound ) 产生了大量的 404 错误，我们可以通过下面的命令找到这个请求是来自于哪一个引用页，和来自于什么浏览器。

awk -F" '(4,$6}' access.log

追查谁在盗链网站图片

系统管理员有时候会发现其他网站出于某种原因，在他们的网站上使用保存在自己网站上的图片。如果您想知道究竟是谁未经授权使用自己网站上的图片，我们可以使用下面的命令：

awk -F" '(4 !~ /^http://www.example.com/)\

{print $4}' access.log \ | sort | uniq -c | sort

参考

https://blog.csdn.net/weixin_34026484/article/details/92863078