本文档主要介绍Nginx设置日志参数的作用,以及Nginx日志常用分析命令


基本大纲:

  1.Nginx日志记录格式的介绍

  2.Nginx日志参数详解

  3.Web服务流量名词介绍

  4.Nginx日志常用分析命令示范




一:Nginx日志记录格式的介绍


log_format用来设置日志的记录格式:

log_format name format

name表示格式名称,format表示等义的格式。log_format有一个默认的无需设置的combined日志格式,相当于apache的combined日志格式,如下所示:

log_format  combined  '$remote_addr - $remote_user  [$time_local]  '

                                   ' "$request"  $status  $body_bytes_sent  '

                                   ' "$http_referer"  "$http_user_agent" ';

如果nginx位于负载均衡器,squid,nginx反向代理之后,web服务器无法直接获取到客户端真实的IP地址了。  $remote_addr获取反向代理的IP地址。反向代理服务器在转发请求的http头信息中,可以增加X-Forwarded-For信息,用来记录客户端IP地址和客户端请求的服务器地址。

 

下面是修改后,生产环境下代理服务器用的日志格式。可以根据需要添加对应的日志参数

log_format  main  '$remote_addr - $remote_user [$time_local] requesthost:"$http_host"; "$request" requesttime:"$request_time"; '

                      '$status $body_bytes_sent "$http_referer" - $request_body'

                      '"$http_user_agent" "$http_x_forwarded_for"';




二:Nginx日志参数详解


参数注释如下:


$remote_addr   #与$http_x_forwarded_for 用以记录客户端的ip地址


$http_x_forwarded_for   #当前端有代理服务器时,设置web节点记录客户端地址的配置,此参数生效的前提是代理服务器也要进行相关的http_x_forwarded_for设置


$remote_user   #记录客户端用户名称,一般默认为空


$time_local   #记录访问时间


$request   #记录请求的URL和HTTP协议


$status   #记录请求状态


$body_bytes_sent   #记录发送给客户端文件内容大小


$http_referer   #记录从哪个页面链接访问过来的


$http_user_agent   #记录客户端浏览器相关信息


$request_time   #处理完请求所花时间,以秒为单位 


$http_host   #请求地址,即浏览器中你输入的地址(IP或域名)


$request_body   #记录POST数据


$request_length   #客户端请求的长度


$upstream_status   #upstream状态,成功是200


$upstream_addr  #后台upstream的地址,即真正提供服务的主机地址


$upstream_response_time    #请求过程中,upstream响应时间




三:Web服务流量名词介绍


网站并发连接数:定义为网站服务器在单位时间内能够处理的最大连接数。示例:某网站的并发是5000.意味着单位时间内(理解为1秒或数秒内),正在处理的连接数,正在建立的连接数,加起来一共是5000个。


IP:即Internet Protocol,一般指独立IP数,独立IP数是指不同IP地址的计算机访问网站时被计的总次数。一般一天00:00-24:00内相同IP地址只被计算一次。


PV:即Page View,中文翻译为页面浏览,即页面浏览量或点击量,不管客户端是否相同,也不管IP和网站页面是否相同,用户只要访问网站页面就会计算PV,一次计为一个PV


UV:即Unique Visitor,同一个客户端(PC或移动端)访问网站被计为一个访客。一天(00:00-24:00)内相同的客户端访问同一个网站只统计一次UV。UV一般是以客户端Cookie等技术作为统计依据的,实际统计会有误差。


IP,PV,UV的区别在哪?

  举例说明:假设某个公司有10个员工,都访问了www.taobao.com这个网站。每个人平均浏览了5个页面,但是公司的对外出口是一个公网IP。所以对于www.taobao.com这个网站而言,只会计算1个独立IP访问。但是因为有10个人在访问www.taobao.com这个网站,并且平均都访问了5次,因此,对于www.taobao.com这个网站而言,PV数就是10x5=50个PV,而因为有10个人访问,就是10个不同的客户端访问,因此,UV(独立访客)为10.   

  因此上例结果为IP数为1个,PV数为50个,UV为10个。通过这个结果,不难看出,一个网站的独立IP数量要比网站实际访问的PV数量小得多。通常情况下,网站的UV数也会大于独立IP数

                                                                                                                                                             



四:Nginx日志常用分析命令示范(注:日志的格式不同,awk取的项不同。下面命令针对上面日志格式执行)


1)总请求数

wc -l  access.log |awk '{print $1}'


2)独立IP数

awk '{print $1}' access.log|sort |uniq |wc -l


3)每秒客户端请求数 TOP5

awk '{print $6}' access.log|sort|uniq -c|sort -rn|head -5


4)访问最频繁IP Top5

awk '{print $1}' access.log|sort |uniq -c |sort -nr |head -5


5)访问最频繁的URL TOP5

awk '{print $7}' access.log|sort |uniq -c |sort -nr |head -5


6)响应大于5秒的URL TOP5

awk '{if ($7 > 5){print $6}}' access.log|sort|uniq -c|sort -rn |head -5


7)HTTP状态码(非200)统计 Top5

awk '{if ($11 != 200){print $11}}' access.log|sort|uniq -c|sort -rn|head -5


8)分析请求数大于50000的源IP

cat access.log|awk '{print $NF}'|sort |uniq -c |sort -nr|awk '{if ($1 >50000){print $2}}'