今天有朋友向我请教对一个access log文件里按URL+IP进行pv和响应时间统计,顺便写了个awk脚本,在此分享一下

access log格式
第一列为域名,第二列为响应时间 第三列为用户ip

www.baidu.com 1 1.1.1.1
www.baidu.com 1 2.2.2.2
www.baidu.com 3 1.1.1.1
www.baidu.com 1 1.1.1.1
www.baidu.com 1 1.1.1.1
www.baidu.com 5 1.1.1.1
www.baidu.com 1 2.2.2.2
www.baidu.com 1 2.2.2.2
www.google.com 2 2.2.2.2
www.google.com 1 2.2.2.2
www.google.com 2 2.2.2.2
www.google.com 3 2.2.2.2
www.google.com 2 2.2.2.2
www.google.com 4 1.1.1.1
www.google.com 2 1.1.1.1
www.google.com 2 1.1.1.1
www.google.com 5 1.1.1.1

脚本内容

#!/bin/awk

awk 'BEGIN{
  print "count\tdomain\t\tip\tavg\tmax\tmin"
}{
  count[$1"\t"$3]+=1;
  sum[$1"\t"$3]+=$2;
  if (max[$1"\t"$3] < $2){
    max[$1"\t"$3] = $2
  };
  if (min[$1"\t"$3] == ""){
    min[$1"\t"$3] = $2
  };
  if (min[$1"\t"$3] > $2){
    min[$1"\t"$3] = $2
  }
}END{
  for (i in count){
    print count[i]"\t"i"\t"sum[i]/count[i]"\t"max[i]"\t"min[i];
  }
}' /tmp/access.log

执行效果
awk 统计特定pv和响应时间的最大、最小、平均值_第1张图片