什么 awstat 或者其它 google analytics,yahoo 统计之类都可以完成站点分析,但为什么不用 www 自己就有的日志呢?从 查询并禁止apache中异常访问量的用户 看到这个简单的办法,赶紧从 win2k3 上拿下日志,在 ubuntu 终端中分析了一下,这下看得就很清楚了…
windows 2003 iis 日志目录为
windowssystem32LogFilesW3SVC1
windowssystem32LogFilesHTTERR
加入日志文件名为 1.log
cat 1.log |awk ‘{print $1}’| sort | uniq -c |sort -nr |less
* cat就不用说了;
* awk的作用,就是把第一列,也就是客户端ip地址分拣出来;
* 第一个sort,是把分拣出来的ip地址排序,这样相同的ip地址会排在一起
* uniq是一个去除重复值的工具,但是带上-c参数,就可以统计出每个值出现了多少次
* 最后的sort,把uniq产生的结果进行排序,按照-n这个参数的默认设置,最大的排在最下面。
win2k3上的 http 日志中,访问者ip在第10列而不是第一列。所以改成
awk ‘{print $1
0}’
输出大约如下(格式为:访问次数 ip):
675 218.85.102.105
512 60.5.74.111
287 222.91.205.10
251 144.82.192.188
233 61.181.223.56
175 58.19.18.166
170 59.46.47.94
170 222.79.4.10
160 61.183.148.130
然后用 ip地址查询or ip-adress.cm,决定是否 deny 掉。在 ubuntu 下直接使用
whois xxx.xxx.xxx.xxx
也可以查看ip信息
第11列 返回浏览器类型统计
6367 Mozilla/4.0+(compatible;+MSIE+5.00;+Windows+98)
4710 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+.NET+CLR+1.1.4322)
1100 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
791 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon;+.NET+CLR+2.0.50727)
511 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.2)+Gecko/20060308+Firefox/1.5.0.2
…
第6列是 url 统计,请求的是哪个页面或者http下载
第12列 是 http 状态
http 状态代码参考:
① 客户方错误
100 继续
101 交换协议
APACHE错误代码
② 成功
200 OK
201 已创建
202 接收
203 非认证信息
204 无内容
205 重置内容
206 部分内容
APACHE错误代码
③ 重定向
300 多路选择
301 永久转移
302 暂时转移
303 参见其它
304 未修改(Not Modified)
305 使用代理
④ 客户方错误
400 错误请求(Bad Request)
401 未认证
402 需要付费
403 禁止(Forbidden)
404 未找到(Not Found)
405 方法不允许
406 不接受
407 需要代理认证
408 请求超时
409 冲突
410 失败
411 需要长度
412 条件失败
413 请求实体太大
414 请求URI太长
415 不支持媒体类型
⑤ 服务器错误
500 服务器内部错误
501 未实现(Not Implemented)
502 网关失败
504 网关超时
“100″:Continue
“101″:witchingProtocols
“200″:OK
“201″:Created
“202″:Accepted
“203″:Non-AuthoritativeInformation
“204″:NoContent
“205″:ResetContent
“206″:PartialContent
“300″:MultipleChoices
“301″:MovedPermanently
“302″:Found
“303″:SeeOther
“304″:NotModified
“305″:UseProxy
“307″:TemporaryRedirect
“400″:BadRequest
“401″:Unauthorized
“402″:PaymentRequired
“403″:Forbidden
“404″:NotFound
“405″:MethodNotAllowed
“406″:NotAcceptable
“407″:ProxyAuthenticationRequired
“408″:RequestTime-out
“409″:Conflict
“410″:Gone
“411″:LengthRequired
“412″:PreconditionFailed
“413″:RequestEntityTooLarge
“414″:Request-URITooLarge
“415″:UnsupportedMediaType
“416″:Requestedrangenotsatisfiable
“417″:ExpectationFailed
“500″:InternalServerError
“501″:NotImplemented
“502″:BadGateway
“503″:ServiceUnavailable
“504″:GatewayTime-out
“505″:HTTPVersionnotsupported
从 2007-07-11 的日志分析看来,这个 北京市 商务中心区通信科技有限公司 发出了大约 46000 个请求,估计是该接入商门户上面的下载链接。guoshuangweb/bt/laoluo.rar 24860+22917 个。
100M的日志大约需时40秒(amd 2G 512M)
果然不出所料,绝大部分都是下载老罗和歌曲的请求,纷纷改名中,:)
下载发出来本来就是为了分享的,但请适可而止。