网站日志分析完整实践

分析网站日志可以帮助我们了解用户地域信息，统计用户行为，发现网站缺陷。操作会面临几个问题

日志分析工具splunk如何使用？
日志格式信息不全，如何配置日志打印出全面信息？
有大量爬虫访问，并非真实流量，如何去掉这些流量？
如果网站用了CDN加速，反向代理，网关等，日志打印的是这些设备的ip，那么用户的真实ip如何获得呢？

阅读本文能帮您有效解决上述问题

splunk

splunk安装使用

日志分析工具splunk是一款商业软件，但有免费版，免费版每天处理日志限制500M以内。对于简单分析，500M也可以挖掘出很多信息了。本文使用免费版splunk分析Apache离线日志。
先要到splunk官网注册用户，注册用户填写的信息除邮箱外不需要真实，公司瞎填即可。注册完成到下载页面选择Linux 64位版本，

复制wgt指令，到Linux上执行，得到压缩包。（wget指令splunk-8.0.5-xxx的xxx每个人都不同）

[root@localhost splunk]# wget -O splunk-8.0.5-xxx-Linux-x86_64.tgz 'https://www.splunk.com/bin/splunk/DownloadActivityServlet?architecture=x86_64&platform=linux&version=8.0.5&product=splunk&filename=splunk-8.0.5-xxx-Linux-x86_64.tgz&wget=true'

解压压缩包，到bin目录下执行

./splunk start

看见协议条款按q，是否同意协议位置输入y

Do you agree with this license? [y/n]: y

用户名输入 admin
密码输入 adminroot
出现

The Splunk web interface is at http://192.168.56.106:8000

表示启动成功。相比于开源工具（ELK，graylog）确实省心太多了。确保Linux防火墙是关闭状态，然后浏览器输入前面8000地址打开登录。首次会有引导教程指导如何上传文件。日常如果想上传文件，直接点击左上角splunk->enterprise进入主界面，然后选择添加数据，

有多种添加数据的方式，这里选择上载，就是日志文件已经在我电脑里了，像上传附件一样传给splunk。过程全部默认，上载文件需要等一段时间。Apache日志设置“来源类型”时选择web里的access_combined。

下一步，“检查”，“提交”都是默认。显示文件上载成功，点击“开始搜索”按钮，搜索刚才上传的日志数据。

搜索框是放搜索限制条件的，右下方是原始日志，左侧是各个字段的名称，这些字段是工具内置的，满足格式的日志会自动被解析出这些字段，比如每条日志开头都有个客户端的ip，就是左侧的clientip，鼠标点击clientip会看见统计结果，默认是出现频率最高的前10个ip。如果要统计更多，需要在搜索框用对应语法查询。

splunk搜索语言介绍（SPL语法）

语法用于在搜索框中使用，达到限制范围，统计所需要指标的目的。语法像“搜索引擎 + SQL + shell”的混合体。如果能熟练运用功能非常强大。

基本语法，

source="access2020-09-11.log" host="basicserver" sourcetype="access_combined"

source表示数据来源文件名，host是splunk所在的主机名称，sourcetype是导入时配置的。这些都可以变换，我想统计10号的数据，将access2020-09-10.log作为source就达到了效果。如果想查看basicserver里的所有数据不分日期，把source条件去掉，只保留host和sourcetype两个条件。搜索框最少要有一个条件。

访问频率最高的200个ip

host="basicserver" | top clientip limit=200

客户端ip的地理信息

host="basicserver" | iplocation clientip

执行后左侧下方“感兴趣的字段”会比刚才多出City Country Region字段，这些和客户端ip的地理位置是对应的。

访问频率最高的十个城市

host="basicserver" | iplocation clientip | top City limit=10

地图查看ip分布

host="basicserver" | iplocation clientip |  geostats count

有多少不同的ip访问网站

host="basicserver"   | stats dc(clientip)

所有日志记录按时间正序排列

host="basicserver" | sort _time

默认按照倒序，最新的日志排在最前面

访问次数最少的ip

host="basicserver" | rare clientip

被访问最多的uri

host="basicserver" | top uri limit=20

clientip不等于某两个网段的记录

host=basicserver clientip!="158.111.2.*"  clientip!="192.190.2.*"

补充一句，搜索框可以输入很多条件，条件增多搜索框会随着变大，不要担心条件多装不下。

数据可视化

搜索栏下方依次有事件、模式、统计信息、可视化选项，最后的可视化选项能生成图表，最好是在搜索命令计算了某个统计指标，然后点击可视化。如果没计算指标直接点击可视化，配置会比较繁琐才能生成图表。
假设搜索栏统计某天访问次数最高的20个clientip，命令为

source="access2020-09-11.log" | top clientip limit=20

执行完会在统计信息下方列出前20个ip，点击可视化，选择柱状图。

柱状图出来后，点击格式可以配置让坐标ip竖着显示，看着更舒服。

ip地址的地理信息数据库如何更新

统计ip的地理位置依赖于地理信息库，安装时有个内置的库，不是最新的。如果要更新到最新的需要到https://dev.maxmind.com/zh-ha... 下载最新的GeoLite2-City.mmdb（要先注册），把这个文件复制到splunk/share目录下覆盖原来的同名文件即可。

删除数据

删除所有数据./splunk clean eventdata -f
删除属于索引indexname的数据 ./splunk clean eventdata -index indexname -f

Apache日志需要注意的

common和combined两种格式

日志格式有common和combined两种格式，combined格式信息更全面，比common格式多了refer和useragent信息。下面是apache/conf下的httpd.conf文件里对两种格式的定义

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %b" common

如果common日志满足不了分析要求，可以把格式改成common格式。方法是修改apache/conf下的httpd.conf文件，把里面CustomLog末尾配置为combined

CustomLog "|/opt/apache/bin/rotatelogs /opt/apache/logs/access%Y-%m-%d.log 86400" combined

无法直接看到用户真实ip怎么办

如果网站前方有反向代理或者网关，或者网站做了CDN加速，那么日志的clientip是代理服务器、网关或者CDN加速服务器的ip，没什么分析价值。

要获取用户真实ip可以修改httpd.conf的LogFormat，加上%{X-FORWARDED-FOR}i （简称XFF），我直接将XFF加到了%h的后面，

LogFormat "%h %{X-FORWARDED-FOR}i %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
LogFormat "%h %{X-FORWARDED-FOR}i %l %u %t \"%r\" %>s %b" common

假设网站有CDN加速（其它情况同理分析），按上面格式，每条日志首先打印的是CDN加速服务器ip，然后是XFF的ip（也就是用户真实ip）。如果用户没有经过CDN直接访问，那么XFF就是一条横线"-"。

Apache动态载入配置文件

修改完配置文件，不需要重启Apache，到Apache/bin下执行./apachectl graceful可以动态载入配置文件，不停止服务，新的配置立刻生效。

splunk如何解析XFF字段

splunk内置的access_combined和access_common格式都无法解析XFF，如果要正确解析需要修改splunk/etc/system/default/transforms.conf
新增[xff]段配置XFF的正则

[xff]
REGEX = \d{1,3}(\.\d{1,3}){2,3}

修改[access-extractions]段，在clientip后增加([[nspaces:xff]]s++)?，用来匹配XFF

[access-extractions]
REGEX = ^[[nspaces:clientip]]\s++([[nspaces:xff]]\s++)?[[nspaces:ident]]\s++[[nspaces:user]]\s++[[sbstring:req_time]]\s++[[access-request]]\s++[[nspaces:status]]\s++[[nspaces:bytes]](?:\s++"(?[[bc_domain:referer_]]?+[^"]*+)"(?:\s++[[qstring:useragent]](?:\s++[[qstring:cookie]])?+)?+)?[[all:other]]

[xff]段的位置不重要，写在哪里都行。配置完成，重启splunk，上传带有XFF的日志，左侧会看见“感兴趣的字段”出现了xff

xff字段的分析统计和clientip完全一样，只不过这是真实用户的ip了。

如何对付爬虫

通过分析日志，下列行为可以判断为爬虫

该ip访问占比特高
useragent明确说自己是哪家搜索引擎爬虫
访问的uri明显不需要那么频繁访问
非必要的凌晨访问(不睡觉吗？)
访问频率高（两分钟访问上千个url）

搜索引擎的爬虫访问网站是为了收录网站数据。有一些恶意的爬虫会做坏事，除了抓数据还尝试登陆执行脚本等。爬虫访问的频率都很高会给网站带来负载，应该根据网站情况进行不同程度的限制。限制恶意爬虫只能封对方ip。搜索引擎的爬虫可以通过配置robots.txt文件，以及在该引擎的站长平台配置或投诉来限制。

robots.txt

搜索引擎抓取数据会先读取网站根目录下的robots.txt文件，文件根据robots协议书写规则，文件的规则就是搜索引擎要遵守的规则。比如打开https://www.taobao.com/robots...。

User-agent: Baiduspider
Disallow: /

如果要任何爬虫都不能爬任何数据，就写成

User-agent: *
Disallow: /

复杂的规则如指定引擎可以爬取某些目录，某些目录不可以爬，robots协议也是支持的。
robots协议是“君子协定”，它并没有通过技术手段限制爬虫，要靠爬虫的自觉遵守。
按我经验，百度、谷歌、360、字节、都能遵守协议，搜狗很流氓，不遵守协议。

有些请求的useragent写的是Baiduspider，但可能是冒充百度爬虫，useragent是可以自己设置的。要想判断一个ip是否是搜索引擎的爬虫可以使用，nslookup或者host命令。这两个命令返回的域名信息可以看出来是否是爬虫。

# nslookup 49.7.21.76
Server:         219.141.136.10
Address:        219.141.136.10#53
Non-authoritative answer:
76.21.7.49.in-addr.arpa name = sogouspider-49-7-21-76.crawl.sogou.com.

# host 111.206.198.69
69.198.206.111.in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com.

另外，各大搜索引擎的站长平台会教如何判断ip是否是自己的爬虫，百度站长平台就有“轻松两步，教你快速识别百度蜘蛛”，介绍了百度蜘蛛useragent的格式和判断方法。

站长平台

搜索引擎都有站长平台，里面有很多相关的教程帮助更好的使用搜索引擎。注册站长平台时要证明自己有网站的管理权限，验证方法是可以将指定文件放置到网站根目录。成为站长后可以查询自己网站的索引收录情况，查询搜索引擎给网站带来的流量等指标。还可以投诉爬虫抓取频繁，设定抓取频率。有些平台公布邮箱可以投诉。

封IP

对于恶意或者不遵守robots协议的爬虫，只能封ip。网站源站用防火墙来封，CDN加速服务器也都提供了封ip功能。配置了CDN加速的网站一定要封xff的IP，因为大部分clientip都是CDN加速服务器的地址，封了这些地址很多正常用户就不能正常访问了。

总结

日志分析是从理性方面了解系统，分析结果可能会颠覆之前对系统的固有认知。对开发，运维，运营都能提供有价值的信息，建议大家有机会尝试一下。如果不想封禁爬虫ip，可以在搜索栏排除爬虫ip的访问记录（xff!="爬虫ip"），这样既能排除干扰，还能和爬虫和平共处。

本文由博客群发一文多发等运营工具平台 OpenWrite 发布