通过Apache日志在Linux下监测百度蜘蛛的爬行记录

1. 百度蜘蛛爬行的次数
cat access.log | grep Baiduspider+ | wc
最左面的数值显示的就是爬行次数。

2. 百度蜘蛛的详细记录(Ctrl+C可以终止)
cat access.log | grep Baiduspider+
也可以用下面的命令:
cat access.log | grep Baiduspider+ | tail -n 10
cat access.log | grep Baiduspider+ | head -n 10
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。

3. 百度蜘蛛抓取首页的详细记录
cat access.log | grep Baiduspider+ | grep “GET / HTTP”

4. 百度蜘蛛派性记录时间点分布
cat access.log | grep “Baiduspider+” | awk ‘{print $4}’

5. 百度蜘蛛爬行页面按次数降序列表
cat access.log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort -r

你可能感兴趣的:(通过Apache日志在Linux下监测百度蜘蛛的爬行记录)