3月1号到4月20号的baidu spider抓取日志分析

 

以上图片是针对我们站,从3月1号开始到4月20号截止的baidu spider抓取数量变化曲线图,包括了总抓取数目、无效抓取和有效抓取数目。

 

其中,无效抓取指的是,虽然域名是我们站,但是并不存在的网址,这些可能是旧有网址,在新站构建之后失效了的。当时做的时候,忘记做兼容了。

 

从图片上可以看到,在3月10号和3月29号,分别出现了两次抓取高峰。而其中无效抓取大致占了50%。这些无效抓取的返回状态码大多是200,但是没有内容。这样可能造成了baidu对我们域名的信任度的降低。

 

同时,由于网站内容长久缺乏更新,baidu的抓取数量越来越少。到4月5号之后,基本的抓取数目都低于1000,大部分时候甚至是在200-600之间。

 

查看baidu的收录网页数目:  158,google收录数目:987。可以看出baidu收录的远远不足。

 

所以,在重构网站的时候,要顾及到原有的url,做301重定向之类。同时,保持稳定的网站内容更新频率。

你可能感兴趣的:(3月1号到4月20号的baidu spider抓取日志分析)