sitemap是网站SEO的一个重要因素,向搜索引擎提供网站地图,让蜘蛛可以顺利的抓取避免走入“黑洞”。
首先插一下话题,此前放了大量有关、动漫等相关信息,并非我的blog变成“黄窝”了,完全是对Google搜索引擎的一种SEO实验,结果还可以,“黄色动漫、”等关键字,一度在Google排在第一页,访问量自然也是大大增加……
不过还是要言归正传,我的blog基本还是讨论技术和运营等,毕竟不是……
回归话题:最近在考虑一个问题,一般站长其实很好碰到,那就是当一个海量的网站,有百万以上网页时,如何建立Sitemap?
其实大部分网站,能有上万的网页,都说明信息量很不小了,所以也就很少有人关注10万、百万以上网址的,不过海量网站,绝对会遇到这样的问题,今天整理了一下,发现了Google的Sitemap的一些限制因素:
Google对XML格式的Sitemap在数量上、编码等方面是有一些限制,具体如下:
Sitemap中的网址必须是绝对网址,包括参数等,如:http://www.paopaoniu.com/1.html;
s=sitemap,千万不能使用类似于“/index.php?s=sitemap”这样的相对网址。
每个Sitemap文件最多可以包含 50,000 个网址,且大小不得超过10MB。 如果网址超过 50,000 个,则应创建多个Sitemap文件,然后可以采用Sitemap的索引文件把这些文件包含起来。
Sitemap索引文件最多可以列出 1,000 个 Sitemap;
Sitemap中的网址应该使用相同的域名,且是本站的域名,不得出现两个或以上的域名,也不能出现外站的域名:如www.paopaoniu.com的Sitemap中的网址只能是:http://www.paopaoniu.com/index.php,或:http://paopaoniu.com/index.php(两者选择其一,不能混用),不能是http://www.huashifu.net/;
Sitmap文件需使用 UTF-8 编码。
不要在 Sitemap 中包含直接图片网址。 Google 不会将图片直接编入索引中,Sitemap 中包含的直接图片网址不会编入索引。
其实这样看来,Google从理论上只支持一个网站有5千万个网页,这听上去其实很大了,一般网站有5000个网址都算很庞大了,别说五千万,不过对于我们下来的实验项目,目标是上亿的,比如QQ的问问系统,现在都有上亿的个问答,显然要是通过Sitemap,估计完成不了这个任务了。