Google对站点地图Sitemap的一些限制因素

sitemap是网站SEO的一个重要因素,向搜索引擎提供网站地图,让蜘蛛可以顺利的抓取避免走入“黑洞”。

首先插一下话题,此前放了大量有关黄色小说、动漫等相关信息,并非我的blog变成“黄窝”了,完全是对Google搜索引擎的一种SEO实验,结果还可以,“黄色动漫、黄色小说”等关键字,一度在Google排在第一页,访问量自然也是大大增加……

不过还是要言归正传,我的blog基本还是讨论技术和运营等,毕竟不是黄色网站……

回归话题:最近在考虑一个问题,一般站长其实很好碰到,那就是当一个海量的网站,有百万以上网页时,如何建立Sitemap?

其实大部分网站,能有上万的网页,都说明信息量很不小了,所以也就很少有人关注10万、百万以上网址的,不过海量网站,绝对会遇到这样的问题,今天整理了一下,发现了Google的Sitemap的一些限制因素:

Google对XML格式的Sitemap在数量上、编码等方面是有一些限制,具体如下:

Sitemap中的网址必须是绝对网址,包括参数等,如:http://www.paopaoniu.com/1.html;

s=sitemap,千万不能使用类似于“/index.php?s=sitemap”这样的相对网址。

每个Sitemap文件最多可以包含 50,000 个网址,且大小不得超过10MB。 如果网址超过 50,000 个,则应创建多个Sitemap文件,然后可以采用Sitemap的索引文件把这些文件包含起来。

Sitemap索引文件最多可以列出 1,000 个 Sitemap;

Sitemap中的网址应该使用相同的域名,且是本站的域名,不得出现两个或以上的域名,也不能出现外站的域名:如www.paopaoniu.com的Sitemap中的网址只能是:http://www.paopaoniu.com/index.php,或:http://paopaoniu.com/index.php(两者选择其一,不能混用),不能是http://www.huashifu.net/;

Sitmap文件需使用 UTF-8 编码。

不要在 Sitemap 中包含直接图片网址。 Google 不会将图片直接编入索引中,Sitemap 中包含的直接图片网址不会编入索引。

这里是:官方详细的Google Sitemap使用帮助

其实这样看来,Google从理论上只支持一个网站有5千万个网页,这听上去其实很大了,一般网站有5000个网址都算很庞大了,别说五千万,不过对于我们下来的实验项目,目标是上亿的,比如QQ的问问系统,现在都有上亿的个问答,显然要是通过Sitemap,估计完成不了这个任务了。

你可能感兴趣的:(xml,xml,搜索引擎,Google,Blog,Blog,Google,任务)