Sitemap 简介:Sitemap 即网站地图一般有两种,一种是给用户看的 ,主要格式为HTML,主要是呈现网站各个栏目的分布,这里不做讨论。
而对于SEOer 来说,要关注的是给搜索引擎看的网站地图 。Sitemap(sitemap.xml) 可以方便快速的告知搜索引擎网站上有哪些可供抓取的页面 。在Sitemap里,你可以列出你网站中需要蜘蛛索引的网址,以及该页面上次更新的时间、更改的 频率以及相对于网站上其他页面的重要程度等,以便搜索引擎可以更加智能地抓取网站。
使用sitemap.xml 并不能保证全部网页被搜索引擎收录,但它能保证让网页更快更及时 的收录。目前Google,雅虎,微软都支持最新的sitemap协议(sitemap 0.9)。
Sitemap 特别适用于以下情况:
1.网站内含有动态内容;
2.网站内存在flash或JS等蜘蛛无法正常抓取的页面;
3.链向新网站新页面的链接不多;
4.网站内大量数据相互之间没有很好的链接。
Sitemap 的作用:
1.告诉蜘蛛网页的更新频率(网页内有些页面可能几个月不更新,我的确是每天更新,根据不能得情况设定不同的更新频率,一方面是减轻服务器压力, 另一方面是减轻蜘蛛的压力,让它检索最主要的内容)
2.告诉蜘蛛修改时间(告诉搜索引擎哪些是最新修改的);
3.告诉蜘蛛网页的相对重要性(比如:主页的 相对重要性为1.0 ,栏目页的相对重要性为0.8 ,内容页相对重要性则为0.5 。这个优先级只是说明特定网址相对于您网站上其他网址的重要性,并不会影响 网页在搜索结果中的排名。)。
Sitemap 0.9协议内容
Sitemap 协议格式由XML 标记组成。Sitemap需使用UTF-8 编码,且内容需要经过实体转译。(实体转译主要是将URL中“&”符号转译成“&”等。 )
Sitemap 必须:
以 <urlset> 开始标记作为开始,以 </urlset> 结束标记作为结束;在 <urlset> 标记中指定协议标准;每个网址包含一个<url> 条目作为 XML 父标记;在每个 <url> 父标记中包含一个 <loc> 子标记条目;Sitemap 中的所有网址都必须来自于同一个主机。
sitemap 示例:
XML标记定义说明:
<urlset> 必需,用以指明协议。
<url> 必需,每个网址的父标记。
<loc> 必需,网页地址,需有“http://”开始,如为目录以“/”结束。
<lastmod> 可选,页面最后修改时间,需要使用W3C标准时间格式 。
<changfreg> 可选,页面修改频率,可选参数为(always,hourly,daily,weekly,monthly,yearly,never )。 “always”应用于每次访问而改变的文档,“never”值则应用于存档类的页面。应该注意的是蜘蛛只是将修改频率作为参考而不是命令。对标记为 “hourly”页面的抓取频率可能低于每小时一次,而对标记为“yearly”页面的抓取频率可能高于每年一次。抓取工具也可能会定期抓取标记为 “never”的网页。
<priority> 可选,网页的重要性。此重要性是相对于此网站的其他页面而言的网,有效值范围从 0.0 到 1.0,该值不会影响您的网页与其他网站上网页的比较结果。一个网页的默认值0.5。为网页指定重要性并不会影响网址在搜索引擎结果页上的排名。搜索引擎 在同一网站上选择不同网址时会使用此信息,因此,可以使用此标记增加最重要的网页在搜索索引中显示的可能性。另,为网站中的所有网址都指定高重要性并不会 带来什么好处,因为优先级重要性是相对的,只用于自己网站网页间的比较。
使用 Sitemap 索引文件(对多个 Sitemap 文件进行分组)
Sitemap 文件包含的网址不得超过 50,000 个,并且文件不得超过 10MB。可以使用 gzip 压缩 Sitemap 文件,以减少带宽要求,但是解压缩后的 Sitemap 文件不得超过 10MB。如果要列出 50,000 个以上的网址,就需要创建多个 Sitemap 文件。
Sitemap 索引文件的 XML 格式与 Sitemap 文件的 XML 格式非常相似。
Sitemap 索引文件必须:以 <sitemapindex> 开始,以 </sitemapindex> 结束;每个 Sitemap 包含一个<sitemap> 条目作为 XML 父标记;每个 <sitemap> 父标记包含一个 <loc> 子标记条目;可选的 <lastmod> 标记同样适用于 Sitemap 索引文件。
注意:Sitemap 索引文件只能指定与其位于同一网站的 Sitemap,与 Sitemap 一样,Sitemap 索引文件也必须为 UTF-8 编码。
XML Sitemap 索引示例
sitemap 索引XML标记定义
<sitemapindex> 必须,声明协议内容。
<sitemap> 必须,每个sitemap的父标签。
<loc> 必须,sitemap地址。
<lastmod> 可选,sitemap的更新时间。通过最近修改的时间,搜索引擎抓取只检索索引中的 Sitemap 子集,也就是说,抓取工只检索某个特定日期之后修改的 Sitemap。通过这一递增的 Sitemap 提取机制,可以快速发现超大型网站上的新网址。
参考网站 1.http://www.google.com/support/webmasters/bin/topic.py?topic=8476 2.http://www.sitemaps.org/