1. Sitemap.XML 的格式
完全格式如下:
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" > <url> <loc>http://www.yrtrip.com/default.asp</loc> <lastmod>2008-07-17</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> <url> <loc> http://www.yrtrip.com/search2.asp?id=32003044&sq=1</loc> <lastmod>2008-07-17</lastmod> <changefreq>weekly</changefreq> <priority>0.9</priority> </url> … … </urlset>
上面,对以上标签分离加以解释
a) <?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
这两行就相当于网页文件中的<html>标签一样的作用。不必管这两行什么意思,照抄即可。
牢记:一个字符也不能错,即使多一个空格,google网站采集时也会报错。另外,千万别忘了在文件的末端加上</urlset>标签。
b) url:每一个标签包含一个网页地址,是以下标签的父标签。
c) http://www.yrtrip.com/default.asp
这里是页面链接地址,也就是你希望蜘蛛拜访的地址。
牢记:在地址中出现的某些特殊字符需要使用转义字符,否则,google也会报错。最典范的就是 & 号,经常在动态网址中出现,在提交地址中必须写成 & 如:提交http://www.yrtrip.com/search2.asp?id=32003044&sq=1,google管理员工具就会报错,而改为 http://www.yrtrip.com/search2.asp?id=32003044&sq=1提交后就没有问题了。我看到网上有人说sitemap.xml只能提交一个参数的网页的说法,其实多数是因为没有使用转义字符而导致犯错的。其他的转义字符就不一一列出了,大家可以在网上查。
d) lastmod:页面最后修改时间
这个很重要。Google的机器人会在索引此链接前先和前次索引记录的最后更新时间进行 比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于前次Google索引时的内容有所转变,应当更新该时间,让Google下次索引时会重新 对该链接内容进行分析和提取关键字。这里必须用ISO 8601中指定的时间格式进行描述,格式化的时间格式如下:
年:YYYY(2008)
年和月:YYYY-MM(2008-06)
年月日:YYYY-MM-DD(2008-06-04)
年月日小时分钟:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)
年月日小时分钟秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)
这里需注意的是TZD,TZD指定就是本地时间区域标记,像中国就是+08:00了
牢记:其他格式可能引发犯错,比如将2008-08-08 写成2008-8-8就会出问题。
e) changefreq:页面内容更新频率。
这里可以用来描述的单词共这几个:"always", "hourly", "daily", "weekly", "monthly", "yearly",具体含意我就不必解释了吧,光看单词的意思就明确了。
f) priority:相对其他页面的优先权
定于0.0 - 1.0之间 。
牢记:提议将各种网页根据重要性给出不同的数值,以便利蜘蛛的采集,不要耍小聪明全体写1.0,google管理工具会报错的。
2. Sitemap.xml制作方法
制作方法不过两种,主动方法和手动方法。
主动方法一般使用生成工具主动生成,只需输入自己的网址,就可以失掉完全的xml文件。这类方法一般适用于静态网站,在此不再赘述。但需要提醒的是,网上的工具参差不齐,生成的文件经常有错误,不一定能通过google的校验,使用者需当真鉴别。
手工方法则是由站长手工填写或写程序实现均可,代码很简单,大家可以到网上查找。
3. 提交
Sitemap.xml制作实现后,就需要将xml文件提交到相关搜索引擎。
Google提交网址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
Yahoo提交网址:http://sitemap.cn.yahoo.com/
提交后,一般在几个小时之内,系统就开始下载处理了。
4. Sitemap.xml的校验
至于你的网站地图是否符合标准,最便利的手段就是使用google的管理员工具了。
在他下载你的sitemap.xml后几天内,这个工具就会将详细的分析结果反馈返来,包括:sitemap.xml中包含了多少地址,google已将多少地址加入索引,sitemap.xml中出现了哪些错误,甚至蜘蛛采集过程中遇到的各种问题,比如哪些网页有404,500错误都市详细的罗列出来,非常便利。
如果你提交的xml文件一切无误,那么接下来,你就是等着让它的搜索蜘蛛来爬了,sitemap的文件告知了文件更新的频率,这样搜索蜘蛛来得更勤劳,页面被收录当然也就更快。
5分半钟:Google网站地图 Sitemap.xml