Robot.txt和Sitemap

                         Robot.txt和Sitemap介绍

一、Robot.txt介绍

1、什么是robots.txt

     搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

    robots.txt是网站管理者写给爬虫的一封信,里面描述了网站管理者不希望爬虫做的事,比如:

    1)不要访问某个文件、文件夹
    2)禁止某些爬虫的访问
    3)限制爬虫访问网站的频率

    很多网站中都会设置robots.txt文件,用来规范、约束或者是禁止爬虫对于网站中数据的采集等操作。 一个自觉且善意的爬虫,应该在抓取网页之前,先阅读robots.txt,了解并执行网站管理者制定的爬虫规则。

2、如何查看robot.txt

    在浏览器的网址搜索栏中,输入网站的根域名,然后再输入/robot.txt。比如,必应的robots.txt网址为https://cn.bing.com/robots.txt。   

    robots.txt的内容:

User-agent: 爬虫的名称

Disallow: 不允许爬虫访问的地址

Allow: 允许爬虫访问的地址

若User-agent是*,则表示对象是所有爬虫。

Disallow和Allow后面跟的是地址,地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。

    例如,网易新闻robots.txt

User-agent: ToutiaoSpider  
Disallow: /

    表示禁止头条搜索引擎的访问。

二、Sitemap介绍

    Sitemap提交和更新在网站优化中是一个重要的环节, 但很多人并不知道Sitemap是什么. 那到底Sitemap是什么?

    Sitemap又称网站地图,从网站优化(SEO)的角度分析,一个网站一定要有网站地图(sitemap.xml),这样对搜索引擎,访客都很有好处。

    网站地图又称站点地图,它就是一个页面,上面放置了网站上所有页面的链接。大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。搜索引擎蜘蛛非常喜欢网站地图(sitemap.xml)。

    为什么要建立网站地图呢?大多数人都知道网站地图对于提高用户体验和网站优化有好处:它们为网站访问者指明方向,并帮助迷失的访问者找到他们想看的页面。对于SEO,网站地图(sitemap.xml)的好处就更多了:

    1.Sitemap为搜索引擎蜘蛛提供可以浏览整个网站的链接。

    2.Sitemap为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面。

    3.Sitemap作为一种潜在的着陆页面,可以为搜索流量进行优化。

    4.如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。

    现在大家应该已经知道sitemap是什么, 它是网站优化(SEO)中的一个重要组成部分, 但是sitemap并不是提交后就一劳永逸了, 它还需要不断的更新, 除非你网站的内容恒久不变, 但作为一个重视网站优化的站点这是不可能的. 所以我们还需要不停的定期的更新sitemap。

 

你可能感兴趣的:(【杂记】)