spider之robots协议(新人小结)

网络爬虫与信息提取

**要求掌握定向网络数据爬取和网页解析的基本能力
希望能够坚持的理念
The website is API……….
想再多磨叽几嘴,还是算了吧,暴露我学艺不精的事实

一个网站想限制网络爬虫,有两个方法:一个是审查来源,一个是通过robots协议来进行告知

Robots.txt
全称:Robots Exclusion Standard 网络爬虫排除标准
其中一个很重要的作用:网站告知网络爬虫哪些网页可以爬取,哪些不行
形式:在网站根目录下的的robots.txt文件
eg:
京东的robots协议:
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/.html?
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
解释下撒
¥对于任意网络爬虫均适用
¥任何网络爬虫都不允许爬取 ?开头的路径
¥任何爬虫都不允许爬取/pop/*.html
……….
最后是些被禁的爬虫 :易淘,惠惠什么的,不知道,不了解,不清楚
划重点
#教育部网站没有robots协议,我就在这,你来爬啊,爬到算我的 lol;


Robots协议的使用
网络爬虫:自动或人工识别Robots协议,再进行内容爬取;

个人对robots协议的理解

 - 爬取网页,访问量较小是可遵守,较大时建议遵守
 - 爬取网站或是一系列网站:非商业利益且偶尔爬取,建议遵守。涉及商业利益时,必须遵守
 - 爬取全网时,必须遵守

忘。。忘了
查询robots协议
网站名/robots.txt
不一定有效,但主流网站都是奏效的


最后一点
类人类行为不需要遵守robots协议
个人理解就是那种访问数据次数有限,并且对服务器影响很少的程序

see you!!!
God bless you !

你可能感兴趣的:(spider之robots协议(新人小结))