larbin中的robots.txt解析

robots.txt是Martijn Koster在1994年编写WebCrawler时发明的。
非标准的扩展包括Crawl-delay(两次连续爬行的时间,应该很有用吧,不知道实际用得多不),sitemap和allow。默认的实现是第一个规则取胜。Google的实现是先用allow模式然后disallow,bing查看哪个规则更明确。
标准的扩展有visit-time和request-rate等。
larbin中的robots解析不支持allow字段,解析不是逐行的而是找token,导致allow和它后面的路径都被当成是前面的disallow。 如:
User-Agent: *
Disallow: /ds/
Disallow: /oceano/
Allow: /

(这个例子是http://www.china-designer.com/robots.txt)
解析之后的disallow就是/ds/,/oceano/,/Allow,/
我们将按照google的方式进行。

你可能感兴趣的:(网络爬虫)