今天想要说一下爬虫的禁忌。是我总结的一些内容,如有不足请多指教。
一、爬虫的合法性?
答:爬虫目前处于早期阶段,可爬取一些真实数据,关于私人数据需要获得版权才不至于被人控告。
二、爬虫之前有哪些需要的操作?
(1)检查robots.txt<查看有无限制>
#section 1
User-agent:BadCrawler
Disallow:/
[意:禁止用户代理为BadCrawler的爬虫爬取该网站】
#section 2
User-agent:*
Crawl-delay:5
[意:无论使用哪种用户代理,都应该在两次下载请求之间给出5秒的抓取延迟】
(2)检查网站地图<网站提供的sitemap文件可以帮助爬虫定位网站最新的内容,而无须爬取每一个网页>
#section 3
sitemap:http://example.webscraping.com/sitemap.xml
【意:网站地图】
(3)查看网站大小<太大的网站需要分布式下载方法,太小不了解会延误时间>
【可以使用google查看,即:site:example.webscraping.com】
(4)识别网站所用技术<构建网站所使用的技术类型也会对如何爬取产生影响>
【有用工具可以检查网站构建的技术类型-builtwith模块】
使用方法:安装pip install builtwith
import builtwith
builtwith.parse('http://example.webscraping.com)
(5)寻找网站所有者<所有者会封禁网络爬虫,最好把下载速度控制得更加保守一些>
【使用WHOIS协议查询域名的注册者是谁】
Python有一个针对该协议的封装库,地址为:https://pypi.python.org/pypi/python-whois,
安装 pip install python_whois
import whois
print whois.whois(‘appspot.com’)