Scrapy经验

速度优化

1.使用正则代替xpath
2.使用pycurl代替urllib
3.非阻塞IO(在等待网络IO的时候切出去执行其他线程)
4.DNS Cache开启
6.多线程

防爬策略

1.修改默认User-Agent
2.设置对同一IP的访问频率
3.禁用cookie下载
4.延迟下载
5.使用IP池

你可能感兴趣的:(Scrapy经验)