爬虫--Python资料页

背景调研:

robots.txt         sitemap

详见www.robots.org

#section1   对用户BadCrawler禁止爬取

User-agent:BadCrawler

Disallow:/

#section2   两次请求要在五秒上,否则额封禁ip1分钟

User-agent:*

Crawl-delay:5

Disallow:/trap

#section3

Sitemap:http://example.webscraping.com/sitemap.xml

检查网站地图:

     sitemap可以帮助检查网页最新的内容,

       http://www.sitemaps.org/protocal.html

接口及其他高级搜索参数的用法:

      http://www.google.com/advanced_search

检查网站构建技术的类型:

buildwith:pip install builtwith

抓取示例网站:

http://example.webscraping.com

源码地址:
         http://bitbucket.org/wswp/code

网站源代码和安装说明:

         http://bitbucket.org/wswp/places

初学python:

       http://www.diveintopython.net

HTML架构:

       http://www.w3schools.com

HTTP错误完整列表:

https://tools.ietf.org/html/rfc7231#section-6


你可能感兴趣的:(网络爬虫)