用Python写爬虫 背景介绍

在爬取网站之前,需要对网站规模和结构了解,常常会借助网站自身的robot.txt以及Sitemap文件,还有比如外部工具:Google搜索和WHOIS。

1. 检查robot.txt

    该文件可以让爬虫了解爬取该网站时存在哪些限制,以及一些网站结构线索,通常如下结构

        例1、禁止所有搜索引擎访问网站的任何部分

User-agent: *
    Disallow: /
例2、允许所有的robot访问
User-agent: *
    Disallow:
(或者也可以建一个空文件 "/robots.txt" file)
例3、禁止某个搜索引擎的访问
User-agent: BadBot
    Disallow: /
       例4、允许某个搜索引擎的访问
User-agent: Baiduspider
    Disallow:
    User-agent: *
    Disallow: /
例5、无论哪种代理,都应该在两次请求之间给予5秒抓取延迟,对于不允许链接/trap,会封禁ip。
    User-agent: *
    Crawl-delay:5
    Disallow: /trap

2. 检查网站地图

    可以帮助定位网站最新内容。

3. 识别网站所用技术

    运用pip builtwith模块:

pip install builtwith

    builtwith将网站URL作为参数,下载对其分析,得到网站所用技术。

>>> import builtwith
>>> builtwith.parse('https://www.csdn.net/')
{'web-servers': ['OpenResty', 'Nginx'], 'programming-languages': ['Lua'], 'javascript-frameworks': ['Modernizr', 'jQuery'], 'web-frameworks': ['Twitter Bootstrap']}

4. 获取网站所用者

可以使用WHOTS协议查询域名注册者是谁,Python对该协议有对应的封装库,

pip install python-whois
>>> whois.whois('https://www.csdn.net/')
{'domain_name': 'CSDN.NET', 'registrar': 'NETWORK SOLUTIONS, LLC.', 'whois_server': 'whois.networksolutions.com', 'referral_url': None, 'updated_date': [datetime.datetime(2017, 3, 10, 0, 52, 46), datetime.datetime(2018, 2, 9, 1, 43, 52)], 'creation_date': datetime.datetime(1999, 3, 11, 5, 0), 'expiration_date': datetime.datetime(2020, 3, 11, 4, 0), 'name_servers': ['NS3.DNSV3.COM', 'NS4.DNSV3.COM'], 'status': 'clientTransferProhibited https://icann.org/epp#clientTransferProhibited', 'emails': ['[email protected]', '[email protected]'], 'dnssec': 'unsigned', 'name': 'Beijing Chuangxin Lezhi Co.ltd', 'org': 'Beijing Chuangxin Lezhi Co.ltd', 'address': 'B3-2-1 ZHaowei Industry Park', 'city': 'Beijng', 'state': 'Beijing', 'zipcode': '100016', 'country': 'CN'}



你可能感兴趣的:(用Python写爬虫 背景介绍)