第十二章:互联网-urllib.robotparser:Internet蜘蛛访问控制-robots.txt
12.3urllib.robotparser:Internet蜘蛛访问控制robotparser为rpbots.txt文件格式实现一个解析器,提供了一个函数来检查给定的用户代理是否可以访问一个资源。这个模块可以用于合法蜘蛛或者需要抑制或限制的其他爬虫应用中。12.3.1robots.txtrobots.txt文件格式是一个基于文本的简单访问控制系统,用于自动访问Web资源的计算机程序(如“蜘蛛”“