[爬虫]python 面试题

使用python编写一个网站爬虫程序,支持参数如下:

spider.py -u url -d deep -f logfile -l loglevel(1-5) –testself -thread number –dbfile filepath –key=”HTML5”

参数说明:

-u 指定爬虫开始地址

-d 指定爬虫深度

–thread 指定线程池大小,多线程爬取页面,可选参数,默认10

–dbfile 存放结果数据到指定的数据库(sqlite)文件中

–key 页面内的关键词,获取满足该关键词的网页,可选参数,默认为所有页面

-l 日志记录文件记录详细程度,数字越大记录越详细,可选参数,默认spider.log

–testself 程序自测,可选参数

你可能感兴趣的:([爬虫]python 面试题)