Python爬虫优化:加快运行速度、显示进度条、显示错误信息

1.加快爬虫运行速度:
代码中存在r.encoding = r.apparent_encoding,因此每使用一次request请求,都会分析一遍页面内容来确定可能采用的编码方式,这样很耗时间,可以先得到网页编码方式,直接使r.encoding = ‘utf-8’
这样可以节省不少时间。
2.显示进度条:
爬取股票信息,显示进度条:
print(’\r当前进度:{:.2f}%’.format(count*100/len(stock_list)),end=’’)
其中count是计数器,每次运行后都需要+1, \r的作用是:将光标退回到本行的开头,再令end=’’,可以使每次打印都将上次打印的结果覆盖,这样不断更新的进度就像进度条一样。
3.显示错误信息:
写程序要求稳定,即使某部分产生错误程序依然可以继续运行,这样的程序才是稳定的。使用try…except方法可以实现,在此基础上使用traceback库,可以在不中断程序的前提下打印出错误信息:
实例如下:
import traceback
try:

except:

traceback.print_exc()

注释:
以上内容是在mooc上学习北京理工大学嵩天老师的《python网络爬虫与信息提取》时的笔记。

你可能感兴趣的:(python爬虫笔记)