python+selenium实现爬虫

最近公司项目需要,调研了一下,虽然公司主要开发语言是java,但是结合实际业务场景,还是决定用python。

记录一下使用中遇到的问题:

1.版本

os自带python2.6,但与python3.X版本差异较大,建议一开始就直接安装python3.X。

2.webdriver兼容问题

firefox和chrome都有使用,没有一个webdriver是完全兼容的,建议一个遇到问题时可以尝试另一个。

3.找页面节点

对于页面不定时更新,完全无法预知,建议使用xpath通过文字来寻找需要的节点,不建议使用by_class_name或者tag_name之类的,健壮性会好很多。

4.driver使用后一定要quit,close并没有真正释放。

5.服务器上一般使用无头方式,出现问题不是很好定位,可以使用driver的截图功能。

6.想到或遇到新问题再补充。

你可能感兴趣的:(爬虫,python,selenium,webdriver,经验记录)