python 爬虫

之前写过一些简单的爬虫就是爬一下最新的公告,直接用requests库Get一下然后beautifulsoup去找就可以找到了,其他的处理就是处理html的东西了。


但是昨天有个任务是,按原来的方法打开,啥也看不到,原来是个动态网站靠js注入执行的,想到以前的东西了,无头浏览器。phantomJS,然后稍微配置了一下运行,发现webdriver已经放弃phantomJS了。在动态网页的解析上还是考webdriver去那网页源代码,后来没有办法就只能用别的办法了,google了一下,用firefox的比较多,也有原生的支持,库的安装直接pip3 install 就ok了,之后又提示我没有geckodriver,我也不知道怎么回事,查吧。mac环境下直接brew install 就ok。但是记得加到bin路径去,Linux下的话wget  下载网址解压就行。也记得加到bin目录下。

之后记得一定要有实体的浏览器啊,mac 安装浏览器就行,linux也是apt install就行,我装了两个服务器,安装完了就行了。

贴一下代码吧,比较简单,记录,怕自己以后又重新找,。。。


你可能感兴趣的:(python 爬虫)