selenium 爬取动态加载数据

由于项目需要爬取某网站动态加载的数据,尝试几种办法最终选定号称万能爬虫的selenium。

windows环境下:

    一、下载谷歌浏览器,查看chrome版本号

selenium 爬取动态加载数据_第1张图片

   

  二、下载对应版本的的chromedriver,地址:https://npm.taobao.org/mirrors/chromedriver

 三、引入对应的pom文件

   (1)jdk1.8 环境下

(2) jdk1.7 环境下

  由于版本较低,需要寻找合适的版本才能启动。地址:https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-server

selenium 爬取动态加载数据_第2张图片

如果报xml解析错误,则还需引入

四、编写代码测试

selenium 爬取动态加载数据_第3张图片

selenium 爬取动态加载数据_第4张图片

selenium 爬取动态加载数据_第5张图片

需要注意 driver 退出问题,博客地址:https://blog.csdn.net/yangfengjueqi/article/details/84338167

linux环境下:

   一、下载安装谷歌浏览器

         参考博客:https://www.cnblogs.com/z-x-y/p/9506941.html

        查看谷歌浏览器版本:google-chrome --version

 二、下载对应版本的chromedriver 到指定目录

   注意要给chromedriver可执行权限:chmod   777  chromedriver

三、编写代码

selenium 爬取动态加载数据_第6张图片

针对linux 环境需要设置 无界面参数,禁用沙盒,版本号不同设置方法大体一样。参考博客:https://blog.csdn.net/hanxue6898/article/details/81184907

后续问题:

  项目放到线上linux环境下运行一段时间后,发现卡顿,内存占用过高的问题。

  通过free -m 或者free -h 查看可用内存仅剩900M左右,通过ps aux 命令查看所有进程 发现

selenium 爬取动态加载数据_第7张图片

通过 pidof chromedriver 查看所有同名进程 ,killall chromedriver 杀死所有该同名线程,chrome 进程同方法删除。

如果删除,出现该错误:-bash: killall: command not found

需要yum install psmisc 参考博客:https://blog.csdn.net/qq_38287952/article/details/79936062selenium 爬取动态加载数据_第8张图片

完成操作后查看内存:

添加代码:

  ChromeDriverService service = new ChromeDriverService.Builder()
                .usingDriverExecutable(new File("/usr/bin/chromedriver")).usingAnyFreePort().build();

service.start();

service.stop();

参考博客:https://blog.csdn.net/hellozhxy/article/details/80179020?utm_source=blogxgwz7

https://www.cnblogs.com/muchengnanfeng/p/9553186.html

你可能感兴趣的:(爬虫)