selenium-java爬虫实现

推荐的网站学习网站

  1.官方文档  http://www.seleniumhq.org/docs/

  2.selenium多线程  http://www.cnblogs.com/dingmy/p/3438084.html

Selenium Standalone Server

搭建RC环境

  1.下载Selenium Standalone Server(http://www.seleniumhq.org/download/)

  2.下载Chrome Drivers,与selenium-server-standalone.jar包放在同目录(http://www.seleniumhq.org/download/)

启动hub

  1.打开终端,切换到selenium-server-standalone所在的目录

  2.执行java -jar selenium-server-standalone-3.2.0.jar -role hub -maxSession 40 -port 4444

    3.启动成功时,提示信息信息如图

                                        selenium-java爬虫实现_第1张图片

     参数说明:

        maxSession最大会话数

        port 监听端口,默认4444,如果监听端口被其他程序占用,程序无法启动成功(可自定义)

启动node

     打开终端,切花对应目录

         1.执行java -Dwebdriver.chrome.driver=D:\chromeDriver\chrodriver.exe -jar selenium-server-standalone-3.2.0.jar -role node -hub http://(自己的ip):4444/grid/register -maxSession 20 -browser "browser=chrome,maxInstances=20" -port 5555

selenium-java爬虫实现_第2张图片

     参数说明:

        -Dwebdriver.chrome.driver chrome驱动

        -hub hub服务器地址

        -browser 设置浏览器参数,最大进程数

        -maxSession 最大会话数,注意分支node上的最大会话数不能超过hub服务器上定义的最大会话数

        -port 监听端口,默认5555

调用RC

     DesiredCapabilities capabilities = DesiredCapabilities.chrome();

     WebDriver driver = new RemoteWebdriver(new URL(new URL("http://192.168.199.146:4444/wd/hub")),capabilities);

要在代码中始终selenium工具,需要在maven配置中添加依赖

     org.seleniumhq.selenium

     selenium-java

     3.2.0

注意:最后选用最好都使用最新版本,因为要和浏览器兼容(曾经踩过的坑)。      

转载于:https://www.cnblogs.com/shirandedan/p/6635942.html

你可能感兴趣的:(selenium-java爬虫实现)