利用selenium+webdriver进行中新网爬虫,以及webdriver环境搭建

webdriver环境搭建,以及利用selenium+webdriver进行爬虫实战。

文章目录

    • webdriver环境搭建,以及利用selenium+webdriver进行爬虫实战。
  • 前言
  • 一、selenium+webdriver环境搭建
      • 1. webdriver 下载
      • 2.在使用driver前需要将其添加到环境变量
      • 3.测试安装


前言

环境:python3.0以上版本,Windows、jupyter notebook

浅诉一下web driver的搭建和新闻网网体育栏目的爬虫。
目前,大多数网站页面都是动态页面,通过Ajax接口异步加载数据并呈现到页面上。如果爬虫仅通过HTTP请求下载页面,则只能获取静态数据,而不能获取动态数据。解决这个问题有两种方法:1。调用Ajax接口;2.Selenium模拟浏览器呈现页面。然而,直接调用Ajax接口可能会遇到请求参数加密的情况。如果你不擅长反向破解JS加密,最好使用selenium+webdriver。接下来,我们来谈谈selenium+webriver环境建设和案例实践。

一、selenium+webdriver环境搭建

selenium的安装很简单,直接在Windows终端下运行以下命令即可
前提是你已经安装了python并且添加了python的环境变量。

pip install selenium

1. webdriver 下载

在下载webdriver前你得知道自己用的浏览器版本型号,推荐使用的是Google的chrome浏览器或者是火狐浏览器,本文用的是chrome浏览器。

chrome环境:在chrome浏览器中敲入chrome://version。前往链接下载对应版本的chormedriver.exe
https://registry.npmmirror.com/binary.html?path=chromedriver/
在此链接下载和自己浏览器相同版本或者相近版本的driver
利用selenium+webdriver进行中新网爬虫,以及webdriver环境搭建_第1张图片
利用selenium+webdriver进行中新网爬虫,以及webdriver环境搭建_第2张图片

2.在使用driver前需要将其添加到环境变量

将下载的driver解压到python安装目录下,如果不知道python安装在哪里,可以按“win+r”打开CMD输入命令“where python”,然后按路径找到你python的安装位置,复制路径,右键“我的电脑”——属性——高级系统设置——环境变量——path,将复制的webdriver复制到path里面。同理,找到浏览器安装路径,将路径添加到环境变量。
这样环境的搭建就基本上告一段落了!!!

3.测试安装

新建一个python文件

from selenium import webdriver
driver = webdriver.Chrome()

如果出现 no model named selenium 或者 no model named webdriver 则说明环境变量没有添加好。如果正常弹出浏览器页面,则说明环境搭建成功。

你可能感兴趣的:(爬虫,大数据,python,selenium,chrome)