请求库安装

爬虫需要安装第三方库,requests、Selenium

(以下均只展示Windows系统下的操作)

1. 安装requests

pip install requests

requests 一个阻塞式HTTP请求库。


2. 安装Selenium

pip install selenium

Selenium 是一个自动化测试工具


(1) 官网下载ChromeDriver: ChromeDriver

随后再在程序中测试。执行如下Python 代码:

from selenium import webdriver

browser = webdriver.Chrome()

运行后,出现一个空白的Chrome 浏览器


(2) Geckodriver安装:geckodriver

随后再在程序中测试。执行如下Python 代码:

from selenium import webdriver

browser = webdriver.Firefox()

运行后,出现一个空白的Firefox 浏览器


3.安装PhantomJS

PhantomJS 是一个无界面的、可脚本编程的Web Kit 浏览器引擎,它原生支持多种Web 标准: DOM操作、css 选择器、JSON 、Canvas 以及SVG 。

在Selenium 中使用的话,我们只需要将Chrome 切换为PhantomJS 即可:

from selenium import webdriver

browser = webdriver. PhantomJS()

browser.get("https://www.baidu.com")

print(browser.current_url)


4.安装aiohttp

pip install aiohttp



Robots协议:规定了网站哪些数据不可以别爬虫。

查看网站的robots协议,如淘宝:

https://www.taobo.com/robots.txt

规定了不可以爬的数据,爬了可能要承担法律风险,可以“防君子不防小人”

你可能感兴趣的:(请求库安装)