Python爬虫开发环境搭建

参考Python3网络爬虫开发实战第一章

pip

sudo apt install python3-pip

从/etc/apt/source.list中指定位置下载pip到/var/cache/apt/archives安装(安装后删除安装包)

virtualenv

不知道为何在Ubuntu上执行下面的安装后无法正常运行

pip3 install virtualenv

后改为

sudo apt install virtualenv

virtual environment

virtualenv -p /usr/bin/python3 venv  # 创建虚拟环境
source venv/bin/activate # 激活
deactivate  # 停用(退出)
rm -rf venv # 删除

安装请求库

requests是python实现的简单易用的阻塞式HTTP库
aiohttp是一个提供异步Web服务的库
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。

pip3 install requests	
pip3 install aiohttp
pip3 install selenium

Ubuntu里只有火狐浏览器,为驱动其来做相应网页的抓取下载了GeckoDriver 示例代码:

from selenium import webdriver
browser = webdriver.Firefox()

PhantomJS是一个无界面的、可脚本编程的 WebKit浏览器引擎
但似乎selenium不建议用此,如下示例会有些警告:

from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get('https://www.baidu.com')

安装解析库

lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
Beautiful Soup的HTML和XML解析器,它是依赖于lxml库的。
tesserocr是Python的一个OCR(光学字符识别)识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要先安装tesseract。

   sudo apt install tesseract-ocr 
   pip install pillow

tesseract它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata

在安装tesserocr前还需要安装如下,否则也会报错(参考error-while-trying-to-install-tesserocr)

sudo apt install libleptonica-dev libtesseract-dev

安装数据库

这个算是常规操作,和python没有关系
mysql
踩了一个坑,python3不支持MySQL-python

sudo apt install -y mysql-server mysql-client

redis

sudo apt -y install redis-server

安装DB存储器

如果想要将数据存储到MySQL中,就需要借助PyMySQL来操作;对于Redis来说,我们要使用redis-py库来与其交互。

pip3 install pymysql
pip3 install redis

安装爬虫框架

pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便。 could-not-run-curl-config-errno-when-install-pycurl

sudo apt install libssl-dev libcurl4-openssl-dev
pip3 install pycurl
pip3 install pyspider

Scrapy是一个十分强大的爬虫框架(windows环境无网络环境我捣鼓过,依赖库确实不少),但Ubuntu一招搞定:

pip3 install Scrapy # 自动安装了需要的库

Scrapy-Redis是Scrapy的分布式扩展模块,我顺手装了。

Docker

Docker是一种容器技术,可以将应用和环境等进行打包,形成一个独立的、类似于iOS的App形式的“应用”。

curl -sSL https://get.docker.com | sh

其实想一想也就安装个请求库解析库完事,最多再加个框架。毕竟,我只是爬着玩,加上很早以前用bs4玩过。

你可能感兴趣的:(技术☞脚本)