python爬虫环境安装

python爬虫环境安装

  • python爬虫环境安装
    • 一、python 安装
    • 二、请求库安装
    • 三、解析库安装
    • 四、数据库安装
    • 五、数据库python api库安装
    • 六、web服务库安装
    • 七、app爬取相关库的安装
    • 八、爬虫框架安装

python爬虫环境安装

一、python 安装

  • 1.1 python 安装
    apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev libcurl4-openssl-dev
  • 1.2 pip安装
    apt install -y python3-pip

二、请求库安装

  • 1.1 request库安装
    pip3 install requests
  • 1.2 selenium 安装
    pip3 install selenium
  • 1.3 chrome 安装
    chrome下载地址:https://www.chrome64bit.com/index.php/google-chrome-64-bit-for-linux
    deb包:
    dpkg -i *.deb
    如果安装出现报错缺少依赖,可先执行:apt-get -f --fix-missing install
    然后再执行:dpkg -i *.deb
  • 1.4 chromedriver 安装(版本需要和chrome配套)
    chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.html
    选择对应的版本的包,解压后获得可执行文件并将其添加到环境变量。
  • 1.5 aiohttp库安装
    pip3 install aiohttp ## 下面是两个辅助推荐库
    pip3 install cchardet aiodns ## 一个是字符编码检测库,一个是加速dns解析库
  • 注:
    1)chrome和chromedriver是Google套件,另外还有Firefox和GeckoDriver的火狐套件
    2)chrome和Firefox都是有界面的浏览器引擎,PhantomJS是一个无界面的、可编程的webkit浏览器引擎

三、解析库安装

  • 1.1 lxml库安装(支持HTML和xml的解析库,支持xpath解析方式,效率高)
    pip3 install lxml
  • 1.2 Beautiful Soup库安装(HTML和xml的解析库,可以方便的从网页中提取数据)
    pip3 install beaufifulsoup4
  • 1.3 pyquery库安装(还是网页解析工具,提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器)
    pip3 install pyquery
  • 1.4 tesserocr库安装(图形验证码解析)
    OCR,光学字符识别。tesserocr是python的一个OCR识别库,是对tesseract做的一层python api封装,因此需要先安装tesseract,然后再安装tesserocr:
    1)apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
    2)pip3 install tesserocr pillow

四、数据库安装

  • 1.1 redis安装
    apt install -y redis-server
  • 1.2 mysql和mongoDB可以自行查找。

五、数据库python api库安装

  • 1.1 redis-py库安装
    pip3 install redis
  • 1.2 RedisDump库安装(redis数据导入/导出工具,基于ruby实现,需先安装ruby)
    1)安装ruby:apt-get -y install ruby ruby-dev
    2)gem install redis-dump
  • 1.2 PyMySQL 和 PyMongo 自行查找安装

六、web服务库安装

  • 1.1 flask安装
    pip3 install flask(flask+redis可用来维护动态代理池和cookies池)
  • 1.2 tornado安装
    pip3 install tornado

七、app爬取相关库的安装

  • 1.1 mitmproxy安装(支持http和https的抓包程序,类似fiddler、charles,但是通过控制的形式进行操作)
    pip3 install mitmproxy
    ## 有两个相关组件:mitmdump、mitmweb会附带安装
    ## mitmdump:是mitmproxy的命令行接口,利用它可以对接python脚本,实现监听后的处理
    ## mitmweb:是一个web程序,通过它可以清楚的观察到mitmproxy捕获的请求。
  • 1.2 appium安装
    nodejs下载地址:https://nodejs.org/en/download/
    解压之后,建立软链接:
    ln -s /root/third_party/node/bin/npm /usr/local/bin/
    ln -s /root/third_party/node/bin/node /usr/local/bin/
    之后安装appium:npm install -g appium
    如果报错:
    sh: 1: node: Permission denied
    则执行:
    npm config set user 0
    npm config set unsafe-perm true

八、爬虫框架安装

  • 1.1 Scrapy安装
    1)安装依赖库(在第一步已安装,如果未安装,执行下面命令安装即可):
    apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
    2)安装Scrapy:
    pip3 install Scrapy
  • 1.2 Scrapy-Redis安装
    pip3 install scrapy-redis

你可能感兴趣的:(python)