2018-05-09 D2 1.3解析库的安装

1.3 解析库的安装

解析库:lxml, Beautiful Soup, pyquery

解析方法:Xpath解析和CSS选择器解析

1.3.1 lxml的安装

lxml是Python的一个解析库,支持HTML和XML解析,支持Xpath解析方式,而且解析效率非常高

1.3.3 pyquery的安装

pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器。

1.3.4 tesserocr的安装

OCR Optical Character Recongition, 光学字符识别。

tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,核心还是tesseract。

1.4 数据库的安装

关系型数据库 SQLite, MySQL, Oracle, SQL Server, DB2  以表的形式储存

非关系型数据库 MongoDB, Redis 以键值对的形式储存

主要用到了MySQL 还有MongoDB, Redis.

1.42 MongoDB的安装

MongoDB是C++编写的非关系数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档,数组及文档数组,非常灵活。

1.4.3 Redis的安装

Redis是一个基于内存的高效的非关系型数据库

1.5 存储库的安装

安装了数据库,还得安装存储库,跟python交互

MySQL需要PyMySQL     MongoDB需要PyMongo

1.5.1 PyMySQL的安装

pip install pymysql

1.5.2 PyMongo的安装

pip install pymongo

1.5.3 redis-py的安装

pip install redis

1.5.4 RedisDump的安装

RedisDump是一个用于Redis数据导入/导出的工具,基于Ruby实现的,所以要安装RedisDump,需要先安装Ruby。

你可能感兴趣的:(2018-05-09 D2 1.3解析库的安装)