Python常用库和小众库推荐

Requests库

爬虫必备库,鼎鼎大名,用来发起get、post等请求,可以算是url库在python3的继承者。

BeautifulSoup库

爬虫必备库,也是很有名,用来解析html代码,从中提取有用数据。一般推荐搭配lxml解析库使用,有些代码遇到解析问题,可以尝试用html.parser库替代。

tqdm库

可以用来作进度条,展示程序执行进度,比如爬虫的日志。但是注意,在windows命令行中,无法实现同行刷新,每次都会输出一行新的,就不推荐使用了。(powershell下没试过)

peewee库

用来做数据库模型很好用,当然也可以直接用sqlalchemy库。这个库我个人觉得,比后者学起来要简单一些,而且可以用命令行在模型类和数据库表结构之间一键导入导出。

Arrow库

个人觉得最好用的时间转换库,强烈推荐。支持各种格式,并且api可读性也很好,方便切换前后N天N周等。

PIL库

python最佳图形处理库,我只用它做过图像裁切转换拼接等,据说可以实现逐个像素修改、检测、计算等,在图像识别领域也有很多用途。

OpenPyxl

我个人比较喜欢的office文档处理库,用来处理excel很方便。但是貌似不适用于大批量处理数据,大批量还是推荐pandas库,直接加载csv文件。

Jsonlines库

微信小程序开发可以用用,微信云开发使用的是json lines格式,算是json的变体,转换起来还是有些麻烦的,要自己写一下,用这个可以稍微节省点时间精力。

PyPinyin库

用来把汉字转换拼音的,需要自己写一个函数,把转换好的拼音拼接起来,否则是一个字一个拼音,是数组格式。

你可能感兴趣的:(python爬虫)