python网络爬虫工具库集合

经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome。

python网络爬虫工具库集合_第1张图片

 

这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。

就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:

  • awesome-linux:https://github.com/inputsh/awesome-linux

  • awesome-android:https://github.com/JStumpp/awesome-android

  • awesome-macOS:https://github.com/iCHAIT/awesome-macOS

python网络爬虫工具库集合_第2张图片

是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。

也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是根,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。

真的全是宝藏!

有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!

awesome-web-scraping

就是这个:https://github.com/lorien/awesome-web-scraping

这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:

python网络爬虫工具库集合_第3张图片

另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。

比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:

python网络爬虫工具库集合_第4张图片

python网络爬虫工具库集合_第5张图片

python网络爬虫工具库集合_第6张图片

这里就不一一放了,是不是又大又全?

awesome-web-scraping 中文版

是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome,

python网络爬虫工具库集合_第7张图片

其他的很多 awesome 仓库也有中文,比如:

  • awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn

  • awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn

 awesome-web-scraping 中文版本的仓库:https://github.com/Germey/AwesomeWebScraping。

其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:

python网络爬虫工具库集合_第8张图片

比如部分的内容大致如下:

python网络爬虫工具库集合_第9张图片

python网络爬虫工具库集合_第10张图片

python网络爬虫工具库集合_第11张图片

附上github:

https://github.com/Germey/AwesomeWebScraping

你可能感兴趣的:(python,爬虫,python库)